Una volta sfatati i falsi miti che circondano la statistica, si illustrano dubbi ed errori comuni che si commettono nel suo utilizzo. La statistica, infatti, pur essendo uno strumento estremamente efficace, può diventare pericolosa se non maneggiata con la dovuta attenzione. Molti degli errori commessi non derivano da cattiva fede, ma da una scarsa familiarità con i suoi concetti fondamentali. È quindi importante chiarire alcuni dubbi tipici di chi si avvicina per la prima volta alla statistica. Allo stesso tempo, è utile evidenziare gli errori più comuni nell’interpretazione dei risultati, soprattutto se avviene in modo meccanico o superficiale. Con queste premesse, di seguito vengono proposte alcune domande utili per stimolare la riflessione. Ciascuna domanda offre chiarimenti su concetti essenziali della statistica e suggerisce come evitare interpretazioni errate e decisioni non corrette:
Per i dati numerici si utilizza in genere la media. Tuttavia, in presenza di forti asimmetrie, si preferisce la mediana. Entrambe sono indici descrittivi di tendenza centrale e sintetizzano un insieme di dati in un unico valore, generalmente collocato nel centro della distribuzione. Nel caso di variabili quantitative, la presenza di sporadici valori più grandi o più piccoli rispetto al resto dei dati costituisce le cosiddette code. Queste sono chiaramente visibili nelle rappresentazioni grafiche e si manifestano come allungamenti delle distribuzioni agli estremi. Qualora un dato all’interno delle code sia estremamente distante dal centro dei dati, viene definito anomalo o outlier. Inoltre, se una delle due code, destra o sinistra, predomina sull’altra, allora si parla di distribuzioni asimmetriche.
In presenza di dati fortemente asimmetrici, la media risente delle code dominanti e degli outliers, subendo una distorsione che varia a seconda del livello di asimmetria. Mentre la mediana è un indice robusto, vale a dire una misura statistica che rimane sostanzialmente inalterata dai valori agli estremi. Dunque la mediana mantiene una maggiore stabilità rispetto alla media. Per questo, in presenza di forti asimmetrie o di dati anomali, si preferisce utilizzarla per sintetizzare i dati.
La deviazione standard è un indice di dispersione che valuta quanto i dati sono “lontani” rispetto ad un valore centrale. In altre parole, misura la distanza media dalla media, sebbene in maniera approssimativa. Per calcolare esattamente questa distanza media si utilizza, invece, lo scostamento semplice medio. La deviazione standard, invece, è un’approssimazione per eccesso di questa grandezza, risultando quindi una misura cautelativa. L’uso della deviazione standard come principale indice di dispersione, sebbene approssimato, ha un fondamento matematico basato sulle caratteristiche delle funzioni impiegate dai due indici. Infatti, nel calcolo della deviazione standard si utilizza il quadrato, funzione facilmente scomponibile, a differenza del valore assoluto impiegato nello scostamento semplice medio.
Se fra due variabili c’è associazione, significa che esiste una dipendenza fra di esse: al variare dell’una varia anche l’altra. Ma associazione non significa necessariamente che una variabile sia la causa dell’altra. Infatti, il legame potrebbe essere spiegato dall’esistenza di una terza variabile. Ad esempio, nelle relazioni spurie, l’associazione fra due variabili sussiste in quanto entrambe sono influenzate da una causa comune. Classici esempi sono le correlazioni positive tra le vendite di gelato ed il numero di attacchi di squali e quella fra il numero di cicogne ed il tasso di natalità. Nel primo caso, entrambe le variabili aumentano durante l’estate, ma non c’è una relazione causale fra il consumo di gelati e gli attacchi degli squali. Analogamente, nel secondo esempio, l’urbanizzazione dei centri abitati potrebbe spiegare il fenomeno. Infatti, è più facile osservare un maggior numero di bambini e cicogne nelle zone periferiche o rurali piuttosto che nelle città.
Uno degli obiettivi della statistica inferenziale è quello di stimare un parametro, ovvero cercare di quantificare una caratteristica ignota della popolazione. A tal fine si sceglie lo stimatore più efficiente, vale a dire quello le cui stime si avvicinano maggiormente al parametro da stimare. L’efficienza di uno stimatore misura quindi l’errore medio di stima e dipende da due aspetti:
L’errore standard rappresenta la precisione di uno stimatore. In caso di stimatori non distorti, lo stimatore più efficiente è quello con l’errore standard minimo, vale a dire quello che mediamente commette il più piccolo errore di stima. Per cogliere meglio questi concetti, si immagini il gioco delle freccette. Si consideri il giocatore come se fosse lo stimatore, il bersaglio come il parametro e le freccette lanciate come le stime. L’efficienza di uno stimatore corrisponde alla bravura del giocatore che misura quanto siano andate vicine le sue freccette al bersaglio. Tale bravura dipende dalla precisione del giocatore, ossia dalla sua capacità di concentrare i lanci in un’area ristretta, non necessariamente coincidente con il bersaglio. Inoltre, la bravura è anche inversamente legata alla distorsione, ovvero a quanto il centro dei lanci si discosti dal bersaglio.
In statistica non si valuta la precisione della singola stima ma dello stimatore che l’ha fornita. Equivalentemente non si valuta la bravura di un giocatore dal singolo lancio: un bravo giocatore potrebbe andare fuori bersaglio, come uno scarso potrebbe casualmente centrarlo. Infine, l’errore standard diminuisce all’aumentare della dimensione del campione: maggiore è l’ampiezza campionaria, più precisa sarà l’informazione che ne deriva. Infatti, a parità di condizioni, è più preciso stimare l’altezza media degli italiani basandosi su un campione di 500 individui piuttosto che su 20.
Una relazione statisticamente significativa è una relazione che molto probabilmente non è frutto del caso. Il p-value ($p$) può essere interpretato come la probabilità che il legame emerso dal campione sia una pura casualità. Un’associazione è significatività se il p-value è inferiore al 5%. Si supponga che dall’analisi campionaria emerga una correlazione lineare pari a 0.21 con $p<0.05$. Tale p-value suggerisce che il legame osservato è significativo e dunque generalizzabile alla popolazione di riferimento. In realtà, la significatività valuta l’esistenza di una relazione ma non la sua forza: un risultato statisticamente significativo potrebbe non avere alcuna rilevanza pratica. Più specificatamente, un legame lineare è trascurabile sotto la soglia del 30%. Dunque, la relazione lineare dell’esempio, pari al 21%, è praticamente inesistente. In conclusione, una correlazione significativa non basta se è trascurabile. Prendere una decisione sulla base di un risultato campionario significativo ma irrilevante è come decidere senza alcun supporto informativo.
Home » Statistica » Le basi » Dubbi ed errori comuni
Utilizzo i cookie per analizzare le prestazioni del sito e fornire contenuti personalizzati. Cliccando su “Accetto” acconsenti alla memorizzazione dei cookie. Puoi revocare il tuo consenso in qualsiasi momento. Scopri di più su questo nella mia politica sulla privacy.