Per i dati numerici si utilizza in genere la media. Tuttavia, in presenza di forti asimmetrie, si preferisce la mediana. Entrambe sono indici descrittivi di tendenza centrale e sintetizzano un insieme di dati in un unico valore, generalmente collocato nel centro della distribuzione. Nel caso di variabili quantitative, la presenza di sporadici valori più grandi o più piccoli rispetto al resto dei dati costituisce le cosiddette code. Queste sono chiaramente visibili nei grafici e si manifestano come allungamenti delle distribuzioni in corrispondenza degli estremi. Qualora un dato all’interno delle code sia estremamente distante dal centro dei dati, viene definito anomalo o outlier. Inoltre, se una delle due code, destra o sinistra, predomina sull’altra, allora si parla di distribuzioni asimmetriche.
In presenza di dati fortemente asimmetrici, la media risente delle code dominanti e degli outliers, subendo una distorsione che varia a seconda del livello di asimmetria. Mentre la mediana è un indice robusto, vale a dire una misura statistica che rimane sostanzialmente inalterata dai valori agli estremi. Dunque la mediana mantiene una maggiore stabilità rispetto alla media. Per questo, in presenza di forti asimmetrie o di dati anomali, si preferisce utilizzarla per sintetizzare i dati.
La deviazione standard è un indice di dispersione che valuta quanto i dati sono “lontani” rispetto ad un valore centrale. In altre parole, misura la distanza media dalla media, sebbene in maniera approssimativa. Per calcolare esattamente questa distanza media si utilizza, invece, lo scostamento semplice medio. La deviazione standard, invece, è un’approssimazione per eccesso di questa grandezza, risultando quindi una misura cautelativa. L’uso della deviazione standard come principale indice di dispersione, sebbene approssimato, ha un fondamento matematico basato sulle caratteristiche delle funzioni impiegate dai due indici. Infatti, nel calcolo della deviazione standard si utilizza il quadrato, funzione facilmente scomponibile, a differenza del valore assoluto impiegato nello scostamento semplice medio.
Se fra due variabili c’è associazione, significa che esiste una dipendenza fra di esse: al variare dell’una varia anche l’altra. Ma associazione non significa necessariamente che una variabile sia la causa dell’altra. Infatti, l’associazione potrebbe essere spiegata dall’esistenza di una terza variabile. Ad esempio, nelle relazioni spurie, il legame fra due variabili sussiste in quanto entrambe sono influenzate da una causa comune. Classici esempi sono le correlazioni positive tra le vendite di gelato ed il numero di attacchi di squali e quella fra il numero di cicogne ed il tasso di natalità. Nel primo caso, entrambe le variabili aumentano durante l’estate, ma non c’è una relazione causale fra il consumo di gelati e gli attacchi degli squali. Allo stesso modo, nel secondo esempio, l’urbanizzazione dei centri abitati potrebbe spiegare il fenomeno. Infatti, è più facile osservare un maggior numero di bambini e cicogne nelle zone periferiche o rurali piuttosto che nelle città.
Una relazione statisticamente significativa è una relazione che molto probabilmente non è frutto del caso. Il p-value, indicato con $p$, può essere interpretato come la probabilità che il legame emerso dal campione sia una pura casualità. Un’associazione è significatività se il p-value è inferiore al 5%. Si supponga che dall’analisi campionaria emerga una correlazione lineare pari a 0.21 con $p<0.05$. Il p-value ottenuto suggerisce che il legame osservato è significativo e dunque generalizzabile alla popolazione di riferimento. A questo punto è fondamentale fare una precisazione: la significatività valuta l’esistenza di una relazione, ma non la sua forza. Infatti, un risultato statisticamente significativo potrebbe non avere alcuna rilevanza pratica. Più specificatamente, un legame lineare è trascurabile sotto la soglia del 30%. Dunque, la relazione lineare del 21% dell’esempio è praticamente inesistente: una correlazione significativa non basta se è trascurabile. Prendere una decisione sulla base di un risultato campionario significativo ma irrilevante è come decidere senza alcun supporto informativo.
Home » Statistica » Le basi » Dubbi ed errori comuni
Utilizzo i cookie per analizzare le prestazioni del sito e fornire contenuti personalizzati. Cliccando su “Accetto” acconsenti alla memorizzazione dei cookie. Puoi revocare il tuo consenso in qualsiasi momento. Scopri di più su questo nella mia politica sulla privacy.