Nella pianificazione di un’indagine statistica due cose sono essenziali: capire cosa osservare e capire cosa misurare. Potremmo dire che l’osservazione è un atto soggettivo e informale che riguarda la valutazione dell’unità statistica. La misurazione, invece, è la formalizzazione oggettiva di tale osservazione e, più specificatamente, delle caratteristiche che la contraddistinguono. Dunque, cosa osservare si riferisce alle unità statistiche, mentre cosa misurare riguarda le variabili.
Inoltre, i collettivi sono insiemi di unità statistiche che possono essere analizzate nella loro totalità, come nelle popolazioni e sottopopolazioni, oppure parzialmente, come accade nei campioni. Gli strati e i grappoli, invece, sono considerati alla stregua delle sottopopolazioni ma con obiettivi campionari differenti: nel campionamento stratificato consentono una maggiore precisione, mentre nel campionamento a grappoli facilitano la costruzione del campione stesso.
L’unità statistica è l’elemento base su cui si raccolgono i dati, l’oggetto o soggetto che viene osservato, misurandone le caratteristiche di interesse per l’analisi. Corrisponde dunque all’unità elementare, il mattoncino del collettivo esaminato. Se i dati sono stati raccolti ed inseriti in una tabella, come nei fogli di Excel, le unità statistiche corrispondono alle singole righe. Per chiarire meglio il concetto, facciamo alcuni esempi:
Per un medico le unità statistiche possono essere i pazienti oppure i farmaci, a seconda che voglia avere un’idea sintetica del “paziente tipo” che deve curare o capire quali farmaci siano più raccomandati per ciascuna patologia.
Se la medicina e le scienze sociali studiano l’essere umano, altre discipline scientifiche si occupano dei fenomeni legati ad altri esseri viventi. Ad esempio, per un botanico le unità statistiche potrebbero essere le piante, mentre per un veterinario gli animali.
Per un’azienda informatica le unità statistiche possono essere i propri dipendenti oppure i prodotti che vende, nel caso in cui voglia indagare su come riorganizzare internamente il personale oppure se investire su un nuovo prodotto.
Per l’ISTAT le unità statistiche potrebbero essere le famiglie oppure i comuni per raccogliere informazioni sui “comportamenti tipici” delle famiglie o per stilare una classifica sulla qualità di vita nei comuni italiani.
Nelle serie storiche, dove il tempo caratterizza non le variabili, bensì l’unità statistica. Ad esempio, se si volesse studiare la temperatura massima giornaliera o il fatturato aziendale mensile, le unità statistiche sarebbero i giorni e i mesi, mentre le variabili risulterebbero la temperatura e il fatturato.
E ancora, l’unità statistica può riferirsi a elementi non tangibili, come i turni di lavoro in un’analisi dell’efficienza produttiva, oppure ad eventi, come le partite di baseball in uno studio sulle statistiche del gioco.
Il primo passo nella raccolta dati consiste nel definire la popolazione di riferimento, in funzione dell’ipotesi di ricerca o dell’obiettivo dello studio. Si definisce popolazione, o universo, l’insieme completo ed esclusivo di tutte le unità statistiche con una caratteristica in comune, come gli studenti del Veneto. Completo perché include tutti gli studenti del Veneto, esclusivo perché non comprende studenti di altre regioni.
Una popolazione può essere finita, o infinita, a seconda che sia costituita da un numero di unità statistiche limitato e determinabile oppure illimitato. Un esempio di popolazione finita sono i pensionati italiani, mentre come popolazione infinita si potrebbero considerare i risultati del lancio di un dado infinite volte. Quest’ultimo esempio sottolinea come le popolazioni infinite siano teoriche, o virtuali, ovvero siano costituite da unità statistiche coincidenti con le manifestazioni di variabili casuali. Al contrario, si parla di popolazioni reali, se le unità statistiche sono concretamente osservabili.
Conseguentemente, se una popolazione è infinita allora è teorica, mentre se è reale deve essere necessariamente finita. La statistica si occupa delle popolazioni reali finite, come i 107 capoluoghi italiani nel 2025. In realtà, tutte le popolazioni reali sono finite: anche se considerassimo l’insieme di tutte le orche presenti nel mondo in questo momento, per quanto il numero sia elevato e difficilmente determinabile, il totale è comunque finito. Tuttavia, in questi casi, può essere conveniente trattare la popolazione finita come infinita, impiegando tecniche statistiche proprie dei modelli teorici.
Una sottopopolazione è, invece, un sottoinsieme della popolazione che condivide una o più caratteristiche. È spesso utile nelle analisi comparative, come nel caso si voglia confrontare l’altezza degli italiani con quella degli olandesi. È importante sottolineare come una sottopopolazione sia una popolazione a tutti gli effetti, in quanto costituisce un collettivo completo ed esclusivo rispetto alla condizione che la definisce. Si pensi, ad esempio, a tutti i maschi che vivono a Firenze: rappresentano una popolazione perché comprendono tutti e solo i fiorentini di sesso maschile. Ma allo stesso tempo, i maschi fiorentini costituiscono una sottopopolazione rispetto ai fiorentini, che includono sia i maschi che le femmine.
In realtà, la popolazione fiorentina è a sua volta una sottopopolazione dei toscani, che sono una sottopopolazione dei residenti italiani, e così via. In definitiva, le sottopopolazioni si distinguono per una o più modalità specifiche di variabili che, in quel contesto, restano costanti per tutti i soggetti osservati. È il caso delle condizioni come maschio, fiorentino, toscano o italiano, che definiscono l’appartenenza a una determinata sottopopolazione.
Quando si analizza una sola parte di unità statistiche che compongono la popolazione, o una sua sottopopolazione, si parla di campione. Un campione, per definizione, non può ridursi a un solo caso né coincidere con l’intera popolazione. In casi estremi, tuttavia, si può affermare che una popolazione rappresenti un campione limite, o degenere, di sé stessa. Va sottolineato che sia la sottopopolazione sia il campione sono sottoinsiemi della popolazione, ma con una differenza sostanziale: la sottopopolazione è completa ed esclusiva rispetto a una caratteristica – ad esempio, tutte e solo le femmine di una scuola – mentre il campione è incompleto e generalmente “misto – come alcuni maschi e alcune femmine della stessa scuola.
Le ricerche e le indagini di cui si legge o si sente parlare sono, nella maggior parte dei casi, indagini campionarie. Ad esse si contrappongono le indagini complete, o censimenti, che invece coinvolgono l’intera popolazione: è il caso dei censimenti svolti periodicamente dall’ISTAT o da altre istituzioni nazionali e internazionali. Un’indagine campionaria viene spesso effettuata con l’intento di risalire alle informazioni sulla popolazione di origine. La minore precisione è compensata da un notevole risparmio di risorse impiegate, soprattutto economiche e temporali.
La generalizzazione delle informazioni dal campione alla popolazione richiede alcune condizioni di applicabilità inferenziale, prima fra tutte la rappresentatività del campione, ovvero la capacità di riprodurre “nel piccolo” quello che vorremmo osservare “nel grande”. Ad esempio, per valutare le performance di un’azienda, il campione dovrebbe includere lavoratori di entrambi i sessi. Se invece fosse composto da sole donne, potrebbe rappresentare la sottopopolazione femminile, ma non l’intera azienda, escludendone i maschi. È fondamentale porre particolare attenzione alla fase di selezione del campione, soprattutto nel caso di tecniche non probabilistiche, per evitare di incorrere in distorsioni che alimentano il falso Mito della manipolazione statistica.
Per concludere questa classificazione di insiemi di unità statistiche, non potevano mancare gli strati né i grappoli, raggruppamenti collegati alle omonime tecniche di campionamento. Lo strato corrisponde a una suddivisione della popolazione secondo le modalità di una variabile detta di stratificazione. Quest’ultima non deve coincidere con la variabile oggetto dell’indagine, ma deve essere logicamente collegata ad essa. Ad esempio, per studiare il livello di benessere degli abitanti di una città si potrebbe stratificare la popolazione in base al reddito (fascia bassa, intermedia e alta). Mentre un grappolo è costituito da tutte le unità statistiche che si trovano fisicamente vicine, come i quartieri di una città.
La differenza ulteriore fra strati e grappoli è legata al grado di omogeneità delle unità statistiche. Con riferimento all’esempio della città suddivisa per fasce di reddito o per quartieri, gli strati sono omogenei all’interno (abitanti con la stessa fascia di reddito) ed eterogenei tra di loro (fasce diverse), mentre i grappoli, al contrario, sono internamente eterogenei (nei quartieri convivono persone con redditi differenti, salvo casi di “ghettizzazione”), ma omogeni fra di loro (i quartieri si assomigliano). Infine, potremmo dire che sia lo strato sia il grappolo rappresentino sottopopolazioni a tutti gli effetti, poiché contengono tutte e sole le unità statistiche con determinate caratteristiche: di reddito nel caso degli strati, di quartiere per quanto riguarda i grappoli.
Home » Statistica » Le basi » Unità, popolazioni, campioni
Utilizzo i cookie per analizzare le prestazioni del sito e fornire contenuti personalizzati. Cliccando su “Accetto” acconsenti alla memorizzazione dei cookie. Puoi revocare il tuo consenso in qualsiasi momento. Scopri di più su questo nella mia politica sulla privacy.