di Enrico Peppe*

Prendo l’ultimo sondaggio disponibile sul sito del governo sulle prossime elezioni politiche. Leggo tutte le caratteristiche (bla bla bla): il campione è formato da 2000 unità. Ora, considerando che la popolazione avente diritto di voto è di circa 50 milioni di persone (compresi gli italiani all’estero), la percentuale rappresentativa del suddetto campione (tasso di campionamento) è 0,004% (4 su 100.000).

Ci sono diverse formule per calcolare la dimensione ottimale di un campione sia per popolazioni, sia per popolazioni più numerose come nel nostro caso. Alcune formule non tengono conto della numerosità della popolazione ma solo di alcuni parametri (margini di errore, intervalli di confidenza). Altre ne tengono conto. E’ inutile ribadire che la numerosità della popolazione di partenza è un dato fondamentale soprattutto quando risulta elevata.

La distinzione tra campione probabilistico e non probabilistico è pura convenzione, dal momento che l’uso che se ne fa a livello di media è completamente arbitrario. Si spacciano gli uni con gli altri: nel primo caso, ogni unità della popolazione ha la stessa probabilità di entrare a far parte del campione; nel secondo, le unità non sono scelte in modo casuale ma attraverso scelte ragionate. Un campione probabilistico si adatta a valutare la funzionalità di macchine o, in generale, di unità statistiche sostanzialmente omogenee tra loro; il campione non probabilistico si adatta maggiormente alle cosiddette scienze sociali ma, per definizione, non si possono generalizzare i risultati dell’indagine se non in contesti numerosamente limitati.

La realtà è che difficilmente si trovano sondaggi elettorali che riportano, come scienza e coscienza suggerirebbero, il metodo di campionamento non probabilistico, come in realtà avviene, dal momento che il campione è scelto in base a diverse variabili (età, sesso, ecc…). E, laddove risulta, non viene specificato che effettuare inferenze sulla popolazione dai dati ottenuti non è corretto statisticamente. Se i media, però, riportano il sondaggio quasi come vaticinio o profezia, gli istituti che se ne occupano gongolano!

Per capire come vanno oramai le cose, riporto un trafiletto dal sito Business intelligence group (tutto un programma): “Gli esperti di statistica prediligono il campionamento probabilistico, perché è più rappresentativo della popolazione e quindi i dati raccolti forniscono un’analisi precisa dell’oggetto dell’indagine. Sono però molte le realtà aziendali che invece optano per il campionamento non probabilistico, perché rappresenta una soluzione più veloce e meno impattante anche dal punto di vista economico”. Uno: Gli statistici si scostino, per favore… Due: Anche la sabbia al posto del cemento armato impatta meno dal punto di vista economico… Finché si tratta di lampadine o di bulloni, non c’è problema!

La regola di buon senso è che più grande è la dimensione del campione, maggiore sarà la sua valenza statistica, ovvero minore la probabilità che i risultati siano stati ottenuti per pura coincidenza. Nel frattempo la bugia ripetuta diventa pian piano verità.

*Statistico demografico, docente di Matematica istituti superiori

