Tutti gli anni, in questa stagione (nel 2014, per la prima volta anche ad aprile) si tengono i test di accesso per i Corsi di Laurea universitari a numero programmato, con inevitabile contorno di ricorsi e polemiche, ed anch’io ho varie volte scritto commenti in proposito su questo giornale. L’interesse principale del pubblico si rivolge agli aspetti politici del test: se sia giusta l’esistenza del numero programmato e del test, se sia effettivamente necessaria per ragioni economiche e sociali, etc. La cattiva qualità dei test usualmente elaborati dal Ministero dell’Istruzione e proposti ai candidati, con le inevitabili domande strane e risposte sbagliate, è in genere utilizzata come argomento a favore delle tesi politiche del commentatore, ma è valutata in modo così grossolano ed impreciso che di fatto si risolve a sua volta nell’espressione di un pregiudizio. Peccato perché esiste una consolidata teoria dei  test, elaborata nell’ambito della Psicologia Sociale, con ampi contributi della Statistica, che ci consentirebbe di svolgere analisi molto più approfondite e fondate.

Voglio considerare in questo post e nel prossimo alcuni aspetti dei test di ammissione a Medicina, quelli sui quali è disponibile la casistica più estesa; e voglio analizzare in questa sede la qualità del test, rispetto alla popolazione dei candidati, basandomi sui risultati ottenuti negli anni precedenti. Per semplicità prendo i dati relativi all’anno accademico 2012-2013, l’ultimo svolto con la normativa precedente all’attuale, per la quale c’è la casistica del solo anno 2013-2014. Nel test di ammissione svolto per sedi aggregate nel 2012, a fronte di circa 70.000 partecipanti, vi furono soltanto 3 candidati con un punteggio uguale o superiore a 70 e circa 200 con un punteggio compreso tra 60 e 70. Il test era organizzato (come in tutte le prove precedenti) su 80 domande che prevedevano 5 risposte ciascuna; una risposta esatta valeva 1 punto, una risposta sbagliata valeva 0,25; in questo modo chi rispondeva a casaccio prendeva, in media, zero punti. La scala dei punteggi teorici va da -20 (tutte risposte sbagliate) a +80 (tutte risposte giuste); in pratica però la costruzione del test è tale chi risponde a casaccio, prende zero punti e pertanto la scala praticamente utilizzabile va da zero a 80 punti. E’ evidente che se soltanto 3 candidati su 70.000 ottengono punteggi nei 10 punti più alti (70-80; un ottavo dell’intervallo 0-80) la scala è usata male. Si può fare la seguente considerazione: il Quoziente di Intelligenza (Qi) ha una distribuzione approssimativamente gaussiana con media uguale a 100 e deviazione standard uguale a 15. Se i 70.000 candidati fossero presi a casaccio nella popolazione ci si dovrebbe aspettare che 70 di loro abbiano Qi > 145; poiché i candidati non sono presi a casaccio ma sono preselezionati tra gli studenti con il più alto grado di scolarità, ben più di 70 dovrebbero avere questo Qi elevatissimo. Il test risulta inadatto alla popolazione che deve essere testata perché troppo difficile, o troppo strano: un Qi di 145 o superiore, posseduto dall’uno per mille della popolazione, non è sufficiente per entrare nell’ottavo superiore dell’intervallo di misurazione (punteggio 70-80), e comunque meno del tre per mille dei candidati rientra nel quarto superiore dell’intervallo di misurazione (punteggio 60-80).

Come conseguenza pratica dell’inadeguatezza del test, la grande maggioranza dei candidati si concentra all’interno di un piccolo intervallo di punteggio della scala di misurazione: invece di distribuirsi in una gaussiana bassa e larga, i candidati si ammassano in una gaussiana alta e stretta che il numero chiuso taglia in una regione di grande densità di popolazione: moltissimi candidati sono ammessi o scartati a parità di punteggio. C’è di più: ogni singolo studente si trova a dover rispondere a casaccio ad almeno alcune domande (nel 2012 si entrava con punteggi di poco superiori a 40, corrispondenti a circa 50 risposte giuste e 30 sbagliate); è lecito presumere che il punteggio ottenuto abbia una imprecisione di un paio di punti, dovuta alla pura fortuna e distribuita secondo una funzione binomiale. Una imprecisione di un paio di punti nelle condizioni descritte interessa un numero molto rilevante di candidati, tanto più grande quanto peggio è usata la scala di misurazione e quanto più stretta è la gaussiana dei punteggi ottenuti dai candidati.