Domande e risposte sul p-value, uno strumento statistico il cui abuso sta mettendo in crisi la scienza

Mark Twain scrisse che ci sono tre tipi di bugie: “le bugie, le dannate bugie, e la statistica.” Una notizia falsa ci sembra infatti immediatamente più credibile – e ingannevole – con dei numeri appiccicati sopra. Ma la statistica può fare di peggio, se usata male: può ingannare noi stessi. È questo il problema che ha portato la American Statistical Association (Asa), per la prima volta in 177 anni, ad alzare la voce e lanciare un comunicato ufficiale. Un grido d’allarme dagli statistici per la scienza: “ragazzi, state sbagliando tutto, e la scienza è in pericolo se continuate così“.

Sotto accusa è l’abuso di uno strumento statistico oscuro ai più, ma pane quotidiano dei ricercatori, il p-value, “fattore p”. Noiosissima diatriba tecnica? Aspettate un minuto. Stiamo parlando del principale parametro usato nella scienza per affermare che un risultato scientifico sia “vero” o “falso”. Avete presente tutti gli studi che dicono “X causa il cancro” o “X cura il cancro”? Praticamente tutti loro avranno validato le loro conclusioni con un p-value. E, ci dice la Asa, molti di loro saranno giunti a conclusioni sbagliate. Volete un esempio? Abusando consapevolmente dei p-value è stato possibile dimostrare che la cioccolata fa dimagrire. Un caso limite, una bufala generata apposta, ma allo scopo di far riflettere su molti errori che i ricercatori fanno in più o meno buona fede. La scienza sta facendo i conti con un grosso problema di ripetibilità e l’abuso del p-value è uno dei principali colpevoli.

Che cos’è il p-value?

Immaginiamo di voler sapere se le banane fanno dimagrire. Prendo un gruppo di persone: a metà faccio mangiare banane tutti i giorni, a metà no. Dopo una settimana conto quante persone sono dimagrite in ciascuno dei due gruppi. Se nel gruppo delle banane dimagriscono di più rispetto al gruppo senza banane, possiamo concludere che le banane fanno dimagrire.

O no? In realtà non posso dirlo, perchè in moltissimi casi (e i test clinici come quello del nostro esempio sono tra questi) i risultati sono intrinsecamente statistici. Ovvero, c’è una grossa componente casuale, dovuta a fattori che non posso controllare. Magari per puro caso nel gruppo delle banane hanno deciso di fare esercizio fisico. Come faccio a sapere se è solo una coincidenza?

Qui arriva Ronald Fischer, uno dei giganti della scienza del primo ‘900, biologo e statistico. Nel suo influente manuale di metodi statistici del 1925, introduce ufficialmente il p-value ai ricercatori. Ovvero, come calcolare un numero che, data una ipotesi di partenza e i nostri dati, ci dice quanto è probabile ottenere una differenza tra due gruppi pari o superiore a quella osservata. Per esempio, nel caso delle banane che fanno dimagrire, la nostra ipotesi di partenza è che non ci sia alcun effetto. Il p-value – semplificando – ci dice quanto è probabile che, se non ci fosse nessun effetto, per puro caso troviamo una differenza tra i due gruppi pari o maggiore a quella che osserviamo. Se il p-value è molto piccolo, si dice in gergo che l’effetto è significativo. Fischer consigliava come soglia 0,05, ovvero considerare significative le differenze sotto il 5% di probabilità.

Perché il p-value ci inganna?

Quando Fischer ha introdotto il p-value, non intendeva dare alla ricerca scientifica un oracolo per decidere la Verità. Voleva proporre uno strumento pratico di lavoro: un test a spanne per dire “ehi, questo esperimento è interessante, vediamo se c’è sotto qualcosa”. La comunità scientifica però ha perso di vista le sottigliezze matematiche del p-value – e non stupisce, del resto la stragrande maggioranza delle analisi statistiche non è effettuata da statistici. Siamo arrivati a un punto in cui gli studi scientifici hanno una sorta di venerazione per la soglia (del tutto arbitraria) dello 0,05: uno studio in cui l’effetto osservato si trovi sotto questo valore sarà considerato reale, uno sopra no.

Ma è veramente così? Poniamo che io abbia trovato una differenza tra chi mangia banane e chi no, e che il p-value sia piccolo, diciamo 5%. Messa così, è facilissimo interpretare (a torto) questo numero come “Esiste solo il 5% di probabilità che sia un caso, quindi siamo sicuri al 95% che le banane fanno dimagrire”. Qui casca l’asino – e l’asino, in questo caso, è una gran parte della comunità scientifica. Per esempio, finora abbiamo dato per scontato che abbiamo testato solo le banane. Ma poniamo io abbia testato cento frutti diversi per il loro effetto dimagrante. Statisticamente, anche se nessuno di questi fa veramente qualcosa, osserverò un effetto con p-value uguale o sotto 5% in circa cinque casi. Questo proprio per definizione di p-value: se una differenza tra due gruppi significativa, capita per caso cinque volte su cento, mi aspetto di ritrovarlo circa in cinque casi su cento. È come giocare alla roulette lo stesso numero per cento volte: non è certo sorprendente se salta fuori.

A questo punto è chiaro che i singoli p-value di questa batteria di esperimenti non mi dicono assolutamente niente su quanto sia probabile che ci sia una differenza reale. Dovrò semmai prendere quei risultati come preliminari e ripetere gli esperimenti, vedendo se l’effetto rimane: e solo dopo, mettendo insieme tutti i dati, arrivare a una conclusione. Purtroppo i ricercatori spesso nascondono i risultati negativi (ovvero, gli esperimenti senza un effetto significativo), perché non sono considerati interessanti, e pubblicano i risultati positivi (quelli con un effetto significativo). Accade quasi sempre in buona fede. Ma senza sapere il contesto, ovvero quanti esperimenti sono stati fatti, quante ipotesi sono state testate e messe nel cassetto, il p-value di un singolo esperimento non ci dice nulla.

Inoltre, il p-value va valutato considerando quanto è plausibile l’ipotesi di partenza. Per assurdo: se faccio un esperimento per verificare se guardare foto di Magalli protegge dal cancro, e trovo un risultato statisticamente significativo, è comunque più probabile che ci sia un errore banale dietro (ho scelto il mio campione in modo non omogeneo, ho fatto male la raccolta dei dati, oppure i miei colleghi mi stanno facendo uno scherzo), piuttosto che Magalli abbia veramente dei poteri guaritori (con tutto il rispetto). Come si dice, “affermazioni straordinarie richiedono prove straordinarie”, e un p-value non basta.

È possibile truccare il p-value?

Sì, e si chiama p-hacking. Non c’è bisogno di falsificare dati, basta, diciamo, farsi furbi. Un esempio dei tanti trucchi? Immaginiamo di voler dimostrare che una moneta è truccata. La lancio e conto quante volte viene testa e quante volte viene croce. Dopo ogni lancio, calcolo il p-value. Quando vedo che il mio P-value scende sotto la soglia, fermo l’esperimento.

La disonestà sta nel fatto che il p-value oscilla naturalmente man mano che faccio un esperimento: anche una moneta normale farà uscire, per puro caso, testa per qualche volta di fila. Se fermo l’esperimento apposta subito dopo che per caso è uscita una fila di teste, ho selezionato i dati per far venire il risultato che piaceva a me. Anche qui quindi il p-value da solo non vuol dire nulla, anzi, è ingannevole. Per applicarlo correttamente uno deve prima decidere quanti dati prende e cosa misurare: poi, a cose fatte, calcolare il p-value.

Com’è la situazione allora?

Tragica. Specialmente in discipline come la medicina, la biologia o la psicologia, dove spesso si devono ricavare effetti deboli da esperimenti inevitabilmente rumorosi e dove è difficile raccogliere molti dati. E dove, forse, la consapevolezza sul problema è minore. Un esempio? Una indagine del 2012 su duemila psicologi ha svelato che metà ha riportato solo gli esperimenti funzionanti (togliendo quindi il contesto che da validità alla statistica) e il 58% ha guardato i dati e calcolato il p-value prima di decidere se fare o meno ulteriori esperimenti (P-hacking). Di più, non solo hanno ammesso candidamente queste pratiche, ma molti le hanno difese, ritenendole corrette. Non a caso la psicologia fa fatica a riprodurre i suoi risultati.

In generale, è difficile dedurre quale sia il vero senso del p-value in termini di “quanto è probabile il mio risultato sia vero”: dipende molto dal tipo di studio, dal numero di dati, da quanto è plausibile a priori l’ipotesi di partenza. Alcuni statistici hanno calcolato che, in media, uno studio con p-value di 0,05 potrà essere replicato si e no il 50% delle volte – ben lontano dalla quasi certezza che molti ricercatori gli attribuiscono. In generale si calcola che dal 17 al 25% degli studi scientifici potrebbero essere falsi, puramente per motivi statistici: secondo alcuni, addirittura più del 50%. La validità di milioni di studi scientifici individuali è quindi basata su fondamenta d’argilla.

Il vero problema comunque non è il p-value di per sé, che usato correttamente è uno strumento statistico rispettabile. È il fatto che viene usato da persone che, nonostante una esperienza scientifica di alto livello, non hanno necessariamente il training adeguato in statistica per fare analisi dati in modo corretto. Come fa notare il biostatistico Jeff Leek sul blog Simply Statistics, sostituire il p-value con altri strumenti non cambia nulla, se non si educa la comunità scientifica. Il grido d’allarme della American Statistical Association andrà raccolto non solo dai ricercatori, ma anche e soprattutto dalle università e dalle scuole.

Vuol dire che non possiamo più credere alla scienza?

No. È importante distinguere la credibilità del singolo studio da quella di una disciplina. Certo, l’uso errato dei metodi statistici genera un sacco di rumore, e diventa difficile, a volte anche per un esperto, separare uno studio fatto bene da uno problematico. Ma la verità nella scienza non si raggiunge mai con un singolo studio. Si raggiunge replicando gli esperimenti, molte volte, controllando e testando finché non si arriva a una conclusione solida. A questo punto i nodi vengono al pettine. Uno studio per esempio ha dimostrato che sì, il p-hacking è ovunque, ma alla fine non altera molto i risultati delle meta-analisi (analisi fatte su studi multipli pubblicati in letteratura).

Tanto rumore per nulla allora? Non proprio. Usare male la statistica significa sprecare tempo e denaro in studi fatti male che confondono le idee; significa comunicare al pubblico risultati che non sono tali; significa prendere decisioni importanti – dall’avanzamento di carriera dei ricercatori alla nostra salute – basandosi su certezze che a volte non esistono. Molte pseudoscienze spesso galleggiano rivendendo studi significativi che, nell’intero contesto, non lo sono per nulla.

L’abuso della statistica è una malattia che non ha ancora ucciso la scienza. Ma va guarita in fretta, prima che la ricerca perda credibilità.