Indica un intervallo di date:
  • Dal Al
tecnologia

Quando un fatto non è statisticamente significativo

I fan della Guida galattica per gli autostoppisti sanno che la risposta a tutte le domande della vita, e dell’Universo è 42. Si scherza, ovviamente, anche se la tendenza a cercare la verità in un numero o in più numeri è qualcosa che ci riguarda da vicino. Noi di Infodata, sicuramente.

Quando usiamo dei dati facciamo riferimento implicitamente al concetto di significatività statistica. Quante volte ci siamo sentiti dire che non c’è differenza fra due gruppi intorno a un certo indicatore, perché questa diversità “non è statisticamente significativa”?

Davanti a dei dati, per esempio sull’efficacia di un certo trattamento su un gruppo di pazienti e sul gruppo di controllo, possiamo fare un’ ipotesi: l’ “ipotesi zero”, cioè che non esista nessuna differenza tra i gruppi riguardo al parametro. Questo vuole dire che le differenze osservate sono opera del caso. Per decidere se l’ipotesi zero è vera o falsa servono dei test statistici. Qualora questi mostrassero che l’ipotesi zero è falsa, e cioè che le variazioni non siano attribuibili al caso, allora potremmo dire che i dati in nostro possesso sono statisticamente significativi.

Il livello di significatività di un esperimento è definito come un valore (P) della probabilità che le differenze osservate siano dovute al caso. Convenzionalmente si definisce P= 0.05 (5% di probabilità), all’interno dell’intervallo reale compreso fra 0 (nessuna probabilità che la differenza osservata possa essere ascritta al caso) e 1 (certezza che la differenza osservata sia casuale).
P è quindi il valore più basso al quale l’ipotesi zero può essere respinta. Se P è inferiore a 0.05, avvicinandosi così di molto allo 0, significa bassa probabilità che la differenza osservata possa essere ascritta al caso, e dunque si parla di significatività statistica.
Bene: tutto fila, logicamente, ma la prassi in campo biomedico è un’altra cosa. In un commento apparso questa settimana su Nature , a firma di tre statistici, Valentin Amrhein, Sander Groenlandia, Blake McShane e sottoscritto da 800 firmatari, si richiede agli scienziati di abbandonare la significatività statistica, accusandola di permettere conclusioni troppo perentorie, lasciando poco spazio alle doverose sfumature.
Gli autori non richiedono che i valori di P stessi siano abbandonati come strumento statistico, piuttosto auspicano che si inizi a considerare l’incertezza da molteplici angolazioni in campo biomedico.

Qui sotto un estratto dello studio di Nature.

 

L’esempio riportato è il seguente: un’analisi sugli effetti non intenzionali dei farmaci antinfiammatori, ha mostrato risultati “statisticamente non significativi,” portando i ricercatori a concludere che l’esposizione ai farmaci era per questo non associata alla fibrillazione atriale. Questi risultati sono risultati però in contrasto con quelli di un studio precedente , che evidenziava differenze statisticamente significative. In realtà – spiegano gli autori – i ricercatori che descrivono i loro risultati “statisticamente non significativi” hanno rilevato un rapporto di rischio di 1,2 (cioè un rischio maggiore del 20% nei pazienti esposti rispetto a quelli non esposti), con un intervallo di confidenza del 95% che comprendeva sia una diminuzione del rischio insignificante del 3%, sia un aumento considerevole del rischio del 48%. Anche i ricercatori che avevano eseguito lo studio precedente avevano trovato lo stesso rapporto di rischio di 1,2. La differenza è che questo precedente studio era semplicemente più preciso, con un intervallo che va dal 9% al 33% di rischio maggiore.


È “ridicolo” – concludono gli autori – concludere che i risultati “statisticamente non significativi” non mostrino nessuna associazione, quando la stima dell’intervallo includeva aumenti seri di rischio. Ed è ugualmente assurdo affermare – continuano – che questi risultati siano in contrasto con i risultati precedenti che mostrano un identico effetto osservato. “Affidarsi ciecamente alle soglie di significatività statistica può fuorviare le scelte cliniche”.
Voi come la pensate?

Ultimi commenti
  • Ottavio Beretta |

    Articolo molto interessante. Personalmente credo sia utile trattare questo tema perché, per quanto possa sembrare un tecnicismo un po’ noioso e di scarsa rilevanza pratica, in realtà, il p-value ha avuto ed ha ricadute notevoli sulla qualità della scienza prodotta. Nel corso del tempo il p-value ha acquisito sempre più importanza ma progressivamente gli si è attribuita una funzione che non gli compete e oggi la “significatività statistica” è intesa da molti come misura della verità o falsità di un’ipotesi. Anche in questo articolo si dice che “Per decidere se l’ipotesi zero è vera o falsa servono dei test statistici”. In realtà, in senso frequentista, un test statistico non può definire la verità o la falsità di un’ipotesi per almeno due ragioni: la prima è che per fare un test è necessario supporre a priori che l’ipotesi nulla sia vera, quindi non devo dimostrarlo dato che l’ho definito come ipotesi di partenza; inoltre, non saprò mai se l’ipotesi sia “davvero vera” o “davvero falsa”, né prima né dopo il test. La seconda ragione è che – come già anticipato dal Dr D’Ambrosio – il p-value misura una probabilità che ci dice qualcosa sui nostri dati e non sulle nostre ipotesi. In altre parole, con il p-value misuro la probabilità di ottenere i dati osservati (o più estremi) posta la condizione che sia vera l’ipotesi nulla, e non viceversa. Quindi “accettare” o “rifiutare” l’ipotesi nulla non vuol dire attribuirle un valore di verità o di falsità.

    Per risolvere una buona volta questa trappola mentale che è all’origine di tanti danni, a mio parere, si dovrebbe cambiare qualcosa nell’insegnamento di questi concetti: è vero, non sono concetti banali e spesso sono controintuitivi, ma se dopo tanti anni commettiamo sempre lo stesso errore, un qualcosa da cambiare a monte forse ci sarà. Se parlando di p-value riuscissimo almeno ad intendere tutti la stessa cosa – possibilmente quella giusta – sarebbe già un enorme passo avanti.

  • Ottavio Beretta |

    Articolo molto interessante. Personalmente credo sia utile trattare questo tema perché, per quanto possa sembrare un tecnicismo un po’ noioso e di scarsa rilevanza pratica, in realtà, il p-value ha avuto ed ha ricadute notevoli sulla qualità della scienza prodotta. Nel corso del tempo il p-value ha acquisito sempre più importanza ma progressivamente gli si è attribuita una funzione che non gli compete e oggi la “significatività statistica” è intesa da molti come misura della verità o falsità di un’ipotesi. Anche in questo articolo si dice che “Per decidere se l’ipotesi zero è vera o falsa servono dei test statistici”. In realtà, in senso frequentista, un test statistico non può definire la verità o la falsità di un’ipotesi per almeno due ragioni: la prima è che per fare un test è necessario supporre a priori che l’ipotesi nulla sia vera, quindi non devo dimostrarlo dato che l’ho definito come ipotesi di partenza; inoltre, non saprò mai se l’ipotesi sia “davvero vera” o “davvero falsa”, né prima né dopo il test. La seconda ragione è che – come già anticipato dal Dr D’Ambrosio – il p-value misura una probabilità che ci dice qualcosa sui nostri dati e non sulle nostre ipotesi. In altre parole, con il p-value misuro la probabilità di ottenere i dati osservati (o più estremi) posta la condizione che sia vera l’ipotesi nulla, e non viceversa. Quindi “accettare” o “rifiutare” l’ipotesi nulla non vuol dire attribuirle un valore di verità o di falsità.

    Per risolvere una buona volta questa trappola mentale che è all’origine di tanti danni, a mio parere, si dovrebbe cambiare qualcosa nell’insegnamento di questi concetti: è vero, non sono concetti banali e spesso sono controintuitivi, ma se dopo tanti anni commettiamo sempre lo stesso errore, un qualcosa da cambiare a monte forse ci sarà. Se parlando di p-value riuscissimo almeno ad intendere tutti la stessa cosa – possibilmente quella giusta – sarebbe già un enorme passo avanti.

  • Corrado Micozzi |

    Sono d’accordo con quanto scritto. Ho però il dubbio nell’esempio riportato, nel quale un successivo test era meno preciso del precedente, che la degradazione del risultato possa essere un modo facile per portare le conclusioni dove vogliamo. In realtà ci servirebbe più statistica e non meno.

  • Corrado Micozzi |

    Sono d’accordo con quanto scritto. Ho però il dubbio nell’esempio riportato, nel quale un successivo test era meno preciso del precedente, che la degradazione del risultato possa essere un modo facile per portare le conclusioni dove vogliamo. In realtà ci servirebbe più statistica e non meno.

  • Angelo D'Ambrosio |

    È una battaglia molto faticosa… Molta della produzione di evidenze biomediche è gestita principalmente da clinici ed altro personale non esperto in statistica, che utilizza dei concetti appresi ai tempi dell’università che nel migliore dei casi sono male interpretati, quando non sono proprio sbagliati all’origine.

    La fallacia “p-value ≥ 0.05 = no relazione” è una delle più storicamente antiche e perniciose. Perniciosa perché il p-value, il principale indice valutato nell’analisi dei dati biomedici è anche il concetto statistico meno compreso. Enfatizzando, la pratica clinica moderna si basa su un indice che i ricercatori non comprendono. Un’altra fallacia è la over-reliance su p-value significativi, che invece possono apparire per puro caso, soprattutto in caso di studi con bassa numerosità. Infine, istintivamente, chi legge i p-value tende ad interpretarli come “la probabilità che l’ipotesi nulla sia vera (cioé che non vi sia una relazione) in base ai dati”, mentre invece è il contrario; il p-value è una probabilità sui dati, non sulle ipotesi (vi sono altri errori intepretativi comuni, ma si scenderebbe nel tecnico).

    Queste fallacie hanno portato ad una serie di malpractice molto diffuse:
    – Publication bias. Ovvero i ricercatori tendono a non pubblicare il loro lavoro in presenza di p-value “non significativi” (p ≥ 0.05). O peggio sono le riviste a non accettare tali paper o i finanziatori a non concedere grants.
    – P-hacking. Chi analizza i dati sceglie l’approccio statistico che massimizza il numero di risultati significativi.
    – Sensazionalismo. Eccessiva fiducia nei risultati di un singolo studio (avete presente quando sembra che gli studi sull’alimentazione dicono tutti cose diverse?).
    – Truffe. Nel peggiore dei casi, i ricercatori modifcano i dati al fine di avere dei risultati significativi.

    Un’esempio classico per capire le distorsioni è immaginare una serie di studi su un farmaco con un effetto blando. Naturalmente, per la variabilità nei risultati dovuta al caso, vi saranno alcuni studi con risultati statisticamente significativi e altri con risultati non significativi. Se a causa delle distorsioni suddette solo gli studi statisticamente significativi vengono pubblicati, una valutazione della letteratura per creare una linea guida clinica vedrebbe solo i casi in cui il farmaco ha avuto un grosso effetto. Questo porterebbe ad una sopravvalutazione dell’effetto che poi sistematicamente scontra con una effettiva mancanza di efficacia una volta introdotto in commercio.

    Quindi (finalmente) si sta diffondendo il movimento anti p-value. Tale movimento non professa l’eliminazione di tale indice perché è inerentemente sbagliato, ma perché, nonostante anni di warning e statements, non si riesce a farne comprendere il corretto uso e relativa importanza. Quindi si comincia a propendere per la soluzione “visto che non lo sai usare, te lo tolgo”. E io sono d’accordo.

    Ma quindi, una volta tolto il p-value, che si fa? Ecco alcune proposte (in ordine di tecnicismo):
    – Preregistrazione degli studi. Soprattutto nel caso di studi sperimentali (trial) clinici, si dovrebbe pubblicare il protocollo con i dettagli dello studio e le analisi che verranno condotte prima ancora di effettuare lo studio stesso. Questo risolve il rischio di non pubblicazione in caso di risultati non significativi o la scelta ex post delle analisi che fanno uscire i risultati “più belli”. La preregistrazione dei trial è una pratica che si sta diffondendo velocemente e si spera diventi presto lo standard.
    – Separare la pubblicazione di dati dalle pubblicazioni di analisi. Già da tempo si sta spingendo per la pubblicazione, insieme ad uno studio, dei dati relativi, ma questa pratica si sta diffondendo molto lentamente. Rendere i propri dati disponibili ai terzi renderebbe possibile verificare le analisi fatte e smascherare p-hacking o truffe. Ma ciò non protegge dal publication bias (ovvero la non pubblicazione dei risultati non significativi), perché insieme ai risultati verrebbero occultati anche i dati stessi. Meglio a questo punto pubblicare prima i dati (dando credito scientifico per la loro raccolta) ed in seguito farvi dei lavori analitici, da uno o più gruppi di ricerca.
    – Passare al paradigma statistico Bayesiano. Questo tipo di analisi, al contrario delle analisi classiche, permette di affidare formalmente un grado di probabilità ad ipotesi contrastanti in base ai dati (al contrario del p-value che come abbiamo detto prima dà una probabilità ai dati in base all’ipotesi di assenza di relazione). In questo modo si potrebbe discernere chiaramente fra: studi in cui è più probabile l’assenza di relazione, studi in cui è più probabile la presenza di relazione, studi in cui non è possibile discernere fra le due situazioni. Tale metodologia è però più complessa e computazionalmente intensiva, ma si sa, il pasto gratis non esiste.

    Angelo D’Ambrosio
    Medico Specializzando in Igiene e Medicina Preventiva
    Università di Torino

Suggeriti