Null Hypothesis Significance Testing

Capitolo II

NULL HYPOTHESIS SIGNIFICANCE TESTING

Link all'indice completo


L’ANOVA (analysis of variance) è un insieme di tecniche statistiche che permette di confrontare due o più serie di dati facenti parte dello stesso gruppo (within-group) o tra gruppi differenti (between-group). Essa ha diversi assunti, tra cui:

1. Omogeneità della varianza: la varianza nei gruppi che si compara è approssimativamente la stessa;

2. Valori parametrici: i dati sono numeri;

3. Indipendenza dei valori;

4. Distribuzione normale dei dati: i dati rappresentati graficamente formano una campana rovesciata: essa è la distribuzione normale, anche conosciuta come Gaussiana dove il 95% dei valori sono concentrati al centro ed il 5% è “estremo” (2,5% nelle rispettive direzioni). Attraverso i test di significatività statistica come il t-test si riesce ad identificare quando un gruppo rientra in quel 5% estremo di dati denotando che un protocollo ha avuto effetto rispetto ad un altro o al gruppo di controllo.

Test parametrici vs non-parametrici

I test parametrici sono quelli utilizzati per variabili normalmente distribuite (i cui dati sono distribuiti a forma di Gaussiana) e numeriche, mentre i test non-parametrici sono quelli utilizzati negli altri casi. Un esempio dei primi è il T-test per medie indipendenti.

In breve, l’ANOVA si basa sul “null hypothesis significance testing” (NHST), ovvero si vuole confrontare due diversi set di dati per valutare se tra essi non ci siano differenze significative. L’applicazione di questo procedimento porta al calcolo di un valore numerico denominato “p value” che rappresenta la probabilità di ottenere un valore estremo nella matrice di dati. Il p value viene, in seguito, interpretato confrontandolo in base ad una soglia arbitraria di significatività denominata alpha (α) che solitamente nelle ricerche sportive è 0,05 (5%). Dal confronto tra queste due grandezze e assumendo vera l'ipotesi nulla (che afferma che non c'è differenza o relazione tra due fenomeni misurati) si procede in questo modo:

1. Se il p-value è maggiore di alpha (p > α), i dati esaminati non sono contrari all'ipotesi nulla (anche perché potrei avere dati insufficienti), perciò la devo accettare;

Se il p-value è minore o uguale di alpha (p ≤ α), i dati esaminati sono contrari all'ipotesi nulla - che per questo motivo viene rifiutata - e statisticamente significativi, quindi si conclude che c’è un effetto significativo nelle variabili monitorate

Si prenda il seguente esempio: si vuole confrontare se dopo un mese di allenamenti i giocatori riescano a saltare più in alto di prima. Eseguita l’operazione statistica (ANOVA) si ottiene un p value di 0,02 interpretabile con una soglia alpha di 0,05. In questo caso si accetta l’ipotesi alternativa e dai dati si può speculare che dopo il protocollo di condizionamento c’è stato un aumento significativo nella capacità di salto.

Il procedimento del NHST ha, però, due errori possibili, ovvero due situazioni in cui si ottiene un falso positivo o un vero negativo e sono:

1. Errore di Tipo I – Falso positivo

2. Errore di Tipo II – Falso negativo

Errore di Tipo I = Falso positivo

Con questo errore si sostiene che c’è un effetto significativo quando in realtà non è presente (falso positivo). L’errore di Tipo I è presente nella stessa percentuale della soglia alpha . Ad esempio, con un valore di si sa che il 5% delle volte si è in presenza di un errore di Tipo I. Quando si applicano più test statistici questa probabilità aumenta esponenzialmente. Ad esempio, quando si devono eseguire 8 test (ANOVA) esso si presenterebbe nel 33,6% delle volte secondo questa formula:

In questo modo si ottiene un p value inferiore di gran lunga inferiore alla soglia arbitraria di 0,05 e, di conseguenza, è più difficile per l’accettazione dell’ipotesi alternativa in qualsiasi studio sperimentale.

Errore di Tipo II = Falso Negativo

Con questo errore si dice che non c’è un effetto significativo quando in realtà esso è presente (falso negativo). Si indica con beta. Per ridurre l’errore di Tipo II si può aumentare il numero di soggetti e diminuire l’errore di misurazione.

Potenza statistica

La potenza statistica è la probabilità di avere un effetto significativo quando l’ipotesi alternativa è vera e si calcola con la seguente formula:

Potenza statisitca = 1 - Beta


Da notare che questo ragionamento si applica sul lungo termine, infatti nel singolo studio si incappa al 50% nell’errore o lo si evita (50%), mentre nel lungo termine si ha il 95% della probabilità di ottenere ciò che si vuole (se l’alfa è 0,05 o 5%).

Ora si prova a spiegare con dei numeri.

Si teorizza una nuova ipotesi e si specula che tra H0 ed H1 ci sia un 50-50% di probabilità che una sia vera rispetto l’altra.

Queste sono le percentuali di poter incorrere in un errore di Tipo i (2,5%) o di Tipo II (10%) in una condizione normale di ricerca. Si prova ora a cambiare la potenza statistica da 80% a 99% per ridurre la possibilità di ottenere un errore di Tipo II (β).


Come si può notare non c’è un grande miglioramento nella riduzione degli errori β in quanto sono scesi di “solo” il 9,5%.


Si prova ora a cambiare il livello di significatività da 5% a 1% per ridurre gli errori di Tipo I.


Anche in questo caso la modifica è molto leggera, infatti dal 2,5% di falso positivo si è passati allo 0,5%. Come dice Daniel Lakens per speculare riduzioni più significative nei vari errori è necessario partire da un’ipotesi che sia più certa. In questo caso si inserisce una ipotesi nulla che si ritiene sia vera nel 10% dei casi, mentre un’ipotesi alternativa vera nel 90% delle volte

Un altro esempio reale della possibilità di incorrere nell’errore di Tipo I è quando un ricercatore viene promosso in base al numero di studi significativi. Ciò porta allo svolgimento di innumerevoli indagini in cui si utilizzano pochi soggetti (es. due gruppi da 15-25 soggetti) con cui ipoteticamente riesce a pubblicare 8 articoli, piuttosto che crearne solo due con il quadruplo dei partecipanti. Nel primo modo si hanno ricerche sottopotenziate e si incappa statisticamente in più errori (Lakens & Evers, 2014).

Maggiori critiche al NHST

Q: “Why do so many colleges and grad schools teach p = 0,05?”

A: “Because that’s still what the scientific community and journal editors use.”

Q: “Why do so many people still use p = 0,05?”

A: Because that’s what they were taught in college or grad school”

George Cobb, Professore Emerito di Matematica e Statistica, 02/2014, ASA forum (The ASA).

Il metodo di utilizzare l’approccio NHST ha avuto molte critiche da quando è stato adottato nella ricerca scientifica. Alcune delle motivazioni più rilevanti sono:

1. Non consente di conoscere una grandezza dell’effetto e nemmeno un’indicazione nella precisione della stima (Nakagawa & Cuthill, 2007);

2. È estremamente dipendente dal numero dei soggetti testati, infatti da una ricerca nel ramo della psicologia si mostra come aggiungendo un solo soggetto per gruppo, in modo che non modificasse la media e deviazione standard dei risultati, sia ottenuto un p value da 0,051 (non significativo) a 0,049 (significativo) (Henson, 2006).

Per una review esaustiva sulle critiche al test di significatività NHST si faccia riferimento alla seguente ricerca (NICKERSON, 2000).

Un'altra considerazione importante è che non bisogna interpretare in maniera sbagliata il p value. Infatti, molte volte si sente affermare erroneamente che esso indichi la probabilità di ottenere l’ipotesi nulla se si facessero 100 studi simili e, al contrario, la rimanente porzione (1 – p) indichi la probabilità di ottenere valori estremi e, quindi, la frequenza dell’ipotesi alternativa. Inoltre, bisogna non confondersi che il p value non indica che la teoria sia vera, ma solo che i dati sono estremi. Dalla significatività dei dati si può solo speculare che la teoria sia vera (NICKERSON, 2000). Tutto ciò è evidente nelle ricerche che adottano un p value di 0,05 (convenzione di molti settori di ricerca (sportiva, biologica, ecc.), ma si può dire che la teoria sia vera solo negli ambienti in cui si applica una soglia arbitraria più difficile da superare come in fisica dove si utilizza un p value di 3 x 10-6 ed in genetica di 5 x 10-8 (Ioannidis, 2018). Ottenere un dato significativo statisticamente con tale p value è quasi appurato che sia realmente così.