Beruflich Dokumente
Kultur Dokumente
Nella statistica inferenziale si cerca di dire qualcosa di valido in generale, per la popolazione o
le popolazioni, attraverso lanalisi di uno o pi campioni
E chiaro per che esiste comunque la possibilit di giungere a conclusioni errate, appunto
perch i miei dati rappresentano solo una parte dellevento che sto analizzando
Formalizziamo brevemente il concetto, in parte gi visto, di errore (di errori) nel processo di
verifica delle ipotesi
Supponiamo ora di aver scelto =0.05 (scelta tipica), e supponiamo di condurre un test
bidirezionale (a due code)
La regione di rifiuto nella distribuzione nulla include il 5% dei valori pi estremi della statistica
(2,5% dalla parte dei valori molto grandi, e 2,5% dalla parte dei valori molto piccoli)
Questi sono valori estremi che comunque possiamo otterremmo, con una probabilit del 5%,
anche se fosse vera lipotesi nulla
Se ripetessimo tante volte il test su campioni diversi, e lipotesi nulla fosse sempre vera, il
5% dei test porterebbe ad un valore della statistica test allinterno della zona di rifiuto (e ad
un p-value inferiore a 0.05)
Quindi, nel 5% di questi test, rifiuteremmo lipotesi nulla vera
In pratica, se la statistica calcolata in un singolo test cade nella regione di rifiuto, o il p-value <,
la conclusione del test quella di rifiutare lipotesi nulla.
Ma, per quello che abbiamo appena detto, lipotesi nulla potrebbe anche essere vera ma
per puro effetto del caso (errore di campionamento) i dati portano ad una statistica test
significativa (che cade cio nella regione di rifiuto e che ha un p-value <)
Lerrore che si compie rifiutando unipotesi nulla vera si chiama
La probabilit di compiere un errore di primo tipo data dal livello di significativit prescelto
E la frazione di volte che viene rifiutata un ipotesi nulla vera se ripetessi tante volte il test su
campioni diversi (presi dalla stessa, o dalle stesse, popolazione/i)
Scegliendo in anticipo , definiamo il rischio che siamo disposti ad accettare di compiere un
errore di primo tipo
Alla fine del test, se le evidenze saranno a favore dellipotesi alternativa, non sapremo
ovviamente se avremo commesso un errore di primo tipo oppure no. Potremo solo dire che la
probabilit di averlo commesso, se fosse vera lipotesi nulla, sarebbe molto bassa (e pari ad )
Vediamo ora un altro tipo di errore che si pu commettere nella verifica delle ipotesi
Se lipotesi nulla falsa, cio per esempio la media nella popolazione 1 diversa dalla media
nella popolazione 2, giunger sempre al suo rifiuto analizzando due campioni?
Ovviamente no, e anche intuitivamente facile capirne un motivo: se le medie nelle due
popolazioni sono diverse ma molto vicine, possibile che i dati non siano sufficienti a
escludere lipotesi nulla, visto che lipotesi nulla viene rifiutata solo in presenza di forti
evidenze
Lerrore che si compie quando unipotesi alternativa vera ma la conclusione del test quella
che non possibile escludere lipotesi nulla, ovvero, lerrore che si compie non rifiutando
unipotesi nulla falsa, si chiama
Concentriamoci per ora sulla parte inferiore della figura, specifica per un campione con n = 36
osservazioni con =0.1 e = 0.01
Le due distribuzioni a campana rappresentano le distribuzioni delle medie campionarie
secondo lipotesi nulla (in viola) e secondo lipotesi alternativa (in blu)
Le due linee rosse verticali rappresentano i limiti dellintervallo allinterno del quale una
media campionaria verrebbe considerata compatibile con lipotesi nulla
Quei limiti, standardizzati, porterebbero ai valori critici nella tabella di z di - 2.576 e
2.576
Larea ombreggiata in verde quindi il potere del test, ovvero la probabilit di rifiutare
correttamente lipotesi nulla quando questa falsa (come nel caso considerato)
Attenzione: per ogni dato test statistico, possiamo aumentare la potenza solo agendo su sul
punto 3 (ma ci comporta un aumento del rischio di errore di tipo I) e sul punto 4. I punti 1 e 2
non sono sotto il nostro controllo
In realt, poich per ogni tipo di problema statistico esistono generalmente pi test
diversi a disposizione (con caratteristiche diverse), e i test che fanno pi assunzioni (per
esempio sulla distribuzione della variabile) sono di solito pi potenti, anche possibile
aumentare la potenza di un test scegliendo il test pi potente (ovviamente se le
condizioni imposte da quel test sono soddisfatte dai dati)
Provate voi stessi come varia il potere di semplice un test in funzione di , n, , e la distanza tra
la vera e la 0 ipotizzata dallipotesi nulla:
http://bcs.whfreeman.com/ips4e/cat_010/applets/power_ips.html
Cosa si poteva vedere nella parte superiore della figura discussa in precedenza?
Nel test appena visto, il calcolo della potenza semplice (si fa con il calcolatore ma si poteva
fare anche a mano). In altri casi molto pi complesso
Supponiamo per esempio di avere la possibilit di determinare una certa variabile fisiologica in
un gruppo di 5 pazienti, per poterne confrontare la media con lipotesi nulla che la media nella
popolazione sia pari ad un certo valore medio standard, diciamo 12 (sospettando per esempio
che la patologia dei pazienti possa aver alterato la variabile fisiologica che vogliamo
analizzare). Supponiamo anche di conoscere la deviazione standard della variabile (cos che
sia possibile applicare un test z) e che questa sia pari a 3
Dopo aver fatto lanalisi in laboratorio e il test statistico, e aver trovato che lipotesi nulla non
pu essere rifiutata, o meglio ancora prima di cominciare le analisi, potremo chiederci:
qual la probabilit di non accorgerci (con un certo = 0.05) che la media della
popolazione da cui abbiamo estratto il campione non quella specificata dallipotesi
nulla (0 = 12), ma invece pari ad valore specifico di interesse, per esempio di
interesse perch indice di una grave patologia?
Ci interessa cio capire se, nellipotesi che i pazienti abbiano per esempio un media della
variabile studiata alta in maniera preoccupante, per esempio = 14, tale differenza verrebbe
identificata con il campione a disposizione
in generale, la scelta del valore di da analizzare nellanalisi della potenza dovrebbe
identificare un valore di media particolarmente anomalo, che se fosse veramente la
media della popolazione dalla quale abbiamo estratto il campione che stiamo
analizzando vorremmo che venisse evidenziata con alta probabilit
= 0,05
n=5
=3
0 = 12 (valore standard previsto dallipotesi nulla)
= 14 (valore ipotizzato per lipotesi alternativa)
Questo significa che se la media della popolazione fosse 14, avrei circa il 32% di probabilit di
identificare con un campione di 5 individui questa deviazione dallipotesi nulla. Ma avrei anche
una probabilit molto alta (il 68% circa) che pur con una notevole deviazione della popolazione
rispetto a quanto previsto dallipotesi nulla (14 rispetto a 12), questa deviazione non verrebbe
identificata
Una situazione pericolosa, quindi, ci potrebbe sfuggire con alta probabilit (il 68%),
suggerendoci per esempio di aumentare la dimensione campionaria (e aumentare quindi la
potenza del test)