You are on page 1of 5

Statistica Medica 15 novembre 2012

Dopo aver valutato, nella lezione precedente, lassociazione tra due variabili categoriali, constatandone la dipendenza o lindipendenza con il test del 2, si prende ora in esame lassociazione tra una variabile numerica ed una categoriale. Per ragioni di tempo assumiamo che il valore numerico debba rientrare nella normalit e che la variabile categoriale sia dicotomica; tali assunzioni non sono nella pratica necessarie poich la statistica fornisce metodi per adattare i dati. Per verificare la normalit i dati devono rientrare in un sistema probabilistico che possa essere rappresentato tramite distribuzione a campana, o curva di Gauss, o che ad essa si avvicini con buona approssimazione. Affinch listogramma sia soddisfacente si richiede un consistente numero di osservazioni. Nel caso in cui tale numero sia basso, nellordine di poche decine, si gioca sulla normalit intrinseca delle grandezze osservate: laltezza, per esempio, rientra comunemente nella normalit, mentre lo stesso discorso non vale per il salario. Nel caso in cui listogramma risultante sia evidentemente asimmetrico vi sono due strade per normalizzare i dati: la trasformazione o le analisi non parametriche. Premesso che le analisi parametriche non assumono la normalit, si prende in considerazione, per il nostro corso, solo la trasformazione.

Trasformare significa trattare il dato X in modo da renderlo normale. In particolare se listogramma per X
spostato verso sinistra, e ha dunque la coda a destra, si applica la funzione o finch sia possibile continuare a lavorare con valori Y normali. Nel caso in cui la coda sia spostata verso sinistra e i dati si concentrino a destra la trasformazione che si utilizza pi di frequente ; nel caso in cui non basti si pu elevare al cubo, alla quarta ed oltre fino ad ottenere una distribuzione soddisfacente. Limportante continuare a trasformare i dati fino ad ottenere una buona approssimazione della normalit, verificabile con listogramma dei dati dopo la funzione, e trasformare TUTTI i dati perch si deve poi continuare a valutare lassociazione con la variabile categoriale solo con i nuovi dati trasformati. La propriet caratteristica di queste trasformazioni livellare i dati: quelli pi grandi vengono ridimensionati molto, i pi piccoli moderatamente.

Test di Student
Per esempio si vogliono confrontare i salari dei dipendenti della stessa banca ma di due filiali differenti. Dato che sono molto di pi quelli che guadagnano cifre medio-basse (coda a destra), e che il salario non una variabile intrinsecamente normale, si deve trasformare; in questo caso dovrebbe bastare fare il logaritmo. Dato che oggetto del nostro interesse la differenza tra i salari, reale o presunta, qualsiasi trasformazione modificher di certo i dati ma non la differenza tra gli stessi. Ottenuta la normalit dei dati si pu finalmente applicare il test di Student o T-test o test di confronto tra due medie che cos si presenta:

Dove: la deviazione standard dellintera variabile; la radice della numerosit;

lerrore standard; | la differenza tra le medie delle due variabili categoriali;

T, in definitiva, la differenza delle medie diviso lerrore standard.

E cos si interpreta: Dovendo associare variabili numeriche a variabili categoriali, inizialmente il campione in esame sar composto da molte variabili numeriche e diverse variabili categoriali. Scegliendo due variabili categoriali il campione verr pi o meno ridotto e ad ogni variabile categoriale risulter associato un certo numero di variabili numeriche; i due numeri ovviamente difficilmente saranno uguali e si dovr calcolare se la differenza tra i due significativa. Sapendo che il caso non produce distanze maggiori di 1,96 volte lerrore standard (deviazione standard diviso numerosit del campione, entrambe delle due variabili) basta dividere la distanza tra la media delle variabili numeriche delle due categoriali per lerrore standard delle due variabili categoriali; se il risultato sopra 1,96 la differenza non dovuta al caso, mentre se pi piccolo non si pu escludere il caso. Il T-Test NON direzionale: pu dimostrare che vi una differenza non dovuta al caso ma la direzione deve essere valutata analizzando lentit dei dati di partenza. Esempio: Possiedo molti dati riguardo il salario di un certo numero di dipendenti di una banca con un certo numero di filiali con sede in citt diverse; dallistogramma noto che il salario non una variabile normale: la trasformo, usando per esempio il logaritmo. Ottengo un istogramma che si approssima abbastanza bene ad una campana. Ora mi interessa sapere se i dipendenti di due diverse citt hanno una media di salari comparabile. Elimino tutte le variabili numeriche associate a variabili categoriali che non mi interessano, ovvero i dati che riguardano tutte le citt tranne le due che ho preso in considerazione. Ottengo un nuovo campione ridotto. Faccio la media delle variabili numeriche trasformate di entrambe le categorie: noto che vi una differenza ma significativa? Applico il t-test. Calcolo la deviazione standard del campione ridotto e la divido per la radice della numerosit del campione ridotto, ottenendo lerrore standard. Calcolo dunque la differenza tra le medie e la divido per lerrore standard: ottengo il valore T; se maggiore di 1,96 la differenza non casuale e potrei, per esempio, suggerire ai dipendenti della filiale che in media guadagna di meno di chiedere un aumento; se invece minore di 1,96 devo assumere che la differenza pu essere attribuita al caso. Nota - Al contrario di T, il p-value deve essere piccolo, sotto 0,05, per escludere il caso. Tuttavia p-value e T saranno concordanti nellescludere o meno il caso.

T-test appaiato
Il t-test, oltre ad essere utilizzato per valutare lassociazione tra una variabile numerica e una categoriale di due gruppi indipendenti, pu essere usato per valutare due interventi statistici sullo stesso gruppo. Si chiama Test di Student appaiato ed leggermente diverso. Si immagini di avere, per esempio, un campione di altezze relative ad un gruppo di persone; in particolare si possiedono, per ogni persona, la misurazione per laltezza al mattino e alla sera. Ci equivale ad avere , su uno stesso soggetto, due misurazioni temporalmente differenziate. Nel t-test per gruppi indipendenti il soggetto appartiene ad un gruppo, escludendo logicamente lappartenenza agli altri presi in considerazione. Nel t-test appaiato, invece, chi si sottopone, in questo caso, alla misurazione del mattino, si sottopone anche a quella della sera; si parla dunque di misurazioni ripetute perch chi sta in un gruppo sta anche nellaltro. Scopo dellosservazione non dunque valutare la differenza tra le medie dei due gruppi, ma ogni persona con se stessa, le misurazioni di ogni soggetto. il concetto che sta alla base degli studi di follow up*. Un modo pratico per discriminare tra test indipendente ed appaiato la posizione della variabile categoriale; se essa figura nella matrice di dati significa che ogni soggetto appartiene ad un gruppo ed uno soltanto. Se le variabili, invece, identificano colonne di numeri, ogni soggetto avr una misurazione per colonna, dunque misurazioni ripetute, con variabili categoriali diverse, si riferiscono ad un solo soggetto. La formula del test appaiato : ( Nel caso di T-test appaiato si lavora dunque con la media delle differenze e NON la differenza delle medie. La significativit del test non esprime comunque direzione, ma pu aiutarci la differenza in media. Inoltre pur essendo la differenza significativa, per parlare di significativit clinica si deve parlare di differenze sostanziali, che giustifichino un interesse medico: per questo pur essendo pi bassi alla sera, allortopedico interessa solo UNA qualsiasi misurazione dellaltezza, dato che la differenza rimane comunque in un intervallo di pochissimi millimetri. )

*Studi statistici di follow up hanno, per esempio, dimostrato linefficacia, a pochi anni di distanza, di interventi di paratiroidectomia per il trattamento dellinsufficienza renale. Rimuovendo le paratiroidi, o porzioni di esse, si vuole influenzare il livello di paratormone che agisce sui reni ed in particolare sul riassorbimento del calcio; mentre i livelli del calcio e fosforo rimangono in intervalli fisiologicamente accettabili a sei mesi dallintervento, gi dopo due, tre anni gli elettroliti si concentrano a livelli paragonabili a quelli pre-intervento. A seguito di questi studi la paratiroidectomia per linsufficienza renale stata abbandonata a favore di terapie farmacologiche.

Associazione tra due variabili numeriche


Ipotizziamo di avere i valori tasso di mortalit e tasso di natalit per ogni provincia italiana e di voler sapere se queste due tassi sono correlati (dove si nasce di pi si muore di pi o di meno? E dove si nasce di meno?). Come procedere? Mi basta fare un diagramma a dispersione e studiandone landamento posso ricavarne delle conclusioni.

Quel che subito si nota che a natalit basse corrispondono mortalit alte e viceversa. Come regola generale, avvalorata dalla regolarit e andamento della dispersione, si pu affermare dunque che dove si nasce di pi si muore di meno. Il grafico stabilisce, dunque, che al nord si muore di pi e si nasce di meno, mentre al centro e poi al sud landamento si inverte progressivamente: questo perch loccupazione al Nord, specialmente quella femminile, tende a favorire la carriera rispetto alla famiglia. Dato che la mortalit , se la natalit alta la popolazione aumenta, rendendo il denominatore dellequazione un numero alto. Let media rappresenta, di conseguenza, un buon indicatore parallelo. La regione con mortalit maggiore la Liguria; Campania, Puglia, Sicilia con mortalit minore.

Ad una analisi pi approfondita si notano delle eccezioni:

Qui una provincia del sud/isole presenta, come le altre della stessa categoria, mortalit bassa ma anche bassa natalit, in forte controtendenza rispetto alle simili. Si tratta di una provincia della Sardegna. In questa isola, infatti, la natura ha selezionato per i suoi abitanti un patrimonio genetico particolarmente poco avvezzo a malattie cronico - degenerative, specie endocrine, rendendo gli abitanti pi longevi.

Qui, invece, una provincia del Nord presenta eccezionalmente alta natalit e bassa mortalit. Si tratta della provincia di Bolzano, in Trentino-Alto Adige. Dato che il loro stile di vita, in particolare le relazioni sociali, molto simile a quello dei Tedeschi e degli Austriaci, gli abitanti della provincia di Bolzano hanno figli mediamente prima rispetto alle altre province settentrionali. Rientrano tra i valori anomali, oltre ai due casi appena analizzati che esulano dallandamento, quelli estremi poich risultano poco significativi per stabilire relazioni. Ora per quantificare questa relazione si usa un indice, lindice di correlazione, un indice standardizzato (ovvero limitato) compreso tra -1 e 1. Se il valore alto, cio vicino a 1, la relazione forte e crescente: i valori correlati sono legati da proporzionalit crescente; se lindice si avvicina a -1 la relazione forte ma decrescente: la proporzionalit inversa; non vi associazione lineare se lindice vicino allo zero. (Lindice di correlazione viene affrontato pi approfonditamente nella lezione successiva)