Beruflich Dokumente
Kultur Dokumente
SPSS
1. Introduo ao SPSS
Iniciando o SPSS
Quando o SPSS iniciado, apresentada no ecr a janela uma imagem semelhante figura 1.1 . A imagem contm a janela SPSS for Windows (figura 1.2). Figura 1.1 Figura 1.2
Pode efectuar as seguintes tarefas: Iniciar o manual (Run the tutorial) Construir uma nova base de dados (Type in data) Importar dados, atravs de uma 'query', de uma base de dados j existente (Run an existing Query) Importar dados, atravs de uma 'query', de uma base de dados j existente (Create new Query using DataBase Capture Wizard) Abrir uma base de dados j existente (Open an existing file) bastando para isso seleccionar a tarefa pretendida clicando sobre o crculo correspondente e clicar de seguida em OK. Na parte inferior da janela SPSS for Windows, apresentada uma lista de bases de dados usadas recentemente no SPSS.
SPSS
Interfaces do SPSS
O SPSS para alm de permitir o uso do rato, apresenta outro tipo de interfaces como por exemplo: janelas, barras de ferramentas, barras de estado e caixas de dilogo, que tornam ainda mais acessvel a sua utilizao. As janelas de uso mais freqente so: Figura 1.3
A janela de edio (SPSS Data Editor), mostra o contedo de uma base de dados, e permite criar novas bases de dados ou modific-las. A figura 1.3 mostra a janela de edio. A janela de comandos (SPSS Sintax Editor), mostra os comandos correspondentes s operaes efectuadas entre ficheiros ou dados. Pode gerar comandos a partir das caixas de dilogo e grav-los num ficheiro para uso em sesses subsequentes. A figura 1.4 mostra a janela de comandos. Figura 1.4
SPSS
A janela de resultados (SPSS Viewer ou Output), mostra os resultados automaticamente sempre que executarmos um procedimento de anlise. A figura 1.5 mostra uma tabela de freqncias. Cada janela do SPSS tem a sua barra de menus (figura 1.6) com as suas prprias opes, disponveis no cimo de cada janela do SPSS. Os menus Statistics e Graphs esto disponveis em todas as janelas, tornando ento mais fcil produzir novos resultados sem ter de trocar de janela. Figura 1.5
SPSS
Cada janela do SPSS tem a sua barra de ferramentas que proporciona rpido acesso s tarefas mais comuns. A figura 1.7 mostra os componentes bsicos de uma barra de ferramentas. Se colocar o ponteiro do rato sobre o boto de uma ferramenta, aparece uma breve descrio da ferramenta. Estas barras encontram-se disponveis sob as barras de menus de cada uma das janelas do SPSS.
Figura 1.7- Barra de ferramentas da janela de edio
A maioria das selees feitas em menus geram uma caixa de dilogo. Estas caixas de dilogo servem para selecionar variveis e opes de anlise. No exemplo 1 pode-se observar o procedimento tpico para selecionar uma varivel para anlise numa caixa de dilogo.
Como selecionar uma varivel para anlise numa caixa de dilogo? Figura 2.1
SPSS
Se a base de dados estiver na lista apresentada basta clicar duas vezes sobre a base de dados pretendida e de seguida em OK. Use as teclas de direo do teclado para procurar a base de dados pretendida. Se a base de dados no estiver na lista apresentada clique sobre More Files na referida lista. Aparecer ento a caixa de dilogo Open File (figura 1.8 ). Selecione a base de dados pretendida clicando-a, e de seguida clique no boto Open. Figura 1.8
SPSS
Se j estiver a usar o SPSS, seleccione o menu File>Open (figura 1.9) a partir da janela de edio (SPSS Data Editor).Aparecer de novo a caixa de dilogo Open File (figura 1.8). Proceda de modo semelhante ao descrito anteriormente. Figura 1.9
Para procurar os dados numa localizao diferente dever na caixa de dilogo Open File procurar o ficheiro pretendido utilizando a seta do rectngulo Look in: (figura 1.10).
Figura 1.10
SPSS
Os dados armazenados num outro formato de dados que no o do SPSS podem ser lidos mudando a opo Files of Types no fundo da janela Open File (figura 1.11). Figura 1.11
Do mesmo modo, utiliza-se a janela de edio (SPSS Data Editor), para gravar uma base de dados, seleccionando as opes correspondentes do menu File. Podemos gravar uma base de dados, substituindo-a pela anterior existente na mesma localizao, seleccionando o menu File>Save (figura 1.12). A base de dados automticamente gravada. Figura 1.12
SPSS
Se no quisermos perder a base de dados anterior, gravamos a base de dados com um nome e/ou formato diferente e/ou numa localizao diferente. Para tal seleccionamos o menu File>Save As (figura 1.13). Figura 1.13
SPSS
10
Aparecer ento no ecr a caixa de dilogo Save Data As (figura 1.14). Para gravar uma base de dados com um nome diferente digite o nome pretendido na caixa File Name da caixa de dilogo Save Data As. Figura 1.14
10
SPSS
11
Apresentar-se- como exemplo a construo de uma base de dados, a partir dos dados apresentados na figura 1.16. A primeira varivel da base de dados, apresentada na figura anterior, chamada 'Id' usada para identificar cada caso introduzido. O objetivo desta seco disponibilizar um modo eficiente de criar uma base de dados, de tal maneira que durante o tratamento estatstico dos dados no ocorram dvidas acerca do que representa cada uma das variveis e da forma como deveriam estar definidas. Figura 1.17
Antes da introduo dos dados, necessrio criar e definir variveis. Para criar uma nova varivel basta clicar duas vezes seguidas sobre uma das etiquetas 'var', que se encontra no cimo das colunas vazias 11
SPSS
12
da janela de edio (figura 1.17). Surge ento no ecr a caixa de dilogo Define Variable. A figura 1.18 mostra a caixa de dilogo Define Variable com uma breve descrio dos seus componentes. Apenas podemos definir uma varivel de cada vez.
Figura 1.18 Para definir uma varivel dever seguir os seguintes passos: 1 passo: Definir o nome da varivel Na caixa Variable Name da caixa de dilogo Define Variable (figura 1.19), substitui-se 'VAR00001' por um nome sugestivo que permita identificar a que se referem os valores que se vai introduzuir nessa coluna. Na figura 20 apresenta-se a imagem resultante para a varivel sexo.
Figura 1.19
12
SPSS
13
Qualquer nome de uma varivel no pode ter mais do que oito caracteres. Figura 1.20
2 passo: Modificar as definies da varivel Definir o tipo de dados Para definir o tipo de dados dos valores a introduzir dever clicar no boto Type da caixa de dilogo Define Variable (figura 1.21), surgir ento a subcaixa de dilogo Define Variable Type (figura 1.22). Do lado esquerdo podemos escolher o tipo de dados relativos varivel a defenir seleccionando o crculo correspondente.
Figura 1.21
13
SPSS
14
Figura 1.22
As variveis podem ser tanto quantitativas, como por exemplo a altura ou a idade, ou ser qualitativas como o sexo ou nome. Neste caso escolhe-se o tipo de dados numrico, embora a varivel seja qualitativa como apresentado na figura 1.23.
Figura 1.23
14
SPSS
15
No caso das variveis qualitativas til usar valores numricos. Dever ser usado este procedimento, sempre que possvel, excepto por exemplo em variveis tais como 'Nome', na qual no traz vantagem usar valores numricos. Aps estar definido o tipo de dados dever clicar em Continue da subcaixa de dilogo Define Variable Type (figura 1.23) para voltar caixa de dilogo Define Variable figura 1.24 onde poder observar alteraes na zona de descrio.
Figura 1.24
O tipo de dados numrico deve ser preferencialmente usado relativamente aos outros tipos de dados. Atribuir etiquetas a variveis e a valores de variveis
Para atribuir uma etiqueta ao nome da varivel e/ou aos valores da varivel dever clicar no boto Labels da caixa de dilogo Define Variable (figura 1.25), aparecer ento a subcaixa de 15
SPSS
16
dilogo Define Labels (figura 1.26). A figura 1.27 apresenta uma sugesto para a etiqueta da varivel 'sexo'.
Figura 1.25
Figura 1.26 16
SPSS
17
Figura 1.27 A caixa Value Labels da subcaixa de dilogo Define Labels (figura 1.28), permite atribuir etiquetas aos valores de variveis qualitativas, como por exemplo para a varivel sexo. Para tal, atribumos a cada valor numrico uma etiqueta. No caso da varivel sexo (varivel qualitativa) podemos usar o valor 1 e 2 em vez de masculino e feminino respectivamente, na introduo da varivel sexo.
Figura 1.28 Deste modo, podemos atribuir a etiqueta masculino ao valor 1 e feminino ao valor 2. Para atribuir etiquetas a valores de variveis, escreve-se nas caixas ao lado das opes Value e Value Label o valor e a etiqueta respectivamente, como se pode observar na figura 1.29.
17
SPSS
18
Figura 29
Figura 1.30 Para introduzir cada uma das etiquetas, clica-se no boto Add. O resultado dever ser uma imagem semelhante figura 1.30. Quando tiver introduzido todas as etiquetas dever clicar em Continue da subcaixa de dilogo Define Labels (figura 1.30) para voltar caixa de dilogo Define Variable (figura 1.31).
18
SPSS
19
Figura 1.31
Valores desconhecidos. muitas vezes til saber porqu a informao no conhecida. Por exemplo, num questionrio podemos ter dois tipos de valores desconhecidos, e querer distinguilos. O primeiro devido ao facto de um indivduo no ter dado uma resposta, e o segundo devido ao facto de que a varivel em questo no se aplica a esse indivduo. Neste caso atribui-se um valor a cada um dos casos e define-se as etiquetas para esses valores. Por exemplo se desconhecemos o sexo de um indivduo, clica-se no boto Labels da caixa de dilogo Define Variable (figura 1.25), fazendo surgir a subcaixa de dilogo Define Labels (figura 1.30). O resultado apresentado na figura 1.32. De seguida clica-se em Continue (figura 1.32) para voltar caixa de dilogo Define Variable (figura 1.31).
19
SPSS
20
Classificao de variveis
Apesar de haver vrios formas de classificar variveis, vo ser apresentados apenas os tipos de de variveis que mais condicionam a anlise estatstica. Contnuas
Variveis (ex: tenso arterial, idade, altura,...)
Categricas
nominais (ex:sexo, grupo sanguneo,...) ordinais (ex:escala qualitativa - ..., suf, bom, mto bom; Apgar;
estadiamento de cancro,;...)
As variveis contnuas so variveis que podem assumir qualquer valor num intervalo. Por exemplo o peso uma varivel contnua pois pode assumir qualquer valor (78,453437.... Kg). J o nmero de filhos s pode assumir determinados valores (1,2,3...); a estas variveis d-se o nome de categricas pois os valores que assumem podem ser considerados categorias. No faz sentido falar na categoria 78,453437...Kg mas j faz sentido falar na categoria "casal com 2 filhos". As variveis categricas por sua vez ainda se dividem em ordinais e nominais. Se as categorias da varivel tm uma ordem, isto , se se pode dizer que uma categoria est antes da outra, a varivel diz-se ordinal; se as categorias no tm ordem (por exemplo as categorias do sexo, feminino e masculino, no tm uma ordenao prpria) asvariveis designam-se de nominais. Muitas vezes, por convenincia da anlise "categorizam-se" variveis contnuas. Por exemplo a idade (varivel contnua) pode ser "categorizada" em grupos etrios (varivel categrica), assim um indivduo que tenha 24,4 anos pertence, por exemplo, categoria [20 a 30 anos]. A seguir veremos como se pode sumariar a informao dos diferentes tipos de variveis.
Variveis categricas
Os dados apresentados nos exemplos deste captulo constam da base de dados alchool.sav.
Variveis nominais Uma forma simples de sumariar variveis nominais contar o nmero de indivduos em cada categoria. Esta contagem designada por frequncia de uma categoria. A varivel pode ento ser descrita numa tabela de frequncias, onde so indicadas as categorias da varivel e as respectivas frequncias. Pode ser ainda acrescentada na tabela as frequncias expressas em forma de percentagem. A tabela 2.1, refere-se distribuio de 489 recm nascidos por Hospital. Da tabela observa-se, por exemplo, que 195 dos recm nascidos nasceram no Hospital B e que 33% nasceram no Hospital C.
20
SPSS
21
21
SPSS
22
Outra forma de apresentar as frequncias usar um grfico de barras como na figura 2.1. Cada barra representa a frequncia de cada categoria. No caso das variveis nominais as categorias podem ser apresentadas por qualquer ordem. No grfico da figura 2.1, referente tabela 2.1, optou-se por apresentar as categorias por ordem decrescente de frequncia.
22
SPSS
23
23
SPSS
24
Para este tipo de variveis tambm se costuma usar um grfico circular. O crculo representa os 100% dos indivduos e cada 'fatia' proporcional frequncia de cada categoria. Na figura 2.2 pode-se observar que o Hospital B tem mais recm nascidos que o Hospital A e C.
24
SPSS
25
25
26
A forma de sumariar variveis ordinais semelhante das variveis nominais, ainda que no se possa alterar a ordem das categorias uma vez que estas tm uma ordem prpria. A tabela de frequncias em baixo (tabela 2.2) apresenta a escolaridade das mes dos 489 recm-nascidos. Nesta tabela inclui-se tambm uma coluna com a percentagem acumulada, que indica soma da percentagem da categoria respectiva com as percentagens das categorias anteriores.
Tabela 2.2 - Distribuio do grau de escolaridade das mes de 489 recm nascidos
Da tabela 2.2 pode-se ento observar que 6% das mes (28 mes) no tiveram educao formal e que 63% tiveram menos que a escola secundria, isto , 6% sem educao formal mais 57% com a escola primria.
Variveis contnuas
Os dados apresentados nos exemplos deste captulo constam da base de dados alchool.sav.
Para descrever ou sumariar variveis contnuas uma tabela de frequncias no , normalmente, muito til, pois grande parte dos valores tero frequncia 1 e desta forma a tabela de frequncias seria uma grande lista de valores pouco menos complexa que a totalidade dos dados da varivel. Da mesma forma um grfico de barras para dados contnuos seria composto por uma sria de pequenas barras. Uma melhor opo a este grfico o histograma. O histograma semelhante ao grfico de barras com a diferena que cada barra representa a frequncia de um intervalo de valores. Cada intervalo de valores tem a continuao no intervalo da barra seguinte. Por isso as barras so representadas todas juntas.
26
SPSS
27
Figura 2.3 Na figura 2.3 o histograma refere-se ao peso nascena de 462 recm nascidos. A barra mais escura representa o nmero de recm nascidos (setenta e trs) com peso entre os 3300gr e 3500gr. As variveis contnuas podem tambm ser sumariadas usando medidas de sumrio. A mdia um exemplo bem conhecido destas medidas (a mdia em particular uma medida de posio e, dentro destas, uma medida de tendncia central). Uma forma de sumariar os peso dos 462 recm nascidos apresentar o peso mdio, 3263gr. Este valor calculado somando os 462 pesos e dividindo por 462. Outra medida de tendncia central a mediana. A mediana indica o centro da distribuio da varivel, ou seja, o valor acima do qual esto 50% dos valores da varivel e abaixo os restantes 50%. Uma forma simples de calcular a mediana ordenando todos os valores sendo a mediana o valor central. Por exemplo, para calcular oa mediana do conjunto 4, 2, 3, 2, 7 vamos primeiro orden-lo: 2, 2, 3, 4, 7. O valor do meio o 3, ento 3 a mediana do conjunto. Na figura 2.4 est representada a distribuio do peso de 462 recm nascidos. A mediana neste caso 3300gr, o que quer dizer que 50% dos recm nascidos (231 recm nascidos) tm um peso inferior a 3300gr e os restantes 50% tm um peso superior a 3300gr. O conceito da mediana pode ser generalizado para outras percentagens alm dos 50%. Por exemplo, podemos querer saber qual o valor abaixo do qual esto 10% dos indivudos. A esta medida de posio d-se o nome de percentil 10. A mediana portanto, o percentil 50. Alguns percentis tm uma designao especial. Por exemplo o percentil 25 e o percentil 75 so referidos como o 1 quartil e o 3 quartil, respectivamente.
27
SPSS
28
Figura 2.4 No exemplo dos 462 recm nascidos os percentis 5 e 95 so respectivamente 2303gr e 4097gr. Isto quer dizer que 90% dos recm nascidos tm o peso compreendido entre as 2303gr e 4097gr como est indicado na figura 2.5 .
Figura 2.5 Outro tipo de medidas de sumrio so usadas para indicar o grau de disperso dos dados; estas medidas designam-se por medidas de disperso. O desvio padro um exemplo destas medidas e indica a variao dos dados volta da mdia. A tabela 2.3 apresenta alguns exemplos dos desvio mdia dos pesos nascena dos 462 recm nascidos
28
SPSS
29
Tabela 2.3 - Desvios (diferenas) mdia dos pesos dos recm nascidos
Peso - mdia 3920 - 3263 3020 - 3263 3290 - 3263 diferena 657 243 27
: : : : : : O desvio padro uma medida que resume todos estes desvios a um nico valor, neste caso 553.5gr. Os dois histogramas da figura 2.5 referem-se a dados com a mesma mdia mas com diferentes disperses volta dos mesmos. Os dados referentes ao histograma A tm uma maior disperso do que os do histograma B, assim o desvio padro do A maior do que o B.
Figura 2.5 A diferena entre dois percentis pode tambm ser usada para descrever a variao dos dados. A esta medida d-se o nome de mbito (range). Por exemplo o mbito dos percentis 5 e 95 do peso dos 463 recm nascidos 1794 gr. (4097gr - 2303gr). Um dos mbitos mais usados o mbito interquartil, ou seja, a diferena entre o percentil 75 e 25. A escolha das medidas de posio e disperso apropriadas Um dos factores que se deve ter em conta na escolha das medidas a usar o tipo de distribuio da varivel. A mdia mais informativa do que a mediana pois no seu clculo so utilizados os valores da varivel, enquanto no clculo da mediana apenas se usa a posio relativa de cada valor. Consideremos o seguinte conjunto de valores como exemplo, 2, 4, 5, 6, 8 A mdia (2+4+5+6+8)/5 = 5 e a mediana tambm 5. Mas se alterarmos o ltimo valor para 23, isto 2, 4, 5, 6, 23 a mediana continua a ser 5 mas a mdia foi alterada para 8. Neste exemplo pode-se observar que a mdia mais afectada por valores extremos do que a mediana. Em situaes em que a varivel apresenta valores muito extremos, deve-se optar pela mediana dando assim uma idicao mais correcta da zona central da distribuio. Uma regra geral muitas vezes utilizada apresentar a mdia em distribuies simtricas e a mediana em distribuies assimtricas. 29
SPSS
30
Relativamente s medidas de disperso, estas dever ser escolhidas em funo da medida de tendncia central. O desvio padro s dever ser apresentado se estiver associado mdia, uma vez que esta medida se refere aos desvios mdia. No caso de se apresentar a mediana poder-se- optar por indicar o mbito, por exemplo interquartil, ou apresentar dois pecentis. Os pares de percentis mais frequentemente usados so o (percentil 5, percentil 95) e o (percentil 25, percentil 75).
, onde a mdia e o desvio padro da populao. A figura 1 mostra a curva da distribuio normal com mdia 3263,2 e desvio padro 553,52, aproximando a distribuio da varivel BIRHTWT da base de dados alchool.sav.
30
SPSS
31
31
SPSS
32
Figura 2 Na varivel BIRHTWT da base de dados alchool.sav, se calcularmos a mdia mais ou menos dois desvios padres, 3263,2 2 x 553,52 = 2156 3263,2 +2 x 553,52 = 4370 pode-se observar que estes valores so semelhantes* ao percentis 2,5 e 97,5 respectivamente. Percentil 2,5= 1901,75 Percentil 97,5= 4262,75
*As diferenas devem-se ao facto da varivel BIRTHWT no ser exactamente igual distribuio normal mas sim uma aproximao.
Figura 1
Quadro
32
SPSS
33
Pelo Teorema do Limite Central, a distribuio das mdias destas amostras tende para uma distribuio normal com mdia (igual mdia da populao) e com desvio padro (desvio padro da populao a dividir pela raiz quadrada do tamanho das amostras). Observemos o seguinte exemplo: vamos considerar como populao de 1375 os ndividuos internados num hospital por apendicite. A distribuio do tempo desse internamento da populao est representada pelo histograma na figura 2 . Pode-se observar que a mdia e o desvio padro do tempo de internamento nesta populao so respectivamente 6 e 5,46.
Figura 2 Suponhamos ento que se fazem 200 amostras de tamanho N=100 e para cada uma dessas amostras a mdia calculada. A figura 3 mostra a distribuio das 200 mdias. Note-se que o histograma comea a aproximar-se de uma distribuio normal, bem como a mdia (6,4) j bastante semelhante mdia da populao (6). Tambm o desvio padro da distribuio das mdias (0,56) j se aproxima muito do valor previsto pelo teorema do limite central ( / n = 5,46/10 = 0,55). Se o nmero de amostras feitas fosse maior todas estes valores tornariam-se mais precisos.
33
SPSS
34
Figura 3 Ao desvio padro da distribuio das mdias amostrais ( / n ) d-se o nome de erro padro da mdia. Toda a descrio anterior apenas terica e o que num estudo se tem apenas uma amostra de uma populao. A importncia do resultado sabermos calcular qual a variabilidade das amostras dessa populao - o erro padro. Se o erro padro for pequeno as amostras com mdias semelhantes mdia da populao so mais frequentes e assim mais provvel que a amostra que obtivemos seja uma dessas amostras. O erro padro pode ser controlado com o tamanho da amostra. Quanto maior for o tamanho da amostra menor ser o erro padro. (Como obter o erro padro da mdia no SPSS?)
34
SPSS
35
35
SPSS
36
O intervalo, de
a, inclui 95% das possveis mdias de amostras da populao(figura 3). Pode-se ento afirmar que com 95% de confiana a mdia da amostra observada encontra-se nesse intervalo .
figura 3 Mas dizer que a mdia da amostra se encontra no intervalo referido equivalente a afirmar, com 95% de certeza, que mdia da populao se encontra no intervalo ( X 1,96( / (figura 4) 36
n ) , X + 1,96( / n ) )
SPSS
37
A este intervalo d-se o nome de Intervalo de Confiana a 95% para a mdia. Na base de dados alchool.sav a mdia do peso dos recm-nascidos 3263gr e o intervalo de confiana para a mdia da varivel BIRTHWT (3213, 3314). Pode-se ento dizer que a mdia do peso dos recm nascidos na populao est, com 95% de confiana, entre as 3213 e 3314 gramas. (Como obter um intervalo de confiana para a mdia no SPSS?)
37
SPSS
38
A figura 5 mostra graficamente os intervalos de confiana a 95% para a mdia do BIRTHWT para cada um dos sexos. A este grfico d-se o nome de ERROR BAR.
38
SPSS
39
39
SPSS
40
40
SPSS
41
Efectivamente verificou-se uma diferena na amostra (0.26 = 0.96 - 0.70). Mas ser esta diferena devida a erros aleatrios do processo da amostragem ou devida a uma diferena na populao? Da mesma forma que no espervamos que 100 lanamentos de uma moeda equilibrada tivesse um 41
SPSS
42
resultado exacto de 50 caras e coroas; ainda que no haja diferenas entre o BMD dos dois grupos, no seria de esperar que as duas mdias da amostra fossem exactamente iguais. Vamos ento calcular a probabilidade de, numa populao onde no existe diferena entre os dois grupos, ocorrer uma amostra com uma diferena de 0.26, ou uma diferena maior. Hiptese nula (HN): mdiano fracturados = mdiafracturados , ou de outra forma, HN: mdia no fracturados mdia fracturados=0 Na amostra observamos que: Mdia
no fracturados
Utilizando um teste para comparao de mdias, obtm-se que a probabilidade de se observar esta diferena na amostra, ou uma superior, se a hiptese nula for verdadeira, menor do que 0.001. Este teste de comparao de duas mdias designa-se de t-student, ou simplesmente teste t. A razo do nome vem da utilizao da distribuio com o mesmo nome, que substitui a distribuio normal no caso de no se conhecer o desvio padro da populao e em vez deste utilizar-se o desvio padro da amostra. (Como fazer o teste t no SPSS?)
42
SPSS
43
43
SPSS
44
Para utilizar este teste necessrio fazer duas assumpes. A primeira que os dois grupos tm distribuies normais e a segunda que o desvio padro dos dois grupos semelhante. No caso do Output do SPSS, este apresente primeiro um teste de comparao dos desvios padres (Teste de Levene). 44
SPSS
45
Tipos de Erros
Quando se rejeita ou aceita uma hiptese usando um teste estatstico baseado numa probabilidade, dois erros podem acontecer: Rejeitar a Hiptese Nula e esta ser verdadeira - Erro Tipo I (alfa) Aceitar (no rejeitar) a Hiptese Nula e esta ser falsa - Erro Tipo II (beta). Como normalmente a Hiptese Nula contrria hiptese de investigao, h tendncia para uma maior preocupao com o erro tipo I. Para ilustrar isto, imagine a situao de uma investigao sobre efeito de um novo frmaco (a Hiptese Nula seria o frmaco no tem efeito) e que erradamente se rejeita a Hiptese Nula com a consequente afimao de que o frmaco tem efeito... Por tradio (e sem mais nenhuma razo) costuma-se limitar o Erro Tipo I a 0.05. Isto equivale a dizer que se a probabilidade observada do teste de hiptese for inferior a 0.05, rejeita-se a hiptese nula, caso contrrio diz-se que no h evidncia suficiente para rejeitar a Hiptese Nula (ou seja aceita-se). Apesar desta comparao da probabilidade com o erro tipo I, no se deve confundir a probabilidade com o erro. No exemplo anterior do peso nascena, seguindo a regra apresentada deveriamos rejeitar a Hiptese de que no h diferena entre o BMD dos fracturados e no fracturados, ou seja, afirmar que indivduos com fractura do colo do fmur tm BMD diferente dos sem fractura.
6. Tabelas de contingncia
Tabela 1 - Distribuio do consumo de lcool por grupo etrio
As tabelas de contingncia so utilzadas para estudar a relao entre duas variveis categricas descrevendo a frequncias das categorias de uma das variveis relativamente s categorias de outra. Na base de dados alchool.sav, vamos observar qual o consumo de tabaco no incio da gravidez (CIGPREG), em funo do grupo etrio da me (MAGE). A Tabela (de contingncia) 1 apresenta o consumo de tabaco por grupo etrio (ambas as variveis so categricas). Podemos ler na tabela que 252 mes tm idade entre 21 e 30 anos e no fumaram no incio da gravidez. (Como obter uma tabela de contingncia no SPSS?)
45
SPSS
46
46
SPSS
47
Conforme o problema a estudar, a tabela pode ser completada com as percentagens referentes ao total da linha, coluna ou ao valor total. No exemplo da Tabela 1, far sentido acrescentar as percentagens por para se comparar em cada grupo etrio qual a percentagem de mes que fumaram (Tabela 2).
Tabela 2- Distribuio do consumo de lcool por grupo etrio
Na Tabela 2 podemos ento observar que h mais mes fumadoras no grupo etrio do 13 aos 20 anos (35%) do que no grupo etrio dos 36 aos 55 anos (5%). (Como obter uma tabela de contingncia no SPSS com as percentagens?)
47
SPSS
48
48
SPSS
49
Qui-quadrado
Podemos observar na tabela 1 que parece haver uma relao entre a idade das mes e o consumo do tabaco, ou seja, parece que h mais fumadadoras entre as mes mais jovens do que entre as mais velhas.
Tabela 1- Distribuio do consumo de lcool por grupo etrio
A questo agora, saber se esta relao encontrada na amostra significativa, ou seja, se h evidncia suficiente para considerarmos que existe uma relao entre consumo de tabaco e a idade das mes. 49
SPSS
50
Pode-se observar que no total, 12% das mes no fumaram no incio da gravidez. Se no existisse relao com o grupo etrio, seria de esperar que esta percentagem de mantivesse em todos os grupos. Por exemplo, existem 297 mes no grupo etrio dos 21ao 30 anos, portanto seria de esperar que 36 mes fossem fumadoras (297x12%=36 mes). Este clculo pode ser generalizado para obter o valor esperado para cada clula da tabela, multiplicado o total da linha pelo total da coluna e dividir pelo total (figura 1). Para testar a hiptese nula de que no existe relao entre as duas variveis, usamos a seguinte estatstica designada de qui-quadrado ( ).
Tabela
1.
Distribuio
do
consumo
de
lcool
por
grupo
etrio
O qui-quadrado no mais do que uma comparao dos valores observados na tabela com os valores esperados se no existisse relao entre as duas variveis, ou seja se a hiptese nula fosse verdadeira. A partir do qui-quadrado pode-se ento calcular a probabilidade de se obter a diferena entre os valores observados e esperados, ou uma diferena superior, se a Hiptese Nula fosse verdadeira (valor p). Como em todos os testes de hiptese, com base nesta probabilidade que decidimos se rejeitamos ou aceitamos a Hiptese Nula. No caso da relao do consumo de tabaco e grupo etrio das mes, o valor p associado ao quiquadrado encontrado (17,6) 0.001, ou seja, podemos dizer que existe uma relao (estatstica) entre o consumo de tabaco e a idade das mes. (Como obter o teste do Qui-quadrado no SPSS?)
50
SPSS
51
51
SPSS
52
52
SPSS
53
53
SPSS
54
Eur J Cancer Prev 1999 Feb;8(1):41-8 Diet and gastric cancer mortality in Portugal was studied using a multivariate ecological model. The factors investigated over 18 districts were the relationship between gastric cancer mortality (1994-96), dietary habits, and socio-economic factors (1980-81). Mortality geographical pattern was established using age-standardized mortality rates, per capita dietary consumption of foodstuffs and nutrients was obtained from the National limentary Survey (1980-81), and data on socio-economic factors from the 1981 National Census. Pearson correlation coefficients and simple and multiple linear regression models were used. The mortality geographical pattern resembled a north-south gradient, and dietary habits and socio-economic factors had great variability throughout the country. The highest negative correlation coefficients between dietary consumption and gastric cancer mortality were obtained for vegetables, fruit, vitamin A and carotene consumption, and the highest positive coefficients were for rice, wine and carbohydrate consumption. No significant correlations were obtained for socio-economic factors. In multiple regression analysis, vegetable and rice consumption could account for 79% of the gastric cancer mortality variability for males, and vegetable and meat consumption could account for 69% of this variability for females. Interestingly, meat consumption was found to be protective. A mean increase of 100 g/person/day in vegetable consumption would imply a mean predicted decrease of 10 (95% CI 6-14) and 5 (95% CI 3-7) gastric cancer deaths per 100,000 persons/year, for males and females respectively, in simple regression analysis. Such a decrease represents about one-third of the mean national gastric cancer mortality rate. Therefore, an increase in vegetable consumption is strongly recommended. Considere as seguintes questes: Qual a relao encontrada entre o consumo de fruta e a mortalidade por cancro do estmago? Qual a diminuio esperada na mortalidade por cancro do estmago, havendo um aumento mdio de 200 g/pessoa/dia do consumo de vegetais? Neste mdulos vo ser apresentados mtodos para analisar a relao entre duas variveis quantitativas.
Diagramas de disperso
Consideremos o exemplo do estudo referente ao abstract apresentado anteriormente. Nesse estudo analisou-se a relao entre o consumo de vrios alimentos pelos 18 distritos de Portugal com a mortalidade por cancro do estmago (gastric cancer) feminino e masculino nessas mesmas regies. Os dados apresentados na Tabela 1 referem-se ao consumo mdio de vegetais por dia e s respectivas taxas de mortalidade do sexo masculino e feminino em cada um dos distritos. (Pode fazer download dos
dados: cestomago.sav)
54
SPSS
55
Tabela 1 - Tx de mortalidade masculina e feminina por distritos e consumo mdio dirio de vegetais (cestomago.sav) Distrito Mortf Mortm Vegetais Aveiro 17.07 31.10 227.6 Beja 15.23 34.80 188.9 Braga 25.17 46.13 164.3 Bragana 23.33 41.20 101.9 Castelo Branco 12.20 26.93 266.7 Coimbra 10.90 23.60 300.9 vora 14.37 25.43 209.0 Faro 12.07 27.00 222.1 Guarda 16.77 35.70 231.1 Leiria 11.77 25.30 193.0 Lisboa 13.80 30.27 241.8 Portalegre 13.43 26.77 246.5 Porto 19.57 39.77 166.3 Santarm 9.97 22.80 344.5 Setbal 15.30 35.43 226.2 Viana do 21.00 45.10 147.5 Castelo Vila Real 16.53 45.47 98.3 Viseu 14.70 32.17 207.1
Uma forma simples de visualizar uma possvel relao entre a quantidade de vegetais consumida e a taxa de mortalidade utilizar um diagrama de disperso para estas duas variveis.
Figura 1 Podem-se observar na figura 1 e figura 2, os diagrama de disperso para cada sexo, relativos ao consumo mdio dirio de vegetais e taxas de mortalidade.
55
SPSS
56
Figura 2 Cada ponto do diagrama refere-se a um determinado distrito de Portugal, indicando o consumo mdio de vegetais e a respectiva taxa de mortalidade. Na figura 1 est assinalado o ponto correspondente ao distrito do Porto. (Como obter estes diagramas de disperso no SPSS?)
56
SPSS
57
57
SPSS
58
Uma observao dos grficos da figura 1 e figura 2 sugere que com o aumento consumo de vegetais a taxa de mortalidade diminui.
Figura 3 Esta relao pode ser aproximada pela recta indicada na figura 3 e figura 4. A recta apenas aproxima a sugestionada relao entre as duas variveis. Se esta fosse usada para estimar a taxa de mortalidade para um determinado consumo de vegetais teria, como se observa na figura 4, um erro associado.
58
SPSS
59
A seguir veremos como se pode avaliar se a recta uma boa ou m aproximao da relao entre a taxa de mortalidade e o consumo de vegetais.
59
SPSS
60
Correlao
Antes de continuarmos com o exemplo anterior, observemos os diagramas de disperso da figura 5. Figura 5 - Quatro diagramas de disperso com diferentes relaes entre X e Y e a recta que aproxima estas relaes. No grfico D est a ponteado uma curva que melhor aproxima a relao quadrtica das variveis.
60
SPSS
61
Os diagramas apresentam quatro situaes distintas: A - A recta representa a relao perfeita entre X e Y. A relao entre as duas variveis negativa, i.e., quando X aumenta Y diminui. B - A recta uma boa aproximao da relao entre X e Y. A relao entre as duas variveis positiva, i.e., quando X aumenta Y tambm aumenta. C - A recta no uma boa aproximao pois no h relao entre X e Y. D - A recta no uma boa aproximao da relao entre X e Y. A relao entre X e Y no linear, i.e., no representada por uma recta. Na figura sugerida, a tracejado, uma relao quadrtica. Para avaliar se a recta , ou no, uma boa aproximao da relao entre duas variveis utiliza-se uma estatstica designada coeficiente de correlao de Pearson, ou simplesmente, correlao. Este coeficiente normalmente representada pela letra r. A correlao, ento, uma medida da 'qualidade' da aproximao da relao entre duas variveis por uma recta, ou seja, a correlao mede a 'fora' da associao linear entre duas variveis.
Nota: A frmula de clculo do coeficiente de correlao no faz parte do programa deste mdulo, mas pode ser consultada aqui.
Frmula do coeficiente de correlao de Pearson Sejam xi e yi os valores das variveis X e Y. e so respectivamente as mdias dos valores xi e yi. A frmula do coeficiente de correlao de Pearson ento,
O coeficiente de correlao varia entre -1 e 1. O valor 0 (zero) significa que no h relao linear, o valor 1 indica uma relao linear perfeita e o valor -1 tambm indica uma relao linear perfeita mas 61
SPSS
62
inversa, ou seja quando uma das variveis aumenta a outra diminui. Quanto mais prximo estiver de 1 ou -1, mais forte a associao linear entre as duas variveis.
Nota: Uma correlao 0, ou prxima de 0, no implica obrigatoriamente, que as duas variveis no esto relacionadas mas apenas que as duas variveis no esto relacionadas de uma forma linear. No caso do diagrama D da figura 5 as duas variveis esto relacionadas mas no linearmente.
Nos diagramas de disperso apresentados (figura 5) os coeficientes de correlao so respectivamente, A:-1,B: 0.91, C: 0 e D: 0. No estudo da relao entre o consumo de vegetais e taxa de mortalidade, obtm-se uma correlao de 0.743 e -0.814 para o sexo feminino e masculino respectivamente (figura 6).
62
SPSS
63
63
SPSS
64
64
SPSS
65
Outra vantagem do uso da correlao como medida de associao linear de duas variveis que o quadrado deste coeficiente (r2) interpretado como a percentagem de variao explicada por uma das variveis em relao outra. No caso estudado, pode-se dizer que o consumo de vegetais explica 55% 2 2 (=0.743 ) da variao da taxa de mortalidade feminina e 66% (=0.814 ) da masculina. (Pode praticar a identificao do valor de correlaes numa simulao)
Figura 3 A definio do papel de cada varivel importante pois o modelo resultante depende dessa escolha ainda que a correlao seja igua nas duas situaes. Ou seja, o modelo para prever a mortalidade para o consumo de vegetais distinto do modelo para prever o consumo de vegetais atravs da mortalidade. Graficamente o modelo de regresso linear apresentado como a recta que melhor aproxima a relao entre a varivel dependente e a varivel independente. Esta recta j tinha sido usado para se ter ideia da magnitude da correlao (figura 3 e figura 4), mas nada foi dito quanto sua construo. 65
SPSS
66
Figura 4 - Diagrama de disperso do consumo mdio dirio de vegetais e a taxa de mortalidade masculina com a recta que melhor aproxima a relao entre as duas variveis.
Figura 4 A representao matemtica do modelo ento, a equao dessa recta: y = b0 + b1*x, onde b0 a ordenada na origem (onde a recta se cruza com o eixo dos Y) e b1 o
declive da recta
No exemplo estudado a equao pode ser traduzida para, tx mortalidade = b0 + b1 * consumo de vegetais Para definir esta recta, basta ento encontrar os coeficientes b0 e b1. Estes valores so calculados de tal maneira que a soma das distncias indicadas na figura 7 recta seja a menor possvel, ou seja, b0 e b1 so calculados de forma a minimizar a soma das distncias recta.
66
SPSS
67
Por exemplo, no grfico A da figura 8, a soma das distncias respectiva recta inferior do grfico B. Assim, a recta do grfico A um modelo melhor do que a de B. Figura 8 - A som das distncias dos pontos recta do grfico A menor do que a do B.
No estudo da mortalidade por cancro do estmago, a recta que melhor prev a mortalidade feminina por consumo de vegetais a da figura 3 e tem equao : y = 26.33 - 0.05x (figura 9) Ou, tx mortalidade feminina = 26.33 - 0.05 * consumo de vegetais Figura 9 - Coeficientes b0 e b1 da recta de regresso (Output do SPSS).
67
SPSS
68
68
SPSS
69
A interpretao dos coeficientes b0=26.33 e b1=0.05 a seguinte: b0 - o valor previsto da mortalidade com um consumo nulo de vegetais. Neste caso, a taxa de mortalidade prevista seria 26.33. b1 - a diminuio (porque o valor de b1 negativo) prevista da taxa de mortalidade para o aumento de 1 unidade no consumo de vegetais. Neste caso a diminuio prevista da taxa de mortalidade por aumento de 1 unidade no consumo de vegetais de 0.05. ainda possvel construir uma tabela (normalmente refererida coma a tabela ANOVA) com a indicao da quantidade de variao explicada pelo modelo. No caso da taxa de mortalidade do sexo masculino a variao total de 1036,118(figura 10). Figura 10 - A tabela ANOVA do modelo de regresso linear(Output do SPSS).
(A obteno da tabela de ANOVA no SPSS idntico ao procedimento de obter os coeficientes da regresso b0 e b1 ) Quando se considera o consumo de vegetais, a variao da mortalidade explicada de 685,986; que aparece na tabela figura 10 com a designao de "Regression" (quantidade de variao explicada pelo modelo). O resduo simplesmente a variao que fica por explicar, ou seja a diferena da variao total e variao explicada. Note que o quociente da variao explicada pela variao total - 685,986/1036,118=0.66 - a percentagem de variao explicada (o r2) , ou seja, 66%. Como seria de esperar este valor igual 69
SPSS
2
70
quadrado do coeficiente de correlao (r2) - 0,814 =0,66 - que tambm indica a percentagem de variao explicada. Nas ltimas colunas da tabela apresentado um teste de hiptese indicando se a quantidade de variao explicada significativamente diferente de 0. Neste caso P<0,001, ou seja pode-se considerar que a quantidade de variao explicada pelo modelo diferente de 0.
O segundo aspecto que todas estas distribuies normais tm um desvio padro igual, ou seja a taxa de mortalidade no varia de forma diferente para os diferentes valores de consumo de vegetais. A Figura 11 uma representao grfica destas duas assunes.
Bibliografia
Na internet. http://docentes.esa.ipcb.pt/armando/
70