Sie sind auf Seite 1von 70

SPSS

Prof. Daniel Neyra C.

Curso de Processamento e Anlise de Dados.

Software: SPSS for Windows.

Prof. Daniel Francisco Neyra Castaeda

SPSS

Prof. Daniel Neyra C.

1. Introduo ao SPSS
Iniciando o SPSS
Quando o SPSS iniciado, apresentada no ecr a janela uma imagem semelhante figura 1.1 . A imagem contm a janela SPSS for Windows (figura 1.2). Figura 1.1 Figura 1.2

Pode efectuar as seguintes tarefas: Iniciar o manual (Run the tutorial) Construir uma nova base de dados (Type in data) Importar dados, atravs de uma 'query', de uma base de dados j existente (Run an existing Query) Importar dados, atravs de uma 'query', de uma base de dados j existente (Create new Query using DataBase Capture Wizard) Abrir uma base de dados j existente (Open an existing file) bastando para isso seleccionar a tarefa pretendida clicando sobre o crculo correspondente e clicar de seguida em OK. Na parte inferior da janela SPSS for Windows, apresentada uma lista de bases de dados usadas recentemente no SPSS.

SPSS

Prof. Daniel Neyra C.

Interfaces do SPSS
O SPSS para alm de permitir o uso do rato, apresenta outro tipo de interfaces como por exemplo: janelas, barras de ferramentas, barras de estado e caixas de dilogo, que tornam ainda mais acessvel a sua utilizao. As janelas de uso mais freqente so: Figura 1.3

A janela de edio (SPSS Data Editor), mostra o contedo de uma base de dados, e permite criar novas bases de dados ou modific-las. A figura 1.3 mostra a janela de edio. A janela de comandos (SPSS Sintax Editor), mostra os comandos correspondentes s operaes efectuadas entre ficheiros ou dados. Pode gerar comandos a partir das caixas de dilogo e grav-los num ficheiro para uso em sesses subsequentes. A figura 1.4 mostra a janela de comandos. Figura 1.4

SPSS

Prof. Daniel Neyra C.

A janela de resultados (SPSS Viewer ou Output), mostra os resultados automaticamente sempre que executarmos um procedimento de anlise. A figura 1.5 mostra uma tabela de freqncias. Cada janela do SPSS tem a sua barra de menus (figura 1.6) com as suas prprias opes, disponveis no cimo de cada janela do SPSS. Os menus Statistics e Graphs esto disponveis em todas as janelas, tornando ento mais fcil produzir novos resultados sem ter de trocar de janela. Figura 1.5

Figura 1.6 - Barra de menus da janela de edio

SPSS

Prof. Daniel Neyra C.

Cada janela do SPSS tem a sua barra de ferramentas que proporciona rpido acesso s tarefas mais comuns. A figura 1.7 mostra os componentes bsicos de uma barra de ferramentas. Se colocar o ponteiro do rato sobre o boto de uma ferramenta, aparece uma breve descrio da ferramenta. Estas barras encontram-se disponveis sob as barras de menus de cada uma das janelas do SPSS.
Figura 1.7- Barra de ferramentas da janela de edio

A maioria das selees feitas em menus geram uma caixa de dilogo. Estas caixas de dilogo servem para selecionar variveis e opes de anlise. No exemplo 1 pode-se observar o procedimento tpico para selecionar uma varivel para anlise numa caixa de dilogo.

Como selecionar uma varivel para anlise numa caixa de dilogo? Figura 2.1

Abrir e gravar uma base de dados


Se estiver a iniciar o SPSS, pode abrir uma base de dados a partir do ecr de apresentao do SPSS (figura 1.2), selecionando a opo Open an Existing File. Figura 1.2

SPSS

Prof. Daniel Neyra C.

Se a base de dados estiver na lista apresentada basta clicar duas vezes sobre a base de dados pretendida e de seguida em OK. Use as teclas de direo do teclado para procurar a base de dados pretendida. Se a base de dados no estiver na lista apresentada clique sobre More Files na referida lista. Aparecer ento a caixa de dilogo Open File (figura 1.8 ). Selecione a base de dados pretendida clicando-a, e de seguida clique no boto Open. Figura 1.8

SPSS

Prof. Daniel Neyra C.

Se j estiver a usar o SPSS, seleccione o menu File>Open (figura 1.9) a partir da janela de edio (SPSS Data Editor).Aparecer de novo a caixa de dilogo Open File (figura 1.8). Proceda de modo semelhante ao descrito anteriormente. Figura 1.9

Para procurar os dados numa localizao diferente dever na caixa de dilogo Open File procurar o ficheiro pretendido utilizando a seta do rectngulo Look in: (figura 1.10).

Figura 1.10

SPSS

Prof. Daniel Neyra C.

Os dados armazenados num outro formato de dados que no o do SPSS podem ser lidos mudando a opo Files of Types no fundo da janela Open File (figura 1.11). Figura 1.11

Do mesmo modo, utiliza-se a janela de edio (SPSS Data Editor), para gravar uma base de dados, seleccionando as opes correspondentes do menu File. Podemos gravar uma base de dados, substituindo-a pela anterior existente na mesma localizao, seleccionando o menu File>Save (figura 1.12). A base de dados automticamente gravada. Figura 1.12

SPSS

Prof. Daniel Neyra C.

Se no quisermos perder a base de dados anterior, gravamos a base de dados com um nome e/ou formato diferente e/ou numa localizao diferente. Para tal seleccionamos o menu File>Save As (figura 1.13). Figura 1.13

SPSS

10

Prof. Daniel Neyra C.

Aparecer ento no ecr a caixa de dilogo Save Data As (figura 1.14). Para gravar uma base de dados com um nome diferente digite o nome pretendido na caixa File Name da caixa de dilogo Save Data As. Figura 1.14

Criar uma base de dados


Os dados so editados na janela SPSS Data Editor. A figura 15 mostra uma base de dados . Note-se que as linhas da grelha de edio representam casos distintos, enquanto que as colunas representam as variveis que se pretendem estudar a partir de uma amostra de uma determinada populao. Os nomes das variveis aparecem no incio de cada coluna. Figura 1.15

10

SPSS

11

Prof. Daniel Neyra C.

Apresentar-se- como exemplo a construo de uma base de dados, a partir dos dados apresentados na figura 1.16. A primeira varivel da base de dados, apresentada na figura anterior, chamada 'Id' usada para identificar cada caso introduzido. O objetivo desta seco disponibilizar um modo eficiente de criar uma base de dados, de tal maneira que durante o tratamento estatstico dos dados no ocorram dvidas acerca do que representa cada uma das variveis e da forma como deveriam estar definidas. Figura 1.17

Antes da introduo dos dados, necessrio criar e definir variveis. Para criar uma nova varivel basta clicar duas vezes seguidas sobre uma das etiquetas 'var', que se encontra no cimo das colunas vazias 11

SPSS

12

Prof. Daniel Neyra C.

da janela de edio (figura 1.17). Surge ento no ecr a caixa de dilogo Define Variable. A figura 1.18 mostra a caixa de dilogo Define Variable com uma breve descrio dos seus componentes. Apenas podemos definir uma varivel de cada vez.

Figura 1.18 Para definir uma varivel dever seguir os seguintes passos: 1 passo: Definir o nome da varivel Na caixa Variable Name da caixa de dilogo Define Variable (figura 1.19), substitui-se 'VAR00001' por um nome sugestivo que permita identificar a que se referem os valores que se vai introduzuir nessa coluna. Na figura 20 apresenta-se a imagem resultante para a varivel sexo.

Figura 1.19
12

SPSS

13

Prof. Daniel Neyra C.

Qualquer nome de uma varivel no pode ter mais do que oito caracteres. Figura 1.20

2 passo: Modificar as definies da varivel Definir o tipo de dados Para definir o tipo de dados dos valores a introduzir dever clicar no boto Type da caixa de dilogo Define Variable (figura 1.21), surgir ento a subcaixa de dilogo Define Variable Type (figura 1.22). Do lado esquerdo podemos escolher o tipo de dados relativos varivel a defenir seleccionando o crculo correspondente.

Figura 1.21

13

SPSS

14

Prof. Daniel Neyra C.

Figura 1.22

As variveis podem ser tanto quantitativas, como por exemplo a altura ou a idade, ou ser qualitativas como o sexo ou nome. Neste caso escolhe-se o tipo de dados numrico, embora a varivel seja qualitativa como apresentado na figura 1.23.

Figura 1.23

14

SPSS

15

Prof. Daniel Neyra C.

No caso das variveis qualitativas til usar valores numricos. Dever ser usado este procedimento, sempre que possvel, excepto por exemplo em variveis tais como 'Nome', na qual no traz vantagem usar valores numricos. Aps estar definido o tipo de dados dever clicar em Continue da subcaixa de dilogo Define Variable Type (figura 1.23) para voltar caixa de dilogo Define Variable figura 1.24 onde poder observar alteraes na zona de descrio.

Figura 1.24

O tipo de dados numrico deve ser preferencialmente usado relativamente aos outros tipos de dados. Atribuir etiquetas a variveis e a valores de variveis

Para atribuir uma etiqueta ao nome da varivel e/ou aos valores da varivel dever clicar no boto Labels da caixa de dilogo Define Variable (figura 1.25), aparecer ento a subcaixa de 15

SPSS

16

Prof. Daniel Neyra C.

dilogo Define Labels (figura 1.26). A figura 1.27 apresenta uma sugesto para a etiqueta da varivel 'sexo'.

Figura 1.25

Figura 1.26 16

SPSS

17

Prof. Daniel Neyra C.

Figura 1.27 A caixa Value Labels da subcaixa de dilogo Define Labels (figura 1.28), permite atribuir etiquetas aos valores de variveis qualitativas, como por exemplo para a varivel sexo. Para tal, atribumos a cada valor numrico uma etiqueta. No caso da varivel sexo (varivel qualitativa) podemos usar o valor 1 e 2 em vez de masculino e feminino respectivamente, na introduo da varivel sexo.

Figura 1.28 Deste modo, podemos atribuir a etiqueta masculino ao valor 1 e feminino ao valor 2. Para atribuir etiquetas a valores de variveis, escreve-se nas caixas ao lado das opes Value e Value Label o valor e a etiqueta respectivamente, como se pode observar na figura 1.29.

17

SPSS

18

Prof. Daniel Neyra C.

Figura 29

Figura 1.30 Para introduzir cada uma das etiquetas, clica-se no boto Add. O resultado dever ser uma imagem semelhante figura 1.30. Quando tiver introduzido todas as etiquetas dever clicar em Continue da subcaixa de dilogo Define Labels (figura 1.30) para voltar caixa de dilogo Define Variable (figura 1.31).

18

SPSS

19

Prof. Daniel Neyra C.

Figura 1.31
Valores desconhecidos. muitas vezes til saber porqu a informao no conhecida. Por exemplo, num questionrio podemos ter dois tipos de valores desconhecidos, e querer distinguilos. O primeiro devido ao facto de um indivduo no ter dado uma resposta, e o segundo devido ao facto de que a varivel em questo no se aplica a esse indivduo. Neste caso atribui-se um valor a cada um dos casos e define-se as etiquetas para esses valores. Por exemplo se desconhecemos o sexo de um indivduo, clica-se no boto Labels da caixa de dilogo Define Variable (figura 1.25), fazendo surgir a subcaixa de dilogo Define Labels (figura 1.30). O resultado apresentado na figura 1.32. De seguida clica-se em Continue (figura 1.32) para voltar caixa de dilogo Define Variable (figura 1.31).

19

SPSS

20

Prof. Daniel Neyra C.

2. Estatstica Descritiva Introduo


Numa anlise estatstica de uma amostra podemos distinguir duas etapas: A descrio dos dados amostrais - estatstica descritiva - e a extrapolao destes resultados para a populao - estatstica inferencial. Neste captulo estudaremos as tcnicas de sumariar e apresentar dados quer atravs de medidas apropriadas (medidas de sumrio), quer atravs de tabelas e grficos.

Classificao de variveis
Apesar de haver vrios formas de classificar variveis, vo ser apresentados apenas os tipos de de variveis que mais condicionam a anlise estatstica. Contnuas
Variveis (ex: tenso arterial, idade, altura,...)

Categricas

nominais (ex:sexo, grupo sanguneo,...) ordinais (ex:escala qualitativa - ..., suf, bom, mto bom; Apgar;
estadiamento de cancro,;...)

As variveis contnuas so variveis que podem assumir qualquer valor num intervalo. Por exemplo o peso uma varivel contnua pois pode assumir qualquer valor (78,453437.... Kg). J o nmero de filhos s pode assumir determinados valores (1,2,3...); a estas variveis d-se o nome de categricas pois os valores que assumem podem ser considerados categorias. No faz sentido falar na categoria 78,453437...Kg mas j faz sentido falar na categoria "casal com 2 filhos". As variveis categricas por sua vez ainda se dividem em ordinais e nominais. Se as categorias da varivel tm uma ordem, isto , se se pode dizer que uma categoria est antes da outra, a varivel diz-se ordinal; se as categorias no tm ordem (por exemplo as categorias do sexo, feminino e masculino, no tm uma ordenao prpria) asvariveis designam-se de nominais. Muitas vezes, por convenincia da anlise "categorizam-se" variveis contnuas. Por exemplo a idade (varivel contnua) pode ser "categorizada" em grupos etrios (varivel categrica), assim um indivduo que tenha 24,4 anos pertence, por exemplo, categoria [20 a 30 anos]. A seguir veremos como se pode sumariar a informao dos diferentes tipos de variveis.

Variveis categricas
Os dados apresentados nos exemplos deste captulo constam da base de dados alchool.sav.

Variveis nominais Uma forma simples de sumariar variveis nominais contar o nmero de indivduos em cada categoria. Esta contagem designada por frequncia de uma categoria. A varivel pode ento ser descrita numa tabela de frequncias, onde so indicadas as categorias da varivel e as respectivas frequncias. Pode ser ainda acrescentada na tabela as frequncias expressas em forma de percentagem. A tabela 2.1, refere-se distribuio de 489 recm nascidos por Hospital. Da tabela observa-se, por exemplo, que 195 dos recm nascidos nasceram no Hospital B e que 33% nasceram no Hospital C.

20

SPSS

21

Prof. Daniel Neyra C.

Tabela 2.1. Distribuio de 489 nascimentos por Hospital

(Como obter uma tabela de frequncias no SPSS?)

21

SPSS

22

Prof. Daniel Neyra C.

Outra forma de apresentar as frequncias usar um grfico de barras como na figura 2.1. Cada barra representa a frequncia de cada categoria. No caso das variveis nominais as categorias podem ser apresentadas por qualquer ordem. No grfico da figura 2.1, referente tabela 2.1, optou-se por apresentar as categorias por ordem decrescente de frequncia.

Fig 2.1 (Como obter um grfico de barras no SPSS?)

22

SPSS

23

Prof. Daniel Neyra C.

23

SPSS

24

Prof. Daniel Neyra C.

Para este tipo de variveis tambm se costuma usar um grfico circular. O crculo representa os 100% dos indivduos e cada 'fatia' proporcional frequncia de cada categoria. Na figura 2.2 pode-se observar que o Hospital B tem mais recm nascidos que o Hospital A e C.

Fig 2.2 (Como obter um grfico circular no SPSS?)

24

SPSS

25

Prof. Daniel Neyra C.

25

SPSS Variveis ordinais

26

Prof. Daniel Neyra C.

A forma de sumariar variveis ordinais semelhante das variveis nominais, ainda que no se possa alterar a ordem das categorias uma vez que estas tm uma ordem prpria. A tabela de frequncias em baixo (tabela 2.2) apresenta a escolaridade das mes dos 489 recm-nascidos. Nesta tabela inclui-se tambm uma coluna com a percentagem acumulada, que indica soma da percentagem da categoria respectiva com as percentagens das categorias anteriores.
Tabela 2.2 - Distribuio do grau de escolaridade das mes de 489 recm nascidos

Da tabela 2.2 pode-se ento observar que 6% das mes (28 mes) no tiveram educao formal e que 63% tiveram menos que a escola secundria, isto , 6% sem educao formal mais 57% com a escola primria.

Variveis contnuas
Os dados apresentados nos exemplos deste captulo constam da base de dados alchool.sav.

Para descrever ou sumariar variveis contnuas uma tabela de frequncias no , normalmente, muito til, pois grande parte dos valores tero frequncia 1 e desta forma a tabela de frequncias seria uma grande lista de valores pouco menos complexa que a totalidade dos dados da varivel. Da mesma forma um grfico de barras para dados contnuos seria composto por uma sria de pequenas barras. Uma melhor opo a este grfico o histograma. O histograma semelhante ao grfico de barras com a diferena que cada barra representa a frequncia de um intervalo de valores. Cada intervalo de valores tem a continuao no intervalo da barra seguinte. Por isso as barras so representadas todas juntas.

26

SPSS

27

Prof. Daniel Neyra C.

Figura 2.3 Na figura 2.3 o histograma refere-se ao peso nascena de 462 recm nascidos. A barra mais escura representa o nmero de recm nascidos (setenta e trs) com peso entre os 3300gr e 3500gr. As variveis contnuas podem tambm ser sumariadas usando medidas de sumrio. A mdia um exemplo bem conhecido destas medidas (a mdia em particular uma medida de posio e, dentro destas, uma medida de tendncia central). Uma forma de sumariar os peso dos 462 recm nascidos apresentar o peso mdio, 3263gr. Este valor calculado somando os 462 pesos e dividindo por 462. Outra medida de tendncia central a mediana. A mediana indica o centro da distribuio da varivel, ou seja, o valor acima do qual esto 50% dos valores da varivel e abaixo os restantes 50%. Uma forma simples de calcular a mediana ordenando todos os valores sendo a mediana o valor central. Por exemplo, para calcular oa mediana do conjunto 4, 2, 3, 2, 7 vamos primeiro orden-lo: 2, 2, 3, 4, 7. O valor do meio o 3, ento 3 a mediana do conjunto. Na figura 2.4 est representada a distribuio do peso de 462 recm nascidos. A mediana neste caso 3300gr, o que quer dizer que 50% dos recm nascidos (231 recm nascidos) tm um peso inferior a 3300gr e os restantes 50% tm um peso superior a 3300gr. O conceito da mediana pode ser generalizado para outras percentagens alm dos 50%. Por exemplo, podemos querer saber qual o valor abaixo do qual esto 10% dos indivudos. A esta medida de posio d-se o nome de percentil 10. A mediana portanto, o percentil 50. Alguns percentis tm uma designao especial. Por exemplo o percentil 25 e o percentil 75 so referidos como o 1 quartil e o 3 quartil, respectivamente.

27

SPSS

28

Prof. Daniel Neyra C.

Figura 2.4 No exemplo dos 462 recm nascidos os percentis 5 e 95 so respectivamente 2303gr e 4097gr. Isto quer dizer que 90% dos recm nascidos tm o peso compreendido entre as 2303gr e 4097gr como est indicado na figura 2.5 .

Figura 2.5 Outro tipo de medidas de sumrio so usadas para indicar o grau de disperso dos dados; estas medidas designam-se por medidas de disperso. O desvio padro um exemplo destas medidas e indica a variao dos dados volta da mdia. A tabela 2.3 apresenta alguns exemplos dos desvio mdia dos pesos nascena dos 462 recm nascidos

28

SPSS

29

Prof. Daniel Neyra C.

Tabela 2.3 - Desvios (diferenas) mdia dos pesos dos recm nascidos
Peso - mdia 3920 - 3263 3020 - 3263 3290 - 3263 diferena 657 243 27

: : : : : : O desvio padro uma medida que resume todos estes desvios a um nico valor, neste caso 553.5gr. Os dois histogramas da figura 2.5 referem-se a dados com a mesma mdia mas com diferentes disperses volta dos mesmos. Os dados referentes ao histograma A tm uma maior disperso do que os do histograma B, assim o desvio padro do A maior do que o B.

Figura 2.5 A diferena entre dois percentis pode tambm ser usada para descrever a variao dos dados. A esta medida d-se o nome de mbito (range). Por exemplo o mbito dos percentis 5 e 95 do peso dos 463 recm nascidos 1794 gr. (4097gr - 2303gr). Um dos mbitos mais usados o mbito interquartil, ou seja, a diferena entre o percentil 75 e 25. A escolha das medidas de posio e disperso apropriadas Um dos factores que se deve ter em conta na escolha das medidas a usar o tipo de distribuio da varivel. A mdia mais informativa do que a mediana pois no seu clculo so utilizados os valores da varivel, enquanto no clculo da mediana apenas se usa a posio relativa de cada valor. Consideremos o seguinte conjunto de valores como exemplo, 2, 4, 5, 6, 8 A mdia (2+4+5+6+8)/5 = 5 e a mediana tambm 5. Mas se alterarmos o ltimo valor para 23, isto 2, 4, 5, 6, 23 a mediana continua a ser 5 mas a mdia foi alterada para 8. Neste exemplo pode-se observar que a mdia mais afectada por valores extremos do que a mediana. Em situaes em que a varivel apresenta valores muito extremos, deve-se optar pela mediana dando assim uma idicao mais correcta da zona central da distribuio. Uma regra geral muitas vezes utilizada apresentar a mdia em distribuies simtricas e a mediana em distribuies assimtricas. 29

SPSS

30

Prof. Daniel Neyra C.

Relativamente s medidas de disperso, estas dever ser escolhidas em funo da medida de tendncia central. O desvio padro s dever ser apresentado se estiver associado mdia, uma vez que esta medida se refere aos desvios mdia. No caso de se apresentar a mediana poder-se- optar por indicar o mbito, por exemplo interquartil, ou apresentar dois pecentis. Os pares de percentis mais frequentemente usados so o (percentil 5, percentil 95) e o (percentil 25, percentil 75).

3. Distribuio Normal Introduo.


Nos exemplos apresentados nos captulos anteriores, poder ter notado que algumas variveis tem distribuies que podem ser descritas como simtricas em torno da mdia e com a forma de sino. Seria til se estas distribuies fossem descritas de modo emprico (uma equao numrica de uma curva que aproximasse bem a curva simtrica com a forma de sino). Uma boa aproximao para muitas dessas distribuies dada pela distribuio normal. Esta descrita pela equao:

, onde a mdia e o desvio padro da populao. A figura 1 mostra a curva da distribuio normal com mdia 3263,2 e desvio padro 553,52, aproximando a distribuio da varivel BIRHTWT da base de dados alchool.sav.

30

SPSS

31

Prof. Daniel Neyra C.

(Como obter a curva da distribuio normal no SPSS?)

Propriedades da Distribuio Normal


Esta distribuio bastante comum, em particular em variveis do foro biolgico, por exemplo, a altura, peso, idade, presso arterial. Uma das propriedades da distibuio normal que a mdia somada com duas vezes o desvio padro igual ao percentil 97,5 e a mdia subtrada de 2 vezes o desvio padro igual ao percentil 2,5. Assim, podemos dizer que a mdia mais ou menos dois desvios padres o intervalo que contm 95% dos dados da amostra (Figura 2).

31

SPSS

32

Prof. Daniel Neyra C.

Figura 2 Na varivel BIRHTWT da base de dados alchool.sav, se calcularmos a mdia mais ou menos dois desvios padres, 3263,2 2 x 553,52 = 2156 3263,2 +2 x 553,52 = 4370 pode-se observar que estes valores so semelhantes* ao percentis 2,5 e 97,5 respectivamente. Percentil 2,5= 1901,75 Percentil 97,5= 4262,75
*As diferenas devem-se ao facto da varivel BIRTHWT no ser exactamente igual distribuio normal mas sim uma aproximao.

Teorema do Limite Central


A importncia que a distribuio Normal tem na estatstica deve-se em parte ao resultado que em seguida vai ser explicado. Suponhamos que de uma populao com mdia e desvio padro , fazem-se vrias amostras do mesmo tamanho N (figura 1) Para cada uma dessas amostras possvel calcular a respectiva mdia (x) (Quadro 1).

Figura 1

Quadro

32

SPSS

33

Prof. Daniel Neyra C.

Pelo Teorema do Limite Central, a distribuio das mdias destas amostras tende para uma distribuio normal com mdia (igual mdia da populao) e com desvio padro (desvio padro da populao a dividir pela raiz quadrada do tamanho das amostras). Observemos o seguinte exemplo: vamos considerar como populao de 1375 os ndividuos internados num hospital por apendicite. A distribuio do tempo desse internamento da populao est representada pelo histograma na figura 2 . Pode-se observar que a mdia e o desvio padro do tempo de internamento nesta populao so respectivamente 6 e 5,46.

Figura 2 Suponhamos ento que se fazem 200 amostras de tamanho N=100 e para cada uma dessas amostras a mdia calculada. A figura 3 mostra a distribuio das 200 mdias. Note-se que o histograma comea a aproximar-se de uma distribuio normal, bem como a mdia (6,4) j bastante semelhante mdia da populao (6). Tambm o desvio padro da distribuio das mdias (0,56) j se aproxima muito do valor previsto pelo teorema do limite central ( / n = 5,46/10 = 0,55). Se o nmero de amostras feitas fosse maior todas estes valores tornariam-se mais precisos.

33

SPSS

34

Prof. Daniel Neyra C.

Figura 3 Ao desvio padro da distribuio das mdias amostrais ( / n ) d-se o nome de erro padro da mdia. Toda a descrio anterior apenas terica e o que num estudo se tem apenas uma amostra de uma populao. A importncia do resultado sabermos calcular qual a variabilidade das amostras dessa populao - o erro padro. Se o erro padro for pequeno as amostras com mdias semelhantes mdia da populao so mais frequentes e assim mais provvel que a amostra que obtivemos seja uma dessas amostras. O erro padro pode ser controlado com o tamanho da amostra. Quanto maior for o tamanho da amostra menor ser o erro padro. (Como obter o erro padro da mdia no SPSS?)

34

SPSS

35

Prof. Daniel Neyra C.

35

SPSS

36

Prof. Daniel Neyra C.

4. Intervalo de confiana para a mdia Introduo


Vimos no captulo do erro padro como se comporta a distribuio de mdias de amostras de uma populao. Quando efectuamos uma amostra, a mdia desta estar situada algures na distribuio das mdias de amostras da populao (figura 1 e figura 2).

O intervalo, de

a, inclui 95% das possveis mdias de amostras da populao(figura 3). Pode-se ento afirmar que com 95% de confiana a mdia da amostra observada encontra-se nesse intervalo .

figura 3 Mas dizer que a mdia da amostra se encontra no intervalo referido equivalente a afirmar, com 95% de certeza, que mdia da populao se encontra no intervalo ( X 1,96( / (figura 4) 36

n ) , X + 1,96( / n ) )

SPSS

37

Prof. Daniel Neyra C.

A este intervalo d-se o nome de Intervalo de Confiana a 95% para a mdia. Na base de dados alchool.sav a mdia do peso dos recm-nascidos 3263gr e o intervalo de confiana para a mdia da varivel BIRTHWT (3213, 3314). Pode-se ento dizer que a mdia do peso dos recm nascidos na populao est, com 95% de confiana, entre as 3213 e 3314 gramas. (Como obter um intervalo de confiana para a mdia no SPSS?)

37

SPSS

38

Prof. Daniel Neyra C.

A figura 5 mostra graficamente os intervalos de confiana a 95% para a mdia do BIRTHWT para cada um dos sexos. A este grfico d-se o nome de ERROR BAR.

38

SPSS

39

Prof. Daniel Neyra C.

(Como obter um grfico Error Bar no SPSS?)

39

SPSS

40

Prof. Daniel Neyra C.

40

SPSS

41

Prof. Daniel Neyra C.

5. Testes de hiptese - Teste t Princpio dos Testes de Hiptese


Quando se determinam parmetros da amostra (por exemplo a mdia) por vezes necessrio saber se esse est de acordo com o valor previsto para a populao. A este procedimento chamamos teste de hiptese. Consideremos o seguinte exemplo: Queremos saber se uma determinada moeda equilibrada, ou seja, quando atirada ao ar a probabilidade de sair caras ou coroas igual a 1/2. Inicialmente, no temos nada que nos indique o contrrio. Assim, a nossa hiptese inicial - chamada Hiptese Nula - que a moeda equilibrada. Para testarmos essa hiptese, decidimos fazer uma amostra de 100 lanamentos e com base no resultado decidimos se aceitamos ou rejeitamos a Hiptese Nula. Suponhamos que o resultado dos lanamentos foi 48 coroas e 52 caras. Ser este resultado suficientemente forte para rejeitarmos a Hipse Nula? Ou seja, ser que este resultado compatvel com a hiptese da moeda ser equilibrada? Efectivamente, a probabilidade de obter 48 ou menos coroas em 100 lanamentos, com uma moeda equilibrada, de aproximadamente 0.38. Este valor demasiado elevado para rejeitar esta hiptese, isto , a probabilidade de obter este resultado (ou um resultado mais extremo) com uma moeda equilibrada alta. Assim devemos aceitar a Hiptese Nula (HN). Note-se que a afirmao aceitar e no provar a Hiptese Nula (HN), pois a moeda pode eventualmente estar viciada. O facto que nos nossos lanamentos no observamos nado que nos fizesse suspeitar disso. O resultado apenas no foi suficientemente forte para rejeitar a HN. Suponhamos agora, que o resultado do lanamento foi 30 coroas e 70 caras. A probabilidade de se obter um resultado, to ou mais extremo do que este, com uma moeda equilibrada de 0.002. Podemos dizer que esta situao pouco provvel de acontecer com uma moeda equilibrada. Duas decises podem ser tomadas mediante este resultado: 1) aceitar que ocorreu uma situao rara e continuar a acreditar na Hiptese Nula, 2) ou, por ser demasiado raro observar o resultado com uma moeda equilibrada, rejeitar a Hiptese Nula

Comparao de duas mdias


A situao de comparar duas mdias algo semelhante ao exemplo anterior do teste a uma moeda. O ficheiro bmd.sav refere-se a desitometrias sseas (medio da densidade mineral ssea) de indivduos com e sem fractura do colo do fmur. Na tabela 1 esto indicadas as mdias de densidade mineral ssea (BMD) para os dois grupos. Perante este resultado poderemos afirmar que os indivduos que fracturam o colo do fmur tm um BMD mais baixo do que os individuos sem fractura?
Tabela 1 - Mdias da densidade mineral ssea de ndividuos com e sem fractura do colo do fmur.

Efectivamente verificou-se uma diferena na amostra (0.26 = 0.96 - 0.70). Mas ser esta diferena devida a erros aleatrios do processo da amostragem ou devida a uma diferena na populao? Da mesma forma que no espervamos que 100 lanamentos de uma moeda equilibrada tivesse um 41

SPSS

42

Prof. Daniel Neyra C.

resultado exacto de 50 caras e coroas; ainda que no haja diferenas entre o BMD dos dois grupos, no seria de esperar que as duas mdias da amostra fossem exactamente iguais. Vamos ento calcular a probabilidade de, numa populao onde no existe diferena entre os dois grupos, ocorrer uma amostra com uma diferena de 0.26, ou uma diferena maior. Hiptese nula (HN): mdiano fracturados = mdiafracturados , ou de outra forma, HN: mdia no fracturados mdia fracturados=0 Na amostra observamos que: Mdia
no fracturados

Mdia fracturados = 0.26

Utilizando um teste para comparao de mdias, obtm-se que a probabilidade de se observar esta diferena na amostra, ou uma superior, se a hiptese nula for verdadeira, menor do que 0.001. Este teste de comparao de duas mdias designa-se de t-student, ou simplesmente teste t. A razo do nome vem da utilizao da distribuio com o mesmo nome, que substitui a distribuio normal no caso de no se conhecer o desvio padro da populao e em vez deste utilizar-se o desvio padro da amostra. (Como fazer o teste t no SPSS?)

42

SPSS

43

Prof. Daniel Neyra C.

43

SPSS

44

Prof. Daniel Neyra C.

Para utilizar este teste necessrio fazer duas assumpes. A primeira que os dois grupos tm distribuies normais e a segunda que o desvio padro dos dois grupos semelhante. No caso do Output do SPSS, este apresente primeiro um teste de comparao dos desvios padres (Teste de Levene). 44

SPSS

45

Prof. Daniel Neyra C.

Tipos de Erros
Quando se rejeita ou aceita uma hiptese usando um teste estatstico baseado numa probabilidade, dois erros podem acontecer: Rejeitar a Hiptese Nula e esta ser verdadeira - Erro Tipo I (alfa) Aceitar (no rejeitar) a Hiptese Nula e esta ser falsa - Erro Tipo II (beta). Como normalmente a Hiptese Nula contrria hiptese de investigao, h tendncia para uma maior preocupao com o erro tipo I. Para ilustrar isto, imagine a situao de uma investigao sobre efeito de um novo frmaco (a Hiptese Nula seria o frmaco no tem efeito) e que erradamente se rejeita a Hiptese Nula com a consequente afimao de que o frmaco tem efeito... Por tradio (e sem mais nenhuma razo) costuma-se limitar o Erro Tipo I a 0.05. Isto equivale a dizer que se a probabilidade observada do teste de hiptese for inferior a 0.05, rejeita-se a hiptese nula, caso contrrio diz-se que no h evidncia suficiente para rejeitar a Hiptese Nula (ou seja aceita-se). Apesar desta comparao da probabilidade com o erro tipo I, no se deve confundir a probabilidade com o erro. No exemplo anterior do peso nascena, seguindo a regra apresentada deveriamos rejeitar a Hiptese de que no h diferena entre o BMD dos fracturados e no fracturados, ou seja, afirmar que indivduos com fractura do colo do fmur tm BMD diferente dos sem fractura.

6. Tabelas de contingncia
Tabela 1 - Distribuio do consumo de lcool por grupo etrio

As tabelas de contingncia so utilzadas para estudar a relao entre duas variveis categricas descrevendo a frequncias das categorias de uma das variveis relativamente s categorias de outra. Na base de dados alchool.sav, vamos observar qual o consumo de tabaco no incio da gravidez (CIGPREG), em funo do grupo etrio da me (MAGE). A Tabela (de contingncia) 1 apresenta o consumo de tabaco por grupo etrio (ambas as variveis so categricas). Podemos ler na tabela que 252 mes tm idade entre 21 e 30 anos e no fumaram no incio da gravidez. (Como obter uma tabela de contingncia no SPSS?)

45

SPSS

46

Prof. Daniel Neyra C.

46

SPSS

47

Prof. Daniel Neyra C.

Conforme o problema a estudar, a tabela pode ser completada com as percentagens referentes ao total da linha, coluna ou ao valor total. No exemplo da Tabela 1, far sentido acrescentar as percentagens por para se comparar em cada grupo etrio qual a percentagem de mes que fumaram (Tabela 2).
Tabela 2- Distribuio do consumo de lcool por grupo etrio

Na Tabela 2 podemos ento observar que h mais mes fumadoras no grupo etrio do 13 aos 20 anos (35%) do que no grupo etrio dos 36 aos 55 anos (5%). (Como obter uma tabela de contingncia no SPSS com as percentagens?)

47

SPSS

48

Prof. Daniel Neyra C.

48

SPSS

49

Prof. Daniel Neyra C.

Qui-quadrado
Podemos observar na tabela 1 que parece haver uma relao entre a idade das mes e o consumo do tabaco, ou seja, parece que h mais fumadadoras entre as mes mais jovens do que entre as mais velhas.
Tabela 1- Distribuio do consumo de lcool por grupo etrio

A questo agora, saber se esta relao encontrada na amostra significativa, ou seja, se h evidncia suficiente para considerarmos que existe uma relao entre consumo de tabaco e a idade das mes. 49

SPSS

50

Prof. Daniel Neyra C.

Pode-se observar que no total, 12% das mes no fumaram no incio da gravidez. Se no existisse relao com o grupo etrio, seria de esperar que esta percentagem de mantivesse em todos os grupos. Por exemplo, existem 297 mes no grupo etrio dos 21ao 30 anos, portanto seria de esperar que 36 mes fossem fumadoras (297x12%=36 mes). Este clculo pode ser generalizado para obter o valor esperado para cada clula da tabela, multiplicado o total da linha pelo total da coluna e dividir pelo total (figura 1). Para testar a hiptese nula de que no existe relao entre as duas variveis, usamos a seguinte estatstica designada de qui-quadrado ( ).

No exemplo anterior o valor do qui-quadrado :

Tabela

1.

Distribuio

do

consumo

de

lcool

por

grupo

etrio

O qui-quadrado no mais do que uma comparao dos valores observados na tabela com os valores esperados se no existisse relao entre as duas variveis, ou seja se a hiptese nula fosse verdadeira. A partir do qui-quadrado pode-se ento calcular a probabilidade de se obter a diferena entre os valores observados e esperados, ou uma diferena superior, se a Hiptese Nula fosse verdadeira (valor p). Como em todos os testes de hiptese, com base nesta probabilidade que decidimos se rejeitamos ou aceitamos a Hiptese Nula. No caso da relao do consumo de tabaco e grupo etrio das mes, o valor p associado ao quiquadrado encontrado (17,6) 0.001, ou seja, podemos dizer que existe uma relao (estatstica) entre o consumo de tabaco e a idade das mes. (Como obter o teste do Qui-quadrado no SPSS?)

50

SPSS

51

Prof. Daniel Neyra C.

51

SPSS

52

Prof. Daniel Neyra C.

52

SPSS

53

Prof. Daniel Neyra C.

53

SPSS

54

Prof. Daniel Neyra C.

7. Correlao e regresso linear simples Introduo


Leia atentamente o seguinte abstract: Diet and gastric cancer in Portugal-a multivariate model. Azevedo LF, Salgueiro LF, Claro R, Teixeira-Pinto A, Costa-Pereira A

Servio de Bioestatstica e Informtica Mdica, Faculdade de Medicina da Universidade do Porto, Portugal.

Eur J Cancer Prev 1999 Feb;8(1):41-8 Diet and gastric cancer mortality in Portugal was studied using a multivariate ecological model. The factors investigated over 18 districts were the relationship between gastric cancer mortality (1994-96), dietary habits, and socio-economic factors (1980-81). Mortality geographical pattern was established using age-standardized mortality rates, per capita dietary consumption of foodstuffs and nutrients was obtained from the National limentary Survey (1980-81), and data on socio-economic factors from the 1981 National Census. Pearson correlation coefficients and simple and multiple linear regression models were used. The mortality geographical pattern resembled a north-south gradient, and dietary habits and socio-economic factors had great variability throughout the country. The highest negative correlation coefficients between dietary consumption and gastric cancer mortality were obtained for vegetables, fruit, vitamin A and carotene consumption, and the highest positive coefficients were for rice, wine and carbohydrate consumption. No significant correlations were obtained for socio-economic factors. In multiple regression analysis, vegetable and rice consumption could account for 79% of the gastric cancer mortality variability for males, and vegetable and meat consumption could account for 69% of this variability for females. Interestingly, meat consumption was found to be protective. A mean increase of 100 g/person/day in vegetable consumption would imply a mean predicted decrease of 10 (95% CI 6-14) and 5 (95% CI 3-7) gastric cancer deaths per 100,000 persons/year, for males and females respectively, in simple regression analysis. Such a decrease represents about one-third of the mean national gastric cancer mortality rate. Therefore, an increase in vegetable consumption is strongly recommended. Considere as seguintes questes: Qual a relao encontrada entre o consumo de fruta e a mortalidade por cancro do estmago? Qual a diminuio esperada na mortalidade por cancro do estmago, havendo um aumento mdio de 200 g/pessoa/dia do consumo de vegetais? Neste mdulos vo ser apresentados mtodos para analisar a relao entre duas variveis quantitativas.

Diagramas de disperso
Consideremos o exemplo do estudo referente ao abstract apresentado anteriormente. Nesse estudo analisou-se a relao entre o consumo de vrios alimentos pelos 18 distritos de Portugal com a mortalidade por cancro do estmago (gastric cancer) feminino e masculino nessas mesmas regies. Os dados apresentados na Tabela 1 referem-se ao consumo mdio de vegetais por dia e s respectivas taxas de mortalidade do sexo masculino e feminino em cada um dos distritos. (Pode fazer download dos
dados: cestomago.sav)

54

SPSS

55

Prof. Daniel Neyra C.

Tabela 1 - Tx de mortalidade masculina e feminina por distritos e consumo mdio dirio de vegetais (cestomago.sav) Distrito Mortf Mortm Vegetais Aveiro 17.07 31.10 227.6 Beja 15.23 34.80 188.9 Braga 25.17 46.13 164.3 Bragana 23.33 41.20 101.9 Castelo Branco 12.20 26.93 266.7 Coimbra 10.90 23.60 300.9 vora 14.37 25.43 209.0 Faro 12.07 27.00 222.1 Guarda 16.77 35.70 231.1 Leiria 11.77 25.30 193.0 Lisboa 13.80 30.27 241.8 Portalegre 13.43 26.77 246.5 Porto 19.57 39.77 166.3 Santarm 9.97 22.80 344.5 Setbal 15.30 35.43 226.2 Viana do 21.00 45.10 147.5 Castelo Vila Real 16.53 45.47 98.3 Viseu 14.70 32.17 207.1

Uma forma simples de visualizar uma possvel relao entre a quantidade de vegetais consumida e a taxa de mortalidade utilizar um diagrama de disperso para estas duas variveis.

Figura 1 Podem-se observar na figura 1 e figura 2, os diagrama de disperso para cada sexo, relativos ao consumo mdio dirio de vegetais e taxas de mortalidade.

55

SPSS

56

Prof. Daniel Neyra C.

Figura 2 Cada ponto do diagrama refere-se a um determinado distrito de Portugal, indicando o consumo mdio de vegetais e a respectiva taxa de mortalidade. Na figura 1 est assinalado o ponto correspondente ao distrito do Porto. (Como obter estes diagramas de disperso no SPSS?)

56

SPSS

57

Prof. Daniel Neyra C.

57

SPSS

58

Prof. Daniel Neyra C.

Uma observao dos grficos da figura 1 e figura 2 sugere que com o aumento consumo de vegetais a taxa de mortalidade diminui.

Figura 3 Esta relao pode ser aproximada pela recta indicada na figura 3 e figura 4. A recta apenas aproxima a sugestionada relao entre as duas variveis. Se esta fosse usada para estimar a taxa de mortalidade para um determinado consumo de vegetais teria, como se observa na figura 4, um erro associado.

58

SPSS

59

Prof. Daniel Neyra C.

Figura 4 (Como obter a recta dos diagramas de disperso no SPSS?)

A seguir veremos como se pode avaliar se a recta uma boa ou m aproximao da relao entre a taxa de mortalidade e o consumo de vegetais.

59

SPSS

60

Prof. Daniel Neyra C.

Correlao
Antes de continuarmos com o exemplo anterior, observemos os diagramas de disperso da figura 5. Figura 5 - Quatro diagramas de disperso com diferentes relaes entre X e Y e a recta que aproxima estas relaes. No grfico D est a ponteado uma curva que melhor aproxima a relao quadrtica das variveis.

60

SPSS

61

Prof. Daniel Neyra C.

Os diagramas apresentam quatro situaes distintas: A - A recta representa a relao perfeita entre X e Y. A relao entre as duas variveis negativa, i.e., quando X aumenta Y diminui. B - A recta uma boa aproximao da relao entre X e Y. A relao entre as duas variveis positiva, i.e., quando X aumenta Y tambm aumenta. C - A recta no uma boa aproximao pois no h relao entre X e Y. D - A recta no uma boa aproximao da relao entre X e Y. A relao entre X e Y no linear, i.e., no representada por uma recta. Na figura sugerida, a tracejado, uma relao quadrtica. Para avaliar se a recta , ou no, uma boa aproximao da relao entre duas variveis utiliza-se uma estatstica designada coeficiente de correlao de Pearson, ou simplesmente, correlao. Este coeficiente normalmente representada pela letra r. A correlao, ento, uma medida da 'qualidade' da aproximao da relao entre duas variveis por uma recta, ou seja, a correlao mede a 'fora' da associao linear entre duas variveis.
Nota: A frmula de clculo do coeficiente de correlao no faz parte do programa deste mdulo, mas pode ser consultada aqui.

Frmula do coeficiente de correlao de Pearson Sejam xi e yi os valores das variveis X e Y. e so respectivamente as mdias dos valores xi e yi. A frmula do coeficiente de correlao de Pearson ento,

O coeficiente de correlao varia entre -1 e 1. O valor 0 (zero) significa que no h relao linear, o valor 1 indica uma relao linear perfeita e o valor -1 tambm indica uma relao linear perfeita mas 61

SPSS

62

Prof. Daniel Neyra C.

inversa, ou seja quando uma das variveis aumenta a outra diminui. Quanto mais prximo estiver de 1 ou -1, mais forte a associao linear entre as duas variveis.
Nota: Uma correlao 0, ou prxima de 0, no implica obrigatoriamente, que as duas variveis no esto relacionadas mas apenas que as duas variveis no esto relacionadas de uma forma linear. No caso do diagrama D da figura 5 as duas variveis esto relacionadas mas no linearmente.

Nos diagramas de disperso apresentados (figura 5) os coeficientes de correlao so respectivamente, A:-1,B: 0.91, C: 0 e D: 0. No estudo da relao entre o consumo de vegetais e taxa de mortalidade, obtm-se uma correlao de 0.743 e -0.814 para o sexo feminino e masculino respectivamente (figura 6).

(Como obter os coeficientes de correlao de Pearson no SPSS?)

62

SPSS

63

Prof. Daniel Neyra C.

63

SPSS

64

Prof. Daniel Neyra C.

64

SPSS

65

Prof. Daniel Neyra C.

Outra vantagem do uso da correlao como medida de associao linear de duas variveis que o quadrado deste coeficiente (r2) interpretado como a percentagem de variao explicada por uma das variveis em relao outra. No caso estudado, pode-se dizer que o consumo de vegetais explica 55% 2 2 (=0.743 ) da variao da taxa de mortalidade feminina e 66% (=0.814 ) da masculina. (Pode praticar a identificao do valor de correlaes numa simulao)

O modelo de regresso linear


A regresso linear um modelo matemtico usado para estudar a relao entre duas variveis - uma contnua e outra contnua ou ordinal - e a partir do qual se tenta prever os valores de uma das variveis em funo da outra. J vimos anteriormente que a correlao usada para medir a 'fora' da relao linear entre duas variveis. A regresso linear usada para estudar a natureza dessa relao. Ao contrrio da correlao, necessrio distinguir qual a varivel que se tenta prever (varivel dependente) e a varivel que prev (varivel independente). No estudo sobre o consumo de vegetais e taxa de mortalidade por cancro do estmago, a situao mais natural tentar prever qual a taxa de mortalidade (varivel dependente) para um determinado consumo de vegetais (varivel independente) e no o contrrio. Figura 3 - Diagrama de disperso do consumo mdio dirio de vegetais e a taxa de mortalidade feminina com a recta que melhor aproxima a relao entre as duas variveis.

Figura 3 A definio do papel de cada varivel importante pois o modelo resultante depende dessa escolha ainda que a correlao seja igua nas duas situaes. Ou seja, o modelo para prever a mortalidade para o consumo de vegetais distinto do modelo para prever o consumo de vegetais atravs da mortalidade. Graficamente o modelo de regresso linear apresentado como a recta que melhor aproxima a relao entre a varivel dependente e a varivel independente. Esta recta j tinha sido usado para se ter ideia da magnitude da correlao (figura 3 e figura 4), mas nada foi dito quanto sua construo. 65

SPSS

66

Prof. Daniel Neyra C.

Figura 4 - Diagrama de disperso do consumo mdio dirio de vegetais e a taxa de mortalidade masculina com a recta que melhor aproxima a relao entre as duas variveis.

Figura 4 A representao matemtica do modelo ento, a equao dessa recta: y = b0 + b1*x, onde b0 a ordenada na origem (onde a recta se cruza com o eixo dos Y) e b1 o
declive da recta

No exemplo estudado a equao pode ser traduzida para, tx mortalidade = b0 + b1 * consumo de vegetais Para definir esta recta, basta ento encontrar os coeficientes b0 e b1. Estes valores so calculados de tal maneira que a soma das distncias indicadas na figura 7 recta seja a menor possvel, ou seja, b0 e b1 so calculados de forma a minimizar a soma das distncias recta.

66

SPSS

67

Prof. Daniel Neyra C.

Figura 7 - Distncias dos pontos recta.


Nota: A deduo das frmulas para b0 e b1 no est no mbito deste curso.

Por exemplo, no grfico A da figura 8, a soma das distncias respectiva recta inferior do grfico B. Assim, a recta do grfico A um modelo melhor do que a de B. Figura 8 - A som das distncias dos pontos recta do grfico A menor do que a do B.

No estudo da mortalidade por cancro do estmago, a recta que melhor prev a mortalidade feminina por consumo de vegetais a da figura 3 e tem equao : y = 26.33 - 0.05x (figura 9) Ou, tx mortalidade feminina = 26.33 - 0.05 * consumo de vegetais Figura 9 - Coeficientes b0 e b1 da recta de regresso (Output do SPSS).

67

SPSS

68

Prof. Daniel Neyra C.

(Como obter os coeficientes da regresso b0 e b1 no SPSS?)

68

SPSS

69

Prof. Daniel Neyra C.

A interpretao dos coeficientes b0=26.33 e b1=0.05 a seguinte: b0 - o valor previsto da mortalidade com um consumo nulo de vegetais. Neste caso, a taxa de mortalidade prevista seria 26.33. b1 - a diminuio (porque o valor de b1 negativo) prevista da taxa de mortalidade para o aumento de 1 unidade no consumo de vegetais. Neste caso a diminuio prevista da taxa de mortalidade por aumento de 1 unidade no consumo de vegetais de 0.05. ainda possvel construir uma tabela (normalmente refererida coma a tabela ANOVA) com a indicao da quantidade de variao explicada pelo modelo. No caso da taxa de mortalidade do sexo masculino a variao total de 1036,118(figura 10). Figura 10 - A tabela ANOVA do modelo de regresso linear(Output do SPSS).

Nota: O cculo da variao no est no mbito deste curso.

(A obteno da tabela de ANOVA no SPSS idntico ao procedimento de obter os coeficientes da regresso b0 e b1 ) Quando se considera o consumo de vegetais, a variao da mortalidade explicada de 685,986; que aparece na tabela figura 10 com a designao de "Regression" (quantidade de variao explicada pelo modelo). O resduo simplesmente a variao que fica por explicar, ou seja a diferena da variao total e variao explicada. Note que o quociente da variao explicada pela variao total - 685,986/1036,118=0.66 - a percentagem de variao explicada (o r2) , ou seja, 66%. Como seria de esperar este valor igual 69

SPSS
2

70

Prof. Daniel Neyra C.

quadrado do coeficiente de correlao (r2) - 0,814 =0,66 - que tambm indica a percentagem de variao explicada. Nas ltimas colunas da tabela apresentado um teste de hiptese indicando se a quantidade de variao explicada significativamente diferente de 0. Neste caso P<0,001, ou seja pode-se considerar que a quantidade de variao explicada pelo modelo diferente de 0.

Assunes do modelo de regresso linear


Como j foi referido, para se construir o modelo de regresso linear, a varivel dependente tem que ser obrigatoriamente contnua (no exemplo estudado a taxa de mortalidade contnua). Outros dois aspectos que necessrio ter em conta, que o modelo de regresso assume que para cada valor fixo da varivel independente, a distribuio da varivel dependente normal. No caso estudado, o modelo assume que para um valor fixo do consumo de vegetais, a distribuio da taxa de mortalidade normal. Figura 11

O segundo aspecto que todas estas distribuies normais tm um desvio padro igual, ou seja a taxa de mortalidade no varia de forma diferente para os diferentes valores de consumo de vegetais. A Figura 11 uma representao grfica destas duas assunes.

Bibliografia
Na internet. http://docentes.esa.ipcb.pt/armando/

70

Das könnte Ihnen auch gefallen