Beruflich Dokumente
Kultur Dokumente
do SPSS
Auto-aprendizagem por meio
de um estudo real
Um agradecimento especial devemos ao Dr. Hctor Javier Snchez Prez e ao Dr. Hctor
Ochoa do ECOSUR, em San Cristbal de las Casas, por terem permitido a utilizao dos
dados do estudo de desnutrio na populao infantil da regio La Fraylesca de Chiapas, como
exemplo condutor deste texto. Tambm ao professor Horcio Pereira de Faria, da Universidade
Federal de Minas Gerais, por nos ceder os dados com os quais o leitor pode realizar a prova de
auto-avaliao dos contedos aprendidos neste livro.
Captulo 1.
APRESENTAO
APRESENTAO
Em qualquer estudo em que seja necessria a anlise estatstica, existem diversas etapas que
definem a diferena entre a boa e a m qualidade dos resultados obtidos.
Em primeiro lugar, o objetivo ou objetivos do estudo devem estar definidos com clareza.
impossvel efetuar anlise estatstica de qualidade se, a priori, no se conhecem os objetivos
gerais e especficos da investigao proposta. As hipteses a serem contrastadas ficariam
indefinidas, e portanto s caberia realizar anlise descritiva simples.
De qualquer forma, devem estar bem definidos aspectos como o tipo e o nvel de medio das
variveis, isto , se a informao foi coletada de forma categrica, nominal ou ordinal, ou de
forma contnua.
Por exemplo, no o mesmo estudar a varivel categrica tabagismo, que pode ter trs
categorias: no fumante, ex-fumante ou fumante, que utilizar uma varivel quantitativa, definida
como o nmero de cigarros fumados diariamente, varivel da qual no seria possvel extrair, a
posteriori, se uma pessoa havia sido fumante.
Todos estes aspectos exigem a presena do responsvel pela anlise, desde as fases iniciais
do desenho do estudo. Muitas vezes o estatstico responsvel intervm no estudo, aps a
coleta de dados, no tendo participado da definio da natureza das variveis, nem da
estrutura global da matriz de dados. Essa ltima pode ter diversas estruturas e, em muitas
ocasies, por no ser diretamente analisvel, exigir transformaes e manipulaes do ou dos
arquivos que contm a informao do estudo. Assim, pode-se ter informao de determinados
grupos de casos em um arquivo, das variveis de cada caso em outros arquivos e das
variveis adicionais em arquivos complementares.
Em geral, o estatstico no deve dar nenhum tipo de garantia da qualidade dos dados e, no
mnimo, deve efetuar anlise prvia da informao incompleta e da informao errnea
detectvel.
A anlise estatstica dever ser realizada apenas aps ter se estabelecido a estrutura definitiva
da matriz e realizado o controle de qualidade dos dados.
Para dar resposta a todos os aspectos enumerados, o analista deve recorrer ao uso de
programas ou pacotes estatsticos preferencialmente homologados e de ampla distribuio, de
forma que os resultados obtidos sejam sempre comprovveis e comparveis por qualquer outro
investigador.
Em primeiro lugar, deve ser dito que esta obra foi iniciada pensando em profissionais de
Estatstica que queiram ampliar suas atitudes na anlise real, longe dos exemplos acadmicos
e das bases de dados de tamanho reduzido que costumam ser utilizadas no ensino da
Estatstica em nosso meio. A experincia dos autores como professores do curso de
Estatstica, Medicina, mestrado e doutorado na rea de Medicina Preventiva e Sade Pblica
induziu-os necessidade de criar uma ferramenta docente, para apresentar aos alunos desses
cursos exemplos prticos, para ensinar como abordar a anlise de dados de estrutura
complexa no campo dos estudos em Cincias da Sade. Baseando no seguimento de um caso
real com todas as suas dificuldades, os autores consideram que o estudante e o leitor deste
livro podero adquirir os conhecimentos que sero teis no exerccio de sua profisso. Isto ,
os autores procuraram evitar ao mximo os exemplos acadmicos e didticos, que so
distantes da realidade com a qual o profissional vai se deparar no futuro.
Este mbito de aplicao gera a possibilidade de se deparar com problemas que o aluno
desconhece, muito freqentes na realidade, tanto na sua existncia como na sua resoluo,
por sua aprendizagem ter sido limitada a resolver prticas com arquivos de uso docente
restritos a poucos casos e poucas variveis.
Da mesma forma, este livro pode ser de grande utilidade a todos aqueles estudiosos e
profissionais das reas citadas que, havendo realizado algum curso de formao bsica de
anlise com algum pacote estatstico determinado, em especial com SPSS, queiram
aprofundar-se em seu uso. Neste meio profissional, tambm freqente que, ao tentar
manipular arquivos de dados clnicos ou epidemiolgicos, o profissional de sade encontre
uma complexidade muito superior dos arquivos com os quais usualmente efetua a docncia
de Estatstica e dos pacotes de anlises. A esses profissionais este livro mostrar, na prtica,
como so manipuladas diferentes bases de dados, tanto em estrutura como no tipo de suporte,
com a finalidade de alcanar uma base de dados nica, que reflita a informao necessria
para descrio e anlise de seu problema de estudo.
Finalmente, apesar de esta obra ser dirigida a pessoas com perspectiva profissional e de
aprofundamento de conceitos, pode servir de incio para qualquer estudante que queira formar-
se de maneira slida no uso de pacote estatstico, como ferramenta de anlise de informao
estruturada em arquivos complexos e informao distribuda em diferentes arquivos. Isso
ocorre porque seu desenvolvimento parte do princpio bsico do desconhecimento do uso de
um pacote estatstico, sem supor conhecimento prvio da matria. Por esta mesma razo, os
autores consideram que pode ser de grande utilidade como guia de ensino para qualquer
docente implicado no tema de anlise de dados.
Estrutura do livro
O presente livro est estruturado de forma que o leitor v adquirindo os conhecimentos gerais
de uso de um pacote estatstico, a partir de um exemplo de anlise dos dados de um estudo
real.
O primeiro caminho, mais profissional, o que vai indicar as diferentes instrues de Sintaxe
de cada seo. A execuo adequada dessas instrues que permite ir avanando na
resoluo do exerccio prtico. Foram utilizados diferentes formatos de letra, quadros e
sombreados para facilitar a compreenso do leitor. No final de cada captulo apresentada a
soluo de sintaxes para a concluso dos objetivos descritos.
O segundo caminho, indicado pelo ttulo de Janelas, introduz o leitor ao uso dos menus
desdobrveis e ao trabalho clssico em ambiente Windows. Sendo assim, o leitor anima-se ao
saber que, utilizando a opo Colar (Paste), presente em quase todas as janelas descritas,
pode ir gerando as sintaxes sem necessidade de escrev-las, seja para uso posterior, seja
para compar-las com as que foram escritas na janela de sintaxes. Isto , o leitor pode fazer a
correo paralelamente, comparando em cada caso os termos de sintaxe que ele mesmo
deduz da explicao do texto e a que foi gerada automaticamente pela utilizao de janelas.
Seguindo este esquema duplo, em primeiro lugar descrevem-se as diferentes formas de definir
a matriz de dados e sua exportao e importao de outros sistemas de anlises.
Um quarto bloco faz referncia a como criar novas variveis e como modificar as j existentes.
O bloco seguinte consiste na explorao das anlises descritivas uni e bivariadas mais
freqentes, destacando tambm a fase prvia do controle de qualidade dos dados.
Pretende-se que, com este esquema, a resoluo de todas as fases descritas no caso real,
utilizado como exemplo, mostre todos os problemas e dificuldades presentes no trabalho que
um analista de dados desenvolve cotidianamente.
O controle profissional das atividades que devem ser realizadas para resolver estes problemas
outro objetivo deste livro, motivo pelo qual em todos os exemplos mostrados, tal e como
comentado anteriormente, as aes devem ser realizadas sob dois pontos de vista: o
automtico, por meio do uso de janelas, e o que consiste na utilizao da sintaxe.
Enunciado do exemplo prtico
O exerccio prtico no qual este livro se baseou corresponde a um estudo derivado de uma
pesquisa de sade, realizada pelo Departamento de Salud del Colegio de la Frontera Sur
(ECOSUR), em San Cristbal de las Casas no estado mexicano de Chiapas.
A desnutrio continua sendo um dos principais problemas de sade pblica que afetam a
1,2
populao infantil do Mxico . Este problema, importante em si mesmo, agrava-se, ao levar-
se em conta que, de forma direta ou indireta, um dos fatores associados maioria das
mortes evitveis neste estrato de populao.
A mortalidade infantil por 1.000 nascimentos esperados de 30,6, taxa que corresponde ao
quarto pior posto daquele pas.
A taxa de mortalidade em menores de cinco anos das mais altas do Mxico: 5,4 por 1.000
habitantes.
Em todos os estudos realizados pela Pesquisa Nacional de Nutrio no Meio Rural e pelo
Instituto Nacional Indigenista, mostra-se uma evidncia considervel da relao entre
desnutrio e mortalidade em menores. Assim, considera-se que, a grosso modo, mais da
metade das mortes de menores de cinco anos na Amrica Latina so devidas a esta causa,
com a circunstncia agravante de que, para a maioria da populao afetada, a desnutrio no
considerada problema de sade.
Fonte: http://www.fortunecity.com/boozers/jerusalem/99/id16.htm
A pesquisa foi feita com os moradores de 1.100 residncias selecionadas em dois municpios,
Villaflores e Jaltenango, que, na classificao socioeconmica indicada, refletem a melhor e a
pior situao, respectivamente.
Das 1.100 residncias foi alcanado alto nvel de participao, j que foram obtidos dados em
1.046.
5-7
A pesquisa de sade compreendia mltiplas etapas , com o objetivo de ajudar no
planejamento dos servios de bem-estar e sade da regio. A informao obtida foi estruturada
em diferentes arquivos, em funo dos diversos objetivos, de maneira que os dados da
residncia pudessem ser atribudos, como: caractersticas fsicas da casa, nmero de
habitantes, informaes sobre o chefe da famlia, etc., informao comum a todos os
habitantes da residncia, por meio de um nmero de identificao (chave identificadora). Neste
caso, ser permitido atribuir esta informao s crianas com idades compreendidas entre 12 e
59 meses, assim como os dados sobre suas mes.
Nas 1.046 residncias onde foram obtidas as informaes, foram encontradas 644 crianas no
intervalo de idade estudado, se bem que, com a finalidade de alcanar uma amostra de dados
independentes entre si, s foram estudadas 472 crianas, evitando-se a presena de irmos no
estudo. No caso das residncias onde havia mais de uma criana no intervalo de idade
estudado, foi escolhida a mais nova delas.
Os dados sobre a ingesto de protenas referem-se, em todos os casos, ao dia anterior, por
meio de questionrio que utiliza utenslios e modelos de recipientes de cozinha, elaborados
para estimar, da forma mais precisa possvel, as quantidades de alimentos consumidas pelo
menor.
Alm destes dados, foram includos no arquivo final o sexo e a idade da criana, a idade da
me, as condies da residncia, a utilizao dos servios de sade pela criana no ltimo ano
e as caractersticas socioeconmicas da famlia.
Para efeitos didticos, durante a leitura de todo o livro, o diretrio ou a pasta de trabalho
referida C:\spss\chiapas\. O leitor dever substituir esta localizao pela que criou
pessoalmente no seu computador. Pelo mesmo motivo, os arquivos de dados foram
segmentados ou apresentam-se em formatos de base de dados diferentes dos originais, com
intuito de diversificar, ao mximo, o nmero de exemplos e de possveis situaes de anlises.
De qualquer maneira, foram mantidas as etiquetas das variveis e dos valores categricos
originais do estudo realizado pelo ECOSUR.
Bibliografia
2.- RIVERA-DOMMARCO, J.; GONZLEZ-COSSIO, T.; FLORES, M.; HERNNDEZ-VILA, M.; LEZAMA,
M.A.; SEPLVEDA-AMOR, J. Dficit de talla y emaciacin en menores de cinco aos en distintas
regiones y estratos de Mxico. Salud Pblica Mx., 1995; 37:95-107.
4.- BOERMA, J. T.; SOMMERFELD, A.E.; BICEGO, G.T. Child Anthropometry in Cross-sectional
Surveys in Developing Countries: An assesment of the Survivor Bias. American Journal of
Epidemiology. 1992 ; 135:428-437.
5.- OCHOA DAZ, H.; SNCHEZ-PREZ, H.J.; RUIZ-FLORES, M.; FULLER, M. Social inequalities and
health in rural Chiapas, Mxico: Agricultural economy, nutrition and child health in the
Fraylesca Region. Cadernos Sade Pblica (Rio do Janeiro, Brasil) 1999; 15 (1): 789-798.
6.- SNCHEZ-PREZ, H.J.; OCHOA-DAZ, H.; GARCA, G.M.; MARTN, M.M. Bienestar social y
servicios de salud en la Regin Fraylesca de Chiapas: El uso de los servicios de atencin
prenatal. Salud Pblica Mx., 1997; 39:530-538.
7.- SNCHEZ-PREZ, H.J.; OCHOA-DAZ, H.; NAVARRO I GIN, A.; MARTN, M.M. La atencin al
parto en Chiapas, Mxico: dnde y quin los atiende?. Salud Pblica Mx., 1998;40:494-502.
Captulo 2.
Entende-se por pacote estatstico um programa modular ou uma Library (biblioteca) de programas de informtica, que
analisa a informao contida em um ou vrios arquivos de dados do ponto de vista estatstico e permite a manipulao e
exportao dos resultados em forma de tabelas, grficos, relatrios ou novas matrizes de dados para anlises posteriores.
A maior ou menor popularidade desses programas depende de sua versatilidade, facilidade de uso,
assim como do preo ou da cota anual de acesso licena de usurio. Em geral, a maioria tem
sido desenvolvida em ambiente Windows, com a finalidade de assegurar a compatibilidade e a
facilidade de compreenso dos processos de uso. No entanto, alm destas caractersticas, a maior
ou menor qualidade de um pacote estatstico, do ponto de vista profissional, est associada,
fundamentalmente, versatilidade e adequao no tratamento de arquivos de informao
complexos e qualidade e transparncia dos algoritmos de anlises.
No mercado atual, existe um nmero aprecivel de pacotes estatsticos com qualidade profissional
avanada, sendo os mais conhecidos o SAS, BMDP, S-Plus e o Statistica. Apresenta-se, neste
manual, a utilizao de um pacote estatstico de uso muito difundido em todos os mbitos
cientficos e tcnicos, o SPSS (Statistical Package for Social Sciences). Sua ampla aceitao deve-
se ao fato de que, historicamente, os criadores do programa procediam de ambientes profissionais
muito variados, tanto do desenho experimental, quanto das Cincias Sociais e da Psicologia, e, por
isto, seu desenvolvimento foi seguindo sempre uma linha de aplicao de tcnicas estatsticas,
quase em demanda do que os profissionais da Estatstica Aplicada nestes campos necessitavam a
cada momento.
Sob esta perspectiva, a forma flexvel de tratar as matrizes de dados respondia a uma situao na
qual, na maioria dos casos, o profissional de estatstica deparava-se com arquivos de dados no
planejados no incio da anlise e tambm a comodidade do pesquisador ou responsvel pelo
projeto em estudo. Assim, era muito freqente que, nos arquivos de dados, a informao no se
encontrasse codificada, e as variveis estivessem definidas em formatos alfanumricos, em
registros de variveis longitudinais, com critrios confusos sobre o que significa o no sabe/no
responde frente ao no perguntado, as variveis surgiam tambm com nmero no fechado de
categorias, etc. Devido capacidade de resoluo de problemas deste tipo, o pacote SPSS
continua sendo um dos mais flexveis e fceis de usar na manipulao de matrizes de dados e
suas transformaes.
De qualquer forma, neste livro, pretende-se introduzir o uso deste pacote estatstico de maneira tal,
que a utilizao de outro programa ou outro pacote no represente nada mais que mudar a forma
de efetuar as anlises, mas no os conceitos de funcionamento de um pacote estatstico, em geral,
e, certamente, que a mudana de verso do SPSS, mudana lgica de evoluo de qualquer
produto de informtica, no signifique nenhum esforo aprecivel do usurio a quem dirigido o
livro. Por esta razo, como ser dada nfase ao longo dos captulos, pretende-se que o usurio
profissional entenda a importncia de conhecer as instrues de programao necessrias para
fazer determinado tipo de anlise, que vai alm da forma habitual de seleo de opes em menus
desdobrveis das janelas, to familiares pelos atuais usurios de informtica.
Como ser visto mais adiante, a variedade de formatos e estruturas de arquivos de dados que o
mdulo de entrada pode acessar muito grande, existindo tambm a possibilidade de definir um
novo arquivo e entrar com os dados diretamente pela primeira vez.
Trabalhando de forma interativa, a este arquivo atribudo o nome de janela do editor de dados do
SPSS, em termos reais, conhecido como arquivo ativo. A extenso real deste arquivo temporal
visualizada em MS-DOS como *.sav; ao finalizar a sesso de trabalho, grava-se em um
determinado diretrio ou pasta. Desta forma, pode-se voltar a ler este arquivo diretamente em outra
sesso de trabalho, como se fosse a continuao da sesso anterior, isto , mantendo-se todas as
aes efetuadas com os dados at aquele momento.
Simultaneamente, alm de realizar as aes de forma interativa, por meio da seleo dos menus
desdobrveis nas diferentes opes da barra de ferramentas, possvel executar estas mesmas
aes a partir de um arquivo de instrues chamado Editor de Sintaxe SPSS, que possui a
extenso *.sps. Esta possibilidade inicialmente incmoda para aquele que est acostumado
resposta imediata da transmisso de uma ordem utilizando o cursor do mouse. As vantagens desta
forma de trabalhar compensam, sem dvida, o esforo de acostumar-se com uma rotina diferente.
variveis que tambm so, s vezes, complexas e tediosas. Se estas esto salvas em um arquivo
de instrues, no precisam ser repetidas, podendo ser executadas sobre outro arquivo de dados
com mnimas modificaes, com a dupla economia que isto representa, de tempo e de possveis
Como exemplo, suponha que exista um arquivo que contenha todos os diagnsticos de doenas
observados em um hospital durante um ano. A classificao internacional de doenas feita com
cdigos alfanumricos compostos de uma letra e trs ou quatro nmeros. Suponha que no estudo
indica-se que deve ser realizada uma reclassificao dos mais de 10.000 diagnsticos possveis
em quinze grupos, segundo critrios especificados. Ter escrito o programa de recodificao e
classificao permite realizar esta ao em novos arquivos de dados, sem esforo e com a
segurana de estar sempre aplicando o mesmo critrio.
A criao desse arquivo de instrues em linguagem ou sintaxe SPSS pode ser feita
diretamente pelo usurio, abrindo um novo arquivo de sintaxe e escrevendo no editor as
instrues. Na prxima seo deste captulo, so indicadas as normas gerais que regem a
sintaxe em SPSS.
Outra maneira habitual de gerar a sintaxe ir adicionando ao editor de sintaxe todas as aes
efetuadas pela ativao dos menus desdobrveis nas janelas da barra de ferramentas. Em todos
eles existe a opo Paste, mediante a qual a seleo efetuada com o mouse transforma-se em
uma instruo de sintaxe no arquivo .sps.
SPSS
SPSS
arquivo de resultados
*.spo
*.rtf
A Figura 2.1 apresenta um esquema dos tipos de arquivos que foram enunciados at o momento. Na realidade, o nmero
de arquivos temporais utilizados pelo programa maior, mas no tem relevncia para o usurio.
O efeito desta ao gera um arquivo de resultados, *.spo ou, se preferir *.rtf, que
pode ser posteriormente editado. Em muitos casos, o resultado de um processo
um novo ou novos arquivos de dados, de diversos tipos, como dados j
processados, *.sav, ou em forma de base de dados ou em ASCII, *.dat.
Na realidade, o nmero de arquivos que o pacote SPSS trabalha em cada
execuo muito mais variado, o que para o usurio no tem, em princpio, muita
importncia, j que esses arquivos possuem a caracterstica de ser temporais. De
qualquer forma, sua natureza e estrutura variam paulatinamente com a apario
de novas verses, e estas variaes relacionam-se mais com otimizao da
memria de trabalho, necessria em cada momento, e a minimizao do tempo de
leitura e acesso em grandes arquivos.
Todas as instrues podem ser complementadas com subinstrues opcionais, tais como, o tipo de
subanlise a ser realizada, os tipos de estatsticas a serem calculadas, a apresentao dos
resultados, a repetio da anlise em outro conjunto de variveis ou de relao entre elas, etc. Por
meio do ndice do sistema de ajuda, presente na barra de ferramentas de todas as janelas do
sistema, indicado pelo smbolo ?, obtm-se acesso sintaxe das instrues SPSS (comand
syntax) e a uma descrio resumida de seu significado.
- As opes colocadas aps uma barra inclinada, /, implicam que seu contedo
pode se repetir vrias vezes, ou que seja uma subinstruo que se diferencia
da mesma opo, quando no est precedida por este smbolo.
FREQ[UENCIES] [VARIABLES=]varlist
[/FORMAT=[{DVALUE}] [{NOTABLE }]]
{AFREQ } {LIMIT(n)}
{DFREQ }
[/MISSING=INCLUDE]
[/BARCHART=[MIN(n)][MAX(n)][{FREQ(n) }]]
{PERCENT(n)}
A instruo geral FRENQUENCIES poderia ser escrita como FREQ, j que o resto da palavra
est entre colchetes. A seguir so especificadas as variveis que se pretende descrever, e
opcional indicar VARIABLES=.
Exemplo. Qual a distribuio dos clientes de uma empresa por tipo de indstria? Nos
resultados poderia observar que 37,5% de seus clientes pertencem a agncias governamentais,
24,9% a corporaes, 28,1% a instituies acadmicas e 9,4% indstria sanitria. Com relao
aos dados contnuos, quantitativos, como os rendimentos por vendas, seria possvel
comprovar que a venda mdia de produtos de 3.576 dlares, com desvio padro de 1.078
dlares.
SINTAXE
EXECUTE.
Deve ser escrita como a ltima instruo do conjunto selecionado que se pretende
executar, se bem que s necessrio em certas situaes, como aquelas em que
o resultado da ao implica uma mudana na matriz de dados, como a criao de
uma nova varivel, uma recodificao, uma seleo de dados que cumpram uma
determinada condio.
JANELAS
COMENTRIOS
Estas instrues, traduzidas na verso inglesa como Options, podem ser editadas
e modificados todos os aspectos relacionados com as diferentes vias de
impresso e suas caractersticas: os missings de sistema a priori ou caracteres
que o sistema considerar automaticamente como informao perdida ou no
conhecida; formato decimal e longitude do caractere alfanumrico das variveis de
nova criao; a natureza definitiva ou de rascunho do arquivo de resultados; o
nmero de caracteres por linha dos resultados, 80 ou 132, da apresentao na
tela ou o nmero mximo de interaes.
SINTAXES
A relao completa das possveis modificaes por meio da sintaxe pode ser
obtida no manual guia da sintaxe. Nesta seo, oferecemos uma amostra desta
relao.
SET
[BLANKS={SYSMIS**}]
{valor}
[COMPRESSION={ON**}]
{OFF }
[ERRORS={LISTING**}]
{NONE}
[FORMAT={F8.2**}]
{Fw.d }
[JOURNAL=[{ON**}] [{spss.jnl**}] ]
{OFF } {arquivo}
[LENGTH={59**}]
{n }
[MITERATE={1000**}]
{n }
[MXWARNS={10**}]
{n }
[SEED={2000000**}]
{n }
[WIDTH={80**}]
{n }
A instruo principal SET, que deve ser acompanhada de alguma das opes
possveis, seja as indicadas anteriormente, seja as descritas no manual de ajuda.
Para executar uma srie de modificaes, a instruo Set dever ser escrita na
janela do editor de sintaxe e, uma vez selecionada com o cursor, deve ser
executada pela ativao da tecla da barra de ferramentas.
Por exemplo, na Figura 2.3 apresentada uma situao, na qual uma instruo que modifica
quatro condies de trabalho foi escrita na janela de sintaxe SPSS.
Na quarta, indica-se uma semente para iniciar uma srie de nmeros aleatrios e
poder gerar amostras aleatrias de dados.
Como pode ser observado no ndice de ajuda, a sintaxe do SET permite indicar
em uma s instruo as quatro opes anteriormente citadas:
JANELAS
Ao efetuar a ao: Edit , Options , aparece a seguinte tela, Figura 2.4, na qual
so mostradas todas as condies do ambiente de trabalho, que podem ser
livremente modificadas por meio do uso do cursor.
Essa forma matricial define, geralmente, que cada linha da matriz corresponde a um
indivduo ou caso do estudo. Da mesma forma, as colunas referem-se s variveis ou
fatores, motivo pelo qual o elemento xij desta matriz interpretado como o valor da varivel j
para o indivduo ou caso i. Na atualidade, na maioria dos suportes de informtica, planilhas
de clculo e bases de dados, este conceito mantido e assim ser utilizado neste texto.
Existem dois tipos gerais de matrizes de dados, conforme a apresentao dos dados
individualizados ou agregados.
No estudo que analisaremos neste livro, o caso cada uma das crianas estudadas em
Jaltenango e Villaflores.
Cada caso deve possuir um identificador ou chave nica, que corresponde simbolicamente
linha da matriz de dados, podendo ser uma chave j incorporada inicialmente com esta
finalidade ou gerada a partir de outros indicadores presentes.
No estudo que utilizamos como exemplo, o identificador ser gerado, mais tarde, a partir do
nmero atribudo casa, coincidente com o nmero do questionrio, NCUEST, e do nmero
de ordem da criana como pessoa que habita essa casa, NOMPER.
Em casos como o descrito, dever existir um vnculo de unio entre todas as variveis, para
assegurar que a informao refere-se a uma mesma criana. Em princpio a este vnculo,
damos o nome de nmero ou identificador de caso.
Da mesma forma, para todos os casos, a informao de cada varivel deve manter
constante o formato ou a natureza da varivel. Por exemplo, deve ser previamente decidido
se as categorias da varivel sexo codificar-se-o como mulher e homem , como M e F,
como 1 e 2, etc. O que deve ficar bem claro o critrio nico de codificao.
Registros: O registro se corresponde com a linha fsica ou real da matriz de dados. Como
a viso pela tela est limitada a um nmero de caracteres, antes que existisse a
possibilidade da funo scroll, ou deslocamento lateral da tela, a visualizao de um caso
complexo, em nmero de variveis ou de variveis de longitude extensa, obrigava a
escrever o caso em vrias linhas de registros. Era, pois, de vital importncia indicar o
nmero de registros que compunham a informao de um caso.
Quando a informao das variveis de um caso necessita de uma nica fila da matriz, o
nmero de caso e de registro coincidente.
Formato: De forma clssica, entende-se que uma matriz de dados possui formato quando
todas as variveis comeam e terminam nas mesmas colunas fsicas da matriz,
entendendo que cada caractere da longitude de uma varivel uma coluna. Neste caso, se
falaria de um formato fixo, formato no qual se definem a maioria dos arquivos.
Por exemplo, em nosso estudo analisaremos a varivel escolaridade da me. Esta varivel,
ao ser expressa em cursos escolares completos, pode oscilar entre 0 e 20 anos, motivo pelo
qual a longitude da varivel ter duas colunas fsicas, as dezenas e as unidades. Se a
matriz de dados estivesse em formato fixo, em todos os casos estudados a cifra das
dezenas do nmero de cursos superados comearia na mesma coluna, portanto as
unidades estariam, sempre, na coluna seguinte.
Existe a opo de ter as informaes das variveis organizadas sem estrutura de coluna
fixa, mesmo se separadas por algum smbolo que indique onde finaliza cada uma delas.
Neste caso, dizemos que a matriz de dados de formato varivel.
A Figura 3.1 apresenta um exemplo dessas duas situaes. Observe como apresentada a
mesma matriz em cada um dos formatos. Enquanto que na de formato fixo as variveis
distinguem-se claramente em colunas, na de formato livre o caractere ponto e vrgula realiza
a funo de separao entre as variveis.
Figura 3.1 Exemplo da mesma matriz expressa em formato fixo e livre.
Atualmente, cada vez menos freqente o uso de arquivos de dados ou matrizes de dados
que no procedem de uma planilha de clculo ou de uma base de dados, motivo pelo qual
estas caractersticas tambm tendem a perder sua importncia. Nas ltimas verses do
programa SPSS ainda mantida toda a potencialidade de leitura dos arquivos em ASCII,
*.txt ou *.dat, ficando muito clara a sintaxe de definio de arquivos deste tipo, tanto como
instruo de linguagem, quanto como sintaxe pelo menu de leitura de um arquivo nessas
caractersticas.
Imagine que, para as crianas do estudo, desejssemos obter um arquivo agregado por
sexo (i=1,2), idade categorizada em quatro grupos, (j=1,4),tipo de residncia em trs
grandes grupos, (k=1,3), e a idade da me em duas categorias, (l=1,2). Este arquivo
implicaria uma matriz, na qual o nmero de dados seria 48, correspondente s 48 situaes
geradas. Em cada uma destas seguintes situaes, (i,j,k,l), as variveis so resumos de
propriedades existentes em um arquivo de dados individual. Assim poderia existir a
informao do nmero de crianas com as caractersticas geradas pelos ndices ou
freqncia de observao, fijkl, as estatsticas amostrais de qualquer varivel quantitativa,
como a mdia de ingesto de protenas, xijkl, a proporo de protenas de origem vegetal,
pijkl, ou quantas crianas esto abaixo de um determinado nvel, nijkl, em uma varivel
concreta.
1 3 95,2 15,1
4 1 84,3 12,2
6 1 91,0 12,0
10 1 77,5 10,0
12 2 91,4 14,3
17 2 93,3 15,2
Observe que a matriz apresentada em formato fixo, podendo tambm ter sido feita em
formato livre.
Por esta razo, no exemplo utilizado neste livro, a informao apresentada em diversos
arquivos de formatos diferentes, com a finalidade de conhecer como abordar uma anlise a
partir desta diversidade.
NCUEST N. do questionrio
NOMPER N. de identificao da pessoa na casa
SEXO
F_ENTR Data de realizao da entrevista
F_NACIM Data de nascimento da criana
ED_MADRE Idade da me (em anos) 77. NS, 88. NR.
Escolaridade da me (em cursos
MESCOLA 77. NS, 88. NR.
completos)
1. Trabalhos do lar, 2. Trabalhos
MOCUPA Ocupao da me
agropecurios, 7. NS, 8. NR.
Protenas de origem animal consumidas
PROTEA
no dia anterior entrevista
Protenas de origem vegetal consumidas
PROTEV
no dia anterior entrevista
NCUEST N. do questionrio
NOMPER N. de identificao da pessoa na casa
TALL_CMS Altura da criana (em centmetros)
PESO_KG Peso da criana (em quilos)
NCUEST N. do questionrio
TOTAPE Total de pessoas na casa
TIP_LOC Tipo de localidade 1. Urbana, 2. Rural
NCUDOR N. de dormitrios
1.Completo, 2. Latrina, cova 3. No
SANIT Tipo de banheiro
tem banheiro, usa o solo
LUZ Possuem luz eltrica em casa? 0. No, 1. Sim
REFR Possuem geladeira? 0. No, 1. Sim
TV Possuem TV? 0. No, 1. Sim
1. Adobe, 2. Ladrilho, 3. Madeira,
4. Terra, 5. Cimento, 6. Mosaico, 7.
Gesso, 8. Lmina metlica,
PAREDES Material das paredes
9. Terra, 10. Pedra, 11. Palha, 12.
Barro, 13. Palha de trigo, 14. Palha
de milho
1. Adobe, 2. Ladrilho, 3. Madeira,
4. Terra, 5. Cimento, 6. Mosaico, 7.
Gesso, 8. Lmina metlica,
PISO Material do piso
9. Terra, 10. Pedra, 11. Palha, 12.
Barro, 13. Palha de trigo, 14. Palha
de milho
NCUEST N. do questionrio
SEX_JEFE Sexo do chefe da famlia 1. Masculino, 2. Feminino
ED_JEFE Idade do chefe da famlia (em anos) 777. NS, 888. NR.
Cursos escolares superados pelo chefe da
JESCOLA 77. NS, 88. NR.
famlia
1. Agricultor, 2. Outros, 7.
JOCUPA Ocupao do chefe da famlia
NS, 8. NR.
Inicialmente transportaremos os cinco arquivos de dados para uma pasta criada com esta
finalidade: C:\Spss\Chiapas. Uma vez efetuada a cpia, iniciaremos o processo de
transformao destes arquivos em formato SPSS. Desta forma, a qualquer momento,
poderemos acess-los sem problemas. Observe, no entanto, que um dos arquivos originais
est em formato ASCII, outros dois esto em verses diferentes de Excel e dois mais em
dbase IV.
Muito bem, agora j sabemos que arquivos temos e que informaes contm. Comecemos
a trabalhar. Imagino que podemos ver estes dados... O que fazer?
Na poca em que foi lanado o pacote SPSS, a imensa maioria dos arquivos de dados
estava em ASCII, portanto a leitura e a interpretao do arquivo de dados constituam as
primeiras aes explicadas em qualquer curso de introduo ao programa.
SINTAXE
Observa-se que a instruo completa possui uma parte determinante, que o DATA LIST
FILE = arquivo e outra opcional ou dependente da estrutura do prprio arquivo de dados.
DATA LIST
Esta instruo geral, DATA LIST, significa que, em seguida, sero dadas as instrues
necessrias para localizar um novo arquivo de dados, l-lo, traduzi-lo e criar, portanto, um
novo arquivo ativo.
importante realar que o SPSS no pode trabalhar simultaneamente com vrias matrizes
de dados ou arquivos ativos, se voc j tinha outro arquivo de dados aberto, dever fech-lo
previamente.
FILE=arquivo
A primeira subinstruo, FILE, a indicao do nome e da localizao do arquivo de dados.
Como sempre ocorre em SPSS e na maioria dos programas, a especificao de um nome
de arquivo que em geral em alfanumrico, coloca-se entre aspas, simples ou duplas.
[{Tipo}] Por tipo entende-se a estrutura da matriz de dados, a qual, como havia sido
indicado no captulo anterior, geralmente, pode ser de duas classes, fixa ou varivel.
- Fixed **: Mostra que a matriz de dados indicada em FILE um arquivo, no qual
cada varivel est em uma determinada posio fixa em todos os registros. a
forma matricial clssica que foi indicada na primeira parte deste captulo. a
opo adotada como padro pelo programa, portanto, quando for fixo, no
preciso especificar.
Assim, precedidos pelo separador /, so indicados de forma seriada: o nome das variveis
que se encontram neste registro, se o arquivo de tipo fixo, entre que colunas se
encontram. Da mesma forma indicado o formato da varivel. No captulo 4 sero descritos
todos os possveis formatos ou maneiras como cada varivel pode estar presente em um
arquivo.
Em nosso estudo, um dos arquivos nos quais foi originalmente armazenada a informao
do tipo ASCII. Assim devemos transform-lo em formato de dados SPSS, por meio da
instruo DATA LIST.
Para isto devemos levar em conta a informao sobre a natureza de cada varivel e seu
formato, dados que foram descritos para os arquivos NIN_VILL.DAT, na tabela 3.1.
A instruo necessria :
Esta instruo indica que seu arquivo de dados NIN_VILL.DAT est localizado na unidade
C:\ de seu computador, em uma pasta ou subdiretrio Chiapas, que foi criado por voc em
outro subdiretrio chamado SPSS. Caso voc tenha instalado arquivos em outro diretrio,
deve modificar esta instruo, adequando-a ao seu prprio esquema.
Como nada foi indicado, o programa supe que o arquivo de dados de formato fixo, e que
a informao de cada caso, neste arquivo cada criana, encontra-se em somente um
registro. Por esta razo, depois no indicado o separador /.
Observa-se tambm que, como o tipo de arquivo fixo, para cada varivel especificada
em que coluna inicia e termina a informao, e que s a varivel SEXO, que de formato
alfanumrico, possui a informao (A), indicando isto. Nas demais variveis, como nada
indicado, aplica-se o formato padro, que o numrico.
A sintaxe DATA LIST est desaparecendo atualmente. Nas ltimas verses do SPSS para
Windows, a tendncia a de unificar todas as instrues ligadas abertura e ao transporte
de arquivos, por meio de uma nica instruo geral, que recebe o nome de GET DATA. A
verso 10 do SPSS j a que gera todos os tipos de leitura ou abertura de arquivos, motivo
pelo qual em um futuro se prev que a instruo DATA LIST deixar de existir. Esta
situao pode ser observada ao abrir um arquivo de dados ASCII ou texto, nomenclatura
usada na atualidade pela utilizao de menus desdobrveis nas janelas disponveis na
barra de ferramentas.
JANELAS
Realizar a abertura e leitura de um arquivo ASCII por janelas significa ativar, mediante o
cursor, a opo File e, no menu que desdobra-se, selecionar Read Text Data. (Figura 3.3).
Por meio da janela do Explorer ativada, deve-se procurar e abrir o arquivo NIN_VILL.DAT
na pasta onde tenha sido copiado.
Com esta ao abre-se uma janela com o nome Text Import Wizard, na qual j
visualizada uma amostra do arquivo indicado. Esta janela, primeira das seis que configuram
o processo, permite buscar um arquivo em que se encontre definido o formato de leitura.
No caso em que fosse escolhida a opo de colar a sintaxe, o processo termina ao Concluir
e, neste caso, abre-se uma janela de sintaxes, para que as aes escritas na janela possam
ser executadas. Para isto, siga os seguintes passos:
No caso em que os arquivos tm uma estrutura muito complexa, o processo de leitura por
meio de janelas rduo, portanto suscetvel ao cometimento de erros ou imprecises ao
execut-lo. uma situao na qual guardar as sintaxes de leitura pode evitar muitos erros
no futuro e perdas desnecessrias de tempo. Da mesma forma, tente imaginar como
escrever um relatrio que defina com clareza o processo de leitura, sem escrever as
sintaxes. Seguramente, alm de imprecisa, a explicao mais extensa que anexar as
sintaxes.
COMENTRIOS
1. Uma vez carregado o arquivo NIN_VILL.DAT, observe atentamente o Editor de Dados.
Poderia acontecer que as colunas que representam as variveis PROTEA e PROTEV
no tivessem praticamente nenhum dado.
Observa-se, tambm, que existe uma janela nova, ao ativar Window na barra de
ferramentas, que corresponde a um arquivo de resultados. Neste arquivo pode aparecer
uma mensagem de aviso (Warning), informando que foi encontrado um campo numrico
no-vlido. Deve-se saber que, se isto aconteceu, porque no arquivo NIN_VILL.DAT o
separador decimal est representado pelo caractere da vrgula, enquanto que seu
computador, por padro, tem o ponto definido como smbolo do separador decimal.
Ocorrer somente neste caso. Para solucionar este problema, podem-se seguir dois
caminhos:
1.2. Trocar o ponto pela vrgula como smbolo separador decimal em seu sistema:
Isto deve ser feito fora do programa SPSS, pelo menu Iniciar4Configurao4
Painel de Controle4Configurao Regional, onde aparecer a seguinte tela,
(Figura 3.5):
Esta mudana no surtir efeito at que o programa SPSS seja reiniciado. Assim,
se se deparou com o problema e escolheu este caminho para solucion-lo, o
programa deve ser fechado e novamente iniciado. Neste caso se faz mais
necessrio guardar a sintaxe para no ter que escrev-la ou desenvolv-la
novamente por janelas.
Uma vez importados os dados, necessrio salvar o arquivo ativo no disco, j que nestes
momentos o arquivo temporal. Isto , se sassemos do programa ou se acontecesse
algum problema com o computador que provocasse o desligamento deste, o arquivo ativo
seria perdido, e deveria ser repetida a instruo DATA LIST ou a importao do arquivo,
ativando as janelas de aquisio de dados.
A partir de agora, cada vez que queira trabalhar com o arquivo de dados das crianas de
Villaflores terei que repetir o DATA LIST?
SINTAXE
[/DROP= lista de variveis] uma instruo que tambm tem como objetivo
limitar as variveis que so includas no arquivo permanente final, mas, neste caso,
indicando a lista de variveis que so excludas dele.
O uso de KEEP ou DROP depende do nmero de variveis que deseja-se excluir ou manter
no arquivo final, assim como do nmero de variveis na janela ativa.
Assim, podemos salvar em disco o arquivo em que estamos trabalhando, por meio da
instruo:
JANELAS
A ao de salvar o arquivo, por meio da utilizao de menu por janelas, seria efetuada,
ativando File Save As..., tal e como apresentado na Figura 3.6.
Se, em vez de clicar na opo Salvar, se optasse pela de Paste (colar), na janela Editor de
Sintaxes SPSS, seriam escritas as ordens de sintaxe, as quais poderiam ser ativadas como
nos casos anteriores. Isto , selecionando com o cursor a instruo e clicando na tecla da
barra de ferramentas.
COMENTRIOS
1. No momento de executar esta instruo, o arquivo ativo ser salvo tal como est,
conservando todas as modificaes feitas desde a ltima vez em que foi aberto. Se o
salva com o mesmo nome, substituir o arquivo antigo e este no ser recupervel.
J temos, seja por ao de sintaxe, seja por menu, o primeiro arquivo em formato de dados
SPSS. Nos restam mais quatro arquivos para passar a este formato. No entanto estes no
so arquivos ASCII, mas, sim, arquivos dBase IV e EXCEL (um na verso 2.1 e outro na
verso 97).
Exato. Se tenho arquivos em formato ASCII, j sei o que fazer. Mas, se esto em outros
formatos, posso fazer o mesmo ou devo utilizar outras instrues?
Na realidade, a melhor das opes, j que, em princpio, adquirir a informao por meio
de uma base de dados, tal como foi dito anteriormente, pelo desenho de formulrios para
coleta de dados, evita muitos erros de digitao.
Neste aspecto, como foi indicado para a leitura de arquivos em ASCII, tambm est sendo
produzida uma evoluo muito rpida da sintaxe, tendendo a unific-la em uma mesma
instruo, GET DATA, introduzindo subinstrues que indicam o tipo de base de dados ou
de planilha que se pretende traduzir. Esta instruo descrita mais adiante.
No entanto ainda est vigente a instruo que, at a verso SPSS10, tem permitido a leitura
de arquivos nesses formatos, tal como descrito a seguir.
SINTAXE
A sintaxe necessria para a leitura de um arquivo desta natureza :
FILE=arquivo Tal como foi visto em instrues anteriores, preciso indicar o nome
completo do arquivo que se deseja ler ou abrir, incluindo no nome do arquivo o path ou localizao
das pastas onde ele se encontra.
Os arquivos Excel em verses superiores a 4.0 devero ser lidos por meio da instruo GET
DATA.
Uma vez efetuada esta operao, guarde o arquivo por meio da instruo SAVE e repita o
processo com o outro arquivo dBase, CASA.DBF.
JANELAS
Obviamente, uma vez transformado em arquivo ativo, deveramos salv-lo em disco, tal
como fizemos anteriormente. Para os outros arquivos que podem ser abertos por meio
desta instruo (CASA.DBF e ANTROP.XLS), deveremos repetir o mesmo procedimento
empregado com NIN_JAL.DBF.
COMENTRIOS
Finalizado este processo, na rea de trabalho que voc selecionou, existiro quatro
arquivos com a extenso .sav, correspondentes a quatro arquivos traduzidos em formato
SPSS. Observe que vai faltar traduzir somente um (JEFE.XLS), que dever ser importado
por meio da instruo GET DATA explicada mais adiante.
A partir deste momento, a ativao de um dos arquivos de dados em formato SPSS pode
ser feita pelo Explorer do Windows. Esta ao implicar execuo do programa SPSS e
apario do arquivo correspondente na janela do editor de dados.
Para comprovar isto, saia do programa SPSS, por meio da opo Exit do menu File,
respondendo s perguntas de salvar as janelas de dados, de resultados e de sintaxe,
segundo seu prprio critrio.
Uma vez fechado o programa, busque no Explorer do Windows a pasta onde se encontram
seus arquivos e observe que so descritos quatro arquivos com a indicao SPSS. Ao ativar
um deles com o cursor, ser ativado o SPSS, e na janela aparecer a matriz de dados
selecionada.
J sei traduzir arquivos de diversos formatos para o formato de dados SPSS. Mas agora
que os tenho neste formato, preciso saber como posso abri-los para trabalhar com eles em
sesses posteriores.
Esta abertura de um arquivo .sav pode ser feita a qualquer momento do trabalho com o
SPSS, levando sempre em conta que somente um arquivo pode ser mantido ativo.
SINTAXE
A sintaxe que converte um arquivo de dados em formato SPSS (*.sav) em um arquivo ativo
a seguinte:
GET FILE=arquivo
[/KEEP={lista de variveis}] [/DROP= lista de
variveis] [/RENAME=(lista de variveis com nome
antigo = lista de variveis com nome novo)...]
[/MAP]
JANELAS
O procedimento o habitual, File Open Data..., ao que abre a janela mostrada na
Figura 3.8.
Apesar de no ser necessrio para o exemplo do estudo que estamos realizando, queremos
comentar a existncia de duas instrues que se encaixam neste contexto, que so SAVE
TRANSLATE e WRITE OUTFILE. A primeira permite salvar o arquivo em qualquer um dos
formatos citados em GET TRANSLATE, enquanto que a segunda escreve a matriz de
dados em formato ASCII, portanto tratvel a partir de um editor do MS-DOS. Se alguma
destas instrues lhe interessa, consulte os manuais ou o ndice da ajuda o programa.
Ainda me resta um arquivo para passar para o formato de dados SPSS. No existe
nenhuma instruo para traduzi-lo?
SINTAXE
/TYPE = {Formato}
De modo geral, podemos especificar trs tipos gerais de formato:
/CONNECT=caractere de conexo
/SQL 'ordens de seleo'
XLS: Nos formatos Excel 5.0 e superiores, dever ser indicada a informao sobre as
planilhas que sero utilizadas.
[/SHEET = {INDEX** n}
{name nome da planilha}]
[/CELLRANGE = {' ponto de incio:ponto final}]
[/READNAMES = {on** ou off }]
[/ARRANGEMENT = {Tipo}]
O qual pode ser DELIMITED por algum caractere como a vrgula, espao em branco, ponto
e vrgula, etc., ou FIXED, isto , indica se o arquivo de formato varivel ou fixo.
No primeiro caso, devem ser indicados o nome das variveis e o seu formato:
JANELAS
COMENTRIOS
Observe a diferena de sintaxe que obtida, utilizando a segunda opo File Open
Database New Query... e a seleo do esquema Excel Files. Neste caso, a sintaxe a
ser executada consiste nas seguintes instrues:
JANELA GERAL
A utilizao da janela ativada por File Open Database New Query ... abre a janela
geral, que corresponde ao GET DATA, tal como mostrado na Figura 3.10.
A partir deste instante, o nmero de telas que pode chegar a ser produzido, devido a grande
variedade de opes de fontes de dados, muito elevado. Em outras palavras, a grande
diversidade de seqncias de sintaxes que podem ser consideradas supera os objetivos
deste livro, j que entre outras situaes deveria ser definido um processo diferenciado, em
funo de se o programa est sendo executado por uma instalao no disco rgido do
computador ou se est sendo executado em rede local.
Assim, ao marcar dBase Files, ativa-se a tecla de Add Data Source; a tela que aparece, ao
escolher a opo Configurar, permite definir o diretrio onde encontram-se os arquivos de
dBase, assim como sua verso. Em nosso exemplo, seria indicado o diretrio
C:\Spss\Chiapas ou aquele cujo leitor tenha escolhido. Procederia da mesma forma se o
arquivo que se pretende ler em Excel. Uma vez definida a fonte de dados, esta informao
permanece inalterada nas prximas sesses, a no ser que seja desativada, e aparece
sempre que for indicado este tipo de fonte de dados.
No entanto o leitor interessado chegar sem dificuldade criao de perfis de fonte de
dados personalizadas.
COMENTRIOS
************************************************
************************.
* Importamos o arquivo Nin_vill.dat e o armazenamos como arquivo de
*.
* dados SPSS
*.
************************************************
************************.
DATA LIST FILE='C:\Spss\Chiapas\nin_vill.dat'
/ ncuest 1-3 nomper 5-6 f_entr 10-19 (DATE) f_nacim 21-30
(DATE) sexo 31-39 (A) ed_madre 47-48 mescola 52-53 mocupa
56 protea 60-65 protev 69-74 .
EXECUTE .
************************************************
************************.
* Importamos o arquivo Nin_jal.dbf e o
armazenamos como arquivo de *.
* dados SPSS
*.
************************************************
************************.
*********************************************.
* Importemos o arquivo Antrop.xls *.
*********************************************.
SAVE OUTFILE='C:\Spss\Chiapas\antrop.sav'
/COMPRESSED /MAP .
***************************************.
* Importemos o arquivo Casa.dbf *.
***************************************.
DEFINIO DE VARIVEIS
INTRODUO
Antes de iniciar qualquer anlise, preciso definir com clareza cada uma das variveis que formam
a base de dados ou o arquivo original. A razo desta necessidade deve-se ao fato de que, ao
longo do processo de anlise, as variveis podem ser modificadas e inclusive outras podem ser
criadas a partir delas, mas, muitas vezes, com o problema da manuteno do nome da varivel de
origem. Se isto no for suficiente para justificar a definio clara e a documentao da gerao das
variveis, preciso levar em conta que um mesmo arquivo pode ser compartilhado e manipulado
por vrias pessoas. Se o contedo de cada varivel no fica bem claro, corre-se o risco do analista
se tornar totalmente desorientado, sem condies de interpretar a informao disponvel e, em
conseqncia, se sentir obrigado a refazer tarefas realizadas anteriormente. No pior dos casos,
pode-se chegar inclusive a realizar interpretaes errneas derivadas de uma caracterizao
incompleta ou incorreta de alguma das variveis.
Basicamente, as caractersticas de uma varivel que devem ser definidas resumem-se nos
seguintes aspectos: formato, medida ou natureza, definio da informao que ela registra,
definio dos possveis subgrupos ou valores especiais e, finalmente, que valores so
considerados perdidos ou desconhecidos.
Formato
O formato refere-se forma como uma varivel est expressa ou registrada na matriz de dados.
Ou seja, expressa-se pelo formato em que tipo de caractere esta varivel deve ser lida.
Inicialmente dois grandes tipos de formato devem ser considerados. Em primeiro lugar, os formatos
numricos, os quais so reconhecidos porque os valores ou opes da varivel so expressos por
meio de nmeros, mesmo que a varivel seja de natureza categrica. Em segundo lugar, os
formatos que so expressos com caracteres alfanumricos, isto , com qualquer caractere ASCII,
mesmo que estes incluam nmeros. Existem vrias possibilidades, na imensa maioria das vezes o
formato utilizado um dos que so apresentados na figura 4.1:
Assim, uma varivel como sexo pode ser registrada como alfanumrica (tal como est nas bases
de dados dos exemplos que vamos desenvolver, Masculino e Feminino) ou como numrica
(atribuindo, por exemplo, os valores arbitrrios 1 e 2 , 0 e 1ou qualquer outro par).
Esta escolha no insignificante; veremos posteriormente que ela tem conseqncias importantes.
Finalmente, como observado na figura, as variveis em qualquer formato do tipo data incluem
separadores que podem ser hfens, pontos ou barras.
Medida ou natureza
COMENTRIOS
Outro aspecto que deve ser considerado que, de forma ideal, o nome de
uma varivel deveria ser suficiente para identificar claramente seu
contedo. Em certos casos, este nome no admite confuso, por exemplo
sexo, mas, no entanto, somente com o nome no possvel a identificao
completa da informao contida. Em nossos arquivos encontramos
variveis como nomper ou mescola, das quais, somente com seus nomes,
difcil saber exatamente o que registram. Em situaes como esta de
grande utilidade poder definir uma etiqueta de varivel, isto , um
pequeno texto associado varivel para solucionar este problema. Este
texto aparecer no arquivo de resultados e nas janelas do programa,
sempre que julguemos necessrio, e chega inclusive a substituir o nome da
varivel pela etiqueta. De agora em diante nos referimos a esta
informao como Etiqueta ou Variable label, estando trabalhando por
janela ou por execuo de sintaxes.
Uma vez aberta uma janela de dados, pela ao de File Open Data... ou por
alguma instruo GET ou DATA LIST, temos, como ocorrer na maioria das aes
que executamos, uma alternativa visual ao uso da sintaxe. Como se observa nesta
seo, os parmetros referentes ao formato, natureza da varivel e a outros
puramente visuais das variveis na tela podem ser modificados na janela do editor
de dados, na planilha Variable View.
SINTAXE
Assim, para cada varivel ou lista de variveis o formato dever ser indicado, o
qual, em termos SPSS, pode apresentar alguma das seguintes caractersticas:
{formato}:
Fw.d **: formato numrico com w caracteres (incluindo o separador decimal) e d casas
decimais.
A: formato alfanumrico. No necessrio definir sua extenso, j que o programa
escolhe automaticamente a mxima observada.
date: formato de data tipo europeu (dia-ms-ano).
adate: formato de data tipo americano (ms/dia/ano).
Em nosso caso, a definio dos formatos para as variveis do arquivo NIN_VILL.SAV seria feita da
seguinte maneira:
Os formatos visualizados pela primeira vez so os que foram gerados como padro mediante a
instruo DATA LIST, com exceo das variveis alfanumricas, que, ao expressar as colunas que
se encontram entre elas e indicar que so alfanumricas, ajustam um formato deste tipo, cadeia,
com extenso mxima dada pelas duas colunas. No caso de utilizar outras instrues para
importar o arquivo de dados de outro programa (GET TRANSLATE ou GET DATA), os formatos
visualizados inicialmente sero os que estavam definidos pelos programas externos.
O momento em que a definio do formato das variveis mais relevante na suposio de que
criaremos novas variveis, como ser visto no captulo seguinte. Neste caso, muito freqente que
o formato atribudo como padro pelo programa, por meio das Options ou Settings, no seja o
mais adequado a nossos interesses ou no esteja definido, como ser visto nas novas variveis de
natureza alfanumrica a serem criadas.
COMENTRIOS
1. Qualquer varivel que no seja numrica, como o caso do sexo, f_entr e f_nacim, j tem
definido o formato, sempre que se executar a instruo DATA LIST, anteriormente
FORMATS.
2. Observe que nos formatos numricos (Fw.d) o w o nmero total de caracteres, incluindo o
separador decimal. Isto , a largura total da varivel no o nmero total de valores inteiros. Por
exemplo, a ingesto de protenas, tanto de origem animal como vegetal, possui o formato F6.2,
o que indica que a medida ter no mximo trs inteiros e dois decimais. Estes cinco caracteres
mais o ponto decimal so os indicados pelo nmero 6 no formato.
3. No caso de variveis do tipo data, vale pena destacar que, internamente, a maioria delas
armazenam-se por uma correspondncia numrica. Esta correspondncia o nmero de
segundos transcorridos de 14 de outubro de 1582 at a data especificada pela varivel. Este
valor poder ser observado a partir da transformao da varivel em formato data para formato
numrico.
Medida
O SPSS entende por medida o conceito de natureza da varivel.
Ento, de acordo com os tipos de medida que foram definidos na Figura 4.2, para
especificar a natureza de cada varivel devemos utilizar a seguinte instruo:
SINTAXE
A expresso de sintaxe para este conceito :
VAR[IABLE] LEV[EL] lista de variveis ({natureza}) [/lista de variveis
({natureza })...].
{natureza}:
scale **: Varivel quantitativa.
nominal: Varivel categrica nominal.
ordinal: Varivel categrica ordinal.
Observe como o programa no distingue entre variveis quantitativas discretas e contnuas, nem
tampouco permite definir variveis de intervalo. Se o arquivo que se deseja analisar contm
alguma destas ltimas, defina-a como ordinal, j que as variveis por intervalos tambm so
ordinais.
Outro aspecto trata das variveis do tipo data. Como devemos defini-las? Diante das
possibilidades que o programa oferece, aconselhamos que seja definida como scale.
JANELAS
Como no caso anterior, podemos definir a natureza das variveis a partir da janela
do editor de dados com o tipo de visualizao Variable View (Figura 4.3). Neste
caso, as modificaes sero feitas nas clulas correspondentes coluna
Medida, indicando se uma varivel de escala, ordinal ou nominal.
COMENTRIOS
2. Note que nem sempre existe uma relao direta entre o formato de
uma varivel e sua natureza ou medida. Assim, possvel que duas
variveis de natureza idntica sejam expressas com formatos
diferentes (por exemplo, sexo e mocupa), e, da mesma forma, duas
variveis de natureza diferente poderiam ter o mesmo formato.
J tenho os dados diante dos meus olhos. O que ser nomper? Que informao deve conter?
Imagino que mescola seja a escolaridade da me... Expressa em que unidades? Em anos de
estudo, em cursos superados?
Para resolver este problema, existem as etiquetas das variveis. Por meio desta
instruo, pode-se adicionar um pequeno texto (etiqueta) associado ao nome da
varivel, de maneira que seja claramente identificada a informao contida.
SINTAXE
VAR[IABLE] LAB[ELS] nome da varivel etiqueta
[/nome da varivel etiqueta...]
Cada etiqueta, escrita sempre entre apstrofos, pode chegar a ter uma extenso
de at 255 caracteres, sendo que nas anlises e descritivas s aparecem os 60
primeiros no mximo.
Se a etiqueta necessita que seja utilizada mais de uma linha de texto, antes de
cortar o texto deve-se fechar com apstrofo, e, na linha seguinte, antes de abrir
novamente para continuar, deve ser includo o smbolo +.
No nosso caso, poderamos colocar as seguintes etiquetas para identificar claramente o contedo
da varivel:
VAR LAB ncuest 'N do questionrio'
/ nomper'N de identificao da pessoa na casa'
/ f_entr 'Data de realizao da entrevista'
/ f_nacim 'Data de nascimento da criana'
/ ed_madre 'Idade da me (em anos)'
/ mescola 'Cursos escolares completos pela me'
/ mocupa 'Ocupao da me'
/ protea 'Protenas animais consumidas no dia
anterior' + ' entrevista'
/ protev 'Protenas vegetais consumidas no dia
anterior'
+ ' entrevista'.
JANELAS
Podem ser introduzidas na coluna Labels em Variable View na janela do editor de dados (Figura
4.3).
COMENTRIOS
1. Logicamente, naquelas variveis nas quais a informao contida est perfeitamente definida
pelo seu nome (por exemplo, sexo) no necessrio colocar etiqueta. No teria sentido, seria
redundante.
Agora j conhecemos com exatido que informao contm cada varivel. Mas o que significa os
valores 1 ou 2, 7 ou 8 na varivel ocupao da me? Ser o nmero de ocupaes?
Etiquetas de valores ou categorias
SINTAXE
JANELAS
Podemos colocar as etiquetas, clicando na coluna Values em Variable View na janela do editor de
dados (Figura 4.3). Aparecer o seguinte quadro:
FIGURA 4.4. Janela Variable View para atribuir etiquetas aos valores.
Mesmo que a figura no esteja ativada, observa-se que existe uma tecla que permite a mudana
de etiquetas j existentes. Assim, seria indicado o valor, a nova etiqueta e clicaria em Change.
Da mesma forma, se existe a pretenso de eliminar uma etiqueta, depois de selecionar o valor,
clique na tecla Remove e ser eliminada.
COMENTRIOS
2. Leve em conta que a etiqueta de valor ou categoria substitui o valor de forma visual, isto , o
que o programa utiliza para realizar qualquer operao so os valores e no as etiquetas.
Portanto, quando o analista est programando por sintaxe, deve referir-se determinada
categoria da varivel pelo seu valor e no pela sua etiqueta.
4. Nesta ocasio o nmero mximo de caracteres 60, ainda que sejam visualizados apenas os
20 primeiros.
5. Quando um conjunto de variveis possui as mesmas etiquetas para suas categorias, por
sintaxe pode ser enunciada a lista de variveis e, em seguida, indicar as etiquetas de valores
comuns. Por exemplo, poderiam existir muitas variveis nas quais as categorias possveis
fossem 0 e 1, e que em todos os casos 1 significasse SIM e 0 NO. Neste caso, poderia ser
indicado por sintaxe:
Conheo perfeitamente o que cada varivel e o que significam seus valores. Mas tenho um
problema. No momento de estudar a ocupao da me, no quero escrever os valores NS e NR
juntamente com os demais. Mas tambm no quero perder a informao de quais so NS e NR,
j que acredito que depois ser interessante estudar especificamente estes casos. O que devo
fazer?
Valores perdidos ou desconhecidos.
Como mencionado nos captulos de introduo, existem dois tipos de indicadores para assinalar aqueles
casos nos quais o valor concreto de uma varivel desconhecido. Os missing de sistema so identificados
desde o princpio e normalmente so expressos deixando em branco as variveis numricas. Geralmente so
visualizados na janela do editor de dados como um ponto. Evidentemente, se a varivel alfanumrica, o
branco tem representao de valor como qualquer outro caractere, e o programa no o reconheceria como
tal.
Uma questo diferente so os missings definidos pelo prprio usurio. Ele pode
decidir a excluso ou no destes valores, nas anlises posteriores.
SINTAXE
Entre os parnteses indicada a lista de caracteres ou valores considerados como missing pelo
usurio.
Lista de valores:
THRU: situado entre dois nmeros discretos, indica que os valores missing de
usurio so todos aqueles situados entre o primeiro e o segundo nmero, ambos
includos.
Na base de dados que estamos trabalhando neste momento, os missing de usurio devem ser
definidos somente para trs variveis. Devido ao fato de que nos trs casos os missing de usurios
so valores discretos e no um intervalo de valores, o faremos da seguinte forma:
Podem ser definidas clicando na coluna Missing em Variable View na janela do editor de dados
(Figura 4.3). Aparecer o seguinte quadro:
Os valores devem ser colocados no quadro em funo da varivel ser discreta ou contnua. No
primeiro caso, escolheramos Discrete missing values, e, no segundo, marcaramos Range plus
one optional discrete missing value.
Uma vez realizadas todas as definies explicadas, j temos preparado o arquivo NIN_VILL.SAV,
podendo salv-lo em disco (File Save), neste caso, com o mesmo nome.
No entanto a informao est dividida em vrias bases de dados. Ser realmente necessrio
terminar o processo de definio em todas elas? At que ponto vale pena perder tempo com
estas aes?
Depois de chegar neste ponto, devemos caracterizar totalmente as variveis das outras bases de
dados do estudo. No deixe de faz-lo, pode parecer insignificante, mas, na realidade, o analista
de dados depara-se diariamente com mais de um arquivo de uma vez, com arquivos previamente
manipulados por outro analista, arquivos com os quais esteve trabalhando tempos atrs. Uma boa
caracterizao das variveis imprescindvel para controlar o trabalho, ganhar tempo e assegurar
a qualidade dos resultados obtidos.
No caso do estudo que estamos analisando, uma forma de economizar tempo seria guardando a
sintaxe, utilizando a opo Paste das janelas para escrev-las.
Esteja atento que, para caracterizar as variveis do arquivo NIN_JAL.SAV, deve-se somente
utilizar a instruo FORMATS para a varivel sexo e mudar o nome do arquivo de dados nas
instrues GET FILE e SAVE OUTFILE do arquivo de sintaxes utilizado para NIN_VILL.SAV.
Assim feito, as demais instrues so as mesmas quando os arquivos tm estrutura idntica.
Uma vantagem adicional , alm de ganho de tempo, ter a segurana de que a definio das
variveis seguir o mesmo critrio nos dois arquivos, os quais contm a mesma informao; a
nica diferena a cidade onde moram as crianas.
Sintaxe do Captulo 4.
*************************************************************
******.
* Definio das variveis do arquivo NIN_VILL.SAV
*.
*************************************************************
******.
GET FILE='C:\Spss\Chiapas\nin_vill.sav'.
* Caracterizamos as variveis *.
* Guardamos as mudanas*.
SAVE OUTFILE='C:\Spss\Chiapas\nin_vill.sav' /COMPRESSED /MAP
.
*************************************************************
******.
* Definio das variveis do arquivo NIN_JAL.SAV
*.
*************************************************************
******.
*************************************************************
******.
* Definio das variveis do arquivo ANTROP.SAV
*.
*************************************************************
******.
*************************************************************
******.
* Definio das variveis do arquivo CASA.SAV
*.
*************************************************************
******.
GET FILE='C:\Spss\Chiapas\casa.sav'.
*************************************************************
******.
* Definio das variveis do arquivo JEFE.SAV
*.
*************************************************************
******.
GET FILE='C:\Spss\Chiapas\jefe.sav'.
MANIPULAO DE ARQUIVOS
INTRODUO
Como j foi visto at este ponto, a informao gerada em um estudo pode encontrar-se
coletada de forma fragmentada em diversos arquivos. A informao definitiva necessria para a
anlise final encontra-se dividida em diversos arquivos, que, por sua vez, podem possuir
estruturas diferentes e ser gerados em suportes de natureza diferente. Vejamos, ento, como
abordar uma situao deste tipo, to freqente na vida real.
Cada registro, isto , cada criana, est representada por duas chaves
identificadoras. A primeira, ncuest, o nmero que identifica a casa onde vive
a criana. A cada casa ou lar foi atribudo um nmero de questionrio, para que
esta fosse diferenciada das demais casas nas quais foi feita a entrevista, e a
segunda, nomper, identifica a criana da casa, isto , ela diferenciada das
demais pessoas que vivem no mesmo lar.
Por outro lado, em outro arquivo temos informaes sobre o chefe da famlia.
Observe como neste arquivo tambm consta a varivel ncuest, que a chave
identificadora que permite relacionar a informao de cada chefe de famlia
com a da criana do mesmo lar.
SINTAXE
Abra o arquivo NIN_VILL.sav, utilizando a instruo GET FILE. A execuo desta instruo,
como visto vrias vezes, equivale a ativar com o cursor o cone do arquivo NIL_VILL.sav, que
est na pasta ou no diretrio onde voc o salvou.
O resultado de qualquer uma dessas aes abre a janela do Editor de Dados. Preste ateno
aos primeiros valores de ncuest e agora execute a instruo SORT CASES, usando duas
variveis, por exemplo, sexo e protea. Que modificaes so observadas na Janela Data
View?
Repita a instruo, mudando a ordem das duas variveis. Notou a diferena na ordenao dos
registros?
Agora ordene os casos somente pela varivel ncuest e salve o arquivo resultante com o
mesmo nome.
Execute a mesma ao para todos os arquivos *.sav que foram gerados. O resultado final ser
que todos os arquivos estaro ordenados pelo nmero do questionrio ou residncia.
JANELAS
O uso de janelas muito simples.
Em primeiro lugar, deve-se ter a janela do SPSS Data Editor aberta no arquivo que se deseja
ordenar.
A seguir, na barra de ferramentas, deve ser ativada a opo Data Sort Cases... aparecer o
seguinte:
Figura 5.1. Janela de ordenao de casos.
Nesta janela, devem ser selecionadas as variveis que sero utilizadas como chave de
ordenao, assim como, para cada uma delas, se for considerada mais de uma, o critrio de
ordenao desejado, ascendente ou descendente.
Como exerccio, abra os arquivos *.sav, um a um, criados at o momento e ordene cada um
deles, segundo a varivel ncuest de forma ascendente. Observe como os casos reordenaram-
se na janela Data View do SPSS Data Editor.
Uma vez ordenado cada arquivo, salve o resultado com o mesmo nome. No caso de no
efetuar a ao de Save As... ou Save, o arquivo continuaria desordenado.
SINTAXE
A sintaxe necessita que j exista um arquivo ativo na janela do SPSS Data Editor. A instruo
adiciona aos casos do arquivo ativo um ou vrios arquivos externos, obrigatoriamente de
extenso *.sav. A estrutura destes ltimos, em princpio, deve ser idntica do arquivo que
est ativo.
Esta instruo pode empilhar mais de dois arquivos, e, para cada um deles,
dever ser indicada a seguinte informao:
FILE={arquivo}: Indica, cada vez que aparece, a qual arquivo que vai ser
adicionado estamos nos referindo. Deve ser indicado o path ou nome
completo da pasta onde o arquivo foi salvo, e s podem ser utilizados arquivos
de extenso *.SAV. A especificao, como em outras ocasies quando foi feita
referncia a um arquivo externo, deve ser escrita entre aspas.
1. Abrir um dos arquivos (por exemplo, NIN_VILL.sav), que passa a ser o arquivo ativo, e
acrescentar, a seguir, os dados do outro.
GET FILE='C:\Spss\Chiapas\nin_vill.sav' .
ADD FILES FILE=*
/FILE='C:\Spss\Chiapas\nin_jal.sav'
/IN=municipi
/DROP=d_r.
EXECUTE.
SAVE OUTFILE='C:\Spss\Chiapas\ninhos.sav' .
JANELAS
O processo de acrescentar casos a um arquivo ativo, isto , a um arquivo de estrutura SPSS
aberto na janela do Editor de Dados, implica desdobrar o menu implcito em Data Merge
Files Add Cases, encontrado na barra de ferramentas. Esta ao abre uma nova janela
Add Cases: Read File, mostrada na Figura 5.2.
Uma vez selecionado o arquivo que se deseja acrescentar ao que est ativo, clicando a opo
Abrir, abre-se uma nova janela Add Cases from..., na qual so descritas as variveis
desemparelhadas em ambos os arquivos, no caso de existirem, assim como as que estaro
presentes no arquivo resultante.
Se no for indicado o contrrio, ao salvar o arquivo resultante, este ter o nome do arquivo
ativo.
Em teoria, acrescentar mais casos implica que os dois arquivos possuem a mesma informao,
mas podem acontecer diferentes situaes:
1. Os dois arquivos, o ativo e o que acaba de ser aberto, possuem as mesmas variveis,
mas com nomes diferentes.
Neste caso, sempre que tiver certeza de que esta situao no devida a diferenas
na nomenclatura das variveis, ao executar a ao de OK, as variveis
desemparelhadas no sero adicionadas ao arquivo definitivo. Em uma situao deste
estilo, deveramos revisar se os arquivos so realmente os que pretendamos juntar.
Acho que seria muito interessante observar como varia a nutrio da criana em funo do
combustvel utilizado para cozinhar, imagino que esta varivel deve ser um indicador
socioeconmico confivel. Essas variveis, no entanto, esto registradas em arquivos
separados Como esta anlise poderia ser realizada? Como posso analisar variveis que se
encontram em arquivos diferentes?
Teramos, nesse caso, uma informao em que, por exemplo, poderiam existir diversas
crianas que fossem irms, mesmo que no seja o caso do nosso estudo, na qual seria
possvel acrescentar informaes sobre os pais, por meio de um ndice. Neste caso, no arquivo
de crianas existiriam ndices repetidos, todos os que correspondessem aos irmos, e, no
arquivo de pais ou mes, este ndice apareceria somente uma vez. O segundo arquivo, o do
pai ou da me, recebe o nome de Tabela ou TABLE.
Aconteceria a mesma coisa, se existisse um arquivo com a informao da residncia. Por meio
de um ndice, que seria nico para cada casa, a informao desta e de seus habitantes poderia
ser acrescentada, e os habitantes, pais ou filhos, teriam ndices em comum e portanto
repetidos. O arquivo da residncia tambm seria um arquivo TABLE.
Uma segunda situao, diferente das anteriores, a que acontece quando, para cada caso, o
indivduo possui uma informao adicional e no compartilhada por mais ningum.
SINTAXE
MATCH FILES a instruo genrica, que deve acompanhar a informao de cada um dos
arquivos que fornecem variveis ao arquivo definitivo.
FILE={arquivo} [TABLE={arquivo}]
Especificam quais so os arquivos que vo ser combinados, um a um. O
arquivo resultante mostrar, em primeiro lugar (isto , esquerda), as variveis
do primeiro arquivo especificado na instruo (isto , o nomeado no primeiro
FILE ou no primeiro TABLE), seguidas das variveis do arquivo seguinte
(identificado na segunda especificao FILE/TABLE) e, assim, sucessivamente.
Se algum dos arquivos envolvidos na instruo for o arquivo ativo, este pode
ser especificado por um *.
Neste ponto fundamental fazer uma diferenciao clara entre FILE e TABLE.
O resto das opes possui o mesmo significado que foi visto em instrues
anteriores.
SAVE OUTFILE='C:\Spss\Chiapas\nutricio.sav' .
JANELAS
Semelhante ao caso de ADD FILES, no possvel realizar a ao de MATCH FILES sem um
arquivo aberto ou ativo na janela do Editor de Dados. Assim, uma vez aberto um arquivo, para
efetuar a adio de variveis que encontram-se em outro arquivo, em primeiro lugar deve-se
selecionar o referido arquivo. Para isto, pela ao Data Merge Files Add Variables, ao
abrir o arquivo selecionado, desdobra-se uma nova janela, Figura 5.3, similar descrita na
seo de acrescentar casos.
Assim, em uma subjanela aparecem as variveis que constaro no novo arquivo de trabalho,
marcadas com (*) ou (+), conforme sejam do arquivo ativo ou do segundo. Em outra janela so
descritas as variveis excludas, dado que se encontrem repetidas nos dois arquivos.
A princpio, nesta janela, deveriam constar as variveis utilizadas como ndice ou chave de
conexo entre os dois arquivos e que so as que, mediante sintaxe, constariam na opo BY.
Pode acontecer tambm da varivel ou das variveis de conexo possurem nome diferente
nos dois arquivos, motivo pelo qual no apareceriam na janela de variveis excludas. Pela
possibilidade de Rename, possvel resolver esta dificuldade. Para isto, seleciona-se a
varivel chave na janela New Working Data File e adicione-a janela de Excluded Variables,
clicando sobre a opo .
Na primeira, FILE, seria marcada a opo: Match Cases on key variables in sorted files
(emparelhar os casos nas variveis chave para os arquivos ordenados) e, em seguida, a
opo: "Both files provide cases" (ambos os arquivos fornecem casos).
Como lgico, as variveis chave devero ser indicadas a seguir. Para isto, as variveis da
lista presente na janela de Excluded Variables devem ser selecionadas e transferidas que
indica Key Variables, por meio da tecla .
No caso de o contexto exigir o uso de TABLE, ao marcar Match Cases on key variables in
sorted files, dever ser marcado qual dos arquivos o de chaves. Posteriormente, devero ser
novamente explcitas quais so as variveis utilizadas como chave.
Qualquer que seja a opo escolhida, pode-se especificar a origem de cada varivel, dizer de
qual arquivo ela procede, marcando a opo Indicate case source as variable.
2. Ao realizar um MATCH FILES com a opo BY, ambos os arquivos devem estar ordenados
de forma ascendente pela varivel indicada em BY.
O mesmo procedimento ao descrito na Figura 5.3 permitir adicionar, agora, a informao das
variveis referentes casa e ao chefe da famlia.
Com estas ltimas instrues, j seria possvel ter todas as variveis do estudo em um nico
arquivo. Tente imaginar qual seria a melhor estratgia para fazer isto. No existe uma nica
forma, j que poderiam ser adicionadas, primeiro, a informao do chefe da famlia e, em
seguida, a da residncia, mas tambm seria vlido executar estas aes na ordem contrria.
No entanto, antes de executar esta ao, considere o seguinte: Ao fundir arquivos, esses
tornam-se cada vez maiores e mais complexos. Como posso trabalhar somente com os dados
de um grupo de casos? J posso deduzir um arquivo com somente um grupo restrito de
variveis. Claro! Criando um arquivo por meio da ao SAVE e eliminando variveis pela
subinstruo KEEP ou DROP.
Se se deseja trabalhar somente com os meninos e meninas de Jaltenango, cuja me
analfabeta e no completou ainda 19 anos, existe alguma ao programada?
No entanto surge uma situao, na qual se necessita de uma anlise para um grupo reduzido
de casos, que se caracteriza por um conjunto de propriedades comuns. No nosso exemplo,
poderamos imaginar uma srie de anlises no grupo formado pelas meninas menores de dois
anos, cuja me seja menor de dezoito anos.
Outra situao, no to freqente, a que consiste em selecionar uma amostra aleatria dos
dados, seja para uma orientao para descrio quando o arquivo tem um grande volume de
dados, seja para uma amostra de validao posterior obteno de modelos estatsticos
obtidos com o restante dos dados.
SINTAXE
Na qual
Por exemplo, se queremos configurar uma amostra que represente 20% do total de
casos, a instruo seria: SAMPLE 0.2.
Por exemplo, se nos interessasse selecionar 35 dos primeiros 150 casos do arquivo,
a instruo seria: SAMPLE 35 FROM 150.
A seleo realizada por meio de uma rotina pseudo-aleatria, que se inicia com uma semente
de aleatoriedade concreta, (como padro 2000000), que se repete a cada vez que executada
uma nova seo do programa.
Esta semente pode ser alterada por meio da instruo j definida no primeiro captulo, SET
SEED=N, na qual N deve ser um inteiro inferior a 2000000000.
Por exemplo, na questo apresentada no incio da explicao desta instruo, para trabalhar
somente com os meninos e meninas de Jaltenango, cuja me analfabeta e tem menos de 19
anos, faramos o seguinte:
JANELAS
Na Figura 5.4 so mostradas as janelas correspondentes s instrues de seleo de casos.
Para se obterem essas janelas, seleciona-se Data Select Cases. Para que a seleo seja
realmente permanente e no temporal, a opo Deleted deve ser ativada em Unselected
Cases Are da primeira janela que aparece em Select Cases.
SINTAXE
A seleo temporria de casos realizada estritamente pela instruo FILTER.
Esta instruo seleciona aqueles casos nos quais a varivel filtro assume valores diferentes de
0 ou missing. No entanto, normalmente no temos uma varivel cujos valores estejam
dispostos de tal forma que 0 e missing correspondam aos casos que no queremos que sejam
os selecionados. Logo, antes de utilizar FILTER, devemos construir uma varivel auxiliar
(chamada varivel filtro), pela qual os casos sero selecionados. Esta varivel pode ser
facilmente criada por meio de um simples COMPUTE.
Por exemplo, deseja-se selecionar temporariamente 30% dos casos, seria indicado
como uniform (23577) <= 0.3 , sendo 23577 o nmero gerador da rotina aleatria
que associa a cada caso do arquivo uma probabilidade, segundo uma distribuio
uniforme gerada por uma semente igual a 23577.
Esta instruo criar, ento, a varivel filtro, cujos valores sero 0, se a condio no for
cumprida, 1 , se a condio for cumprida, e missing de sistema, se no for possvel avaliar a
condio.
Uma vez que a seleo de casos j no tem mais interesse e deseja-se voltar a trabalhar com
todos os casos, preciso executar:
FILTER OFF.
Assim, o exemplo dado anteriormente poderia, agora, ser executado de forma temporal da
seguinte maneira:
Sendo SELEO a nova varivel que serve para filtrar aqueles casos no selecionados.
JANELAS
Podem ser obtidas, seguindo a seqncia Data Select Cases... Observe que so
exatamente as mesmas do caso de realizar uma seleo permanente, s que a opo ativada
agora deve ser Filtered em Unselected Cases Are.
1. Veja como a varivel filtro se mantm no arquivo, mesmo como uma outra varivel
qualquer, sem determinar nenhum outro tipo de seleo. A varivel pode ser mantida no
arquivo, para que, nas prximas aes de seleo, seja usado o mesmo nome.
Esta nova estrutura poder ser salva como um novo arquivo para uma manipulao posterior e
anlise.
SINTAXE
A sintaxe de criao da agregao da informao em tabelas de mltiplas dimenses a
seguinte:
AGG[REGATE] OUTFILE=arquivo
[/MISSING=COLUMNWISE]
[/DOCUMENT]
[/PRESORTED]
/BREAK=lista de variveis[({Ordem})][lista de variveis...]
/aggvar['etiqueta']aggvar['etiqueta']...=funo(argumento)
[/aggvar ...].
Esta instruo no necessita da ordenao prvia dos dados, j que a efetua automaticamente,
a no ser que se indique de forma explcita que a ordenao foi realizada previamente. Esta
ordenao prvia recomendvel quando as variveis categricas que geram o agrupamento
possuem muitas categorias; sempre deve ser seguida a ordem que ser utilizada ao agrupar.
Uma vez especificado o arquivo de partida cuja informao deseja-se agregar, as trs opes
seguintes, quando utilizadas, devem ser especificadas antes de /BREAK.
[/MISSING=COLUMNWISE]
Indica que, se em uma classificao proposta, por meio das variveis categricas especificadas
em BREAK, existem casos com informao perdida ou desconhecida nos ndices, mantm-se a
clula indicando o seu componente missing.
[/DOCUMENT]
Inclui documentao do arquivo original. Como padro, o ignora.
[/PRESORTED]
Indica que o arquivo est ordenado a partir das variveis classificadoras descritas em BREAK.
Como padro, cada vez que a agregao efetuada, a instruo realiza um SORT.
/aggvar['etiqueta']aggvar['etiqueta']...=funo(argumento)
Nesta subinstruo indicam-se as variveis que so resumidas nas clulas multidimensionais e
a informao que se deseja delas. Isto , que resumo obtido de cada varivel agregada em
cada clula definida em BREAK. A opo permite atribuir uma etiqueta para a nova varivel
agregada.
Observa-se que todas as funes esto previstas para agregar variveis numricas, no
entanto, tambm apresentam certas utilidades para variveis alfanumricas. Por exemplo, as
funes lgicas ou de classificao.
De qualquer forma, apesar de ser possvel fazer uma agregao, na qual alguma varivel de
agrupamento seja do tipo alfanumrica, esta possibilidade no especificada com clareza nos
manuais, devido aos problemas que a ordenao de variveis desta natureza podem
apresentar, quando possuem uma grande longitude de caracteres. Assim, a ordenao
alfabtica do nome e dos sobrenomes de um arquivo de indivduos pode necessitar uma
memria de trabalho em muitos casos no acessvel, motivo pelo qual seu uso no indicado.
No nosso exemplo, poderamos agregar o nmero de crianas por municpio e sexo, idade,
peso e altura mdia dos mesmos.
AGGREGATE OUTFILE='C:\Spss\Chiapas\base_agr.SAV'
/BREAK=municipi sexo jocupa
/med_alt 'Altura mdia' = MEAN(tall_cms)
/med_pes 'Peso mdio' = MEAN(peso_kg)
/freq=N.
JANELAS
A janela de agregao de variveis ativada por meio de Data Aggregate.
Nesta janela, aparecem todas as variveis contidas no arquivo, como mostrado na Figura 5.6.
S permitida a introduo de uma funo por varivel. Mas, se quiser agregar mais de uma
funo por varivel, voltando a selecion-la e mudando a funo, ser obtido o resultado
desejado.
Por exemplo, se para uma varivel quantitativa deseja-se agregar a mdia e o desvio padro,
selecione a varivel e atribua-lhe a funo Mean ( a funo padro). A seguir, volte a
selecion-la e atribua-lhe a funo Standard deviation.
Tambm como padro, supe-se que o arquivo resultante da ao seja salvo com um nome
diferente do de origem da agregao. O nome suposto Agr.sav, que tambm pode ser
modificado, juntamente com a pasta onde o arquivo ser salvo.
Se a opo Replace working data file escolhida, o arquivo resultante se sobrepe ao ativo,
perdendo-se a informao original.
Neste caso, como em todos os anteriores, recomendamos Colar (Paste) a sintaxe gerada por
suas aes feitas na janela. Alm de se ter constncia escrita das aes efetuadas, poder-se-
entender melhor a sintaxe e os processos automatizados, por meio do desdobramento e da
ativao dos menus pr-programados.
COMENTRIOS
4. Gerar arquivos de agregao por grupos de idade e sexo uma ferramenta muito til, no
caso de estar realizando um estudo que necessita do clculo de taxas e sua posterior
padronizao.
Observe como, teoricamente, o arquivo deveria ser composto de oito casos (as oito possveis
combinaes geradas pelos dois valores de municipi, os dois de sexo e os dois de jocupa) e,
na verdade, composto de dezoito. Pode-se comprovar que isto se deve ao fato de que a
varivel sexo tem, alm dos valores esperados, outros que contm erros de digitao ou so
escritos de forma diferente.
Este um problema tpico, quando se trabalha com variveis alfanumricas. Nestas, por
permitirem qualquer caractere, os possveis erros so de difcil controle, e, por isto, sempre
aconselhvel trabalhar com variveis numricas, mesmo que a natureza delas seja de tipo
categrico. Uma vez que o analista recebe os dados, deve tentar solucionar este tipo de
problema, convertendo as variveis alfanumricas em numricas. No entanto, para atacar o
problema de forma eficaz, ele deve ser previsto no momento em que o programa de captao
dos dados preparado. Quando o desenho da coleta de dados leva em conta esta preveno,
um sintoma da qualidade desses dados, e evita a perda desnecessria de tempo.
Infelizmente, muitas vezes, o analista no intervm no estudo, at o momento em que os dados
j estejam registrados...
SEGMENTAR UM ARQUIVO
A segmentao de um arquivo tem certas semelhanas com a agregao.
SINTAXE
A expresso produzida pela segmentao do arquivo :
{ANLISES VARIADAS}
Ao executar a instruo SPLIT FILE, as anlises subseqentes, que forem indicadas antes da
execuo de SPLIT FILE OFF, segmentam o arquivo em estratos correspondentes
combinao das categorias das variveis indicadas na lista.
[{forma de apresentao}]
Nesta opo deve ser indicado se a apresentao dos dados deve ser efetuada em uma s
tabela estruturada nos estratos, forma de apresentao = LAYERED, ou de forma separada
para cada estrato ou combinao de categorias das variveis que definem o SPLIT. Neste
caso, a forma de apresentao = SEPARATE.
{ANLISES VARIADAS}
Embora no seja indicado o contrrio, a segmentao est vigente e qualquer anlise indicada
ser efetuada para cada estrato definido.
JANELAS
A ativao de Data Split File na barra de ferramentas da janela do SPSS Data Editor abre
uma nova janela, na qual observa-se que a opo padro a de Analyze all cases, do not
create groups , equivalente a SPLIT FILE OFF.
Uma vez indicado que se deseja segmentar o arquivo, deve-se indicar tambm se se pretende
Compare groups (comparar os grupos) ou Organize output by groups (organizar as sadas
por grupos), opes que correspondem a LAYERED ou SEPARATE respectivamente
Uma subjanela automaticamente ativada. Para ela podem ser transportadas as variveis que
definem os estratos ou os grupos de anlises. Selecionadas com o cursor e transportadas a
esta janelinha, falta somente indicar se os dados j se encontram ordenados, ou devem ser
ordenados em funo das variveis selecionadas.
Figura 5.8. Janela que permite a anlise de um arquivo por segmentos ou estratos.
Sintaxes do Captulo 5
GET FILE='C:\Spss\Chiapas\nin_vill.sav' .
***********************************************************
*************.
* Adicionamos casos
*.
***********************************************************
*************.
***********************************************************
*************.
* Adicionamos variveis
*.
***********************************************************
*************.
GET FILE='C:\Spss\Chiapas\antrop.sav' .
SORT CASES BY ncuest nomper.
SAVE OUTFILE='C:\Spss\Chiapas\antrop.sav' .
GET FILE='C:\Spss\Chiapas\casa.sav' .
SORT CASES BY ncuest.
SAVE OUTFILE='C:\Spss\Chiapas\casa.sav' .
GET FILE='C:\Spss\Chiapas\jefe.sav' .
SORT CASES BY ncuest.
SAVE OUTFILE='C:\Spss\Chiapas\jefe.sav' .
SAVE OUTFILE='C:\Spss\Chiapas\nutricio.sav' .
Captulo 6.
CRIAO E
TRANSFORMAO DE
VARIVEIS.
INTRODUO
Ao longo do processo de trabalho com um arquivo de dados, surge, quase
sempre, a necessidade de transformar as variveis j existentes ou criar novas
variveis a partir das j conhecidas.
Em geral, seja qual for a varivel, existe uma regra no escrita aplicvel
coleta de dados que poderia ser resumida em: sempre tente obter a informao
o mais desagregada possvel. De qualquer forma, deve-se valorizar a priori o
esforo que isto implica e, finalmente, buscar o equilbrio desejvel entre o
detalhe com que a informao descrita, o esforo para que este nvel de
detalhe seja obtido e a necessidade para a anlise que pretende-se realizar.
Neste captulo, veremos a maioria das instrues utilizadas na criao de uma varivel ou na
modificao de uma j existente. Uma questo deve ser previamente considerada:
Como padro, o formato das novas variveis sempre de natureza numrica e, como pode ser
observado nos settings ou condies de instalao (Edit Options da barra de ferramentas),
o formato F8.2. Assim, se o resultado de alguma destas instrues uma nova varivel
numrica, ser necessrio somente executar a instruo e, automaticamente, ser atribudo
este formato. Por outro lado, quando se deseja criar uma varivel de natureza alfanumrica,
obrigatria a execuo prvia da declarao de alfanumrica.
SINTAXE
Este passo realizado mediante a instruo:
Nos demais casos, o formato numrico F8.2 pode ser modificado pela janela
Variable View, uma vez criada a nova varivel.
CRIAO DE VARIVEIS
Em nosso estudo, a definio do estado nutricional de cada criana ser realizada, baseando-
se nas protenas habitualmente consumidas em funo da idade dela. No foram obtidos
resultados a partir de uma busca detalhada de critrios externos para classificar as crianas
como bem ou malnutridas, pois as classificaes encontradas na literatura eram
excessivamente amplas e no se ajustavam especificidade dos grupos de idade estudados.
Finalmente, optou-se por considerar quatro grupos de idade ([12,24) meses, [24,36) meses,
[36-48) meses e [48-60) meses, e, dentro de cada um, foram classificadas como malnutridas
aquelas crianas no primeiro tercil do nmero de protenas consumidas. Ou seja, determinou-
se que 33% das crianas com o consumo de protenas inferior em cada grupo seriam
consideradas como aquelas que no cumpriam o padro de adequao alimentar. Observe a
Tabela 6.1. Nela est detalhado o critrio de classificao da adequao alimentar que ser
utilizado na continuao do exemplo. (Uma vez lido o prximo captulo, o leitor estar em
condies, sem dificuldade, de resolver como foram obtidas estas cifras.)
Adequao
Idade*
alimentar
correta+
[12,24) 22,1
[24,36) 27,6
[36,48) 27,9
[48,60) 30,4
* Expressa em meses.
+ Total de protenas (animais + vegetais)
Seria lgico pensar que, medida que a idade da criana aumenta, a quantidade diria de
protenas necessrias para ela ser classificada no estado nutricional adequado tambm
aumentaria.
Agora que conheo o critrio a ser aplicado para considerar uma criana bem
ou malnutrida, devo somente construir a varivel que o calcule para cada uma.
Necessito do total de protenas... e no arquivo constam os animais e vegetais
separadamente. Existe alguma forma do programa para som-las diretamente?
Para se criar uma varivel, existe uma nica instruo, com a qual, devido sua grande
flexibilidade, pode-se efetu-la, utilizando operaes especficas entre variveis j existentes
no arquivo ou modificar uma varivel do arquivo por meio de operaes matemticas definidas.
SINTAXE
A instruo geral :
Expresso:
Pode indicar qualquer operao que envolva constantes ou variveis do arquivo, mediante as
operaes descritas na Tabela 6.2. Alm destas operaes, existe uma srie de funes
predeterminadas disponvel aos usurios. Algumas destas funes, que a experincia nos
indica que so as mais utilizadas, so descritas a seguir.
T b l 62 O
OPERAES DESCRIO
Aritmticas
+ Soma
- Subtrao
* Multiplicao
/ Diviso
** Exponencial
Relacionais
EQ (Equal) = Igual
NE (Non Equal) <> ou ~= Diferente
LT (Less Than) < Menor que
LE (Less than or Equal <= Menor ou igual que
GT (Greater Than) > Maior que
GE (Greater than or >= Maior ou igual que
Lgicos
AND & As duas condies so certas
OR Alguma condio certa
NOT ~ Condio falsa ou excludente
Alm das operaes desta tabela, existe uma grande diversidade de funes programadas
para realizar as transformaes mais usuais.
Em princpio, existem, entre outras funes de natureza aritmtica para a criao ou
transformao de variveis numricas, funes para a manipulao de variveis string ou
alfanumricas, de variveis data ou de clculo de propriedades estatsticas simples.
1. Se o nome atribudo varivel j existe, os valores que possua antes sero substitudos pelo
resultado obtido ao aplicar a expresso.
2. Cada nova varivel ou cada nova modificao requer uma instruo COMPUTE
diferente.
Voltemos ao nosso estudo. Observe que, como j havamos notado anteriormente, nos arquivos de
dados no existe nenhuma varivel que responda diretamente medida do objetivo principal, isto
, o estado de desnutrio das crianas dessas duas populaes.
Esta varivel que indica se uma criana deve ou no ser considerada bem-nutrida deve ser
construda a partir das pautas ou critrios, sobre a base dos quais o analista poder definir a
expresso relacional do COMPUTE.
Segundo os critrios indicados na Tabela 6.1, devemos conhecer, em primeiro lugar, o total de
protenas consumidas por dia, independentemente de sua origem. O total de protenas : protenas
animais + protenas vegetais:
Visto que criamos uma nova varivel, devemos caracteriz-la. Por ser uma
varivel quantitativa (por padro), sem nenhum valor a etiquetar e nem missings
de usurios, s devemos especificar a etiqueta de varivel.
JANELAS
As janelas que permitem a criao de novas variveis ou a sua modificao so abertas, depois de
se clicar na seqncia Transform Compute... da barra de ferramentas do Editor de dados.
Observe como abaixo da caixa, na qual deve ser colocado o nome da varivel
resultante, podem-se definir o formato e a etiqueta da varivel.
Por meio da opo If..., pode ser assinalado que a ao do COMPUTE seja
executada em um subgrupo especfico de casos que cumpram uma condio
indicada. No caso em que a expresso afeta todos os casos sem distino, nada
deve ser especificado.
RECODIFICAO DE VALORES
Uma das modificaes mais freqentes de variveis a recodificao de valores, com base em
uma lista de valores que podem ser pontuais ou por intervalo. Esta ao poderia ser feita a partir
da expresso COMPUTE, mas, dada a freqncia com que realizada, existe uma expresso
geral que facilita a ao.
SINTAXE
A instruo geral :
Esta instruo pode parecer muito complexa, mas, na realidade, muito simples. Um exemplo:
imagine que uma criana nasceu no dia 1-7-1992 e foi examinada no dia 2-7-1994. Deve-se
analisar primeiro o que est dentro do parntesis:
1. A instruo ctime.days (ver Tabela 6.3) calcula o total de dias transcorridos entre a data da
entrevista e a de nascimento. Observe como, no exemplo, transcorreram 731 dias entre
ambas as datas.
2. Ento, dividimos esta cifra por 30,41 (365/12) para passar de dias a meses. Em nosso
exemplo 731/30,41=24,04.
3. Finalmente, por meio de TRUNC (ver Tabela 6.3), arredondamos a cifra ao nmero inteiro
abaixo, isto 24.
4. Observe como realmente a criana do exemplo, no momento do preenchimento do
questionrio, tinha 24 meses.
RECODE idadmes
(12 thru 23=1) (24 thru 35=2) (36 thru 47=3) (48 thru
59=4)
INTO idad4 .
EXECUTE .
Voc pode ter observado que existe uma maneira muito mais simples de construir a varivel idade
nos quatro grupos desejados:
Mas, devido ao fato de estarmos tratando de indivduos com idade muito baixa, considerou-se
interessante tambm ter a idade expressa em meses, para realizar, no momento da descrio dos
dados registrados, uma descrio mais detalhada e ajustada.
Observe, tambm, as variveis que se referem ao material em que o piso e as paredes do lar esto
construdos. Ambas apresentam muitas categorias e muitas delas com poucas observaes. Isto
dificultar, evidentemente, sua descrio conjunta com outra varivel, visto que criar situaes
observacionais sem nenhum caso. Talvez voc pense na possibilidade de agrupar categorias em
funo de determinadas caractersticas. Pois bem, uma destas possveis agrupaes seria
considerar ambas variveis com somente duas categorias: 1 terra, 2 com cobertura. Propomos
que voc crie duas novas variveis que categorizem desta forma. Os valores que corresponderiam
categoria terra seriam o 1, 4 e de 11 a 14. Os demais corresponderiam categoria com
cobertura.
RECODE
piso paredes (1=1) (4=1) (11 thru 14=1) (ELSE=2)
INTO piso2 paredes2 .
EXECUTE .
FOR piso2 paredes2 (F1.0) .
VAR LAB piso2 'Material do piso'
/ paredes2 'Material das paredes' .
VAL LAB piso2 paredes2 1 'terra' 2 'com cobertura' .
[(CONVERT)]
JANELAS
Pela opo If..., pode ser selecionado um subgrupo especfico de casos, para os
quais sero realizadas as transformaes indicadas.
TRANSFORMAO CONDICIONADA
Executa a transformao dos valores de uma varivel sempre que for cumprida a
condio lgica previamente indicada, isto , na parte esquerda da expresso que
tem como sintaxe:
SINTAXE
[(]condio lgica[)]
COMENTRIOS
1. Como sempre, a atribuio realizada efetuada sobre uma nova varivel, e
esta deve ser alfanumrica; h necessidade de que seja criada previamente
pela expresso STRING.
Por exemplo, a varivel IDAD4, criada, anteriormente, mediante um RECODE, tambm poderia ter
sido construda por meio de quatro instrues IF:
JANELAS
SINTAXE
DO IF [(]condies lgicas[)]
transformaes
[ELSE IF [(]condio lgica[)]]
transformaes
[ELSE IF] [(]condio lgica[)]
[ELSE]
transformaes.
END IF.
A expresso das condies lgicas indicadas segue as mesmas normas
explicadas em IF.
Transformaes
Especifica uma condio concreta que ser avaliada somente no caso em que as condies
explcitas do DO IF ou dos ELSE IF anteriores no se cumpram, se estes existissem. O programa
executar a transformao ou operao que consta na transformao correspondente somente no
caso em que seja certa esta condio avaliada.
[ELSE]:
END IF:
COMENTRIOS
Podemos considerar situaes nas quais o encadeamento DO IF END IF no inclua situaes
ELSE IF, mas sim indique uma subinstruo ELSE. Por outro lado, se so especificados um ou
mais ELSE IF, pode no constar a expresso ELSE final. O que no tem sentido um DO IF
END IF sem nenhuma das possibilidades especificadas, j que, neste caso, seria uma instruo IF
simples. Por ltimo, insiste-se em que, se esto presentes as duas opes, ELSE IF e ELSE, esta
ltima obrigatoriamente a ltima de todas as expresses de condio.
Voltando ao estudo que nos permite ilustrar estas instrues, o momento de criar uma varivel
que reflita a adequao alimentar, segundo as protenas consumidas e a idade, seguindo os
critrios da tabela 6.1.
Chamaremos esta nova varivel indicadora do estado nutricional de NUT, e a
definiremos de maneira dicotmica, em funo de cumprir ou no os critrios
citados nesta tabela.
DO IF (idad4=1) .
RECODE protot (Lowest thru 22.09=0) (22.1 thru Highest=1)
INTO nut .
ELSE IF (idad4=2).
RECODE protot (Lowest thru 27.59=0) (27.6 thru Highest=1)
INTO nut .
ELSE IF (idad4=3).
RECODE protot (Lowest thru 27.89=0) (27.9 thru Highest=1)
INTO nut .
ELSE IF (idad4=4).
RECODE protot (Lowest thru 30.39=0) (30.4 thru Highest=1)
INTO nut .
END IF .
EXECUTE .
Observe como, neste caso, o ltimo ELSE IF poderia ter sido um ELSE. No entanto, preciso ter
cautela, j que no sempre assim. Se a varivel ou as variveis expressas na condio lgica
apresentam missings, com o uso de ELSE estes casos tomariam o ltimo novo valor especificado
na instruo. Por outro lado, com ELSE IF seguiriam sendo missing na nova varivel.
Da mesma forma, se a nova varivel tivesse sido pensada em formato alfanumrico, teria que ter
sido definida antes do anel DO IF END IF a expresso STRING NUT (A2) e definindo nas
expresses lgicas = No ou = Sim em vez dos valores numricos 0 ou 1.
JANELAS
No existe uma janela que represente estritamente a instruo DO IF END IF. De fato, uma
instruo deste tipo abarcaria operaes com as janelas COMPUTE, RECODE e COUNT, sempre
especificando subgrupos de casos por meio de If...
DETERMINAO DA FREQNCIA DE
APARIO DE UM DETERMINADO VALOR
EM UM GRUPO DE VARIVEIS.
Geralmente, deseja-se conhecer ou calcular o nmero de vezes que aparece um conjunto de
valores em diferentes variveis. Esta ao, que poderia ter sido efetuada por meio das instrues
indicadas anteriormente, pode ser executada com facilidade pela instruo COUNT.
Esta opo de grande utilidade no caso de entrevistas ou questionrios, nos quais um grande
nmero de variveis possui o mesmo tipo de resposta. Assim, poderamos saber, com facilidade,
em quantas perguntas dada a resposta SIM ou a resposta NO, ou se deixaram sem resposta.
Esta instruo gera uma nova varivel, cujos valores so , portanto, o resultado da contagem das
vezes em que um valor ou um conjunto de valores aparece em uma determinada lista de variveis.
SINTAXE
(lista de valores)
Deve-se indicar, de forma explcita, se o valor ou grupo de valores que sero observados esto ou
no presentes na lista de variveis. Se existe mais de um valor na lista de valores a serem
contados, estes so separados por uma vrgula ou espao em branco. Podem ser utilizadas como
definidoras de valores as expresses MISSING, SYSMIS, LO(WEST), HI(GHEST) e THRU.
COUNT
cse = sanit (2,3) luz (0) refr (0) tv (0) com_coc (1) piso2
(1)
paredes2 (1) .
EXECUTE .
O resultado desta instruo ser a criao de uma nova varivel, cse, com um intervalo de valores
vlidos entre 0 e 7, no qual o 7 significa que esta famlia teve respostas consideradas como mais
desfavorveis em todas estas 7 variveis que avaliam a condio socioeconmica.
JANELAS
COMENTRIOS
1. O resultado de um COUNT sempre uma varivel que apresenta valores em um intervalo
compreendido entre 0, isto , na lista de variveis no aparece nenhuma vez o conjunto de
valores definido na lista de valores, e N, o nmero de variveis que constam na lista de
variveis. Neste ltimo caso, em todas as variveis definidas na lista de variveis apareceria
algum dos valores especificados.
RECODE carne
(CONVERT) ('NS'=7) ('NC'=8) INTO fr_carne .
EXECUTE .
VAR LEV fr_carne (NOMINAL) .
VAR LAB fr_carne 'Freqncia de ingesto de carne' .
VAL LAB fr_carne 1 '1 vez no mnimo / 3 dias' 2 '1 ou 2
vezes / semana' 3 '1 vez / 15 dias' 4 '1 vez / ms'
5 'Menos de 1 vez / ms' 6 'Quase nunca ou nunca' 7
'NS' 8 'NC' .
MIS VAL fr_carne (7,8) .
RECODE
idadmes
(12 thru 23=1) (24 thru 35=2) (36 thru 47=3) (48 thru
59=4) INTO idad4 .
EXECUTE .
DO IF (idad4=1) .
RECODE protot (Lowest thru 22.09=0) (22.1 thru Highest=1)
INTO nut .
ELSE IF (idad4=2).
RECODE protot (Lowest thru 27.59=0) (27.6 thru Highest=1)
INTO nut .
ELSE IF (idad4=3).
RECODE protot (Lowest thru 27.89=0) (27.9 thru Highest=1)
INTO nut .
ELSE IF (idad4=4).
RECODE protot (Lowest thru 30.39=0) (30.4 thru Highest=1)
INTO nut .
END IF .
EXECUTE .
COUNT
cse = sanit (2,3) luz (0) refr (0) tv (0) com_coc (1) piso2
(1)
paredes2 (1) .
EXECUTE .
FOR cse (F1.0) .
VAR LAB cse 'Classificao socioeconmica'
CONTROLE DE QUALIDADE E
DESCRIO DOS DADOS.
INTRODUO
Ao longo dos captulos anteriores, foi mostrada a utilizao de um conjunto de recursos disponveis
no SPSS, com a finalidade de preparar a matriz de dados mais adequada anlise que o
investigador pretende fazer.
Todas as aes descritas, importao de arquivos, definio das variveis, sua modificao e
criao, assim como a manipulao de arquivos, so opes que esto presentes na maioria dos
pacotes estatsticos do mercado. Evidentemente que a sintaxe diferente, j que cada um deles
est programado em uma linguagem distinta. No entanto, os conceitos bsicos que regem estas
aes so praticamente os mesmos.
Neste captulo, vamos supor que o leitor manipule, com certa facilidade, tanto a execuo da
sintaxe explcita na janela do Syntax Editor, como o trabalho por seleo de opes nos menus
desdobrveis (janelas). Tambm no acreditamos que seja necessrio insistir ainda mais na
necessidade de ir guardando a sintaxe utilizada, medida que gerada por um ou outro sistema.
De acordo com essas suposies, pretendemos introduzir tanto as instrues bsicas de anlise
descritiva, como tambm um estilo de trabalhar um arquivo de dados, visto que sua estrutura
esteja completamente definida.
Isto , uma vez superado o processo de definio, criao e modificao de variveis e depois de
haver manipulado todos os arquivos de dados disponveis (adio dos casos de NIN_JAL.DBF ao
primeiro arquivo, NIN_VILL.DAT, e unir as variveis presentes no arquivo resultante com as
provenientes de ANTROP.XLS, CASA.DBF e JEFE.XLS), o leitor poderia pensar que o momento
de comear a descrever a informao que temos armazenada no arquivo resultante,
NUTRICIO.SAV. No entanto, no assim, j que devemos estudar previamente se todos os dados
disponveis so, ao menos aparentemente, corretos. Devemos avaliar qual a qualidade da
informao coletada no estudo, por alguma tcnica descritiva que permita o controle dela.
A primeira ao que o analista deve realizar, uma vez definida por completo a
matriz ou base, o controle de qualidade dos dados disponveis. Esquecida, s
vezes, esta fase deve ser considerada indispensvel para assegurar a qualidade
dos resultados obtidos, assim como para a mxima economia de tempo de
anlise. Neste ponto, as etapas do controle de qualidade so:
1) Definio de missings:
Em todo caso, vale a pena citar que, nesta fase, deve-se produzir a
interao entre o analista e o investigador. O primeiro no pode modificar
valores que so, ou acredita ser, errneos, sem consultar o segundo. Para
o segundo, este processo deve mostrar-lhe a importncia do desenho
prvio de uma planilha de coleta da informao, assim como o de uma
base de dados com as condies necessrias para reduzir, ao mnimo, a
possibilidade de erros. Definitivamente, o lgico que a colaborao entre
analista e investigador no se inicie neste ponto, e sim no momento em
que se desenha o estudo.
SINTAXE
Tambm, neste caso, pelo menu ativa-se a janela Analyse Descriptive Statistics
Frequencies, o leitor poder perceber a grande variedade de estatsticas amostrais para variveis
quantitativas discretas, assim como os grficos disponveis.
Outra questo a ser levada em conta, quando se trabalha com variveis do tipo data, que se
existem duas ou mais que determinam perodos entre elas, que isto se cumpra. Por exemplo, em
nosso caso, a data de nascimento sempre tem que ser, obviamente, anterior data da entrevista.
Para examinar esta questo, podemos utilizar a seguinte instruo:
Agora, por meio de FREQ, deveramos nos assegurar que no existe nenhum
caso com valor negativo ou zero, j que, se isto acontecesse, significaria que uma
das duas datas (ou ambas) estaria incorreta. Observe, no entanto, que, em nosso
estudo, essas datas nos serviro para criar a varivel idade, e portanto, ao
descrever esta, j no faria falta criar a varivel dif. No entanto, pensamos que
importante realar esta possibilidade, visto que, em muitos outros estudos, pode-
se deparar com casos como o descrito: imagine, por exemplo, que se analisa o
tempo transcorrido entre a data de uma determinada leso e o xito, ou tempo
entre a hospitalizao e a alta de um paciente.
RESULTADOS
No nos cansaremos de dizer que, tambm nestes casos, os erros no teriam sido
cometidos, se os filtros tivessem sido definidos no programa de entrada de dados.
Cumulative
Frequency Percent Valid Percent Percent
Valid 426 1 100,0 100,0 100,0
COMPUTE filtro=(ed_madre=95) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest.
Tabela 7.3. Identificao do caso em que o valor da idade da me est fora
do intervalo.
Nmero de identificao da casa
Cumulative
Frequency Percent Valid Percent Percent
Valid 397 1 100,0 100,0 100,0
COMPUTE filtro=(mocupa=4).
FILTER BY filtro .
EXECUTE .
FREQ ncuest .
Cumulative
Frequency Percent Valid Percent Percent
Valid 305 1 100,0 100,0 100,0
COMPUTE filtro=(ed_jefe=510).
FILTER BY filtro .
EXECUTE .
FREQ ncuest .
Tabela 7.5. Identificao do caso em que o valor da idade do chefe da famlia errneo.
Nmero de identificao da casa
Cumulative
Frequency Percent Valid Percent Percent
Valid 382 1 100,0 100,0 100,0
A correo dos erros detectados feita por meio das seguintes instrues:
RECODE
ed_madre (95=SYSMIS) .
EXECUTE .
RECODE
mocupa (4=SYSMIS) .
EXECUTE .
RECODE
ed_jefe (510=SYSMIS) .
EXECUTE .
COMPUTE sexo=LTRIM(UPCAS(sexo)) .
EXECUTE .
RECODE
sexo (" "="MASCULINO") ("FEMENU9"="FEMENINO")
("FEMENINP"="FEMENINO") ("MASCLINO"="MASCULINO") .
EXECUTE .
RECODE sexo
("MASCULINO"=1) ("FEMENINO"=2) INTO sex .
EXECUTE.
VAR LEV sex (NOMINAL).
VAL LAB sex 1 'Masculino' 2 'Feminino' .
DESCRIO DE VARIVEIS
Como uma varivel descrita?
A descrio estatstica tem como funo principal explicar os dados observados sem ter que
especific-los um a um. Trata-se, ento, de obter valores que representem um resumo adequado
de todos os que foram observados na varivel estudada. A cada um destes valores dado o nome
de estatstica.
Possivelmente, inconscientes disto, todos ns, em algum momento, utilizamos alguma estatstica
para resolver questes cotidianas. Por exemplo, o produto interno bruto de um pas, a taxa de
alfabetizao de uma populao, a esperana de vida ao nascer ou a renda per capita dos
cidados de uma comunidade.
De forma geral, podemos dizer que a maneira de descrever uma varivel est relacionada com sua
natureza. Isto , para cada tipo de varivel existem estatsticas que permitem descrev-la melhor
que outras, e, por outro lado, estatsticas que no tm sentido para a varivel estudada.
Assim, se a varivel estudada categrica, ser descrita pela sua distribuio de freqncias, e,
em algumas ocasies, poderemos proporcionar alguma estatstica para detalh-la melhor. Por
outro lado, se a varivel que estudamos quantitativa, a mera descrio de sua distribuio de
freqncias geralmente fornece pouca informao e, inclusive, s vezes, pode ser um fator de
confuso, se realizada de forma equivocada. prefervel sempre detalhar um ou vrios valores
que nos permitam descrever as propriedades da distribuio observada desta varivel.
De todas as formas destaca-se que a descrio de uma varivel deve ser realizada em funo dos
interesses da investigao, e, mesmo que o exposto anteriormente seja o mais habitual, podem
existir outros interesses concretos que determinem uma descrio diferente. A ttulo de exemplo,
coloquemos dois casos diferentes:
a) Em nosso estudo, coloca-se a hiptese de que a idade da me tem certo efeito na presena
de desnutrio no filho. No momento de examinar se existe uma associao entre a idade e a
incidncia desta doena, a comparao da mdia de idade das mes cujos filhos esto sos,
com a mdia de idade da me das crianas desnutridas pode nos orientar sobre a possvel
associao.
Assim, devemos considerar a natureza da varivel e como est expressa no arquivo para poder
planejar corretamente sua descrio.
Em uma primeira fase, podemos descrever as variveis categricas, incluindo, neste pargrafo,
tanto as de natureza qualitativa ou nominal, como as quantitativas discretas ou resultado de uma
contagem.
Em segundo lugar, descreveremos as variveis quantitativas que sejam contnuas.
Cumulative
Frequency Percent Valid Percent Percent
Valid Ladrilho 7 1,5 1,5 1,5
Terra 187 39,6 39,6 41,1
Cimento 274 58,1 58,1 99,2
Mosaico 2 ,4 ,4 99,6
Gesso 1 ,2 ,2 99,8
Pedra 1 ,2 ,2 100,0
Total 472 100,0 100,0
Fornece informao sobre o tipo de material em que est construdo o piso ou solo da casa da
criana. Na primeira coluna, procure o valor Terra. A interpretao a seguinte:
A segunda coluna (Frequency) nos informa que em 187 casas o solo de terra.
Na terceira (Percent), que estas 187 casas representam 39,6% do total de casas
registradas no arquivo de dados (187/472).
A quarta (Valid Percent) apresenta a porcentagem em referncia, exclusivamente, aos
registros com valores vlidos (sem missings). J que, neste caso, no existem missings, as
porcentagens da terceira e quarta colunas so idnticas.
A quinta coluna (Cumulative Percent) indica que as casas com piso de terra e as casas
dos valores observados anteriormente (neste caso, piso de ladrilho) somam 41,1% do total
(1,5% + 39,6%).
Voc acha que a informao obtida pela coluna Cumulative Percent interessa, se as categorias
no indicam uma ordem de magnitude?
Cumulative
Frequency Percent Valid Percent Percent
Valid 1 vez no mnimo / 3 das 68 14,4 14,5 14,5
1 ou 2 vezes/ semana 207 43,9 44,0 58,5
1 vez / 15 dias 96 20,3 20,4 78,9
1 vez / ms 70 14,8 14,9 93,8
Menos de 1 vez/ ms 25 5,3 5,3 99,1
Quase nunca ou nunca 4 ,8 ,9 100,0
Total 470 99,6 100,0
Missing NS 1 ,2
NC 1 ,2
Total 2 ,4
Total 472 100,0
Estudemos, por exemplo, o valor 1 vez/15 dias. Um total de 96 crianas comem carne uma vez a
cada quinze dias, o que representa, sobre o total de crianas registradas, 20,3% (coluna 3). Por
outro lado, se nos referimos somente s crianas para as quais existe informao para esta
varivel, esta porcentagem representa 20,4% (coluna 4). Observe como a diferena entre as
porcentagens das colunas 3 e 4 muito pequena, devido a que s existem dois casos missing.
Estas porcentagens podem ser muito diferentes, se o nmero de valores no vlidos muito
elevado. Mesmo que a terceira coluna fornea informao, habitualmente a distribuio de
freqncias realizada sobre os valores vlidos, e, por isto, utiliza-se a quarta coluna.
Finalmente, a quinta coluna nos informa que 78,9% do total de crianas, com valor vlido para esta
varivel, comem carne 1 vez /15 dias ou 1 ou 2 vezes/semana ou 1 vez mnimo/3 dias. De
outra forma, 78,9% das crianas comem carne no mnimo uma vez a cada quinze dias.
Observe que, ao existir uma ordem lgica, um valor concreto forosamente deve preceder outro
valor concreto (por exemplo 1 vez/15 dias sempre preceder 1 vez/ms) ou, se a ordenao foi
feita na ordem inversa, ento seria 1 vez/ms antes de 1 vez/15 dias, e portanto nunca
podemos colocar entre ambos outros valores (por exemplo, entre os dois valores citados no
podemos intercalar Quase nunca ou nunca, visto que quebraria a ordenao). A existncia de
uma ordenao lgica de magnitude implica que os percentis sempre tenham sentido, j que esta
estatstica, o percentil, define-se como o valor da varivel abaixo do qual existe uma porcentagem
determinada de casos.
Isto , mesmo que ordene a varivel freqncia de ingesto de carne de forma descendente, ao
contrrio do exemplo mostrado, observar como a mediana segue sendo a mesma categoria, isto
, 1 ou 2 vezes/semana e que os percentis ou valores que aparecem na quarta coluna seguem
tendo sentido.
A distribuio de freqncias
SINTAXE
[{visualizao da tabela}]
- Se nada especificado, todos os valores aparecero com sua
correspondente distribuio de freqncias.
- NOTABLE: No aparecer a tabela de distribuio de freqncias no
arquivo de resultados, somente as estatsticas solicitadas.
- LIMIT(n): Aponta que as distribuies de freqncias com mais de n
categorias no sejam visualizadas, e somente sejam mostradas as
estatsticas que foram indicadas de forma explcita. Em geral, esta opo
utilizada quando a varivel quantitativa discreta e tem um intervalo de
valores muito amplo, motivo pelo qual a tabela poderia ocupar um grande
nmero de pginas e no ser interpretvel.
[{ordem}] ]
{valor representado}:
- FREQ**: Cada barra representa a freqncia observada em um
determinado valor da varivel estudada.
Estatstica Descrio
COUNT Freqncia observada
FIRST Primeiro valor observado (depende, portanto, da
GEOMETRI o den o)
Mdia geomtrica
Mediana calculada pelo mtodo de agrupar os valores
GMEDIAN
observados em intervalos.
HARMONI Mdia harmnica
KURT Curtose
LAST ltimo valor observado (portanto depende da ordenao)
MAX Valor mximo observado
MAXIMUM Valor mximo observado
MEAN Mdia
MEDIAN Mediana
MIN Valor mnimo observado
MINIMUM Valor mnimo observado
MODE Moda
NPCT Porcentagem sobre o total de casos
NPCT(var) Idem, mas dentro de uma varivel de controle, se esta
RANGE Intervalo (Valor mximo observado Valor mnimo
SEKURT Erro padro da curtose
SEMEAN Erro padro da mdia
SESKEW Erro padro da assimetria
SKEW assimetria
SPCT Porcentagem sobre a soma de valores observados
SPCT(var) Idem, mas dentro de uma varivel de controle se esta
STDDEV Desvio padro
SUM Soma dos valores observados
VARIANCE Varincia
Pode ser especificada a opo ALL, com a qual seriam obtidas todas as estatsticas descritas
anteriormente, ou ento NONE, neste caso no seria calculada nenhuma.
COMENTRIOS
O uso de FREQUENCIES para examinar uma varivel quantitativa contnua s tem sentido quando
se pretende calcular um histograma simples ou o clculo de alguma estatstica. Pense que a
distribuio de freqncias, alm de no ter sentido, seria muito grande. Se se decidir utilizar a
instruo para uma varivel contnua, execute-a com a opo NOTABLE. Alm disto, existe a
possibilidade de analisar a varivel, agrupando-a por intervalos a partir da opo/GROUPED.
Esta instruo permite tambm efetuar o agrupamento no momento da anlise. Remetemos o leitor
ao manual de ajuda, j que, na prtica, mais simples recodificar anteriormente e efetuar a
descrio posteriormente.
COMENTRIOS
1. FREQUENCIES permite descrever variveis de formato numrico e alfanumrico.
RESULTADOS
Para cada uma das cinco variveis selecionadas nas janelas anteriores, no
arquivo de resultados aparecero dois quadros. Vejamos sua interpretao,
tomando como exemplo a idade da me.
Tabela 7.9. Exemplo de resultado da instruo Frequencies.
Statistics
Cumulative
Frequency Percent Valid Percent Percent
Valid 17 1 ,2 ,2 ,2
18 7 1,5 1,6 1,9
19 11 2,3 2,6 4,5
20 15 3,2 3,5 8,0
21 17 3,6 4,0 12,0
22 23 4,9 5,4 17,4
23 21 4,4 4,9 22,4
24 31 6,6 7,3 29,6
25 27 5,7 6,4 36,0
26 26 5,5 6,1 42,1
27 30 6,4 7,1 49,2
28 26 5,5 6,1 55,3
29 21 4,4 4,9 60,2
30 25 5,3 5,9 66,1
31 9 1,9 2,1 68,2
32 24 5,1 5,6 73,9
33 8 1,7 1,9 75,8
34 9 1,9 2,1 77,9
35 16 3,4 3,8 81,6
36 13 2,8 3,1 84,7
37 11 2,3 2,6 87,3
38 8 1,7 1,9 89,2
39 12 2,5 2,8 92,0
40 11 2,3 2,6 94,6
41 4 ,8 ,9 95,5
42 3 ,6 ,7 96,2
43 2 ,4 ,5 96,7
44 2 ,4 ,5 97,2
45 6 1,3 1,4 98,6
46 1 ,2 ,2 98,8
47 3 ,6 ,7 99,5
49 2 ,4 ,5 100,0
Total 425 90,0 100,0
Missing NS 3 ,6
System 44 9,3
Total 47 10,0
Total 472 100,0
O primeiro quadro apresenta as estatsticas que solicitamos e alguma outra que
aparece como padro, como a informao do nmero de casos vlidos e no-
vlidos, mdia, mediana, assimetria e curtose, com seus respectivos erros padro.
INTRODUO
Com freqncia, inclusive no nvel bsico descritivo que mostrado neste livro,
interessante estudar a distribuio de freqncias de uma varivel categrica, em
funo de outra da mesma natureza. O resultado uma tabela em que so
mostradas as distribuies da primeira varivel como categorias da segunda
varivel e vice-versa. Esta tabela recebe o nome de tabela de contingncia.
Neste ponto, queremos alertar do perigo que representa obter, sem nenhum
critrio, todos os indicadores possveis que permitem esta ou outras instrues.
Somente devem ser calculadas ou obtidas aquelas estatsticas que correspondam
ao desenho do estudo que est sendo analisado, e que o analista conhea com
segurana.
SINTAXE
Se so especificadas mais opes BY, as variveis que se encontram na lista a seguir implicam
subanlises, (nas Janelas so chamadas de Layer), isto , para cada uma das categorias destas
variveis, sero descritas as tabelas das relaes definidas pelo primeiro BY.
Exemplo:
Descreveria-nos a distribuio conjunta dos grupos de idade por sexo para cada um dos
municpios.
Resultado diferente seria obtido no caso de especificar sex BY municipi BY idad4, ao que
descreveria a distribuio de sexos por municpio para cada grupo de idade.
[/CELLS=[{valores}]]
Permite especificar o que deseja descrever nas clulas geradas pelo cruzamento das duas
variveis que definem a tabela. Pode indicar um ou mais valores que so mostrados a seguir:
[/MISSING={casos missing}]
Escolha entre TABLE** e INCLUDE. Isto , por padro exclui da anlise aqueles valores nos quais
se desconhece ou foi declarado missing o valor de uma ou das duas variveis. No caso de indicar
INCLUDE, considera os missings definidos pelo usurio.
[/WRITE[={X}]]
Permite descrever em um arquivo de resultados (de tipo ASCII) a matriz de dados correspondente
ao CROSSTABS realizado. Em X, escolha:
- CELLS: Gera um arquivo com a matriz para aquelas tabelas nas quais se observa, no
mnimo, um caso.
- ALL: Escreve a matriz para todos os grupos especificados por VARIABLES e TABLES,
independentemente se foram ou no observados casos.
Se lhe interessa utilizar CELLS ou ALL, deve definir um arquivo no qual ser criada a matriz
resultante. Isto deve ser feito previamente ao CROSSTABS pela seguinte instruo:
[/FORMAT={visualizao} {ordem}]
Neste caso, obrigatoriamente, deve ser indicado VAR[IABLES], no qual devem ser especificadas
que variveis deseja-se analisar. Em (mn,mx), indique o intervalo de valores que devem ser
levados em conta para cada varivel.
Em nosso exemplo, podemos criar tabelas de contingncia que envolvam as variveis categricas,
que consideramos estarem possivelmente associadas ao estado nutricional da criana (NUT). Se
h interesse em examinar a possvel associao ocupao do chefe da famlia, faremos:
RESULTADOS
O resultado da tabela de contingncia entre o estado nutricional e a ocupao do chefe da famlia
representado a seguir:
Tabela 7.10. Resultado da descrio de uma tabela de contingncia.
Ocupao do chefe da famlia * Cumpre o padro de ingesto protica? Crosstabulation
Cumpre o padro de
ingesto protica?
No Sim Total
Ocupao do chefe Agropecurio Count 120 204 324
da famlia % within Ocupao
37,0% 63,0% 100,0%
do chefe da famlia
Outros Count 34 114 148
% within Ocupao
23,0% 77,0% 100,0%
do chefe da famlia
Total Count 154 318 472
% within Ocupao
32,6% 67,4% 100,0%
do chefe da famlia
A interpretao da tabela obtida simples: do total de crianas cujo chefe da famlia se ocupa de
trabalhos agropecurios (324), 37% consumiram uma quantidade de protenas considerada abaixo
do critrio utilizado para classificar a criana, segundo sua adequao alimentar. Esta
porcentagem inferior naquelas crianas cujo chefe da famlia no se dedica a trabalhos
agropecurios. Especificamente, esta porcentagem diminui at 23%. Parece claro que esta
diferena de 14% notvel (mesmo que esta certificao devesse ser feita pelo investigador,
obviamente). Ento podemos considerar que existe uma associao entre a ocupao do chefe da
famlia e o estado nutricional da criana, sendo aquelas menos nutridas as que tm um chefe de
famlia que se dedica aos trabalhos agropecurios.
Neste ponto, voc deveria valorizar as possveis associaes entre o estado nutricional da criana
e o resto das variveis categricas disponveis no arquivo NUT_FIN.SAV. Desta maneira, podero
observar quais so as variveis que parecem ter um efeito sobre a nutrio da criana.
COMENTRIOS
Se voc decide realizar algum tipo de contraste, por meio das mltiplas medidas de associao
disponveis na instruo CROSSTABS, muito importante que esteja consciente de dois perigos
resultantes do uso indiscriminado desta instruo:
Mdia: a mdia dos valores observados. Isto , a soma de todos os valores dividida pelo nmero
total de valores observados.
Mediana: o valor que divide a distribuio observada ao meio. De outra forma, o valor que deixa
50% dos valores observados abaixo e 50% acima.
Moda: o valor observado que mais se repete, ou seja, que tem uma maior freqncia observada.
Esta estatstica utilizada com pouca freqncia por duas razes fundamentais. A primeira delas
que uma propriedade muito dependente da agrupao em intervalos da varivel. Em outras
palavras, uma distribuio bimodal, com modas muito prximas, pode converter-se em unimodal,
mudando a agrupao dos dados. A segunda razo de maior importncia, e deve-se ao fato de
que no existe uma funo de probabilidade que nos descreva a distribuio de modas amostrais
de uma populao, razo pela qual dificilmente podero ser efetuadas comparaes entre
amostras e muito menos contraste de hipteses, a partir desta propriedade, ou descrever os
intervalos de confiana delas.
Vamos ilustrar o uso das estatsticas de tendncia central pela descrio de duas variveis
quantitativas. A primeira a altura da criana. Observe a Tabela 7.11.
60
50
40
Freqncia
30
20
10
0
62
66
70
74
78
82
86
90
94
98
10
10
11
,0
,0
,0
,0
,0
,0
,0
,0
,0
,0
2,
6,
0,
0
0
Altura da criana (em centmetros)
Observe como a altura das crianas se distribui ao redor dos 84 cm e que, alm disto, o valor
mais freqente (a moda) e de forma bastante simtrica.
Se tivssemos que escrever um relatrio dos resultados, poderamos indic-lo da seguinte forma:
A altura mdia das crianas estudadas foi de 85,35 cm (DP=9,15 cm).
O segundo exemplo que nos serve para ilustrar o uso das estatsticas de tendncia central a
descrio dos cursos escolares superados pelo chefe da famlia. Esta descrio mostrada na
Tabela 7.12.
Tabela 7.12. Exemplo de descrio de uma varivel quantitativa discreta.
Descriptives
Observe que, em mdia, os chefes de famlia dos lares registrados completaram 3,8 cursos
escolares, com a preciso dos dados originais 3,79 cursos. No entanto, a mediana de 2 cursos
completos. A diferena de 1,8 cursos. A mdia praticamente o dobro da mediana, sendo esta
diferena considervel. O valor da assimetria 1,493, claramente diferente de zero.
140
120
100
Freqncia
80
60
40
20
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 15 16 17 20
SINTAXE
/MISSING: Define que casos, {casos missing}, devem ser excludos da anlise.
{segundo}:
{ordem}:
- A**: De maneira ascendente.
- D: Descendente.
JANELAS
RESULTADOS
Uma vez executada a instruo, no arquivo de resultados aparecer uma tabela com todas as
estatsticas desejadas para cada uma das variveis. Alm disso, por padro, se especifica o total
de casos vlidos utilizados para calcular estas estatsticas em cada uma das variveis.
Descriptive Statistics
Existem duas instrues que permitem esta ao. A primeira MEANS similar aplicao da
instruo DESCRIPTIVE nas subamostras que definem uma ou um conjunto de variveis
categricas, e a segunda, EXAMINE, mais completa, equivalente a calcular uma estatstica
descritiva pela opo FREQUENCIES.
SINTAXE
Veja o significado de cada uma destas opes na Tabela 7.8. Como nos casos
anteriores, existe tambm a opo de remeter-se opo padro ou indicar o
clculo de todos os ndices explicitando ALL.
/MISSING: Determina os casos excludos da anlise. Deve ser indicada alguma das seguintes
opes:
- TABLE: Exclui da anlise aqueles casos que apresentam um missing (de usurio ou
de sistema) em qualquer das variveis envolvidas em um processo de descrio.
- INCLUDE: Trata os valores missing de usurio de todas as variveis especificadas
na instruo como valores vlidos.
Como exemplo da instruo, vamos execut-la com a finalidade de analisar se a mdia das
variveis quantitativas que nos interessa diferente em funo da adequao nutricional da
criana.
JANELAS
A execuo por menus, Figura 7.6, efetuada, ativando a seqncia: Analyze Compare Means
Means:
Cursos
escolares Idade do Escolaridade Nmero de
Cumpre o padro de Idade da me completos chefe da do chefe da pessoas por
ingesto protica? (em anos) pela me famlia famlia dormitrio
No Mean 29,79 2,31 43,69 2,68 5,458
N 135 150 154 154 154
Std. Deviation 8,826 2,680 60,959 3,105 2,1527
Std. Error of Mean ,760 ,219 4,912 ,250 ,1735
Sim Mean 28,68 3,97 39,09 4,32 5,135
N 291 312 318 318 318
Std. Deviation 6,673 4,099 29,443 4,563 2,3102
Std. Error of Mean ,391 ,232 1,651 ,256 ,1296
Total Mean 29,03 3,43 40,59 3,79 5,241
N 426 462 472 472 472
Std. Deviation 7,431 3,776 42,370 4,212 2,2628
Std. Error of Mean ,360 ,176 1,950 ,194 ,1042
Gera-se uma tabela com a informao solicitada para cada uma das variveis especificadas. A
ttulo de exemplo, para realizar a interpretao, observemos a ltima varivel. Os resultados
obtidos mostram que a mdia de pessoas por dormitrios ligeiramente superior nos lares com
crianas malnutridas em comparao com os lares de crianas bem-nutridas: 5,46 contra 5,14
pessoas por quarto. Se quiser ser mais preciso, poderia calcular o intervalo de confiana para as
mdias. Para um nvel de 95% de confiana, faramos:
COMENTRIOS
Ateno! Mesmo que uma diferena no seja estatisticamente significativa, no
implica que no possa ser importante para o investigador. A significncia no
depende exclusivamente de critrios estatsticos (dependentes, alm disso, de
questes como o nmero de indivduos analisados, etc.), mas tambm da prpria
importncia que o investigador observe nesta diferena.
SINTAXE
o resultado sairia em duas tabelas: a primeira com a descrio das protenas totais
em funo do municpio e, na segunda, a descrio seria em funo dos valores
de IDAD4. Por outro lado, se a instruo fosse:
obteramos somente uma tabela com a descrio das protenas totais para oito
situaes diferentes. Estas situaes corresponderiam a todas as possveis
combinaes entre os valores de ambos fatores: [12-24)-Villaflores, [12-24)-
Jaltenango, ... , [48-60)-Jaltenango.
/COMPARE {tipo}: Define que tipo de comparao efetuada nos grficos solicitados.
Deve ser indicada alguma das seguintes opes:
- GROUPS**: Representao grfica de uma varivel quantitativa, em funo das
categorias de cada varivel categrica especificada (Veja as Figuras 7.7 e 7.8).
140 100
Protenas animais cons. dia anterior entrevista
29
120
80
169 150 213
222
272
100 265 206
8
60 309 317
80 283
35
133
353 28
170
130
60 31 40
139 3
88
34 92
107
186
397
40 148
20
20
0
0
-20 -20
N= 151 159 88 74 N= 151 159 88 74
29
120
169 150
100 265
8
80
35 213
222
133
353 28
170 272
206
130
60 31
309 139 317 3
283 92
88
34 107
186
397
40 148
20
0 Protenas animais
- TOTAL**: So visualizadas.
- NOTOTAL: No so visualizadas.
/ID: Se uma varivel especificada nesta opo, seus valores serviro como etiqueta dos
casos em determinados grficos. Se nenhuma varivel selecionada, ser utilizado o nmero do
caso na base de dados, isto , a posio do caso dentro do conjunto de dados.
265
Q3 + 1,5 * Amplitude
100 Interquartlica = 42.88 + 1,5
8
* 24.31 = 79,35
80
60
Q3 Q1 = 24,31
Q3 =Terceiro quartil = 42,88
Interquartlica
40
Amplitude Q2 =Mediana = 30,56
-20
N=151
- NONE: Nenhum.
/CINTERVAL: Permite modificar o nvel do intervalo de confiana. Como padro, calcula com
95% de confiana. Pode ser escolhido um nvel entre 50% e 99,99%.
/MESTIMATOR: Por esta opo ser conseguida a lista de estimadores robustos de posio
obtidos por mxima verossimilhana. O mtodo de clculo especificado, escolhendo entre os
propostos por HUBER, ANDREW, HAMPEL, TUKEY. Alm do mais, pode ser indicado ALL (listar
os estimadores segundo quatro mtodos destacados) e NONE**. Consulte os manuais para obter
mais informao sobre cada mtodo.
Como exemplo da descrio das variveis quantitativas discretas de nosso estudo, em funo do
estado nutricional das crianas, execute a instruo que apresentada a seguir. Planeje a
interpretao dos resultados como orientao sobre quais as possveis caractersticas associadas
com a presena ou ausncia deste problema.
JANELAS
Com a finalidade de efetuar esta anlise descritiva, as janelas so ativadas ao seguir os passos da
seqncia: Analyze Descriptive Statistics Explore:
Figura 7.11. Janelas associadas instruo Explore.
COMENTRIOS
1. Com a instruo EXAMINE, pode ser realizada a descrio univariada de uma varivel
simplesmente no especificando um BY.
3. Mesmo sua utilizao sendo muito interessante, tambm muito perigosa, quando em uma
mesma instruo executamos a descrio de mais de uma varivel quantitativa. Observe que,
como padro, os casos que apresentam algum missing em qualquer das variveis
quantitativas sero eliminados da descrio, no somente desta, mas de todas as variveis
especificadas na instruo (MISSING= LISTWISE). O desconhecimento deste fato pode fazer
com que no sejam levados em conta casos que deveriam fazer parte da descrio.
4. Pode descrever uma varivel quantitativa pelo cruzamento de, no mximo, oito fatores (isto ,
pode-se utilizar de no mximo 8 BY). Quando so especificados mais de oito, a instruo no
ser executada.
5. A utilizao de mais de um BY e a conseguinte descrio em cada grupo gerado por muitas
variveis categricas podem ser feitas somente por sintaxe. No existe a possibilidade de
faz-las por janelas.
RESULTADOS
Para os dois grupos, observa-se um desvio padro alto, comparado com a mdia.
Tambm claramente observada a existncia de assimetria. Isto nos indica que a
mediana ser a melhor estatstica de tendncia central para explicar os dados
observados.
Por exemplo, da mesma forma que fizemos anteriormente com as variveis piso e paredes, onde
agrupamos categorias, concentre-se agora na varivel freqncia de ingesto de carne, que tem
seis categorias. Imagine que lhe interessasse descrev-la somente com duas. Que ponto de corte
utilizaria para criar estas duas categorias? Se examinar os resultados, ver que uma possibilidade
seria usar os seguintes: 1 1 vez ou mais/15 dias, 2 menos de 1 vez/15 dias. Porque este ponto
de corte? Veja que at a categoria 1 vez/15 dias a porcentagem de desnutrio est abaixo de
30%, enquanto que a partir de 1 vez/ms esta porcentagem sempre supera 40%.
Crie uma nova varivel utilizando este critrio e descreva sua distribuio conjunta com a
adequao alimentar.
Anteriormente, comparamos o nmero mdio de pessoas por dormitrio em funo dos lares com
crianas bem ou malnutridas. A diferena entre estas mdias (5,46 em lares com crianas
malnutridas e 5,14 em lares com crianas bem-nutridas) foi de 0,32 pessoas/dormitrio. Realmente
difcil valorizar a intensidade desta diferena. muito ou pouco? Enfim, no despreze a
possibilidade de categorizar esta varivel e observar sua distribuio condicionada adequao
alimentar. O nico problema est na definio das categorias a serem utilizadas. Este problema
habitualmente solucionado, buscando critrios externos, seja por literatura sobre o tema, seja por
deciso do investigador do estudo. Mesmo assim, se esses critrios no existem, cabe a
possibilidade de utilizar algum percentil da distribuio observada, para realizar uma recodificao
que nos fornea informao.
Por exemplo, no caso de dens_dom, propomos que recodifique esta varivel em outra a partir da
mediana obtida:
RECODE
dens_dom (Lowest thru 4.99=1) (5 thru Highest=2) INTO
dens_do2 .
EXECUTE .
FOR dens_do2 (F1.0) .
VAR LAB dens_do2 'N pessoas / dormitrio ' .
VAL LAB dens_do2 1 '< 5' 2 '>= 5' .
VAR LEV dens_do2 (NOMINAL) .
Construa agora a tabela de contingncia entre ambas variveis e observe sua descrio. Acredita
que a informao obtida mais interpretvel que antes?
Da mesma forma que com dens_dom, poderamos recodificar as seguintes variveis: mescola e
jescola. Neste caso, entretanto, existe um critrio externo que pode ser utilizado. Crie duas novas
variveis (mestud e cestud) com as seguintes categorias: 0 cursos completos, de 1 a 3 cursos
completos, mais de 3 cursos completos. Recodifique-as, utilizando os valores e etiquetas que so
apresentadas a seguir: 0 Analfabeto, 1 da 1 a 3 srie primria, 2 4 srie primria. Faa
agora a descrio conjunta com a adequao alimentar.
Poderamos categorizar tambm a varivel cse em uma nova, cse3. Esta nova varivel poderia ter
trs categorias definidas pelos tercis: isto , categorize como 1 os casos entre 0 caractersticas
desfavorveis at o valor de cse, que supera 33,3% dos casos observados, 2 aos casos com
valores compreendidos entre o seguinte e o que supera 66,7% dos valores de cse e 3 os casos
com valores do seguinte at o mximo. Defina a varivel, descreva-a e realize a descrio
conjunta com a adequao alimentar.
Existem diversas formas de gerar tabelas resumo, e, nestes casos, tambm devemos chamar a
ateno para a rpida evoluo que estas instrues sofrem com as mudanas das verses do
programa.
De maneira geral, a instruo bsica TABLES, a qual segue vigente e pode ser gerada pela
ativao de janelas, j que a sintaxe, ao pretender descrever o maior nmero de tipos de tabelas
possveis, bastante complexa. No obstante, nem sequer est descrita no manual de ajuda do
pacote. Isto , como vimos em outras ocasies, uma instruo que tende a ser substituda por
outras no futuro.
SINTAXE
As instrues mais simples para gerar tabelas so as mostradas na verso simplificada a seguir.
Pode-se entender, com facilidade, que gerado um resumo da informao das variveis indicadas
na lista de variveis, nas diferentes clulas de uma ou vrias tabelas, geradas pelo cruzamento
das categorias das variveis definidas nas duas listas de variveis de cada BY.
O ttulo e o rodap deste resumo so opcionais. Em nenhum dos casos, TITLE ou FOOTNOTE, o
texto pode superar 255 caracteres. Sempre devero constar entre aspas.
[/FORMAT = A instruo pode fazer resumos de um nmero de casos, indicando caso a caso ou
no, (NOLIST), nos n primeiros, LIMIT=n, ou de todos, incluindo os valores missing ou somente os
casos vlidos, isto , aqueles que tm valores no missing em todas as variveis implicadas.
[/CELLS= O nmero de estatsticas descritivas que podem ser resumidas maior inclusive do que
o que pode ser obtido com uma instruo DESCRIPTIVES, EXAMINE ou MEANS, podendo-se
solicitar todos eles com a opo ALL. Se nada indicado como padro, resume-se em cada clula
da tabela gerada o nmero de casos que pertencem a ela.
[/STATISTICS= Com esta subinstruo, pode-se efetuar, sempre que a varivel descrita
quantitativa, uma anlise de ajuste de um modelo ANOVA de comparao das mdias observadas
em cada clula, assim como se a variao dentre elas de natureza linear ou no. Como padro e
a ttulo de resumo, esta opo no executada.
COMENTRIOS
1. Certas opes da subinstruo FORMAT devem ser consideradas com cautela pelo analista, j
que os valores ou opes por padro no so iguais ao trabalhar com janelas. Assim, como
padro na Sintaxe, o resumo efetuado com todos os dados, enquanto que, por janelas, como
ser visto adiante, efetuado somente o resumo dos 100 primeiros casos.
2. Da mesma forma, a execuo por sintaxe pressupe que o resumo no imprime a informao
de cada caso, somente o resumo. A execuo por janelas mostra a relao dos casos das
categorias geradas na anlise.
COMENTRIO
JANELAS
A ao de resumir informao em forma de relatrio ou mltiplas tabelas pode ser
realizada de diversas maneiras:
RESULTADOS
SUMMARIZE
/TABLES=tall_cms peso_kg BY sex BY idad4
/TITLE='Altura e peso em funo do sexo e grupo e idade' .
Observe o resultado desta ao na Tabela 7.16.
Como sempre, a sintaxe pode ser visualizada, executando uma das duas aes
indicadas, em vez de clicar em OK, o que executa a ao. Clique na tecla Paste e
observe o texto na janela de sintaxes.
RESULTADOS
Representao grfica
INTRODUO
Mesmo que uma tabela resumo numrica quase sempre fornea mais informao que uma
representao grfica, existem ocasies nas quais o uso de um grfico til para realar uma descrio
simples e amena dos dados para o receptor da informao.
SINTAXE
mostrada somente a sintaxe para que o grfico fique apresentvel. Para obter
uma viso mais completa consulte os manuais.
GRAPH
[/TITLE=linha 1 [linha 2]]
[/SUBTITLE=linha 1]
[/FOOTNOTE=linha 1 [linha 2]]
{/BAR [{(Tipo)}]=funo/varivel}
{/LINE [{(Tipo)}]= funo/varivel}
{/PIE }
{/HISTOGRAM [(NORMAL)]=var }
{/SCATTERPLOT[{(bi/tridimensional)}]=especificao varivel}
{/ERRORBAR[{(CI[{95}])}]={var [var var ...][BY var]} }
[/MISSING=[{casos missing}]]
/TITLE: Permite inserir um ttulo para o grfico. Pode especificar at duas linhas
para este.
/SUBTITLE: Especifica um subttulo.
/FOOTNOTE: Especifica uma nota no rodap do grfico.
GRAPH
/BAR(SIMPLE)=COUNT BY idad4
/TITLE= 'Distribuio das crianas estudadas em funo a
idade.'.
160
140
Freqncia
120
100
80
60
[12-24) [24-36) [36-48) [48-60)
GRAPH
/BAR(GROUPED)=PCT BY mescola BY tip_loc
/TITLE= 'Distribuio dos anos de estudo da me por tipo de
localidade.'.
30
Porcentagem
20
10 Tipo de localidade
Urbana
0 Rural
0 1 2 3 4 5 6 7 8 9 10 12 13 15 17
GRAPH
/LINE(SIMPLE)=MEAN(peso_kg) BY idadmes
/TITLE= 'Peso da criana em funo da idade.'.
20
18
16
14
12
10
8
12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57
GRAPH
/PIE=PCT BY sanit
/TITLE= 'Tipo de banheiro das casas estudadas.'.
Completo
Latrina, fossa
60
50
40
30
20
75
85
95
10
11
12
5,
15
25
35
45
55
0
,0
,0
,0
,0
5,
5,
5,
,0
,0
,0
,0
,0
GRAPH
/SCATTERPLOT(BIVAR)=peso_kg WITH tall_cms
/TITLE= 'Relao entre o peso e a altura das crianas
estudadas.'.
110
90
80
70
60
0 10 20 30
GRAPH
/SCATTERPLOT(XYZ)=peso_kg WITH tall_cms WITH protot
/TITLE= 'Total de protenas consumidas por peso e altura.'.
120
110
A 100
l
t
90
u
r
a 80
70
60
30 140
20 100 120
60 80
10
0 20 40
Peso(em quilos) Total de protenas
Por exemplo, a instruo seguinte produz como resultado o grfico da figura 7.22.:
GRAPH
/ERRORBAR( CI 95 )=protot BY idad4
/TITLE= 'Total de protenas consumidas em funo da idade
da criana.'.
42
95% CI Total de Protenas
40
38
36
34
32
30
28
N= 151 159 88 74
JANELAS
Tal como mostrado na figura 7.23 a seguir, ao ativar o menu Graphs da barra de
ferramentas, oferecida no somente a gama de grficos anunciados, mas
tambm muitos mais. Recomendamos a leitura detalhada do manual de ajuda
para poder elaborar, sem muita perda de tempo, o grfico mais adequado.
*************************************************************
**********.
* CONTROLE DE QUALIDADE
*.
*************************************************************
**********.
************************* Comentrios
****************************.
*
*.
* A destacar: *.
* *.
* SEXO: escrito de oito formas diferentes e um caso em branco
*.
* 9.7% de valores missing na idade da me. *.
* 1 idade da me = 95. *.
* 1 ocupao da me = 4. *.
* 1 idade do chefe da famlia = 510. *.
* *.
*************************************************************
******.
COMPUTE filtro=(ed_madre=95) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest .
COMPUTE filtro=(mocupa=4) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest .
COMPUTE filtro=(ed_jefe=510) .
FILTER BY filtro .
EXECUTE .
FREQ ncuest .
FILTER OFF .
* Corrigimos erros *
RECODE
ed_madre (95=SYSMIS) .
EXECUTE .
RECODE
mocupa (4=SYSMIS) .
EXECUTE .
RECODE
ed_jefe (510=SYSMIS) .
EXECUTE .
COMPUTE sexo=LTRIM(UPCAS(sexo)) .
EXECUTE .
RECODE
sexo ' '='MASCULINO') ('FEMENU9'='FEMENINO')
('FEMENINP'='FEMENINO')
('MASCLINO'='MASCULINO') .
EXECUTE .
* Transformamos a varivel SEXO em numrica *.
RECODE sexo
('MASCULINO'=1) ('FEMENINO'=2) INTO sex .
EXECUTE.
VAR LEV sex (NOMINAL).
VAL LAB sex 1 'Masculino' 2 'Feminino' .
*************************************************************
***********.
* DESCRIO OS DADOS
*.
*************************************************************
***********.
GET FILE='C:\Spss\Chiapas\Nut_fin.sav' .
* Variveis categricas *.
* Variveis contnuas *.
CROSSTABS
mocupa tip_loc sanit luz refr tv paredes piso com_coc
segsoc
sex_jefe jocupa fr_carne sex piso2 paredes2 BY nut
/CELLS= COUNT ROW .
RECODE fr_carne
(1 thru 3=1) (4 thru hi=2) INTO carne2 .
EXECUTE .
FOR carne2 (F1.0) .
VAR LAB carne2 'Freqncia de ingesto de carne' .
VAL LAB carne2 1 '1 vez ou mais / 15 dias' 2 'Menos de uma
vez / 15 dias' .
VAR LEV carne2 (NOMINAL) .
RECODE
dens_dom (Lowest thru 4.99=1) (5 thru Highest=2) INTO
dens_do2
EXECUTE .
FOR (F1.0) .
VAR LAB dens_do2 'N de pessoas / dormitrio' .
VAL LAB dens_do2 1 '< 5' 2 '>= 5' .
VAR LEV dens_do2 (NOMINAL) .
RECODE mescola jescola
(0=0) (1 thru 3=1) (4 thru hi=2) INTO mestud cestud .
EXECUTE .
FOR mestud cestud (F1.0) .
VAR LAB mestud 'Escolaridade da me'
/ cestud 'Escolaridade do chefe da famlia' .
VAL LAB mestud cestud 0 'Analfabeto' 1 'da 1 a 3 srie
primria' 2 '> 3 srie primria' .
VAR LEV mestud cestud (ORDINAL) .
CROSSTABS
mestud cestud carne2 dens_do2 cse3 BY nut
/CELLS= COUNT ROW .
Captulo 8.
MACROS OU PROGRAMAS E
USO FREQENTE.
INTRODUO
SINTAXE
DEFINE nome
([{argumento=} {!TOKENS (n) }]
{!POSITIONAL= } {!CHAREND(char)}
[/{nome argumento=} ...])
{!POSITIONAL= }
corpo da macro
!ENDDEFINE
Isto , uma vez escolhida uma das duas opes para definir os conjuntos que
se relacionam na instruo ou instrues que compem a macro, devem-se
indicar, de alguma maneira, quantas variveis compem cada argumento ou
POSITION. Em princpio, existem duas formas para indicar esta informao.
Com esta ao, a macro fica carregada de tal forma que o nome da
macro associa-se s instrues definidas. Aparentemente no acontece
nada, a macro fica pronta para ser utilizada.
2. Chamar a macro:
Observaes:
Uma vez definida uma macro, como j havamos dito, sua ativao realizada
pela sua execuo no arquivo de sintaxes, (selecionando com o cursor o texto
que define a macro e clicando na tecla da barra de ferramentas do editor de
sintaxes), como mostrado na Fig. 8.1.
Para chamar e executar macro, deve-se somente especificar seu nome e que
variveis compem cada argumento ou subgrupo de variveis. Por exemplo:
Neste caso, a anlise desejada seria a mesma que no caso anterior, mas
referente varivel municipi, em funo de sex, idad4 e cestud.
COMENTRIOS
2. Observe que as duas macros (CRUZ e CRUZ2) executam as mesmas aes: no arquivo
de resultados aparecem as distribuies de freqncias de nut, municipi, mocupa e mestud
e, posteriormente, os cruzamentos de nut com as outras variveis.
Assim, se desejar ter este arquivo armazenado (imaginemos que o nomeie MACROS.SPS) em
um diretrio ou pasta particular de seu sistema (por exemplo, C:\SPSS\HABITUAL\), ao iniciar
uma nova sesso do SPSS, dever somente execut-lo pela seguinte instruo:
INC C:\SPSS\HABITUAL\MACROS.SPS .
Desta forma, as macros cruz, cruz2, conbycat e dias j esto carregadas e disponveis para
serem utilizadas a qualquer momento, enquanto dure a sesso, como explicamos
anteriormente.
Captulo 9 .
AUTO-AVALIAO
Introduo
O leitor que seguiu sistematicamente o texto deste livro capaz de efetuar, de forma
rigorosa e profissional, todas as manipulaes de arquivos que o SPSS permite. No
entanto preciso comprovar at que ponto o nvel de conhecimento adquirido lhe
permite realizar a manipulao de novos dados e efetuar as anlises descritivas deles, de
acordo com os passos necessrios, sem ter de recorrer a algum roteiro.
Por esta razo, neste captulo apresentado um novo exemplo, baseado tambm em um
estudo concreto realizado no Brasil, no contexto do programa de internato rural do
currculo do curso de Medicina da Universidade Federal de Minas Gerais (UFMG).
Este estudo foi realizado por Horcio Pereira Faria, professor do Departamento de
Medicina Preventiva e Social da Faculdade de Medicina da UFMG, entre os anos 1997
e 2000.
No exemplo que ser enunciado, pretende-se chegar exclusivamente a este aspecto descritivo,
se bem que, no trabalho original, so efetuados outros tipos de anlises, com base em
modelos logsticos para quantificar essas possveis relaes 1.
1
Anlise da distribuio de frmacos em famlias da zona urbana do municpio de IbiMG, Brasil por
modelos logsticos. Horcio Pereira de Faria. Cerdanyola del Valls: Universitat Autnoma de Barcelona,
2001. [Tesina]
O estudo foi realizado no municpio de Ibi e de natureza transversal. Foram
utilizados basicamente os dados de uma pesquisa domiciliar realizada na rea urbana do
municpio, com o objetivo de obter informaes para a atividade de planejamento de
sade pela administrao do municpio.
No momento do estudo, Ibi contava com uma populao em torno de 20 000 pessoas,
das quais cerca de 90% viviam na rea urbana. O municpio apresentava economia
baseada na agricultura, particularmente no cultivo da batata.
A regio urbana do municpio era dividida pela administrao municipal em duas reas
de sade, segundo critrios socioeconmicos e de acessibilidade aos servios de sade.
Cada rea de sade, por sua vez, estava dividida em microreas, segundo critrios
geogrficos e operacionais (rea de trabalho dos Agentes Comunitrios de SadeACS).
A pesquisa foi feita no segundo semestre de 1997. O questionrio foi aplicado pelos
agentes comunitrios de sade, que fizeram um curso de treinamento especfico para
esta finalidade.
Sobre este arquivo, vale a pena citar, novamente, que cada registro (cada linha da
matriz de dados) corresponde a um nico frmaco. possvel que voc possa
estranhar, ao observar que em um mesmo registro sejam indicados mais de um
grupo teraputico. Como j visto, isto perfeitamente possvel, pois um mesmo
medicamento pode ter mais de uma ao teraputica. Por exemplo, sabe-se que
muitos frmacos atuam simultaneamente como analgsicos e antiinflamatrios.
OBJETIVO:
O exerccio consiste em descrever de forma bivariada a associao entre os fatores
sociodemogrficos, econmicos e de morbidade percebida (em forma de presena de
enfermos agudos e crnicos), com a posse ou no de medicamentos nos lares.
Como objetivo especfico, comprova tambm a prescrio de frmacos, segundo o
grupo teraputico e a condio socioeconmica.
ALGUMAS INDICAES:
1. Antes de tentar observar as associaes entre a posse de frmacos e os fatores de
interesse, siga, como sempre, todas as fases de anlise de um estudo: importao de
arquivos de dados, definio, criao e recodificao de variveis, manipulao de
arquivos, controle de qualidade e descrio univariada dos dados registrados.
Desta forma, foi construda uma varivel, cujo intervalo de valores podia alterar-se
entre 0 (no apresenta caractersticas favorveis) e 11 (apresenta todas as
caractersticas favorveis). Posteriormente, esta varivel pontuao foi categorizada
em dois grupos, em funo da mediana observada.
*********************************************************************.
* Passamos os arquivos a formato de dados SPSS, realizamos o *.
* controle de qualidade e criamos um nico arquivo de trabalho. *.
*********************************************************************.
0 'No' 1 'Sim' .
SAVE OUTFILE='C:\SPSS\Autoaval\zona_a.sav'
/COMPRESSED.
0 'No' 1 'Sim' .
SAVE OUTFILE='C:\SPSS\Autoaval\zona_b.sav'
/COMPRESSED.
FREQ tot_pers agudos cronicos mayores menores escola sanitari agua colecta alcant coche nevera cuartos tv
diario revista zona .
* Salvamos o arquivo *.
SAVE OUTFILE='C:\SPSS\Autoaval\lares.sav'
/COMPRESSED.
SAVE OUTFILE='C:\SPSS\Autoaval\farmacos.sav'
/COMPRESSED.
*** Agregamos o arquivo para obter um novo arquivo com a famlia ***.
*** e o nmero total de frmacos ***.
AGGREGATE
/OUTFILE='C:\SPSS\Autoaval\farm_fam.sav'
/BREAK=id_fam
/tot_farm = MAX(farm_num).
GET FILE='C:\SPSS\Autoaval\farm_fam.sav'.
SAVE OUTFILE='C:\SPSS\Autoaval\tot_farm.sav'
/COMPRESSED.
*** Adicionamos a varivel TOT_FARM ao arquivo dos lares, ***.
*** LARES.SAV ***.
RECODE dens_dom
(Lo thru 1=1) (1.01 thru Hi=2) INTO dens_do2.
EXECUTE .
VAR LAB dens_do2 'N de pessoas por dormitrio (categorizada)' .
VAL LAB dens_do2 1 '<= 1 pess/dorm' 2 '> 1 pess/dorm' .
VAR LEV dens_do2 (ORDINAL) .
FOR dens_do2 (f1) .
FREQ dens_do2 .
RECODE tot_pers
(Lo thru 3=1) (4 thru Hi=2) INTO pess_lar.
EXECUTE.
VAR LAB pess_lar 'Total de pessoas no lar (categorizada)' .
VAL LAB pess_lar 1 '< 4' 2 '>= 4' .
VAR LEV pess_lar (NOMINAL) .
FOR pess_lar (f1) .
FREQ pess_lar .
SAVE OUTFILE='C:\SPSS\Autoaval\far_ibia.sav'
/COMPRESSED.
*********************************************************************.
* Realizamos a descrio univariada das variveis
registradas *.
* e criadas *.
*********************************************************************.
* Variveis categricas *.
FREQ agudos cronicos escola sanitari agua colecta alcant coche nevera tv diario revista zona dens_do2 pess_lar
idosos2 menores2 cse .
DESCRIPTIVES dens_dom
/ STATISTICS=ALL .
*********************************************************************.
* Buscamos associaes entre as variveis explicativas e a *.
* posse de frmacos *.
*********************************************************************.
CROSS
agudos cronicos escola zona dens_do2 pess_lar idosos2 menores2 cse
BY farm
/ CELLS = COUNT ROW .
EXECUTE .