Sie sind auf Seite 1von 42

ESCOLA SUPERIOR DE COMUNICAO SOCIAL

PUBLICIDADE E MARKETING


INFERNCIA ESTATSTICA


DOCENTE: MARIA JOS CASTRO


TRABALHO REALIZADO POR:
FRANCISCA FLIX DA COSTA 5642
FRANCISCO CALVO 5617
SARA GUERRA 5652










2
NDICE

Introduo ............................................................................................................................................... 3
Cathy ....................................................................................................................................................... 5
Caracterizao da Amostra ..................................................................................................................... 8
Anlise Factorial ................................................................................................................................... 13
Anlise de Fiabilidade ........................................................................................................................... 17
Anlise de Clusters ................................................................................................................................ 19
Mtodo Hierrquico ........................................................................................................................ 20
Mtodo No Hierrquico ................................................................................................................ 27
Regresso Logstica Binria .................................................................................................................. 31
Anlise de Correspondncias ................................................................................................................ 36
Concluso .............................................................................................................................................. 40
Bibliografia ........................................................................................................................................... 42



3
INTRODUO

No mbito da unidade curricular Inferncia Estatstica, foi-nos proposta a realizao de um
trabalho que identificasse e mostrasse a aplicao das tcnicas estatsticas aprendidas em aula, tendo
por base o tratamento de dados atravs do software SPSS.

O ficheiro em questo, adaptado ao nosso contexto escolar enquanto alunos da Escola
Superior de Comunicao Social, debrua-se sobre um inqurito revisto recentemente pela University
of Sussex, cujo objectivo passava por analisar quais as caractersticas necessrias aos oradores para o
desenvolvimento de um bom mtodo de investigao. Seguindo este propsito, foi pedido aos alunos
que se colocassem na pele dos investigadores e respondessem a um conjunto de questes que
permitissem descobrir, ento, quais as caractersticas que, na sua opinio, se afirmam como as mais
relevantes.

Posto isto e de forma a criar um trabalho no s didctico mas tambm divertido, pedimos
auxlio a Cathy, uma personagem de banda desenhada criada por Cathy Guisewite. Nascida em 1976,
Cathy luta constantemente contra os quatro factores de culpa existentes no seu mundo Comida,
Me, Trabalho e Amor e tem-se vindo a afirmar no nosso mundo como uma mulher moderna,
competente e independente, mas sempre algo complicada. Tomando Cathy como nossa personagem
principal e utilizando cartoon strips tanto totalmente originais como modificadas, pretendemos ento
passar pelas vrias fases inerentes a um trabalho de estatstica ilustrando simultaneamente quo
divertido, gratificante e por vezes frustrante a sua realizao pode ser.

Passando agora a uma breve descrio do contedo do trabalho, este pretende cumprir vrios
objectivos. Em primeiro lugar, Cathy comear por caracterizar a sua amostra aplicando
exclusivamente uma anlise univariada, de forma a que o leitor se possa familiarizar com as
caractersticas dos inquiridos e com as suas tendncias de respostas para cada uma das perguntas.

Seguidamente, a personagem proceder ao tratamento dos dados aplicando tcnicas
estatsticas como a Anlise Factorial, a Anlise de Fiabilidade, a Anlise de Clusters, Regresso
Logstica Binria e Anlise de Correspondncias, utilizando-se sempre uma margem de erro de 0,05.
O procedimento inerente a cada uma destas, bem como os seus objectivos e propsitos, sero
explicitados aquando da sua realizao. No entanto, faz sentido mencionar desde j que, em conjunto,
estas tcnicas permitiro verificar correlaes entre as variveis existentes, agrupar os indivduos de
acordo com a sua proximidade de respostas, detectar influncias de variveis independentes sobre a
categoria de interesse de uma varivel independente, fazer previses para a populao baseadas no

4
estudo desta amostra, entre outros. Resumidamente permitir-nos- conhecer a fundo a nossa amostra e
tentar retirar ilaes que possam ser significativas e representativas para o todo da populao. Com
base nelas, podemos analisar e interpretar este ficheiro da forma mais completa e conclusiva possvel.

Expostas as fases delineadas para a realizao deste trabalho, cabe agora definir o nosso
objectivo particular, enquanto grupo, para o mesmo. Pretendemos ento criar um trabalho to original
e criativo quanto rigoroso e metdico que desperte a curiosidade do leitor e que o leve a compreender
as vantagens oferecidas pela Inferncia Estatstica percebendo os cruzamentos realizados, as anlises
includas e as ilaes retiradas ao mesmo tempo que desfruta de uma leitura agradvel e divertida.

O nosso objectivo , de certa forma, afirmarmo-nos como os embaixadores da Estatstica,
publicitando-a pelas suas mais valias enquanto ferramenta de trabalho e ilustrando-as durante o
processo.


5
CATHY

Cathy trabalhava para uma empresa chamada Product Testing, Inc desempenhando vrias
tarefas, muitas delas de carcter impossvel. Apesar da sua clara tendncia para o drama e constantes
queixas, Cathy era uma mulher competente que conseguia sempre entregar os projectos e agradar aos
clientes, o que irritava e inspirava Mr. Pinkley, o seu chefe, com quem mantinha uma relao de
implicncia e certo orgulho.

De uma forma geral, Cathy achava o seu trabalho desafiante mas algo problemtico para a sua
estabilidade psicolgica. Muitas vezes via-se na necessidade de encontrar formas de se motivar e
enfrentar com uma postura positiva, o seu dia-a-dia. Claro que isto nem sempre resultava...



Uma das suas responsabilidades para com a empresa prendia-se com a execuo de inquritos
e posterior anlise dos dados recolhidos. Cathy esforava-se para ser metdica e organizada,
trabalhando para contrariar vigorosamente a acumulao de trabalho por fazer, as alturas de caos e a
tendncia existente para a papelada se amontoar na sua secretria. No entanto, por vezes, a sua luta
parecia em vo e as foras do universo acabavam sempre por levar a melhor. O caos perseguia-a!




6
Nestas alturas de desespero, Cathy precisava, muitas vezes, de aliviar a tenso decorrente do
enorme stress provocado pelas pilhas de folhas que a soterravam e a comida era a melhor soluo para
o alvio de quase todos os males. Infelizmente, tinha tambm a terrvel desvantagem de lhe ir parar
directamente s coxas, acarretando um sentimento de culpa para o resto do dia e, consequentemente,
minando a rstia de produtividade que possua.

Enquanto mulher activa e empreendedora, Cathy no hesitava em procurar outro tipo de
solues para combater este problema. A leitura era das melhores formas de limpar a secretria!



No Outono de 2010, Cathy deparou-se com um inqurito importantssimo encomendado pela
Universidade de Sussex e cujo objectivo era, nem mais, avaliar os factores decisivos para a criao de
um bom mtodo de investigao. Este projecto era no s bastante interessante mas tambm algo com
o qual poderia aprender muito e qui a pudesse ajudar a nvel particular, a melhorar o seu dia-a-dia.
Mr. Pinkley tinha-a avisado e a prpria Cathy sabia: No podia falhar!

Todavia, o primeiro dia de trabalho no augurou nada de positivo...




7
Frustrada com o difcil avano do seu trabalho e determinada a mudar a sua situao para
melhor, Cathy decidiu agir. Afinal, esta era a ocasio perfeita para mudar o seu mtodo de trabalho e
nada a impediria. Acabaram-se as folhas e folhinhas! pensou Estamos no sculo XXI, vou
arranjar algo automtico!



Quando chegou a casa, Cathy sentia-se mais confiante e entusiasmada. Este novo programa, o
SPSS, seria a sua salvao e tudo aquilo que andava penosamente a fazer manualmente seria agora
substitudo por apenas alguns cliques. Claro que nada era perfeito e de certeza que haveria um
pequeno seno, mas agora tudo lhe parecia mais fcil e amanh era outro dia de trabalho. O seu
trabalho iria deixar Mr. Pinkley boquiaberto!














8
CARACTERIZAO DA AMOSTRA

No dia seguinte, Cathy levantou-se confiante e decidida. Comeava
hoje uma nova etapa em todo o seu mtodo de trabalho e ia aplic-lo num
projecto to importante como o que tinha em mos. Cathy sabia de antemo
que a amostra era constituda por 239 indivduos, todos eles alunos da Escola
Superior de Comunicao Social. A tarefa de hoje era caracteriz-la de acordo
com as variveis includas no inqurito, descrevendo detalhadamente as suas
caractersticas scio-demogrficas e tendncias de resposta.



Product Testing, Inc
Relatrio University of Sussex

Caracterizao da Amostra

Em primeiro lugar, h que diferenciar a amostra tendo em conta a varivel Gnero.
Analisando-a, podemos verificar a existncia de 3 respostas inadequadas, 132 casos contabilizados
para a categoria de resposta Feminino e 104 casos para o Masculino. Constata-se, ento, uma
maior predominncia de mulheres na amostra que constituem 55,9% da mesma.

Relativamente varivel Curso, e aps se constatar a existncia de 24 no respostas, a
amostra no revelou verdadeira equidade na distribuio dos inquiridos. Esta situao ilustrada pelo
grfico circular onde se verifica que os cursos de Jornalismo e Relaes Pblicas e Comunicao
Empresarial so aqueles que registam maior nmero de estudantes, obtendo uma percentagem
acumulada de 64,2% do total da amostra. Em terceiro lugar, o curso com maior nmero de inquiridos
Publicidade e Marketing (21,9%) seguindo-se-lhe Audiovisual e Multimdia com apenas 14%
da amostra.


9
No que respeita varivel de escala Idade, a tabela de frequncias fornecida pelo SPSS
demonstrava uma amplitude de idades bastante elevada sendo o mnimo 17 anos e o mximo 39 anos.
No entanto, a distribuio da amostra por este intervalo revelou-se muito pouco homognea sendo
genericamente escassos os casos contabilizados para idades maiores de 26 anos.

Sendo assim, e apesar de perdermos alguma informao, pareceu-nos apropriado recodificar
esta varivel tornando-a ordinal e dotando-a de 5 diferentes classes que fossem um pouco mais
homogneas e, consequentemente representativas. Cabe ainda frisar que ser esta varivel de Idade
do Inquirido que utilizaremos doravante no seguimento do trabalho. Estas vem-se explicitadas no
grfico adjacente.



Pela sua anlise podemos concluir que mesmo recodificada, esta varivel continua a revelar
uma significativa discrepncia na distribuio da amostra. Os indivduos menores de 19 anos
representam a fatia mais significativa da mesma (36%) enquanto que as duas classes seguintes sofrem
diminuies na ordem dos 12 e 16 pontos percentuais revelando valores de 24,7% e 20,5%,
respectivamente. Por ltimo, as duas classes finais, 25-27 e >27, revelam uma percentagem
acumulada de 18,8% representando aqueles cujas idades se encontram entre os 25 e os 39 anos.

Por ltimo, tendo em conta o Rendimento do Agregado Familiar dos Inquiridos
importante frisar o registo de 66 no respostas, um valor substancialmente elevado que retrata a
diminuta pr-disposio existente para abordar esta questo. Posto isto, a varivel original encontrava-
se dividida em 7 categorias de resposta sendo que as categorias mais perifricas revelavam-se muito
pouco expressivas contendo apenas 5 e 6 casos contabilizados. Desta forma, mais uma vez nos
pareceu pertinente recodific-la para que tomasse uma distribuio mais equilibrada pelo que
diminumos para 5 as categorias de resposta.

10
Tambm ser esta nova varivel de Rendimento mensal do agregado familiar aquela que
utilizaremos ao longo do trabalho. Para o fazer procedemos fuso das categorias de resposta
posicionadas nos extremos: menos de 500 e de 500 a 700 no plo inferior e de 1301 a 1500 e
mais de 1500 no plo superior.

Feita a recodificao, o grfico obtido permite-nos concluir que a maior parte da amostra
(31,7%) dispe de um rendimento mdio mensal do agregado familiar entre 901 e 1100 euros. J a
percentagem de inquiridos obtida para as categorias de resposta 701-900 e 1101-1300 foi
idntica: 18,5%. Analisando os extremos a percentagem daqueles que vivem com menos de 701
euros/ms superior queles que podem contar com mais de 1300 euros/ms: 16,7% e 14,4%,
respectivamente.


Por ltimo e relativamente s variveis ordinais que pretendem recolher informao sobre as
caractersticas essenciais para o desenvolvimento de uma boa metodologia de investigao, estas
apresentam 7 categorias de resposta que explicitaremos de seguida: Discordo Totalmente (DT);
Discordo (D); Discordo Parcialmente (DP); No Concordo Nem Discordo (NCND);
Concordo Parcialmente (DP); Concordo (C) e Concordo Totalmente (CT).




11



Como o grfico demonstra, as variveis Gosto de ensinar porque os estudantes tm de fingir
que gostam de mim. Caso contrrio tm ms notas e Gosto quando as pessoas me dizem que os
ajudei a perceber a rotao na anlise factorial, so aquelas que registam um valor mediano mais
baixo, situado na categoria No Concordo Nem Discordo, sendo esta a que reuniu maior
percentagem de respostas: 41,8% e 28,9%, respectivamente. Os valores registados para as categorias
C, CP, DP e D, revelaram em ambas as variveis manifestar valores muito prximos na
ordem dos 15% para a primeira varivel e dos 12% para a segunda. Por fim, as categorias de resposta
mais extremas (DT e CT) revelaram os valores mais diminutos para ambas as variveis,
apresentando em conjunto um valor mdio de 3,56%.

De seguida podemos reparar que 6 variveis registam a sua mediana na categoria CP. So
elas: Passo imenso tempo a ajudar os estudantes; Transmitir conhecimentos a melhor prenda
que posso dar a uma pessoa; Prefiro pensar em variveis dependentes do que ir a um bar;
Aplico 3ANOVA na minha cabea antes de me levantar todas as manhas, Gosto de condies de
controle e Ajudar os outros a compreender a soma de quadrados faz-me sentir bem. Trabalhando-
as em conjunto verificamos que as categorias de resposta Concordo Parcialmente e Concordo
so sempre aquelas que registam valores mais altos sendo que, em mdia, contabilizam 27,8% e
27,7%, respectivamente, do total da amostra. So responsveis, desta forma por aproximadamente
55,5% das respostas dos inquiridos. A percentagem de respostas restante encontra-se dividida pelas
outras categorias de resposta, verificando-se genericamente pouca incidncia nas categorias DT,
D e DP, e a maior incidncia sempre na categoria CT.

DT D DP NCND CP C

12

Resultados mdios das 5 variveis em questo



Voltando agora ao grfico inicial, caso nico afirma-se a varivel Gosto de condies de
controle. Esta regista a sua mediana entre as categorias Concordo Parcialmente e Concordo,
que juntas obtm 55,6% do total das respostas. A categoria NCND apresenta tambm uma
percentagem significativa (22,1%), seguida da categoria CT com 13,8%. As opes de resposta
negativa (DT, D e DP) renem uma percentagem acumulada de apenas aproximadamente 9%.

Finalmente, as variveis que registam valores medianos mais elevados, na ordem da categoria
de resposta Concordo, so aquelas relacionadas com o desenho de experincias: Desenhar
experincias divertido e Tremo de excitao quando penso em desenhar a minha prxima
experincia. Ambas reflectem a mesma tendncia e valores muito prximos para as e categorias de
resposta positivas (CP, C e CT) na ordem dos 20%, 35% e 20%, respectivamente. J as
opes de resposta discordantes apresentam valores acumulados tambm semelhantes: de
aproximadamente 10% para as duas variveis em causa. a categoria NCND que manifesta a
maior variao entre as duas variveis registando 11,7% do total das respostas para a primeira e
17,5% para a segunda.

Em suma, e de forma a concluir a caracterizao da amostra, podemos afirmar que a amostra
no totalmente homognea no que diz respeito s variveis de cariz scio-demogrfico. No entanto,
tendo em conta as variveis ordinais, verifica-se que genericamente a amostra reflecte uma tendncia
de resposta substancialmente positiva, tendendo a concordar que todas elas so importantes para a
criao de um bom mtodo de investigao uma vez que nenhuma das variveis registou o seu valor
mdio em categorias de resposta correspondentes discordncia.

Responsvel pela Anlise: Cathy


0,00%
5,00%
10,00%
15,00%
20,00%
25,00%
30,00%
DT D DP NCND CP C CP
CT
1,22%
3,86%
6,78%
20,68%
27,8% 27,7%
11,98 %

13
Fascinada com o SPSS, Cathy tentou a sua sorte



No ia ser fcil, mas Cathy ainda tinha muito tempo para convencer Mr. Pinkley e todo um
leque de argumentos para criar.
ANLISE FACTORIAL

A caracterizao da amostra estava feita! pensou Cathy.
Tinha sido um bom dia de trabalho e os seus objectivos foram cumpridos. Porm, sabia que
tinha tratado apenas da anlise univariada dos dados e que a parte mais difcil do projecto ainda estava
para vir.
Ainda assim, visualizou o seu sucesso.

No dia seguinte, o seu foco era a Anlise Factorial e Anlise de Fiabilidade. O livro
explicava:

14

Mos ao trabalho!

Estavam reunidas todas as condies para que tudo corresse lindamente. Eram 8h da manh,
escritrio estava arrumado, o computador estava ligado e a sua vontade era frrea! No entanto, a coisa
rapidamente lhe subiu cabea



O dia revelou-se uma fracasso, mas Mr. Pinkley ia ter de perceber, nem sempre as coisas
correm logo bem primeiraE Cathy bem que tinha tentado! As compras tinham sido um pequeno
desvio mas no dia seguinte estaria de novo na rota certa: o SPSS era uma ferramenta a dominar!


15


Product Testing, Inc
Relatrio University of Sussex

Anlise Factorial

Tendo em conta o conjunto de 10 variveis ordinais do mesmo tipo includas neste inqurito,
optmos por escolher como melhor soluo para a anlise factorial a criao de dois factores, o
primeiro com 4 variveis e o segundo com 3 variveis que em conjunto explicam 68,5% da
variabilidade total dos dados.

Posto isto, importante focar que decidimos pela excluso de 3 variveis, que mostravam
valores de extraco diminutos e que, consequentemente, no revelavam uma grande quantidade de
varincia explicada pelos factores em relao a cada varivel individual e implicavam uma elevada
perda de informao e fraca explicao da variabilidade.

So elas:

Ajudar os outros a compreender a soma de quadrados faz-me sentir bem. (Extraco de 0,463)
Prefiro pensar em variveis dependentes apropriadas do que ir a um bar. (Extraco de 0,497)
Transmitir conhecimentos a melhor prenda que posso dar a uma pessoa. (Extraco de 0,504)

Desta forma, tendo em conta o trade-off entre perda de informao e reduo de dados,
optmos por conservar uma percentagem de explicao da variabilidade total dos dados mais elevada
(68,5%) em detrimento de agrupar todas as variveis em causa e maximizar a reduo dos dados.

Apresentando um KMO de 0,769, esta soluo reflecte uma forte correlao entre as variveis
e a significncia obtida para o Teste de Bartlett apresentou um valor de 0,000
1
o que nos leva a
rejeitar a hiptese nula: A matriz de correlao igual matriz de identidade e a prosseguir com a
anlise dos factores obtidos que se apresentam descriminados de seguida:




1
Estatstica de teste: 673,842

16
Factor 1
Gosto de condies de controle.
Aplico 3 ANOVA na minha cabea antes de me levantar da cama todas as manhs.
Desenhar experincias divertido.
Tremo de excitao quando penso em "desenhar" a minha prxima experincia.

Factor 2
Gosto quando as pessoas me dizem que eu os ajudei a perceber a rotao na Anlise Factorial.
Passo imenso tempo a ajudar os estudantes.
Eu gosto de ensinar porque os estudantes tm que fingir que gostam de mim. Caso contrrio
tero ms notas.

Responsvel pela Anlise: Cathy







17
ANLISE DE FIABILIDADE



Product Testing, Inc
Relatrio University of Sussex

Anlise de Fiabilidade

Com o objectivo de validarmos a opo escolhida, temos de proceder ento a uma anlise de
fiabilidade da mesma que comprove a boa consistncia interna entre as variveis inseridas num factor.

Sendo assim, o Alpha de Cronbach obtido para o primeiro factor registou um valor bastante perto
de 1 (0,848) o que corrobora a sua boa consistncia interna. Para o segundo factor o valor registado
foi de 0,741, o que apesar de no to elevado, ainda revela uma boa consistncia das variveis no
factor. Adicionalmente, para nenhuma das anlises se verifica um aumento do Alpha de Cronbach
aquando da excluso de alguma varivel inserida no factor.

18
Concluindo, de entre todas as solues encontradas esta , na nossa opinio, a melhor soluo
possvel pois conjuga uma boa explicao da variabilidade total dos dados corroborada por uma boa
consistncia interna das variveis nos factores. Acreditamos que os dois factores criados permitiro
trabalhar os dados de uma forma mais reduzida, garantindo uma perda mnima de informao.

Responsvel pela Anlise: Cathy












19
ANLISE DE CLUSTERS

Mr. Pinkley andava ansioso e insistente com o projecto de Sussex. Pressionava
constantemente Cathy tentando perceber se estava a progredir e a fazer um bom trabalho. Afinal, no
conhecendo o novo software SPSS, tinha de depositar toda a sua confiana nela e nas suas
capacidades.

Cathy, por sua vez, esforava-se por responder s expectativas e estava a aprender bastante
sobre metodologias de trabalho e ferramentas que a poderiam ajudar a fazer mais e melhor. O dia de
hoje destinava-se Anlise de Clusters.



Sentindo-se numa mar de sorte, Cathy optou pelo mtodo hierrquico e dedicou-se a analisar
o ficheiro. De facto era bastante interessante agrupar os indivduos consoante as suas respostas e
verificar que tendncias existiam. Para alm disso, era uma tcnica que se podia usar para os mais
variados temas e que permitia desvendar aspectos bastante curiosos.




20
Sempre com Mr. Pinkley a rondar, Cathy trabalhava






MTODO HIERRQUICO


!""#$% '!(#)!)!*

21


Product Testing, Inc
Relatrio University of Sussex

Anlise de Clusters: Mtodo Hierrquico

Relativamente Anlise de Clusters pelo Mtodo Hierrquico, e tendo em conta todas as
variveis ordinais de cariz de concordncia, a soluo mais equilibrada a nvel de distribuio dos
indivduos pelos vrios grupos segue o Mtodo Within-Groups Linkage e, registando-se apenas 1 no
resposta, engloba 3 diferentes clusters com a seguinte distribuio:

Cluster 1: 55 pessoas, representando 23,1% do total da amostra.
Cluster 2: 97 pessoas, representando 40,8% do total da amostra.
Cluster 3: 86 pessoas, representando 36,1% do total da amostra.

No sentido de validar a soluo obtida, e tendo em conta que esta inclui 3 grupos distintos,
necessrio proceder realizao do teste no paramtrico de Kruskal-Wallis cuja hiptese nula
afirma: As distribuies so iguais nos 3 clusters. Tendo obtido uma significncia de 0,000 para
todas as variveis includas podemos rejeitar esta hiptese e, consequentemente, garantir a
heterogeneidade entre os grupos e validar a opo apresentada.

De forma a possuirmos uma ideia mais clara de qual a composio efectiva dos diferentes
clusters, podemos caracteriz-los em relao a outras diferentes variveis. Neste sentido, optmos por
cruzar a soluo obtida com as variveis Curso e Rendimento e analisar os resultados obtidos.



22

Clusters & Curso



Analisando o grfico respeitante a esta amostra, podemos retirar algumas concluses
interessantes. Em primeiro lugar bastante visvel que o curso de Audiovisual e Multimdia
aquele que engloba menos indivduos para cada um dos clusters. Posto isto, tambm visvel que no
primeiro cluster predominam essencialmente alunos de Jornalismo (44,2%), sendo que os cursos
de Publicidade e Marketing e de Relaes Pblicas e Comunicao Empresarial registam
exactamente a mesma percentagem de alunos (23,1%).

J no segundo cluster, 36% dos indivduos pertence ao curso de Relaes Pblicas e
Comunicao Empresarial, seguindo-se Jornalismo, Publicidade e Marketing e Audiovisual
e Multimdia com 27,9%, 20,9% e 15,1%, respectivamente.

Continuando a anlise, verifica-se que o terceiro cluster tambm regista a sua predominncia
no curso de Relaes Pblicas e Comunicao Empresarial, com 34,2% dos seus constituintes.
Regista ainda 27,6% dos mesmos no curso de Jornalismo e 22,4% no curso de Publicidade e
Marketing. neste cluster que a percentagem de alunos de Audiovisual e Multimdia apresenta o
seu valor mais alto, se bem que ainda diminuto, de 15,8%. Um aspecto curioso retirado do
cruzamento dos clusters obtidos com esta varivel nominal o facto de Publicidade e Marketing
ser o curso mais equitativamente presente nos trs clusters registando sempre valores na ordem dos
20%.


23

Clusters & Rendimento

Antes de aprofundar a anlise, necessrio focar que neste cruzamento, registam-se 67 no
respostas, o que diminui bastante a dimenso dos clusters. No entanto, optando por analisar os valores
de percentagem podemos prosseguir a uma anlise elucidativa.





Em primeiro lugar, tendo por base uma tabela de contigncia e um boxplot, podemos verificar
que o valor da mediana igual para os trs clusters, posicionando-se na terceira classe da varivel
Rendimento (901-1100 euros/ms) onde estes registam percentagens de resposta bastante
elevadas: 27,5%, 39,1% e 27%, respectivamente. Para alm disto, verificamos que tambm o valor do
terceiro quartil (75%) o mesmo para os trs grupos concentrando-se na quarta classe de rendimento
(1101-1300 euros/ms).

O segundo e terceiro cluster revelam-se assim idnticos em termos de disperso de quartis
sendo que o primeiro cluster aquele que difere, revelando uma maior amplitude de respostas, j que
o primeiro quartil , ao mesmo tempo, a primeira classe de respostas existente, correspondendo aos
indivduos cujo rendimento mdio mensal do agregado familiar no ultrapassa os 700 euros (30% do
total de membros do cluster).
>1300




1101-1300





901-1100





701-900





<701

R
e
n
d
i
m
e
n
t
o

m

d
i
o

m
e
n
s
a
l

d
o

a
g
r
e
g
a
d
o

f
a
m
i
l
i
a
r


24
Analisada esta amostra podemos ento concluir que os segundo e terceiro clusters so
compostos por uma maior percentagem de indivduos com mais elevado rendimento mdio mensal do
agregado familiar, relativamente ao primeiro cluster, onde a maior percentagem obtida recai sobre a
classe de rendimento mais diminuto.

Responsvel pela Anlise: Cathy


O dia acabou e Cathy voltou para casa descansada e orgulhosa. O seu projecto estava
finalmente a ganhar forma e consistncia e as anlises que tinha feito foram tanto proveitosas como
interessantes. A anlise de clusters estava organizada e acabada e Cathy sabia que tinha optado pelo
mtodo mais adequado: o cliente ia gostar!

Estava a planear um jantar descansado com Irving, o seu namorado, e qui relaxar e ver um
filme romntico. Enquanto escolhia o filme, Irving chegou e com eleas dvidas!



Mais tarde, j deitada, a cabea de Cathy andava s voltas. No conseguia dormir. Era
verdade que a amostra que estava a trabalhar tinha mais de 100 indivduos mas o livro dizia
especificamente que o Mtodo Hierrquico podia ser aplicado para amostras maiores se o software
conseguisse processar a informao adequadamente. E o SPSS tinha-o feito!

Mesmo assim, Irving tinha acabado com os seus projectos de descanso


25


Era inevitvel. Depois de quase duas horas a matutar, Cathy levantou-se e ps mos obra. Ia
verificar que todas as relaes que tinham feito faziam sentido e que o mtodo que usou estava bem
aplicado. Assim, se algum voltasse a duvidar da sua escolha, poderia defend-la convictamente!

No dia seguinte, a primeira coisa a fazer era conseguir a aprovao de Mr. Pinkley e passar,
descansadamente, para a prxima tarefa



E com duas simples frases Mr. Pinkley conseguiu fazer desabar o mundo de Cathy. Todo o
seu trabalho, todo o seu esforo, toda a sua anlisepor gua abaixo!




26
Mas Cathy no ia deixar que tudo fosse em vo. Apresentaria os dois mtodos e a anlise
ficaria ainda mais completa. Havia sempre um lado positivo.

Ainda nesse dia Mr. Pinkley chamou vrias vezes Cathy ao seu escritrio. Tambm ele estava
rodeado de folhas e, no tendo ainda descoberto as vantagens do SPSS, espalhava a confuso por toda
a empresa. Porm, o dia de Cathy estava a ser desastroso e a sua produtividade adquiriu todo um novo
carcter.



Chegada a casa, Cathy estava decidida. Ia desfrutar de uma boa noite de sono e acordar no dia
seguinte com as energias restauradas. Talvez precisasse do seu ch Noite Tranquila, mas faria o seu
trabalho, e bem feito!





27
MTODO NO HIERRQUICO



Product Testing, Inc
Relatrio University of Sussex

Anlise de Clusters: Mtodo No Hierrquico

Refazendo a Anlise de Clusters, desta vez aplicando o Mtodo No Hierrquico s mesmas
variveis utilizadas anteriormente, a melhor soluo encontrada volta a incluir trs diferentes clusters
com as seguintes composies:

Cluster 1: 56 pessoas, representando 23,5% do total da amostra.
Cluster 2: 73 pessoas, representando 30,7% do total da amostra.
Cluster 3: 109 pessoas, representando 45,8% do total da amostra.



28
As distncias entre os centrides de cada cluster vm representadas seguidamente:




Decidimos pelo no aumento do nmero de clusters uma vez que isso acarretaria uma
significativa diminuio da distncia entre os mesmos, o que seria prejudicial e contraproducente uma
vez que o objectivo passa por garantir a heterogeneidade dos clusters a nvel inter-grupal e a sua
homogeneidade a nvel intra-grupal.

Todavia, ainda imprescindvel validar formalmente a opo obtida, novamente atravs do
teste no paramtrico de Kruskal-Wallis. Explicitadas anteriormente as hipteses inerentes ao teste,
voltamos a obter uma significncia de 0,000 para todas as variveis o que nos permite rejeitar H
0
e
garantir a heterogeneidade entre os clusters, procedendo-se validao final da soluo obtida.

Tambm para este mtodo interessante perceber quem so os constituintes de cada cluster e,
de forma a caracteriz-los mais concretamente, voltmos a optar pelo seu cruzamento com duas outras
variveis, desta vez o Gnero do Inquirido e a Idade do Inquirido.

Clusters & Gnero do Inquirido




+(,"-./ 0
+(,"-./ 1 +(,"-./ 2
!"#$$ &"'##
&"()&

29
Pela anlise do conjunto de grficos circulares podemos perceber que o gnero Feminino
predomina no primeiro e terceiro cluster. Esta situao principalmente acentuada no terceiro cluster
onde as mulheres tm maioria absoluta, representando 61,7% do total da amostra estudada, contra
apenas 38,3% de homens.

Esta situao acaba por no ser de estranhar uma vez que na caracterizao da amostra j se
tinha observado uma maior percentagem de mulheres do que de homens
2
, o que, inevitavelmente, se
iria reflectir aquando do cruzamento desta varivel com outras.

Ainda assim, o segundo cluster consegue contrariar esta tendncia manifestando-se como o
mais equilibrado em termos de distribuio segundo a varivel Gnero do Inquirido e obtendo
mesmo mais indivduos do gnero Masculino (50,6%) do que do sexo Feminino (49,3%).

Clusters & Idade do Inquirido



Em primeiro lugar, verificamos que o terceiro cluster aquele que apresenta percentagens
mais elevadas para todas as classes etrias, o que vem ao encontro do facto de ser o cluster mais

2
Relembrando: 55,9% de mulheres vs. 44,1% de homens

30
populado dos trs. O mesmo se passa relativamente ao segundo cluster que, tendo tambm mais
indivduos do que o primeiro, apresenta valores um pouco mais elevados que este para cada uma das
classes.

Tendo isto em conta, acreditamos que as percentagens entre os clusters diferem
proporcionalmente no havendo essencialmente grandes discrepncias. Regista-se fundamentalmente
uma maior predominncia, em todos os clusters, de indivduos menores de 19 anos, seguidos de
indivduos dos 19 aos 21 anos.



A anlise da tabela acima permite-nos confirmar as nossas concluses prvias uma vez que
notrio que tanto a mediana como os vrios percentis registam para os trs grupos exactamente os
mesmos valores, o que nos confirma que os clusters se manifestam particularmente homogneos no
que respeita ao cruzamento com a varivel Idade do Inquirido. A mediana encontra-se na classe
etria dos 19 aos 21 anos, ao passo que o terceiro quartil no vai para alm da terceira categoria de
resposta disponvel: dos 22 aos 24 anos. Estamos assim perante uma amostra com idades
compreendidas essencialmente entre os 17 e 24 anos, sendo espordicos os casos de indivduos com
idades superiores a 25 anos.

Responsvel pela Anlise: Cathy





31
REGRESSO LOGSTICA BINRIA

Concluda a Anlise de Clusters atravs dos dois mtodos, o entusiasmo de Cathy era grande.
De facto, o SPSS abrira-lhe horizontes no que diz respeito utilizao de ferramentas de trabalho
mais actualizadas que lhe permitissem simultaneamente poupar tempo e conseguir anlises mais
rigorosas, detalhadas e ricas para o cliente.

Faria como sua principal misso na Product Test, Inc. a actualizao dos softwares e a
adopo de uma metodologia de trabalho cada vez mais moderna e eficiente! claro que o seu
empreendorismo acabou por se dispersar um bocadinho



Apesar da relutncia de Mr. Pinkley em aceder aos seus pedidos, Cathy estava decidida a
provar de todas as maneiras que os seus argumentos forneceriam empresa uma nova vantagem
competitiva. Para isso, acabar o trabalho a tempo e horas e impressionar o cliente era
fundamentalRegresso Logstica Binria, aqui vamos ns!

32

Os seus primeiros cruzamentos no foram muito animadores mas Cathy j estava habituada.
O SPSS gostava de lhe dar alguma luta antes de lhe conceder respostas, era quase uma relao de
amor-dio. No desistindo, Cathy aproveitava todas as oportunidades para aprender e dominar todos
as pequenas subtilezas inerentes a esta tcnica, de forma a esgotar as suas hipteses e garantir que os
resultados apresentados estavam baseados em rigoroso e exaustivo tratamento dos dados.

Contudo nem sempre isto era fcil e em alturas de fraqueza, o pessimismo apoderava-se de
si



Porm, Cathy resistiu e insistiu.


33


Product Testing, Inc
Relatrio University of Sussex

Regresso Logstica Binria

Em primeiro lugar, pareceu-nos muito interessante tentar estabelecer relaes de influncia
entre as variveis independentes ordinais de cariz de concordncia com as variveis de tipo scio-
demogrfico Gnero, Curso, Rendimento e Idade, que tommos como dependentes. Para
proceder anlise, recodificmos estas variveis de forma a torn-las variveis nominais binrias,
determinando sempre uma categoria de interesse. Posto isto, e cruzando-as, individualmente, com
todas as variveis independentes supra mencionadas, passmos interpretao dos resultados.

Desafortunadamente, estes no revelaram nenhum modelo que permitisse fazer previses
conclusivas, no se tendo identificado nenhuma varivel independente que exercesse influncia sobre
qualquer uma das dependentes determinando uma probabilidade para que esta ltima tomasse a
categoria de interesse pr-definida.

Ainda assim, procedemos nova recodificao das categorias de interesse das vrias variveis
tomadas como dependentes de maneira a verificar se os resultados se mostravam ou no mais
favorveis. Simultaneamente experimentmos para cada uma as opes todos os mtodos existentes.
Todavia, as concluses voltaram a no ir ao encontro das nossas expectativas.


Foi neste clima de frustrao que Mr. Pinkley decidiu aparecer.



J mais calma, Cathy continuou

34
Iria ter de fazer ver ao cliente que a no existncia de influncia era uma informao to
vlida quanto a existncia de influncia e iria deixar bem claro que tinha feito todos os esforos para
conseguir obter um modelo que permitisse fazer previses. Se no tinha encontrado, era porque no
existia.


Product Testing, Inc
Relatrio University of Sussex

Regresso Logstica Binria
3


Por ltimo, decidimos ainda seleccionar vrias de entre as variveis ordinais de cariz de
concordncia e defini-las como varivel dependente, tratando-as como nominal binrias e verificando
se sofriam ou no influncia por parte das restantes variveis.

Mostrando-se esta opo igualmente insatisfatria, focmo-nos na varivel Rendimento
mensal do agregado familiar, tomando como dependente e definindo como categoria de interesse as
No Respostas, que incluam 66 casos. Cruzando-as com as restantes variveis independentes, a
anlise revelou-se, partida, animadora:

Atravs do Mtodo Enter a significncia obtida para a tabela relativa s variveis na equao
registava um valor de 0,000. Assim sendo, rejeita-se H
0,
reiterando que B
0
! 0 e continua-se a anlise.
Olhando para o Teste de Omnibus, verificmos tambm que a significncia volta a tomar o valor de
0,000, o que nos leva a rejeitar H
0,
e a concluir que O modelo estatisticamente significativo. J o
Teste de Hosmer & Lemeshow apresenta uma significncia de 0,869 o que nos permite aferir que O
modelo se ajusta aos dados, uma vez que no rejeitmos a Hiptese Nula inerente a este teste. Por
ltimo, atravs da anlise da Tabela de Classificao a,b em comparao com a Tabela de
Classificao a, percebemos que a percentagem de classificao global correcta aumenta
substancialmente, de 73,6% para 84,9%, o que reflecte que compensou proceder introduo das
variveis independentes.




3
Continuao da anlise realizada na pgina anterior.

35
neste cenrio aparentemente interessante que procedemos anlise das significncias
associadas s variveis na equao e nesta anlise que o nosso modelo se reflecte insatisfatrio. O
teste de hipteses inerente a esta significncia tem as seguintes hipteses:

H
0
: Os ! so iguais a 0.
H
1
: Os ! so diferentes de 0.

Na verdade, nenhum dos testes subjacentes aos coeficientes dos termos que contm as
variveis independentes revela significncias que possibilitem a rejeio da hiptese nula para todas
as categorias de resposta, sendo que a varivel independente "Transmitir conhecimentos a melhor
prenda que posso dar a uma pessoa" a que mais se aproxima de permitir esta rejeio, apresentando
significncias menores de 0,05 em 4 das suas categorias de resposta. Isto no se verifica, porm, para
duas outras categorias de resposta o que acaba por invalidar todo o modelo.

Conclumos, assim, que nenhuma varivel independente apresenta probabilidades de influenciar a
varivel dependente Rendimento Mdio Mensal do Agregado Familiar para que esta tome a
categoria de interesse: as No Respostas. O mesmo se passa para todos os restantes cenrios
considerados.

Responsvel pela Anlise: Cathy




36
ANLISE DE CORRESPONDNCIAS

O ltimo passo do projecto de Cathy era proceder Anlise de Correspondncias. Depois de
no ter conseguido obter um bom modelo para a Regresso Logstica que permitisse a realizao de
previses, Cathy sentia que tinha falhado e que no iria satisfazer totalmente o cliente. Sair da cama
apresentava-se uma tarefa difcil...



Quando finalmente venceu a batalha e chegou ao escritrio Mr. Pinkley estava desvairado



Apesar da moleza matutina, hoje o seu estado de esprito era positivo. Sentia-se calma. O
projecto estava quase terminado e apesar de alguns altos e baixos, tinha aprendido muita coisa e
acreditava ter feito um bom trabalho. Depois de um caf e um chocolate, para adoar o dia, ps-se ao
trabalho.


37


Cathy encontrou o seu primeiro desafio logo nas condies de aplicabilidade do teste do
Qui-Quadrado. Todas as combinaes de variveis que tinha experimentado no as tinham respeitado,
o que lhe impossibilitava o prosseguimento da Anlise. Enquanto meditava sobre como resolver esta
situao, decidiu ir jantar a casa com Irving, talvez conversar e sair do escritrio lhe desse algumas
ideias brilhantes...



38


Product Testing, Inc
Relatrio University of Sussex

Anlise de Correspondncias

Para procedermos Anlise de Correspondncias decidimos proceder recodificao de duas
variveis que nos pareceram interessantes:
"Eu gosto de ensinar porque os estudantes tm que fingir que gostam de mim. Caso contrrio
tero ms notas" e,
"Gosto quando as pessoas me dizem que eu os ajudei a perceber a rotao na Anlise Factorial".

Em relao primeira pareceu-nos que as pessoas que tenderiam a concordar com a
afirmao seriam potencialmente Inseguros uma vez que ensinar seria apenas um meio para atingir
um outro fim: ser apreciado pelos alunos. Por oposio, aqueles que manifestassem qualquer tipo de
discordncia revelavam um gosto verdadeiro pelo ensino, razo pela qual os chammos de
Dedicados.

J respeitante segunda varivel, a nossa percepo passou por depreender que aqueles que
revelavam concordar com a afirmao denotavam uma clara necessidade de reconhecimento,
passando a tomar o nome de Vaidosos. Contrariamente, aqueles que discordavam da mesma
revelavam modstia, adjectivo de onde nasceu o seu nome: Modestos. Cabe ainda mencionar que
em ambas as variveis, os inquiridos que escolheram a categoria de resposta NCND, foram
rotulados de Indiferentes. Intuitivamente, o nosso raciocnio levou-nos a considerar que os
Modestos revelariam ser Dedicados, bem como os Vaidosos seriam tambm Inseguros. O
nosso propsito ento verificar, atravs da Anlise de Correspondncias, se esta situao realmente
se verifica.

Em primeiro lugar, procedendo ao Teste de Qui-Quadrado verificamos a confirmao das
condies de aplicabilidade e registamos uma significncia de 0,000 o que nos leva a rejeitar H
0
: As
variveis so independentes e a concluir pela sua dependncia. Esto assim reunidas as condies
para prosseguirmos a anlise.


39
Tendo estabelecido que possumos no mximo 2 dimenses e que cada uma explicaria 0,50
da variabilidade dos dados caso esta fosse dividida igualmente por ambas, verificamos pelo summary
que apenas uma dimenso explica mais do que este valor pr-estabelecido: 0,74.

A anlise do grfico correspondente vem ilustrar e corroborar a nossa interpretao intuitiva
das variveis.



Podemos perceber que a dimenso 1 aquela que revela explicar uma maior variabilidade dos
dados ocupando uma escala significativamente maior do que a amplitude da escala necessria para a
dimenso 2.

Analisada esta amostra, verificmos ento uma tendncia para aqueles que concordam com a
primeira varivel concordarem tambm com a segunda demonstrando serem simultaneamente
Vaidosos e Inseguros, sendo esta a correspondncia mais gritante. Por outro lado, o contrrio
tambm se verifica: aqueles que discordam da primeira varivel tendem tambm a discordar da
segunda afirmando-se como Modestos e Dedicados. Transpondo para a populao podemos
inferir que geralmente os pares de caractersticas mencionadas caminham de mos dadas,
revelando-se simultaneamente num mesmo indivduo.

Responsvel pela Anlise: Cathy





40
CONCLUSO

O projecto de Cathy estava terminado. Fora uma longa, penosa, mas gratificante jornada e
apenas faltava agora envi-lo ao cliente e esperar que este o achasse interessante, inovador e til,
tirando partido das concluses apresentadas. Cathy acreditava ter cumprido os objectivos a que se
tinha proposto. Aplicando cada uma das tcnicas ao ficheiro, tinha conseguido ilustrar as suas mais
valias e de que forma permitiriam ao cliente conhecer mais a fundo a amostra e tomar decises mais
informadas, com base em estudos estatsticos e dados concretos.

Este poderia agora, atravs da leitura do seu trabalho, compreender qual era a sua amostra,
quais as suas principais caractersticas scio-demogrficas e quais as suas tendncias de resposta para
as variveis relativas ao estudo de como desenvolver uma boa metodologia de trabalho.

Poderia ainda verificar de que forma se agruparam as variveis, criando factores, com o
intuito de reduzir os dados e de que forma se garantiu a consistncia interna desses mesmos factores.
Adicionalmente, o cliente poderia verificar como as respostas dos indivduos variavam, aproximando-
se ou distanciando-se umas das outras e possibilitando a criao de clusters, que posteriormente
poderiam ser cruzados com outras variveis de forma a ficar explcito quais as diferenas entre cada
um deles.

Relativamente Regresso Logstica, a Universidade de Sussex apenas obteria a explicao
terica da mesma, no havendo nenhum exemplo de aplicao prtica. Porm, depois de tanto
esmiuar o ficheiro, Cathy estava agora de conscincia tranquila, tendo ainda a certeza de que ficara a
dominar esta tcnica e que mais oportunidades viriam de a aplicar convenientemente.

Por fim, Cathy ficara verdadeiramente f da Anlise de Correspondncias. O mundo de
ligaes que esta permitiria era gigantesco e na sua cabea Cathy aplicava-a vezes sem conta.
Provavelmente a preguia de Irving em arrumar o que quer que fosse estaria relacionada com o facto
de ter sido to mimado enquanto pequeno. E a resistncia de Mr. Pinkley em aceitar a modernidade
corresponderia sua concordncia com uma educao tradicional e antiquada. Estas hipteses eram
agora facilmente passveis de verificao. Cathy prepararia algumas variveis nominais e verificaria
ento se as suas teorias se confirmavam. Era isto que Cathy mais apreciava. Nada melhor do que
nmeros, grficos e tabelas para sustentar uma argumentao. A Inferncia Estatstica no era pra
doce mas o SPSS era, oficialmente, a sua arma secreta!


41
Enquanto grupo, somos da mesma opinio de Cathy. A Inferncia Estatstica pode ser, por
vezes, to desafiante quanto frustrante e apela bastante nossa teimosia, bem como ao nosso esprito
perseverante de no desistir perante a adversidade. Aprendemos muito com este trabalho e usar o
mundo de Cathy foi uma lufada de ar fresco para um projecto que partida se poderia revelar
interessante mas montono. Cremos ter cumprido os nossos objectivos tanto a nvel do contedo da
disciplina como do nosso desejo em realizar um trabalho didctico e divertido e isso
verdadeiramente gratificante. Afirmamos, sem falsas modstias, que estamos orgulhosos deste
projecto. Precisou de alguns dias sem comer e algumas noites sem dormir para formar uma histria
coerente e consistente, mas valeu a pena!

No entanto, para a misso de Cathy ficar verdadeiramente completa, faltava ainda convencer
Mr. Pinkley das mais valias do programa. Munida do seu maravilhoso (s s vezes odiado) livro,
dirigiu-se ao escritrio do chefe



Tinha conseguido!!! Agora iria para casa descansar e esperar que este trabalho tenha sido
suficientemente bom para ser merecedor de um grande aumento salarial! E, consecutivamente,
casar-se com o Irving e torn-lo um evento inesquecvel!



42
BIBLIOGRAFIA


Go Comics, Site Oficial. Cathy Classics by Cathy Guisewite, Outubro, Novembro e Dezembro de
2010 e Janeiro de 2011, <http://www.gocomics.com/cathy/>.

Pestana, Maria Helena e Gageiro, Joo Nunes ; Anlise de Dados para Cincias Sociais A
Complementaridade do SPSS, Edies Slabo, - 4 Edio, 2005.

Maroco, Joo; Anlise Estatstica com utilizao do SPSS, Edies Slabo 3 Edio, 2007.

Das könnte Ihnen auch gefallen