Beruflich Dokumente
Kultur Dokumente
Estatstica
Karin Elisabeth Von Schamlz Peixoto
Recife-PE
2010
Equipe de Elaborao
Coordenao do Curso
Maria de Ftima Neves Cabral
Superviso de Tutoria
Snia Quintela Carneiro
Logstica de Contedo
Clayson Pereira da Silva
Giselle Tereza Cunha de Arajo
Maridiane Viana
Vernica Emlia Campos Freire
Coordenao Institucional
Reitoria
Pr-Reitoria de Ensino
Diretoria de Educao a Distncia
Pr-Reitoria de Extenso
Pr-Reitoria de Pesquisa e Inovao
Pr-Reitoria de Administrao e Planejamento
Diagramao
Rafaela Pereira Pimenta de Oliveira
Edio de Imagens
Vernica Emlia Campos Freire
Reviso de Contedo
Moacyr Cunha Filho
Reviso Lingustica
Ivone Lira de Arajo
Sumrio
Sumrio
Palavra do professor-autor
Apresentao da Disciplina
Aula 1
11
Aula 2
31
Aula 3
61
Aula 4
85
Aula 5
103
Aula 6
127
Palavra do professor-autor
Ol!
Eu sou Karin von Schmalz Peixoto, professora conteudista de Estatstica. Sou
graduada em Cincias Biolgicas pela Universidade Federal de Pernambuco, mestre em Zoologia pela Universidade Federal da Paraba e doutora em
Zoologia Numrica pela University of Oxford, na Inglaterra. Comecei a ver
a beleza da Estatstica ainda na graduao e, desde 1995, ministro cursos
voltados aplicao do mtodo estatstico na Biologia, Arqueologia e Cincias Sociais. Fui professora da Universidade Federal Rural de Pernambuco,
ensinando Gentica Quantitativa, e hoje sou consultora da rea, ajudando
pesquisadores, laboratrios e empresas a entender como longas listas de
nmeros podem, na verdade, deixar suas vidas mais fceis.
Espero passar a vocs a admirao e entusiasmo que tenho por este ramo
da Matemtica.
Bom estudo!
Estatstica
UAB
Apresentao da Disciplina
Caros alunos!
Vamos, a partir de agora, estudar a Estatstica, que talvez seja a face mais
popular das Cincias Matemticas, alm dos clculos bsicos que fazemos
diariamente.
A Estatstica nos ajuda a entender como nos comportamos, votamos e o
que escolhemos enquanto populao, e nos faz compreender como escolhas individuais, quando frequentes, mudam a face de uma multido.
A Estatstica nos mostra, tambm, o poder das massas e como as tendncias, quando populares, superam os interesses individuais.
Essa a ferramenta que nos permite entender as grandes quantidades, de
pessoas, eventos, opinies ou caractersticas, sem que nos percamos em
uma floresta de nmeros.
Neste curso, vamos aprender todo o necessrio para que possamos coletar
dados, analis-los atravs de mtodos estatsticos e, mais importante, interpretemos seus resultados com a confiana de entender como chegamos l.
Bons estudos!
Estatstica
UAB
Aula 1
Objetivos
Entender o que a Estatstica, quais suas origens e diferentes
abordagens;
Compreender os conceitos bsicos em Estatstica;
Aprender a fazer as aplicaes da Estatstica no estudo de populaes;
Entender os diferentes mtodos de amostragem e suas aplicaes.
Assuntos
Nesta aula, veremos como surgiu a Estatstica, quais so seus objetivos e
conceitos bsicos e quais so os mtodos utilizados na primeira etapa de um
trabalho estatstico: a amostragem.
Estatstica
11
UAB
UAB
12
Licenciatura em Matemtica
Governos da Grcia Antiga usavam mtodos matemticos simples para contabilizar seus potenciais exrcitos. No Oriente, imperadores chineses faziam
censos agrcolas e industriais, como os descritos por Confcio no Sculo V
a.C. No perodo medieval, o mais famoso censo realizado foi o Domesday
Book (que pode ser traduzido como o Livro do Juzo Final), encomendado,
em 1066, pelo rei Guilherme I, que havia invadido e tomado as Ilhas Britnicas, e queria saber quanta riqueza estava sobre seu comando. O relatrio
resultante ficou pronto em 1086 e at hoje, o melhor retrato da populao
britnica daquela poca (fig. 1).
Figura 1: Domesday Book, o Livro do Juzo Final do Rei Guilherme I. Fonte: Arquivo
Nacional do Reino Unido.
Mas os censos demogrficos antigos usavam, basicamente, as quatro operaes matemticas bsicas para seus fins. Usava-se a soma dos habitantes
das vilas e provncias para saber a populao geral do reino; ao se subtrair
do total as mulheres, crianas e os idosos, era possvel saber qual o tamanho
potencial dos exrcitos. Calculava-se o quanto um reino poderia produzir,
multiplicando-se a rea cultivvel total pela produo de, por exemplo, trigo ou beterraba em uma rea menor; e os impostos eram calculados pela
diviso da riqueza individual em partes iguais: uma parte era mantida pelo
sdito, outra iria para o regente.
A Estatstica, como se conhece hoje, baseia-se, principalmente, nos conceitos da Teoria das Probabilidades, que iremos ver mais adiante em nosso
curso. Com base em trabalhos anteriores que tentavam entender a nature-
Estatstica
13
UAB
Figura 2: O demgrafo John Graunt, capito do exrcito britnico. Fonte: Universidade de York, Inglaterra.
O trabalho de Gottfried Achenwall ainda era voltado ao estudo demogrfico, tanto que, alm do nome Estatstica relacionar a cincia aos dados
estatais, o termo foi traduzido para o ingls como aritmtica poltica. Apenas no sculo XIX, o termo passou a abranger a coleta, classificao e anlise
de dados de qualquer origem.
Foi durante o sculo XX, no entanto, que a Estatstica provou ser um instrumento fundamental para todas as cincias quantitativas e qualitativas.
O desenvolvimento, no incio do sculo, de frmulas matemticas especiais
para lidar com questes agrcolas, de sade pblica e de controle de qualidade industrial, entre outros, levou a Estatstica para fora de sua rea de
UAB
14
Licenciatura em Matemtica
origem e hoje ela instrumento fundamental para as cincias sociais, ambientais, mdicas, humanas e econmicas.
Ateno!
Basicamente, a Estatstica se presta a responder as perguntas
dos pesquisadores em relao a um conjunto de dados que foram coletados de uma populao.
As duas abordagens estatsticas, a descritiva e a inferencial, respondem a perguntas bem diferentes.
Abaixo esto alguns exemplos do que cada abordagem pode
investigar.
Estatstica Descritiva:
Qual o valor mnimo e mximo?
Qual o valor mais comum?
Como difere um indivduo em particular da populao como
um todo?
Quantos tipos diferentes existem?
Quais os tipos mais frequentes?
Qual evento mais provvel de ocorrer no futuro?
Estatstica Inferencial:
Como se relacionam duas caractersticas de uma populao?
H diferenas entre grupos dentro da populao?
Qual a diferena entre grupos?
Como a variao de um elemento afeta o outro?
Quais elementos tm influncia sobre uma caracterstica?
Quo forte a influncia de uma caracterstica sobre a outra?
Conceitos Bsicos
A Estatstica usa termos que estamos acostumados a usar em nosso dia-adia, como amostra, populao e dados, mas os significados desses
termos em so bem claros e, por vezes, diferentes do significado coloquial. A
Estatstica
15
UAB
seguir, veremos os termos mais comuns que usaremos em nosso curso, seus
significados e suas variaes.
Populao: Para a Estatstica, populao uma coleo completa de
pessoas, animais, plantas ou coisas da qual ns podemos coletar dados
(fig. 3). o grupo inteiro, ou universo, no qual estamos interessados e
o qual desejamos descrever ou tirar concluses sobre um aspecto em particular. De forma, ao fazer qualquer generalizao sobre uma populao,
devemos estudar, geralmente, uma amostra, que deve ser representativa da mesma, como um todo. Para cada populao h muitas amostras
possveis.
Uma amostra estatstica fornece informao sobre um parmetro correspondente da populao. Por exemplo, a mdia da amostra de um conjunto
de dados deve fornecer informao sobre a mdia geral da populao.
importante que o pesquisador defina a populao, cuidadosa e completamente, antes de coletar a amostra, incluindo uma descrio dos membros a
ser inseridos.
Um exemplo: a populao, em um estudo de sade infantil, poderia ser todas as crianas nascidas no Brasil na dcada de 90. Uma amostra seria todas
as crianas nascidas no dia seis de junho de qualquer um dos anos.
UAB
16
Licenciatura em Matemtica
mente, selecionada, porque a populao grande demais para ser estudada por inteiro. Assim, deve ser representativa da populao em geral.
Isso , geralmente, alcanado com sucesso ao se fazer uma amostragem
aleatria, ou seja, ao acaso. Contudo, importante definir a populao
antes de fazer a amostragem, ou corre-se o risco de produzir uma amostra enviesada, ou seja, tendenciosa.
Por exemplo, se numa pesquisa sobre a qualidade da gua que a populao
de um municpio consome forem entrevistadas apenas as pessoas que moram em ruas pavimentadas, a amostra ser enviesada, pois essas residncias
tendem a ser servidas pelo sistema de abastecimento de gua tratada e no
representar os indivduos que consomem gua de poo ou outras fontes.
Mais adiante, veremos os diversos mtodos de amostragem.
Estatstica
17
UAB
Glossrio
Estatstica: com a inicial maiscula, o ramo da cincia que estamos estudando, uma estatstica o valor que calculado a partir de uma amostra de dados. usada para dar informao sobre valores (ou parmetros)
desconhecidos na populao correspondente.
Por exemplo, a mdia de um grupo de dados (estatstica) fornece informao
sobre a mdia geral (parmetro) da populao da qual se coletou a amostra.
Se usarmos as espcies de
plantas de uma rea para
descrever uma populao
(nesse caso, de vegetais),
estaremos criando uma
varivel nominal.
Temperatura em graus
Celsius um dos poucos
exemplos de uma varivel
intervalar.
UAB
possvel tirar mais de uma amostra da mesma populao e o valor da estatstica, geralmente, vai variar de uma amostra para outra.
Varivel: Uma varivel qualquer atributo ou caracterstica medida que
difere para diferentes indivduos, ou objetos. Por exemplo, se o peso de
30 indivduos foi medido, ento o peso uma varivel. Variveis podem
ser classificadas em grupos distintos de vrias formas. Para entendermos
melhor a diferenciao dos tipos de variveis, teremos primeiro que entender as escalas de mensurao que podem ser usadas. Mais adiante,
veremos os tipos diferentes de variveis.
18
Licenciatura em Matemtica
Ordinal: A escala ordinal tambm possui categorias, ou classes, e tambm vai fornecer frequncias. Mas, na escala ordinal, aparece mais uma
informao sobre as caractersticas de uma populao: o valor ou peso
das categorias cresce gradualmente, ou seja, h uma ordem de importncia das classes. Exemplos de variveis ordinais so o nvel de escolaridade (primrio, mdio, superior), o porte de um vegetal (erva, arbusto,
rvore) ou a escala de Mohs para identificar a dureza de um mineral (indo
de 1(um) para minerais macios como o talco, at 10(dez) para minerais
duros como o diamante). Apesar de classes ordinais ser organizadas em
uma ordem graduada, no fornecem informao sobre o tamanho da
diferena entre as classes. Por exemplo, na varivel ordinal classe social
(baixa, mdia e alta), a diferena entre a classe baixa e a mdia no a
mesma entre a mdia e a alta.
Glossrio
Os quatro nveis de
mensurao fornecem,
gradualmente, mais
informao com preciso
crescente. Enquanto o nvel
nominal s permite que
calculemos as frequncias
dos tipos, o nvel ordinal
j fornece a ideia de
gradao, o intervalar d o
tamanho da diferena entre
classes, e o de razo d a
ideia de ausncia.
Intervalar: Se uma varivel apresenta classes que, alm de poder ser organizadas de forma graduada, apresentam intervalos iguais entre si, essa
varivel foi medida em uma escala intervalar. Um exemplo clssico da
escala de medida intervalar a temperatura em graus Celsius: as classes
(o valor da temperatura) so, homogeneamente, distantes entre si; em
intervalos regulares. Outra caracterstica das variveis intervalares que
o valor de zero no significa ausncia da caracterstica, mas apenas
um ponto de referncia arbitrrio e valores negativos tambm podem ser
usados. Zero grau Celsius no quer dizer ausncia de temperatura, mas
um ponto de referncia, indicando a temperatura de congelamento
da gua. Outro exemplo de medida intervalar o calendrio Gregoriano
(que usamos): o Ano Zero foi estipulado pelo nascimento de Cristo e
datas anteriores so negativas, e designadas por a.C. (antes de Cristo).
Alm desses exemplos, escalas intervalares so raras.
Escala de razo: Variveis medidas em escala de razo tm as mesmas
caractersticas da escala intervalar, com a diferena que o valor de zero
significa ausncia do atributo medido. Por exemplo, na escala de temperatura Kelvin, o valor de zero, realmente, significa ausncia de temperatura: quando a -273,15 C, ou zero kelvin, no h nenhuma transferncia de energia trmica. Todas as variveis de contagem, que incluam
o valor de zero significando ausncia, so em escala de razo. Exemplos
so tamanho, peso, nmero de vezes que um evento ocorre, quantidade
de substncias, etc. A escala de razo assim chamada, porque se pode
descrever a relao entre medidas atravs de fraes: Jos pesa duas vezes mais que Maria; meu carro usa a metade da gasolina do seu; o cabelo
Estatstica
19
UAB
Ferramentas do estatstico
Anlises estatsticas podem ser feitas manualmente ou com a ajuda de um
computador. Na pesquisa manual, o estatstico precisa de:
Calculadora: para facilitar o clculo das frequncias;
Papel milimetrado: para desenhar os grficos com mais preciso;
Tabelas estatsticas: contm os valores de significncia de testes de
estatstica inferencial.
Ao usar o computador, h dois tipos bsicos de programas:
Editores de planilhas: como o Excel; servem para organizar e armazenar os dados, criar grficos de frequncias e calcular algumas
estatsticas descritivas.
Programas de estatstica: Realizam tarefas complexas como testes
de significncia, criam grficos elaborados e j possuem as tabelas
estatsticas includas.
Os editores de planilhas so suficientes para a preparao de relatrios descritivos. J anlises inferenciais precisam de programas estatsticos. Usar o
computador como ferramenta estatstica permite a anlise de uma grande
quantidade de dados sem medo de cometer pequenos erros.
Os quatro nveis de mensurao fornecem, gradualmente, mais informao
com preciso crescente. Enquanto o nvel nominal s permite que calculemos frequncias dos tipos; o nvel ordinal j fornece a ideia de gradao, o
intervalar d o tamanho da diferena entre classes e o de razo d a ideia
de ausncia.
Tipos de Variveis
Como foi dito antes, podemos classificar as variveis de diversas maneiras.
Se nos basearmos nos nveis de mensurao, as variveis podem ser qualitativas ou quantitativas. Variveis qualitativas so tambm chamadas categricas e so medidas em escala nominal, ou escala ordinal no numrica
(como classe baixa, classe mdia e classe alta). Variveis quantitativas
UAB
20
Licenciatura em Matemtica
so medidas em escalas ordinal numrica, intervalar ou de razo. Por exemplo, se perguntarmos aos alunos do jardim de infncia qual a sua cor favorita, a resposta seria uma varivel categrica, ou qualitativa. Se medirmos o
tempo de resposta de cada um a essa pergunta, a varivel ser quantitativa.
Variveis quantitativas podem ser subdivididas em discretas, tambm chamadas descontnuas e contnuas.
Variveis discretas podem apresentar qualquer valor entre zero e infinito,
desde que seja um nmero inteiro. Por exemplo, se contarmos o nmero de
pessoas em cada cidade de um pas, todos os valores sero nmeros inteiros, pois no podemos ter meio habitante. Assim, as contagens em geral,
como censos e levantamentos, produzem variveis discretas.
J as variveis contnuas podem ter qualquer valor entre dois valores previamente estabelecidos, mesmo nmeros no inteiros. Por exemplo, a altura
dos soldados de um batalho pode ser qualquer medida entre as alturas
mnima e a mxima permitidas: 1,61m; 1,87m; 1,76m; etc.
Do ponto de vista da Estatstica Inferencial, podemos dividir as variveis entre
independentes e dependentes.
Variveis independentes so selecionadas e medidas pelo pesquisador na
amostra de uma populao e no so passveis de controle, ou seja, suas
variaes so aleatrias.
J as variveis dependentes tm sua variao atrelada diversificao de
uma varivel independente. Se pensarmos em termos de causa e efeito, as
variveis independentes so causa da variao de uma varivel dependente.
Um exemplo seria uma pesquisa sobre o efeito de um poluente, como o
chumbo, no peso dos peixes de um rio. No podemos controlar a quantidade de chumbo absorvida por cada peixe que pesarmos, ento a exposio
ao chumbo, medida pelo nvel do metal em cada peixe, uma varivel independente.
J o peso dos peixes o efeito da exposio ao chumbo, sendo ento a varivel dependente. Variveis independentes so chamadas, quando usamos
um programa de computador para clculos estatsticos, de fatores e as dependentes, de respostas.
Estatstica
21
UAB
Amostragem
Amostragem a parte da prtica da Estatstica que se refere seleo de
uma amostra, ou subconjunto, de observaes individuais com as quais se
pretende estimar parmetros de uma populao de interesse.
O processo de amostragem fundamental para a coleta de dados e contm
diversos estgios:
Definio da populao de interesse;
Especificao da base de sondagem, ou conjunto de itens ou eventos mensurveis;
Especificao do mtodo de amostragem para selecionar itens ou
eventos da base de sondagem;
Definio do tamanho da amostra;
Implementao do plano de amostragem;
Amostragem e coleta de dados;
Reviso do processo de amostragem.
A razo pela qual o processo de amostragem to rigoroso se deve ao fato
de que um erro nesse processo pode invalidar toda a anlise estatstica, tornando o trabalho do pesquisador intil. Como j vimos, as amostras devem
representar a populao de interesse e uma amostragem desleixada vai nos
prover uma amostra no representativa da populao, cheia de vieses que
levaro a concluses erradas.
A seguir, olharemos cada uma das etapas em maiores detalhes.
Para que se realize a prtica estatstica com sucesso, necessrio que a populao de interesse seja definida com cuidado. Uma populao pode ser
vista como um conjunto que inclui todas as pessoas, itens ou eventos que
possuem uma caracterstica que desejamos compreender. Como vimos, ,
geralmente, impossvel coletar todos os dados de toda uma populao de
interesse, ento devemos almejar a coleta de uma amostra representativa da
mesma.
s vezes, fcil definir uma populao. Em uma indstria, por exemplo, que
se deseje verificar a qualidade de uma remessa de material, que a populao da qual ser retirada a amostra. Em outras ocasies, a populao de
interesse pode ser menos tangvel e no envolver um conjunto de objetos.
Se quisermos realizar um estudo sobre o tamanho das filas de um supermer-
UAB
22
Licenciatura em Matemtica
Estatstica
23
UAB
Mtodos de Amostragem
Dentro das duas abordagens de amostragem, existem vrios mtodos que
podem ser empregados, sozinhos ou em conjunto, dependendo de fatores como a natureza e qualidade da base de sondagem, disponibilidade de
informaes auxiliares sobre os elementos da populao, necessidade de
acurcia de mensurao, nvel de detalhe da anlise e custos operacionais.
A seguir, veremos brevemente os mtodos mais comuns de amostragem,
tanto da abordagem probabilstica quanto da no probabilstica
Mtodos Probabilsticos: Em que todos os elementos tm uma probabilidade maior que zero de ser escolhidos e envolvem seleo aleatria:
Amostragem Aleatria Simples Todos os elementos da base de sondagem tm igual probabilidade de ser escolhidos para uma amostra, pois
UAB
24
Licenciatura em Matemtica
Estatstica
25
UAB
Mtodos no probabilsticos: Quando no h probabilidade de se escolher alguns membros da populao, ou quando outras variveis ligadas aos
elementos afetam a probabilidade de que sejam escolhidos.
Amostragem em cotas A populao separada em grupos, mutuamente, excludentes, como na amostragem estratificada, mas a etapa seguinte no aleatria, pois alguns elementos so excludos da amostra.
Exemplos comuns so as pesquisas de opinio que abordam um nmero
determinado de homens e mulheres (os estratos), mas em que pessoas
com aparncia simptica so mais frequentemente entrevistadas do
que as que parecem antipticas. As amostras podem se tornar enviesadas nesse caso e seu uso, por misturar uma abordagem aleatria com
uma no aleatria, motivo de controvrsia.
Amostragem Acidental Nesse mtodo, a amostra colhida da parte
da populao que est mais prxima, ou disponvel, ao pesquisador. Tambm chamada de amostragem de convenincia. Muito utilizada em
pesquisas socioculturais, a amostra no representativa da populao
e no possvel estimar parmetros populacionais gerais a partir dela.
Ainda assim, um mtodo til para pesquisas-piloto, que verificam a
viabilidade da pesquisa antes que a coleta de dados vlida seja iniciada.
Amostragem em Bola-de-neve Nesse mtodo, entrevista-se uma
pessoa aleatoriamente, que se refere a um amigo que tambm entrevistado e recomenda outro amigo, assim por diante. comumente usada
nas pesquisas de mercado, quando se est interessado em entender a
aceitao de um produto dentro de determinados grupos sociais.
Alm dos mtodos probabilsticos e no probabilsticos mais comuns, vrios
mtodos j foram desenvolvidos para enderear problemas encontrados em
pesquisas especficas. Casos especiais so comuns nas cincias experimentais, em que os elementos so conhecidos e em pequeno nmero (como
ratos de laboratrio, por exemplo). Por exemplo, quando testando um novo
medicamento em animais de laboratrio, a amostra contm todos os animais
usados, sendo assim no aleatria. Nesse caso, devem-se controlar todas as
variveis possveis dos elementos, para examinar possveis efeitos cruzados
que alterariam ou confundiriam os resultados da pesquisa.
UAB
26
Licenciatura em Matemtica
Estatstica
27
UAB
Resumo
A Estatstica um ramo da Matemtica que surgiu da necessidade dos governos de conhecer suas populaes. Hoje uma cincia fundamental para
campos to diversos quanto as Cincias Econmicas e Sociais, a Medicina e
a pesquisa cientfica, a indstria e o comrcio.
Os conceitos bsicos da Estatstica so conhecidos coloquialmente, mas tm
significados bem especficos dentro desse ramo do conhecimento, incluindo
palavras comuns como amostra, populao e varivel.
A primeira etapa de uma pesquisa estatstica envolve a coleta de uma amostra que represente uma populao de interesse, em que caractersticas especficas dos indivduos, as variveis, serviro para se calcular os parmetros
populacionais.
H duas abordagens bsicas de amostragem: a probabilstica, onde todos
os elementos de uma populao tm uma probabilidade maior que zero
de ser escolhidos para uma amostra, e a no probabilstica, na qual essa
probabilidade igual a zero para alguns elementos, ou no pode ser calculada. H mtodos probabilsticos e no probabilsticos de amostragem, que
podem ser usados isoladamente ou em conjunto, para evitar problemas com
a validade da amostra.
Cara Colega, o resumo deve conter todo teor da aula, de forma concisa
e objetiva, para facilitar o ensino/aprendizagem do (a) aluno (a).Agradece,
Ivone Lira (revisora lingustica e textual).
Referncias
LEME, R. A. DA S.: Curso de Estatstica Elementos. Rio de Janeiro: AO LIVRO TCNICO.
1967.
LEVIN, J.: Estatstica Aplicada s Cincias Humanas. So Paulo: HARPER & ROW DO
BRASIL. 1978.
SPIEGEL, MURRAY R, Estatstica. MAKRON. 1994.
Estatstica
29
UAB
Objetivos
Aprender a descrever as frequncias absolutas e relativas em
uma amostra;
Compreender as medidas de tendncia central de uma populao e como determinar essas estatsticas em uma amostra;
Entender as medidas de disperso de uma varivel e como medir
as estatsticas em uma amostra;
Aprender a usar as ferramentas estatsticas do Excel da Microsoft.
Assuntos
Nesta aula vamos entender como podemos descrever a distribuio de uma
amostra, usando tcnicas simples, que fornecem uma viso geral dos dados
coletados. Sendo a amostra vlida e representativa de uma populao, a
estatstica descritiva permite que sejam estimados os parmetros populacionais. Vamos entender o que significam as estatsticas amostrais e como calcul-la atravs de frmulas ou usando um editor de planilhas como o Excel.
Introduo
Os mtodos de amostragem, que vimos na nossa primeira aula, nos permitem coletar dados confiveis que sero representativos de uma populao
de interesse. Com esses dados amostrais, poderemos calcular suas estatsticas e assim estimar os parmetros da populao. Mas a coleta de dados
apenas o primeiro passo de uma pesquisa estatstica e os passos seguintes
so cruciais para que um estudo tenha validade.
O principal objetivo de uma pesquisa dessa natureza descobrir como os
dados esto distribudos, ou seja, quais so os valores extremos, que valores
Estatstica
31
UAB
Tabelas de Frequncias
O primeiro passo de um pesquisador, que pretende descrever uma populao atravs de uma amostra, descobrir a distribuio dos dados amostrais.
Pode-se descrever uma amostra atravs de tabelas de frequncia ou de
grficos.
Uma tabela de frequncia uma forma de organizar os dados, listando todos os valores possveis como uma coluna de nmeros e a frequncia de
ocorrncia de cada valor como outra.
Assim, para se calcular a frequncia absoluta de um valor ou categoria,
deve-se apenas contar quantas vezes cada um desses valores ou categorias
aparece em um grupo de dados. Na maioria dos casos, devemos incluir valores que no aparecem no conjunto de dados, que iro ser assinalados com a
frequncia absoluta de zero. Isso importante para se entender a populao
atravs de uma amostra.
Por exemplo, se estamos estudando a frequncia da cor de olhos em uma
populao e ningum tem olhos azuis, essa informao relevante e deve
ser includa, pois azul uma cor de olhos possvel nos humanos.
Ao criarmos uma tabela de frequncias, entendemos a distribuio de frequncias dos valores de uma varivel, ou seja, quantas vezes cada valor ou
classe aparece na amostra que estudamos.
Logo, a distribuio de frequncias importante para entendermos no apenas quantas vezes cada valor ou classe de uma varivel representado, mas
fornece informao sobre a amplitude de variao dessa varivel e sobre a
natureza dessa variao, como veremos mais tarde.
UAB
32
Licenciatura em Matemtica
37
35
36
37
34
38
39
37
36
35
37
36
38
33
34
36
37
37
35
36
Estatstica
Nmero do sapato
32
33
34
35
36
37
3
5
6
38
39
40
Total
20
33
UAB
Podemos logo avisar ao fabricante de sapatos que, na amostra que ele coletou, no h nenhuma mulher que calce sapatos 32 ou 40, e que o tamanho
mais comum o 37. O fabricante, ento, nos pergunta qual a proporo de
cada nmero de sapatos que deveria fabricar, para que no tenha nmeros
pouco procurados, encalhados em suas lojas.
Podemos responder a sua pergunta, calculando as frequncias relativas
dos tamanhos de sapatos da amostra, em valores proporcionais expressos
em propores (que vo de 0 a 1) ou porcentagens (que vo de 0 a 100).
Assim, acrescentaremos mais uma coluna na tabela que j vimos (tabela 3):
Tabela 3: Frequncias absolutas e relativas dos nmeros de sapatos de 20
mulheres de Recife PE.
Nmero do sapato
32
33
0,05
34
0,1
35
0,15
36
0,25
37
0,3
38
0,1
39
0,05
40
Total
20
As frequncias relativas so calculadas como se calculam propores: dividese a frequncia absoluta da classe em questo pelo total de dados da amostra. Mas, se quisermos representar as frequncias absolutas em porcentagens, s multiplicar a proporo por 100.
Assim, teramos a tabela de frequncias representada um pouco diferente
(tabela 4):
UAB
34
Licenciatura em Matemtica
Tabela 4: Frequncias absolutas e frequncias relativas proporcionais e percentuais dos nmeros de sapatos de 20 mulheres de Recife PE.
Nmero do sapato
32
33
34
10
35
15
36
25
37
30
38
10
39
40
Total
20
100
Nosso amigo fabricante ficar feliz em saber que 30% das mulheres da
amostra calam sapatos tamanho 37, que 25% calam 36 e assim por diante. Ento, poder ajustar a sua produo para atender a demanda do mercado.
Outra forma de representar a distribuio das frequncias atravs das frequncias acumuladas ou cumulativas. Para se conseguir isso, devemos
apenas somar as frequncias absolutas ou relativas de cada classe com a
seguinte. Esse tipo de representao tem diversas aplicaes que veremos
nas prximas aulas, mas, de forma geral, serve para termos uma ideia de
onde a maioria dos valores se encontra. No exemplo que estamos usando,
poderamos acrescentar uma coluna de frequncias relativas acumuladas
nossa tabela (tabela 5):
Tabela 5: Frequncias absolutas, relativas proporcionais e percentuais, e frequncias cumulativas percentuais dos nmeros de sapatos de 20 mulheres
de Recife PE.
Estatstica
35
UAB
Nmero do sapato
Frequncia
absoluta (f)
Frequncia
relativa (%)
Frequncia
cumulativa (F)
32
33
34
10
15
35
15
30
36
25
55
37
30
85
38
10
95
39
100
40
100
Total
20
100
100
UAB
36
Licenciatura em Matemtica
1,81
1,61
1,75
1,84
1,67
1,60
1,77
1,66
1,61
1,75
1,72
1,62
1,94
1,72
1,62
1,80
1,74
1,68
1,83
1,70
1,88
1,85
1,79
1,73
1,76
1,73
1,65
1,69
1,65
1,80
Vemos que h dois soldados medindo 1,61m, dois com 1,72m, etc. Mas a
maioria das medidas ocorre uma s vez. Assim, se fssemos criar uma tabela
de frequncias como a que fizemos com o tamanhos dos sapatos, teramos
um monte de medidas com a frequncia absoluta de 1 e no chegaramos
a qualquer concluso. Desse modo, podemos criar intervalos de medidas
que cubram a variao das medidas e ainda assim nos d uma ideia de qual
intervalo de altura o mais frequente no batalho. Devemos, em primeiro
lugar, verificar qual o valor mnimo e mximo, e assim, decidiremos quantas
classes de intervalos sero criadas.
Digamos que seria interessante fazer um intervalo de cinco centmetros: o
primeiro cobriria alturas de 1,60m at 1,649m (o mdico no mediu com
essa acurcia, mas devemos deixar bem claro, quais so os limites de nossos
intervalos); o segundo, de 1,65m at 1,699m; o terceiro iria de 1,70m at
1,749m, e assim por diante. Nossa tabela de frequncias ficaria assim (tabela
7):
Tabela 7: Frequncias absoluta, relativas e cumulativa da altura de 30 soldados do Exrcito Brasileiro, em intervalos de 5 cm.
Estatstica
37
UAB
Frequncia
absoluta
Frequncia
relativa
Frequncia
relativa (%)
Frequncia
cumulativa (%)
0,17
17
17
1,65 1,699
0,2
20
37
1,70 1,749
0,2
20
57
1,75 1,799
0,17
17
74
1,80 1,849
0,17
17
91
1,85 1,899
0,06
97
1,90 1,949
0,03
100
30
100
100
Altura (m)
1,60 1,649
Total
UAB
38
Licenciatura em Matemtica
Mdia aritmtica
A mdia aritmtica , simplesmente, a soma de todos os nmeros dividida
pela quantidade dos mesmos. O smbolo (a letra grega mu) usado para
representar a mdia de uma populao, que um parmetro. Os smbolos
(pronunciado xis barra) ou M representam a mdia de uma amostra, que
uma estatstica.
A frmula para a mdia aritmtica a mesma para uma amostra ou populao, muito simples. Abaixo, podemos ver a frmula da mdia aritmtica
de uma amostra ( ):
Estatstica
39
UAB
37
33
33
32
29
28
28
23
22
22
22
21
21
21
20
20
19
19
18
18
18
18
16
15
14
14
14
12
12
Com esses valores, podemos calcular a mdia de chutes a gol dos times nesse campeonato, usando a frmula acima:
UAB
40
Licenciatura em Matemtica
Mediana
A mediana tambm uma medida de tendncia central, frequentemente,
usada. o ponto central de uma distribuio: se ordenarmos os dados, h a
mesma quantidade de valores acima da mediana e abaixo dela. Se usarmos,
novamente, os dados dos chutes a gol dos times em um campeonato, no
quadro acima, sabemos que h 31 valores. O 16 valor mais alto, que corresponde a 20, a mediana, pois h 15 valores maiores e 15 valores menores
que ele. Assim, a mesma divide a amostra em duas partes iguais.
A mediana independe da amplitude da amostra. Por exemplo, se temos os
valores: 1, 23, 54, 76, 190, 379 e 1098, a mediana ser 76, pois h trs
valores menores e trs maiores que esse nmero. Ainda, na srie 1, 16, 53,
76, 82, 90 e 92, ela ser 76, pois tambm h trs valores maiores e menores
que ele.
No primeiro exemplo, a amplitude dos dados maior, indo de 1 a 1098.
No segundo exemplo, vai apenas de 1 a 92. Em ambos os casos, a amostra
consiste de sete nmeros, com o valor de 76 caindo, exatamente, no meio
da distribuio.
A mediana, no entanto, dependente do tamanho da amostra, pois divide
a distribuio em duas partes iguais. Quanto maior a amostra, mais alta a
posio da mesma.
Para calcularmos a mediana, devemos organizar os dados por ordem de
tamanho. Se tivermos uma amostra com um nmero mpar de dados, ela
ser aquele, exatamente, do meio. E a sua posio pode ser calculada pela
frmula:
Estatstica
41
UAB
Se o nmero de dados da amostra par, a mediana o ponto da distribuio que antecedido e precedido por igual nmero de dados, mesmo que
seu valor especfico no figure entre os dados, pois em um nmero par de
dados, h dois valores centrais. Por exemplo, na distribuio 11, 12, 13, 16,
17, 20, 25 e 26, podemos usar a frmula acima:
Moda
A terceira ltima medida de tendncia central a moda, que consiste simplesmente no valor que ocorre mais frequentemente.
Assim, no nosso exemplo, l em cima, dos chutes a gol dos 31 times em um
campeonato d futebol, a moda 18, pois, pois quatro dos 31 times fizeram
18 chutes a gol. Para dados contnuos, que possuem valores decimais, muito difcil que se encontrem vrios valores iguais, e geralmente acabamos com
vrios valores da frequncia de ocorrncia 1, ou seja, cada valor s ocorre
uma vez. Nesses casos, o que se pode fazer agrupar os dados em intervalos
e criar uma distribuio de frequncias agrupadas.
Vejamos um exemplo: um pesquisador mediu o tempo de resoluo de 20
alunos para um quebra-cabea. Os valores, medidos em segundo, variaram
UAB
42
Licenciatura em Matemtica
entre 500 e 1100, e nenhum aluno resolveu o quebra-cabea, exatamente, no mesmo tempo. Assim, podemos criar uma distribuio de frequncia
agrupada (tabela 9).
Tabela 9: Frequncia absoluta dos intervalos de tempo de resoluo de um
quebra-cabea, em segundos, por 20 alunos de uma escola.
Frequncia absoluta
500 599
600 699
700 799
800 899
900 999
1000 1100
Nessa amostra, a amplitude de tempo que contm o maior nmero de registros a de 600 a 699 segundos, com seis estudantes resolvendo o problema
nesse intervalo de tempo. A moda estar no meio do intervalo e corresponder a 650 segundos.
A moda a nica medida de tendncia central que pode ser utilizada em
dados categricos, nominais ou ordinais no numricos. Moda quer dizer
apenas o que mais comum, e assim, o termo estatstico tem um significado
bem diferente do sentido coloquial da palavra.
Enquanto no nosso dia-a-dia, os estilistas criam peas exclusivas que poucas
pessoas vo usar e chamam isso de moda, j a moda estatstica o que a
maioria das pessoas est vestindo. Assim, calas jeans e camiseta formam a
moda estatstica na maioria dos pases ocidentais.
Medidas de disperso
Vimos como podemos verificar quais os valores mais comuns em uma varivel, usando as medidas de tendncia central. Mas sem sabermos algo sobre
como os dados esto dispersos, as medidas de tendncia central podem dar
uma impresso errada da varivel.
Estatstica
43
UAB
Amplitude
A mais simples medida de disperso a amplitude que calculada, simplesmente, tomando-se a diferena entre os valores mximo e mnimo do
conjunto de dados.
No entanto, a amplitude s fornece informao sobre os valores extremos e
no diz nada sobre os valores entre eles, ou seja, se a variao homognea
ou se os valores esto mais agrupados prximos aos extremos. Ela usada
apenas para ilustrar o intervalo de valores dentro do qual um grupo de dados
se encontra.
Desvio mdio
Para se ter uma melhor compreenso da distribuio dos dados em uma
amostra, os valores residuais so utilizados para calcular o quanto cada
ponto de dados est afastado dos valores esperados em uma distribuio.
Esses resduos podem ser calculados com base nas diferenas entre cada
ponto de dados e a mdia, ou atravs de valores estimados atravs de, por
exemplo, um clculo de regresso, que veremos mais tarde.
Um mtodo para calcular o desvio, ou resduo, em uma amostra o desvio
mdio, que calcula a diferena mdia entre cada ponto de dados (cada valor da varivel) e a mdia dos pontos de dados, e a divide pelo nmero de
dados.
Ao se fazer esse clculo, no entanto, o resultado ser um desvio igual a zero,
pois os valores acima da mdia iro cancelar aqueles abaixo. Se esse mtodo
for usado, o valor absoluto da diferena deve ser medido, de modo, que
apenas valores positivos so obtidos e o resultado chamado de desvio
mdio absoluto:
ou
UAB
44
Licenciatura em Matemtica
Em que:
= desvio mdio absoluto;
= cada ponto de dados;
= mdia da amostra;
n = total de pontos de dados na amostra.
O desvio mdio no difcil de calcular e tem certo apelo intuitivo.
No entanto, quando utilizado para anlises estatsticas subsequentes, os
clculos matemticos se tornam muito complexos, pois a maior parte dos
teoremas estatsticos se baseia na minimizao da soma dos resduos ao
quadrado, em vez da soma dos resduos absolutos. Por causa dessa complexidade, o desvio mdio no , comumente, usado como uma medida de
disperso.
Varincia
Uma maneira de resolver o problema que o desvio mdio apresenta usar a
varincia como medida de disperso.
A varincia de uma varivel uma medida de disperso estatstica que tira a
mdia da distncia ao quadrado entre todos os valores possveis e a mdia
aritmtica da varivel. Desse modo, todos os valores so positivos e a unidade da varincia o quadrado da unidade da varivel.
Para usarmos a medida de disperso mais comum, o desvio padro, que
veremos a seguir, precisamos primeiro calcular a varincia.
A varincia de uma populao um parmetro representado por
ncia de uma amostra representada por s2.
; a vari-
Estatstica
45
UAB
60
74
58
61
56
55
54
57
65
42
UAB
46
Licenciatura em Matemtica
Detritos
(Toneladas/ano)
Desvio da mdia
(Xi - )
Desvio da mdia ao
quadrado (Xi - )2
60
1,8
3,24
74
15,8
249,64
58
-0,2
0,04
61
2,8
7,84
56
-2,20
4,84
55
-3,20
10,24
54
-4,20
17,64
57
-1,20
1,44
65
6,8
46,24
42
-16,20
262,44
Mdia: 58,2
Soma: 603,60
Agora que temos a soma de todos os desvios da mdia ao quadrado e sabemos que (n-1) = 10-1 = 9, podemos substituir os termos da frmula:
Nesse caso, como vimos, a unidade da varincia uma quantidade ao quadrado. Dizemos, ento, que a varincia na quantidade de detritos produzida
pelas indstrias da tecelagem de 67,07 toneladas por ano ao quadrado.
Quando calculamos a varincia de uma populao, usamos a mesma frmula. A diferena que usaremos a mdia da populao (), que um parmetro, em vez da mdia amostral ( ), que uma estatstica.
Desvio Padro
A varincia d a ideia da amplitude da distribuio, mas como seu resultado
um valor ao quadrado, precisamos saber qual o desvio da mdia em geral,
usando uma unidade igual unidade da varivel.
Estatstica
47
UAB
No nosso exemplo, precisamos saber qual o desvio geral da mdia em toneladas de detritos por ano. Assim, devemos usar o desvio padro, cujo resultado dado na mesma unidade da varivel.
O desvio padro , simplesmente, a raiz quadrada da varincia, sendo representado por , quando representando um parmetro populacional, ou por
s, quando representando uma estatstica amostral. Novamente, usaremos a
estatstica amostral como exemplo em nossa frmula:
Podemos ento dizer que, usando nossa amostra de indstrias de tecelagem, a quantidade mdia de resduos de 58,2 toneladas por ano e o desvio padro de 8,19 toneladas por ano. Para resumir, ns apresentamos os
resultados da seguinte forma: a quantidade mdia de resduos da indstria
de tecelagem de 58,2 8,19 toneladas por ano.
Quando apresentamos os resultados dessa forma, damos duas ideias bsicas: uma a da tendncia central da varivel, dada nesse caso pela mdia. A
outra a ideia de disperso, fornecida pelo desvio padro.
Com estas duas medidas, estamos descrevendo a maioria dos dados que
analisamos. De volta ao nosso exemplo, se subtrairmos o desvio padro da
mdia, teremos o valor de 50,01 toneladas/ano; se somarmos os valores, o
resultado de 66,39 toneladas/ano. Vamos ver quanto dos nossos dados
esto entre 50,01 e 66,39:
42 54 55 56 57 58 60 61 65 74
Nesse caso, subtraindo ou adicionando o desvio padro, a mdia suficiente
para cobrir 80% dos dados. Por isso, o formato s ou serve bem
para descrever os dados de uma amostra ou populao.
UAB
48
Licenciatura em Matemtica
Estatstica no Excel
Os programas de computador podem economizar muito tempo de uma pesquisa estatstica e os editores de planilhas so ideais para a organizao das
bases de dados.
Alguns desses editores servem apenas como base para que sejam listados os
dados, para depois serem transferidos a programas estatsticos, que realizam
os clculos. Outros editores possuem funes que permitem o clculo de
estatsticas bsicas, como as medidas de tendncia central e de disperso. O
mais popular dos editores de planilhas o Excel da Microsoft, que apresenta
vrias funes estatsticas.
muito provvel que a maioria de vocs j esteja familiarizada com esse programa, que em muito facilita a vida de quem trabalha com nmeros. Criado,
inicialmente, para a rea financeira, os editores de planilhas como o Excel
so hoje utilizados em todas as reas do conhecimento que apresentem
dados quantificveis.
A seguir, veremos como criar uma pequena base de dados no Excel e como
calcular as principais estatsticas de uma amostra.
O primeiro passo criar um novo arquivo. A primeira linha ser sua linha de
ttulo, conter o nome e a unidade de medida das variveis. (figura 1).
Estatstica
49
UAB
Figura 2: Planilha de Excel contendo a altura (em cm), o peso (em kg) e a cor dos
olhos de 12 indivduos.
UAB
50
Licenciatura em Matemtica
Figura 3: Usando a ferramenta Classificar dados do Excel para ordenar, alfabeticamente, os dados pela varivel Cor dos olhos.
Mdia aritmtica
O Excel possui um sistema de frmulas que podemos utilizar. Por exemplo,
para calcular a mdia da altura dos indivduos da tabela vista na figura 2,
devemos ir at o fim da coluna em questo e digitar a seguinte frmula:
=mdia(b2:b13)
O Excel reconhece o sinal de = como um aviso que vamos usar uma frmula e, entre parnteses, devemos inserir o intervalo de clulas que contm
a varivel, separado por dois pontos. No caso, da clula 2 da coluna B (b2)
at a clula 18 da coluna B (b18)( figura 4).
Estatstica
51
UAB
O programa, automaticamente, calcula a mdia dos dados em questo, bastando para isso que pressionemos a tecla enter. O valor da mdia aparecer, de forma automtica, na clula em que escrevemos a frmula (figura 5).
UAB
52
Licenciatura em Matemtica
Mediana
Agora, usando a mesma tabela, vamos calcular a mediana para a altura dos
indivduos. H uma frmula para isso e seu comando, no Excel, MED.
Assim, para que possamos calcular a mediana de nossa varivel, devemos
escrever, em uma clula livre, a frmula =med(b2:b13), como pode ser
visto na figura 6.
Novamente, pressionando-se a tecla enter, o valor da mediana , automaticamente, calculado (figura 7).
Estatstica
53
UAB
Moda
Para calcular a moda, vamos usar a varivel categrica nominal cor dos
olhos, que possui trs classes (azul, castanho e verde) e est representada
na figura 2.
Como fizemos para a organizao dos dados, vamos selecionar toda a tabela e pedir que o programa classifique os dados pela varivel cor dos olhos,
da mesma forma como foi vista naffigura 3. Com as classes ordenadas, podemos, facilmente, contar qual a classe mais abundante. Castanho a moda
para a cor dos olhos dos indivduos da amostra, com sete indivduos, em
uma amostra de 12, apresentando olhos castanhos ffigura 8).
UAB
54
Licenciatura em Matemtica
Figura 10: A varincia dos valores de altura de uma amostra com 20 indivduos.
H duas maneiras de se calcular o desvio padro a partir de agora: podemos, simplesmente, tirar a raiz quadrada da varincia em uma calculadora
comum, ou podemos aplicar o comando DESVPAD no Excel ffigura 11).
Estatstica
55
UAB
Figura 12: O desvio padro dos valores de altura de uma amostra com 20 indivduos.
UAB
56
Licenciatura em Matemtica
Resumo
As medidas de tendncia central so a mdia aritmtica, a mediana e
a moda, e do uma ideia em que est a maioria dos dados ou onde cai o
meio da distribuio, assim:
a mdia aritmtica influenciada pelos valores extremos;
a mediana apenas a posio do valor central e no sofre influncia dos
valores extremos;
a moda a classe mais comum em um grupo de dados.
Estatstica
57
UAB
Referncias
LEME, R. A. DA S.: Curso de Estatstica Elementos. Rio de Janeiro: AO LIVRO TCNICO.
1967.
LEVIN, J.: Estatstica Aplicada s Cincias Humanas. So Paulo: HARPER & ROW DO
BRASIL. 1978.
SCHMULLER, J.: Statistical Analysis with Excel. Hoboken: Willey Publishing Inc. 2009.
SPIEGELRRAY R, Estatstica. MAKRON. 1994
UAB
58
Licenciatura em Matemtica
Estatstica
59
UAB
UAB
60
Licenciatura em Matemtica
Objetivos
Conhecer a apresentao visual de dados amostrais e sua aplicao na pesquisa estatstica;
Aprender a construir os tipos mais comuns de representaes
grficas na Estatstica;
Conhecer alguns tipos de grficos para variveis mltiplas;
Usar o Excel na elaborao de grficos.
Assunto
Nesta aula, veremos como possvel representar um conjunto de dados
amostrais visualmente, de forma a permitir uma rpida compreenso da
informao coletada. Veremos os formatos de grficos mais comuns para representar uma nica varivel e algumas maneiras de trabalhar com mltiplas
informaes visveis, assim como aprenderemos a aplicar esse conhecimento
nas pesquisas estatsticas.
Introduo
Uma forma simples de sumarizar uma varivel atravs das representaes
grficas. Grficos e diagramas ajudam a visualizar os dados imediatamente - entende-se, de pronto, a distribuio das frequncias, ajudando-nos a
reconhecer padres j existentes.
H dezenas de possveis representaes grficas na Estatstica. Nesta aula, no
entanto, vamos nos ater s formas mais utilizadas em relatrios e trabalhos
acadmicos, de forma a permitir a descrio adequada de dados amostrais.
O uso de grficos em trabalhos estatsticos cresceu a partir da popularizao
dos computadores: grficos que eram, penosamente, desenhados a mo
Estatstica
61
UAB
UAB
62
Licenciatura em Matemtica
Figura 1: Frequncias absolutas das intenes de votos para a eleio de um representante estudantil de uma universidade (n = 573).
Estatstica
63
UAB
Figura 2: Frequncias relativas das intenes de votos para a eleio de um representante estudantil de uma universidade (n = 573).
Os grficos de torta so perfeitos para comparar as diferenas de frequncias entre diferentes amostras, especialmente, se elas tm tamanhos diferentes. Por exemplo, se estivssemos pesquisando eleies estaduais ou
nacionais, poderamos comparar os resultados entre os municpios, mesmo
que as amostras fossem respectivamente de 330, 240, 159 e 58 eleitores.
Para fazer, manualmente, um grfico de torta, devemos transformar as frequncias absolutas em relativas e da em graus. Isso muito simples: se
UAB
64
Licenciatura em Matemtica
Candidato
Fr. absoluta
Graus ()
Jos
54
9,42
33,93
Maria
167
29,14
104,92
Joo
198
34,55
124,40
Ana
89
15,53
55,92
Robert
65
11,34
40,84
Total
573
100
360
Estatstica
65
UAB
UAB
66
Licenciatura em Matemtica
Fr. absoluta
Fr. relativa
15 16,9
0,07
17 18,9
0,2
19 20,9
10
0,33
21 22,9
0,3
23 24,9
0,1
Total
30
A vantagem dos histogramas a mesma do grfico de torta: podemos colocar, lado a lado, informaes vindas de amostras com tamanhos diferentes,
Estatstica
67
UAB
Nmero de domiclios
17
30
26
17
13
Total
109
O polgono de frequncia pode ser construdo tanto com frequncias absolutas quanto relativas. Contudo, nesse caso, usaremos, apenas, as absolutas
(fig.5).
UAB
68
Licenciatura em Matemtica
Figura 5: Polgono de frequncias absolutas do nmero de moradores em 109 domiclios de um conjunto habitacional.
Podemos representar os mesmos dados em uma curva de frequncias acumuladas. Desta vez, vamos usar frequncias relativas e vamos somar cada
valor com o anterior, como vimos nas aulas passadas. Adicionaremos, ento,
mais duas colunas nossa tabela, criando a tabela 4.
Tabela 4: Tabela de frequncias absoluta, relativa e acumulada do nmero de
moradores em 109 domiclios de um conjunto habitacional.
Nmero de
espcies vegetais
Nmero de lotes
Fr. relativa
(%)
Fr. acumulada
(%)
17
15,60
15,60
30
27,52
43,12
26
23,85
66,97
17
15,60
82,57
13
11,93
94,50
5,50
100
100
100
6
Total
Estatstica
6
109
69
UAB
Esse tipo de grfico , extremamente, til para comparar distribuies ordinais entre amostras de tamanhos diferentes e para entender onde est a
maioria dos dados. Curvas cumulativas so muito usadas em avaliaes ambientais, no controle de qualidade, em avaliaes de segurana e em estudos
sobre populaes humanas.
UAB
70
Licenciatura em Matemtica
48
48
43
48
38
57
49
40
53
35
66
48
44
43
30
48
47
40
43
38
50
57
34
25
38
58
40
42
45
28
47
50
47
39
27
Para criar o diagrama, devemos separar os valores em dois dgitos. Escrevemos os dgitos das dezenas verticalmente, formando o ramo:
2
3
4
5
6
Depois acrescentamos os dgitos que sobraram (as unidades) nas fileiras correspondentes: so as folhas:
2| 5
3| 0
4| 0
5| 0
6| 6
7
4
0
0
8
5 8 8 8 9
0 2 3 3 3 4 5 7 7 7 8 8 8 8 8 9
3 7 7 8
Todos os dados esto expostos no diagrama. Se quisermos, tambm colocaremos dois ramos para cada dezena: um conter as folhas de 0 a 4, e
o outro, de 5 a 9:
2|
2| 5
3| 0
3| 5
4| 0
4| 5
5| 0
5| 7
6|
6| 6
7
4
8
0
7
0
7
8
8 8 9
0 2 3 3 3 4
7 7 8 8 8 8 8 9
3
8
Estatstica
71
UAB
Figura 7: Polgonos de frequncias absolutas do nmero de moradores em 109 domiclios de um conjunto habitacional nos Censos de 2000, 2005 e 2010.
A mesma tcnica pode ser usada com grficos de barras ou curvas de frequncia, usando os dados sobre uma mesma varivel de amostras obtidas de
populaes diferentes, ou da mesma populao em momentos diferentes,
como o grfico acima.
At agora, nossos grficos apresentam, no eixo de y, a frequncia absoluta
ou relativa da ocorrncia de uma caracterstica, ou seja, estamos represen-
UAB
72
Licenciatura em Matemtica
tando apenas uma varivel. Para representar as relaes entre duas ou mais
variveis, x e y vo representar duas caractersticas que se encontram em um
indivduo, ou elemento, da amostra.
Por exemplo, podemos usar um grfico de disperso para verificar a relao
entre duas variveis. Digamos que pesamos e medimos 12 alunos de uma
sala de aula e gostaramos de saber se, como era esperado, os alunos mais
pesados so tambm os mais altos.
Ento, usamos do eixo de x para a altura e o de y para o peso, e criamos um
grfico com doze pontos, cada um representando um aluno (fig. 8).
Figura 8: Relao entre altura (em kg) e peso (em cm) de 12 alunos de uma escola
municipal.
fcil perceber pelo grfico da figura 7 que, de forma geral, quanto mais
alto um aluno, mais pesado ele , mesmo que a relao entre as duas variveis no seja perfeita. Quanto mais dados apresentamos em um grfico de
disperso, ou seja, quanto maior a amostra, mais visualmente clara se torna
a existncia, ou no, de uma relao entre as variveis.
Temos que nos lembrar que, cada ponto em um grfico de disperso um
elemento ou indivduo da amostra; assim, se n = 250, haver 250 pontos em
um grfico de disperso xy. Voltaremos a falar desse tipo de grfico e de sua
interpretao, quando abordarmos Regresso.
Estatstica
73
UAB
Os grficos em caixas ou boxplots so muito teis para visualizar subgrupos dentro de uma amostra. Digamos que tenhamos medido a altura dos
indivduos em um grupo de 13 mulheres e 13 homens (n = 26) e gostaramos
de visualizar uma possvel diferena na disperso e tendncia central da altura em cada um dos gneros.
Podemos, ento, criar um grfico boxplot, usando o eixo de y para a altura
em centmetros e o eixo de x para as duas categorias de interesse: mulheres
e homens.
Assim, o grfico criado traando-se uma linha vertical sobre cada categoria
que vai do menor ao maior valor para cada categoria, marcando os extremos
da disperso. A partir dessa linha, marcado um ponto da medida da tendncia central escolhida e marca-se, a partir da medida central, um valor de
medida de disperso acima e abaixo dela.
Por exemplo, se usarmos a mdia, ento marcaremos na linha a mdia e o
desvio padro positivo e negativo; se usarmos a mediana, usaremos o primeiro e o terceiro quartis (um quartil se consegue, dividindo a distncia entre
a mediana e os extremos em dois).
A partir dessas medidas, desenha-se uma caixa limitando onde a maioria
da populao se encontra. O grfico visto na fig. 9 ilustra como, em nossa
amostra, h uma diferena aparente na distribuio das alturas entre mulheres e homens, sendo eles, geralmente, mais altos.
UAB
74
Licenciatura em Matemtica
Figura 10: Grfico de valores individuais da altura, em cm, de 13 mulheres e 13 homens. O losango representa a mdia.
Estatstica
75
UAB
Figura 11: Tabela de Excel com a frequncia de inteno de votos em uma eleio
para representante estudantil; a rea selecionada ser usada para confeccionar um
grfico.
UAB
76
Licenciatura em Matemtica
Estatstica
77
UAB
UAB
78
Licenciatura em Matemtica
Depois de concludo, ainda podemos editar o grfico, mudando cores e legendas. E o mesmo pode ser salvo na prpria planilha do Excel (fig. 16) ou
em uma nova planilha. Assim, sempre que a tabela original dos dados for
modificada, o grfico ser, automaticamente, atualizado. Se ele for copiado
e colado em um documento de Word, tambm existe a opo de atualizao
automtica, desde que os dois documentos estejam associados.
Estatstica
79
UAB
Figura 17: Caixa de dilogo do Assistente de Grfico do Excel da Microsoft, mostrando as opes para um grfico de torta (pizza).
Seguindo os mesmos passos que o grfico anterior, podemos editar o diagrama durante a criao ou aps estar pronto. O grfico de torta final ser
aquele que vimos na figura 2.
Polgonos e curvas de frequncia acumulada so feitos com a opo de grficos de linhas no assistente de grfico. A forma do grfico vai depender se
estamos usando frequncias absolutas ou acumuladas.
Para os grficos de disperso, selecionamos a opo inicial Disperso (XY)
na Caixa de Dilogo. O Assistente de Grfico permite que algumas sries, ou
variveis, includas em uma tabela, sejam removidas da apresentao grfica.
Tambm possvel mudar o valor inicial dos eixos, como visto no grfico da
figura 8, aps o mesmo estar pronto. Para isso, basta clicar duas vezes no
eixo que se quer modificar, abrindo a caixa de dilogo para edio dele (fig.
18). Assim, muitas outras caractersticas podem ser editadas.
UAB
80
Licenciatura em Matemtica
Figura 18: Caixa de dilogo para edio de um eixo de um grfico do Excel da Microsoft.
Por fim, esse editor de planilhas pode criar a maior parte das representaes grficas mais importantes para auxiliar a visualizao imediata de dados
amostrais. A enormidade de funes e opes de edio desses grficos merece ser experimentada, e apenas com a prtica possvel explorar a maioria
dos recursos que esse programa de computador oferece.
Resumo
Representaes grficas so, extremamente, teis para a visualizao de dados amostrais e so parte indispensvel de qualquer relatrio de pesquisa
que envolva anlises estatsticas. Os tipos mais comuns de grficos de frequncia para uma varivel so os grficos de barras, de torta, os histogramas,
os polgonos de frequncia, as curvas de frequncia acumulada e os grficos
de ramo e folha.
Todos os grficos pedem, para sua confeco, a criao de tabelas de frequncia. Informaes mltiplas podem ser representadas em grficos de frequncias, representando amostras mltiplas, ou em grficos multivariados,
em que mais de uma varivel podem ser representadas, como os grficos de
disperso.
Estatstica
81
UAB
Referncias
CHATFIELD, C.: Problem Solving A Statisticians Guide. London: CHAPMAN & HALL.
1991.
LEVIN, J.: Estatstica Aplicada s Cincias Humanas. So Paulo: HARPER & ROW DO
BRASIL. 1978.
SCHMULLER, J.: Statistical Analysis with Excel. Hoboken: Willey Publishing Inc. 2009.
VIEIRA, S. M.: Introduo Bioestatstica. 3 edio. So Paulo: EDITORA CAMPUS. 1998.
UAB
82
Licenciatura em Matemtica
Estatstica
83
UAB
UAB
84
Licenciatura em Matemtica
Aula 4 - Probabilidades
Objetivos
Entender os conceitos bsicos de probabilidades e suas relaes
com a anlise estatstica de uma amostra;
Aprender a trabalhar com probabilidades aplicadas aos diversos
tipos de variveis.
Assunto
Neste mdulo, vamos entender como funciona a Estatstica e como podemos confiar que uma amostra seja representativa de uma populao. Vimos
no primeiro mdulo que a Estatstica baseada em probabilidades, ento,
vamos compreender como as leis da probabilidade podem ser usadas para
estimar parmetros de uma populao.
Introduo
O termo probabilidade vem do latim probabilis, provvel. Esse termo era
empregado, desde os tempos romanos, principalmente no contexto jurdico
e se referia qualidade de uma testemunha legal ou medida de autoridade
de um cidado, e era, geralmente, relacionada nobreza. Assim, um nobre
era provavelmente (probabilis) uma testemunha mais confivel que um
plebeu.
At o sculo XVII, o termo probabilis era usado no sentido de aprovao
de uma opinio ou ao. Uma opinio provvel era aquela que as pessoas
sensatas teriam. S quando o estudo matemtico das chances se tornou
mais profundo, foi cunhado o termo probabilidade com o sentido que
usamos hoje.
Estatstica
85
UAB
UAB
86
Licenciatura em Matemtica
O primeiro livro, exclusivamente, dedicado ao estudo formal das probabilidades foi escrito por Christiaan Huygens (1629-1695), fsico e matemtico
holands. Huygens descobriu que a luz se propaga em ondas, o que serviu
mais tarde para o estudo das partculas subatmicas. Seu livro sobre probabilidades foi escrito, porque Pascal o encorajou.
Dois livros importantes, do sculo XVIII, colocaram o estudo das probabilidades como um ramo formal da Matemtica: Ars Conjectandi, ou a Arte da
Conjectura, de Jakob Bernoulli (1654 1705) e The Doctrine of Chances, a
Doutrina das Chances, de Abraham de Moivre (1667 1754, fig. 3). Vrios
matemticos desenvolveram o tema atravs dos sculos XIX e XX. J no sculo XXI, o uso dos computadores permite clculos quase infinitos, usando
teoremas com sculos de vida.
Estatstica
87
UAB
UAB
88
Licenciatura em Matemtica
Dessa vez, todas as faces aparecem. Mas, ainda, h uma grande diferena
entre as frequncias com que as faces aparecem. Lembremos que, no caso
de um dado de jogar honesto, todas as faces tm chances iguais de apa-
Estatstica
89
UAB
Quanto mais cresce o tamanho de nossa amostra, mais prximas as frequncias se encontram do esperado, que ter repeties de ocorrncia de
cada face muito prximas das outras, ou quase iguais (afinal, cada face tem
16,67% de chance de ocorrer em cada lanamento de dado). Se continuarmos jogando o dado, aps mil lanamentos, teremos pouca diferena entre
as frequncias de ocorrncia de cada uma das faces. Um exemplo o grfico
abaixo, mostrando a frequncia relativa da ocorrncia de cada face do dado
aps mil lanamentos (fig. 7).
UAB
90
Licenciatura em Matemtica
Podemos ver que nos aproximamos muito das frequncias relativas esperadas, ou seja, da probabilidade calculada de ocorrncia de cada face. Podemos dizer, ento, que o dado que usamos honesto, balanceado e no
tem vis. Nossa amostra de mil lanamentos um exemplo de amostragem
aleatria e representa a populao de todos os lanamentos de dados possveis, se aproximando das frequncias esperadas.
Digamos que, aps mil lanamentos de um dado de jogar, chegamos seguinte distribuio (fig. 8):
Nesse caso, podemos afirmar que esse no um dado honesto: se o cortamos ao meio, possvel que achemos um peso dentro dele para que caia
com mais frequncia na face 6. A distribuio de frequncias desvia tanto
dos valores esperados, que no h dvida de que algo (no caso, o peso dentro do dado) est enviesando os resultados.Assim, dizemos que esses valores
no so aleatrios, mas so influenciados por algum fator (o peso).
Entender o conceito de valores que esto dentro das probabilidades esperadas ao acaso (randmicos ou aleatrios) e de valores que desviam do esperado (no randmicos ou no aleatrios, tambm chamados determinsticos)
servem de base para descobrirmos se fatores externos ou internos afetam
os valores de um conjunto de dados estatsticos. Essa a base da Estatstica
Inferencial.
Estatstica
91
UAB
Leis da Probabilidade
Vimos como probabilidade a chance que um evento ocorra ao acaso. Essa
chance calculada, dividindo o nmero de vezes que o evento pode ocorrer
pelo nmero total de eventos possveis.
Assim, a chance da face de um dado de jogar aparecer em um lanamento
de 1/6 e a chance de sair cara ou coroa ao se lanar uma moeda de . Se
usarmos um baralho de cartas completo, com 52 cartas, podemos calcular
que a chance de tirarmos, digamos, um s de espadas de 1/52. Mas como
fazemos, quando um evento possui dois ou mais termos? A, entra a aplicao das chamadas Leis da Probabilidade.
A primeira lei da probabilidade que vamos aplicar aqui a Lei Multiplicativa. Ela afirma que a chance de dois ou mais eventos independentes
ocorrerem juntos o produto da probabilidade dos eventos ocorrerem
separadamente. Vamos ver como isso se aplica se lanarmos dois dados de
jogar em vez de um s.
Vimos que a probabilidade de conseguirmos um 6, ao lanarmos um dado
de 1/6. Qual a probabilidade de conseguirmos dois 6, formando um 12, se
lanarmos dois dados?
UAB
92
Licenciatura em Matemtica
= 16,67%
= 2,78%
(1,1)
(2,1)
(3,1)
(4,1)
(5,1)
(6,1)
(1,2)
(2,2)
(3,2)
(4,2)
(5,2)
(6,2)
(1,3)
(2,3)
(3,3)
(4,3)
(5,3)
(6,3)
(1,4)
(2,4)
(3,4)
(4,4)
(5,4)
(6,4)
(1,5)
(2,5)
(3,5)
(4,5)
(5,5)
(6,5)
(1,6)
(2,6)
(3,6)
(4,6)
(5,6)
(6,6)
Estatstica
93
UAB
(1,6)
(1,5)
(6,1)
(2,6)
(1,4)
(5,1)
(2,5)
(6,2)
(3,6)
(1,3)
(4,1)
(2,4)
(5,2)
(3,5)
(6,3)
(4,6)
(1,2) (3,1)
(2,3)
(4,2)
(3,4)
(5,3)
(4,5)
(6,4)
(5,6)
(2,1) (2,2)
(3,2)
(3,3)
(4,3)
(4,4)
(5,4)
(5,5)
(6,5)
(6,6)
10
11
12
Est claro que o valor de sete o mais provvel de ser conseguido com dois
dados, pois h seis formas diferentes de rolar um sete. Vejamos qual a probabilidade de conseguir um sete com dois dados:
P(sete)
(1,6)
(6,1)
(2,5) + (5,2)
16,67%
(3,4)
(4,3)
UAB
94
Licenciatura em Matemtica
Podemos dizer que, nesse grupo de dados estatsticos, a moda sete, j que
esse o valor mais comum. Se destrincharmos os valores, as configuraes
dos dois dados de jogar - (3,4), (6,3), (2,2), etc. teramos todas as 36 barras
do mesmo tamanho, pois as 36 configuraes tm chances iguais de ocorrer.
Mas, ateno: probabilidades no tm memria! Se jogarmos os dados
trs vezes e obtivermos trs (6,6), isso no quer dizer que temos mais ou
menos chance de conseguirmos outro (6,6). Todas as vezes que lanarmos
os dados, teremos a mesma chance de conseguir uma das 36 configuraes
e uma chance em seis de conseguir um valor de sete.
O exemplo que vimos bem simples, mas podem ser usadas as mesmas leis
para entender a probabilidade de eventos muito complexos.
Estatstica
95
UAB
O estudo das probabilidades extremamente intricado e alguns matemticos dedicam suas carreiras a essa rea, chamada Probabilstica. No nossa
inteno, portanto, ter o entendimento profundo ou minucioso do clculo
das probabilidades. Os conceitos bsicos, no entanto, devero nos servir
para que entendamos suas aplicaes nos clculos de estimativas que so
fundamentais nas anlises estatsticas.
Prevendo Erros
Um dos pontos fundamentais da Estatstica que toda amostra contm erros que variam com o tamanho da amostra em relao populao estudada. A probabilidade de que nossos dados no representem a populao
est, explicitamente, inserida em todo clculo estatstico. Por isso mesmo,
como veremos mais tarde, nunca se tem certeza absoluta da validade de
uma amostra.
Usando os mesmo clculos probabilsticos, no entanto, pode-se garantir a
validade de uma amostra em 95%, 98% ou at 99,99%. Nunca 100%. Eis
a razo pela qual devemos ter cautela quando interpretamos resultados de
estatsticas, pois so estimativas generalizadas passveis de erro. Quanto
maior o tamanho da amostra, menor fica o erro e podemos ter mais segurana quando interpretamos os resultados.
Esperado x Observado
Tudo em Estatstica baseado na ideia que as frequncias de ocorrncia de
todo evento ao acaso vo assumir probabilidades que podem ser calculadas.
Elas servem de base para a estimao das frequncias de ocorrncia desses
eventos em uma populao.
Assim, quando analisamos uma amostra, comparamos os dados que temos
com aqueles calculados atravs de probabilidades. Muito do que se testa,
estatisticamente, envolve comparar a nossa amostra (os valores observados), com aqueles valores conseguidos atravs dos clculos de probabilidade
(esperados). Se os mesmos diferem muito dos valores esperados, h fatores
influenciando as frequncias da amostra.
Teoremas bsicos
No estudo da probabilidade, h dois teoremas bsicos.
O primeiro a chamada Lei dos Grandes Nmeros, que descreve a
estabilidade em longo termo da mdia de uma varivel aleatria. Dada uma
UAB
96
Licenciatura em Matemtica
Probabilidade na Estatstica
Agora que temos uma noo do clculo das probabilidades, podemos comear a entender como isso se relaciona Estatstica. Primeiro, vimos como
as probabilidades so calculadas dentro de um nmero possvel de eventos, como se comportam e so equivalentes s frequncias relativas de uma
amostra.
Depois, vimos como o tamanho da amostra fundamental para validar as
estimativas dos parmetros da populao da qual a mesma foi retirada:
quanto maior a amostra, mas prximo chegamos s frequncias esperadas
dos eventos dentro de uma populao.
Quando vamos aplicar os conceitos de probabilidade em Estatstica, estamos
nos referindo capacidade de estimar os parmetros populacionais, usando
uma amostra representativa dessa populao.
Isso funciona da seguinte maneira: se usarmos uma amostra representativa
de uma populao, poderemos descrever as frequncias de ocorrncia dos
eventos em uma distribuio de frequncias, como vimos acima, com os
dois dados de jogar.
Neste exemplo, ns calculamos as probabilidades de cada nmero sair de
forma bem simples, j que se trata de uma varivel aleatria discreta,
Estatstica
97
UAB
ou seja, tm apenas nmeros inteiros e que se situam dentro de uma amplitude restrita (no caso, entre 2 e 12). Esse tipo de distribuio chamado
binomial. Mas possvel calcular as probabilidades de quaisquer eventos,
mesmo de variveis aleatrias contnuas, desde que se faa primeiro, uma
distribuio de frequncias a partir de uma amostra. Ento, estimam-se os
parmetros populacionais que sero usados nos clculos das probabilidades.
Usando essas ideias, podemos construir, com base em uma distribuio de
frequncias de uma amostra vlida, uma distribuio de probabilidades
de ocorrncias dos eventos em uma populao.
Um grfico que represente uma distribuio de probabilidades qualquer vai
se parecer muito com um grfico de distribuio de frequncias de uma boa
amostra, afinal, elas se aproximam das frequncias das probabilidades de
uma populao.
Matemticos probabilistas usam clculos mais elaborados para calcular as
probabilidades de todos os eventos possveis, mesmo aqueles que ainda no
foram observados. possvel extrapolar valores observados para incluir valores que so possveis de ocorrer, mas ningum nunca viu, pois so eventos
muito raros.
Por exemplo, um pesquisador coletou uma amostra da distncia de 319
casas de uma regio para um grande oleoduto, para tentar entender qual
seria o risco para a populao no caso de um vazamento. Com base nessa
amostra, ele construiu um histograma das frequncias relativas (fig. 10).
Figura 10: Histograma das frequncias relativas da distncia entre 319 domiclios e
um oleoduto.
UAB
98
Licenciatura em Matemtica
Figura 11: Histograma de frequncias relativas com curva normal da distncia entre
319 domiclios e um oleoduto.
A linha que forma uma curva em sino chamada Curva Normal. uma curva
estimada que d uma ideia da forma da distribuio e permite que se saiba
a probabilidade de ocorrncia de qualquer evento dentro de uma populao
com base em amostras.
Vamos entender mais sobre ela na prxima aula.
Estatstica
99
UAB
Estatstica no Computador
Os programas de computador para Estatstica so fundamentais para a anlise de grandes bases de dados e para o uso adequado dos testes de Estatstica Inferencial. H vrios programas disponveis, desde os muito sofisticados,
usados por astrnomos, at programas mais simples, que ajudam a calcular
testes bsicos.
Alguns programas so de graa e podem ser baixados pela internet:
BioEstat 5.0 Do Instituto Mamirau, serve para a anlise descritiva
e alguns testes inferenciais com mais de uma varivel (multivariados).
Apesar de voltado para as Cincias Biolgicas, esse programa pode ser
usado para ajudar qualquer pesquisa cientfica que utilize a Estatstica. A
melhor caracterstica do BioEstat seu manual de instruo, que explica em detalhes como so feitos os clculos oferecidos pelo programa e
como evitar problemas. A verso em Portugus pode ser encontrada no
endereo http://www.mamiraua.org.br/download/
Winidams 1.3 Para validao, manipulao e anlise de dados. Em
ingls.
ADE 4 (2004) Para anlises bsicas, tambm em ingls.
Expanses do Excel Podem ser baixados para que o editor de planilhas tambm possa realizar anlises mais complexas. Alguns deles so o
XLStatistics e o BiPlot.
Programas avanados so, geralmente, caros, mas realizam todos os testes e
ainda criam grficos editveis. Alguns dos mais conhecidos so o Statistica,
o SPSS e o MINITAB. Muitos possuem verses demo em suas pginas da
internet que podem ser usados, de graa, por um ms, e possuem verses
em portugus. Todos os programas se baseiam nas mesmas regras. O que
importa saber utiliz-los.
Resumo
(contm todo teor da aula vista acima?)
A anlise de amostras retiradas de uma populao pode servir de base para
a estimao de parmetros populacionais atravs de estatsticas amostrais.
UAB
100
Licenciatura em Matemtica
Referncias
CHATFIELD, C.: Problem Solving A Statisticians Guide. London: CHAPMAN & HALL.
1991.
LEME, R. A. DA S.: Curso de Estatstica Elementos. Rio de Janeiro: AO LIVRO TCNICO.
1967.
LEVIN, J.: Estatstica Aplicada s Cincias Humanas. So Paulo: HARPER & ROW DO
BRASIL. 1978.
SCHMULLER, J.: Statistical Analysis with Excel. Hoboken: Willey Publishing Inc. 2009.
SPIEGEL, M. R, Estatstica. MAKRON. 1994
Estatstica
101
UAB
UAB
102
Licenciatura em Matemtica
Aula 5 - Distribuies
de Probabilidades
Objetivos
Compreender a aplicao dos teoremas fundamentais da probabilstica na Estatstica;
Conhecer os diversos tipos possveis de distribuies amostrais;
Compreender como so estimados e com que acurcia, os parmetros populacionais a partir de estatsticas amostrais.
Assunto
A aplicao da Probabilstica na Estatstica baseada em distribuies de
frequncias provveis, que podem ser estimadas a partir de amostras. A
partir desta aula, vamos entender como os teoremas fundamentais das probabilidades so aplicados nas pesquisas que usam a Estatstica como instrumento para estimar parmetros populacionais, em todas as reas do conhecimento que possuam caractersticas mensurveis.
Introduo
Amostra e distribuio de amostras
Na ltima aula, vimos como a distribuio de frequncias de uma varivel
aleatria contnua de uma amostra pode ser limitada por uma curva de probabilidades terica, a curva normal, representando as frequncias em uma
populao. Esse tipo de distribuio chamado distribuio normal e sua
curva representativa tem uma forma simtrica, mais alta nos valores centrais
(mais frequentes) e que desce, simetricamente, para os valores extremos
Estatstica
103
UAB
A Curva Normal
Tambm chamada de Curva de Gauss, a curva normal a representao terica da distribuio das probabilidades de uma varivel em uma determinada
populao. Vamos ver, novamente, a curva normal do exemplo da ltima
aula: distncia em metros entre as casas de uma regio e um oleoduto (fig.
1).
UAB
104
Licenciatura em Matemtica
e2 .
Estatstica
105
UAB
As propores das reas dentro de uma curva normal servem de base para
o clculo de um valor estatstico fundamental para o teste de hipteses,
chamado z.
No final de todo livro de Estatstica, h uma tabela, mostrando os valores de
z e t, que vo dar a significncia dos testes de hipteses. A proporo das
reas cobertas pelos parmetros e , referentes a uma populao, d a
forma da curva normal e serve de base para testar a significncia de testes
estatsticos.
No entanto, as estatsticas que usam o valor z assumem que parmetros
como e so conhecidos. Isso no verdade para as amostras: nela temos
os valores de e s. Com base nas duas estatsticas, so criadas as tabelas de
valores t, tambm usadas como base de testes de significncia, usando reas
proporcionais da curva de distribuio como alicerce matemtico.
Resumindo, a maior parte dos testes estatsticos que so realizados em amostras aleatrias supe que a populao da qual foi retirada uma amostra apresenta uma distribuio normal das frequncias em questo e que 99,7% dos
dados estaro contidos em um intervalo de 3 ou, assumindo-se que a
amostra seja representativa da populao, 3s.
Nem toda distribuio amostral, no entanto, do tipo normal, mesmo que
se tenha uma amostra grande. Algumas variveis podem apresentar distribuies de outros tipos, especialmente, nas Cincias Biolgicas e Sociais.
Tipos de curva
A curva de Gauss a curva normal, totalmente, simtrica. Nela, mdia e
mediana tm o mesmo valor, ou valores muito prximos. H distribuies,
no entanto, que no so totalmente simtricas. Na distribuio assimtrica
direita, a mediana mais alta que a mdia e a curva tem uma cauda
mais longa direita do grfico (fig. 3).
UAB
106
Licenciatura em Matemtica
Figura 3: Curva de distribuio de probabilidades assimtrica direita, com as posies da mdia e da mediana.
Quando descobrimos, durante a anlise descritiva, que h essa diferena entre mediana e mdia, devemos ter cuidado extra quando passamos analise
inferencial desses dados: s vezes, a diferena impede que utilizemos certos
testes estatsticos.
O tamanho das caudas de uma distribuio de probabilidades chamado
de curtose, sendo a segunda caracterstica de importncia na descrio da
Estatstica
107
UAB
UAB
108
2s ou
Licenciatura em Matemtica
A forma das distribuies normais tem implicaes para a validao dos dados e para o uso de testes estatsticos.
Outro tipo de distribuio encontrado, comumente, em amostras nas Cincias Biolgicas e Sociais, a distribuio assimtrica, que pode envolver
tanto variveis aleatrias discretas como contnuas.
Nela, os valores mais frequentes no esto no meio da distribuio e no
podemos usar, novamente, as suposies sobre a curva normal para calcular
as estatsticas de uma amostra com esse tipo de distribuio.
Estatstica
109
UAB
Figura 8: Histograma de frequncias absolutas do nmero de filhotes em 25 ninhadas de ces da raa Dlmata.
UAB
110
Licenciatura em Matemtica
A Maturidade da Estatstica
A Estatstica transformou-se com a compreenso da distribuio normal. A
ideia de normalidade foi, primeiramente, sugerida por Abraham de Moivre (1667-1754) em um artigo de 1733. Nele, o autor percebeu como a
forma de distribuies binomiais se parecia quando a amostra era muito
grande. Pierre-Simon, Marqus de Laplace (1749-1827, fig. 9), expandiu o
conceito, fazendo em seu livro A Teoria Analtica das Probabilidades, no
qual descreveu a aproximao normal de uma distribuio binomial. O teorema descrito, hoje conhecido como Teorema de Moivre-Laplace.
Estatstica
111
UAB
Em 1805, Adrien-Marie Legendre (1752-1833), matemtico francs, introduziu o mtodo dos Mnimos Quadrados, que at hoje usado no clculo
de anlises de regresses. No entanto, o matemtico alemo Johann Gauss
(1777-1855, fig. 10) afirmou que j usava esse mtodo desde 1794 e provou
sua tese que propunha a distribuio normal de erros em 1809. Hoje em dia,
s vezes, chamamos uma distribuio normal de Gaussiana, apesar de
Gauss no ter sido o primeiro a descrever tal tipo de distribuio.
Esse um exemplo da chamada Lei de Stigler, que diz que as grandes
descobertas cientficas no so chamadas pelo nome de seus descobridores,
mas pelo nome daquele que difunde a ideia.
Figura 10: Johann Carl Friedrich Gauss (1777-1855). Fonte: Wikimedia Commons.
UAB
112
Licenciatura em Matemtica
Estatstica
113
UAB
UAB
114
Licenciatura em Matemtica
Estatstica
115
UAB
A lgica simples. Imaginem que continuamos nossa pesquisa sobre a altura dos habitantes por mais 100 dias. Depois, ao invs de usar a altura dos
1100 habitantes como base para nossas anlises, ns usamos as 110 mdias
amostrais como uma varivel e construmos, com isso, uma distribuio de
frequncias. Essa ser uma distribuio de mdias amostrais.
Tal distribuio de mdias amostrais vai, por sua vez, ter uma mdia tambm.
Se coletarmos um nmero, suficientemente, grande de amostras, a curva de
distribuio das mdias amostrais vai ter sua tendncia central em torno da
tendncia central da populao, ou seja, o valor das mdias amostrais vai
ser a mdia da populao da qual essas amostras foram tiradas.
Uma curva de distribuio de mdias amostrais vai ser semelhante a uma
curva normal. Como vimos em nosso exemplo, as amostras que mais se
afastam da mdia das mdias amostrais (que calculamos em 1,67 m) foram
aquelas que, sem querer, incluram pessoas muito altas os jogadores de
basquete e pessoas muito baixas os jqueis.
J as outras amostras apresentavam valores bem prximos da mdia das
mdias amostrais. Isso por que valores extremos so mais raros que valores
prximos mdia de uma populao, ento temos maior chance de encontrar pessoas de estatura mediana do que as muito altas ou muito baixas.
Agora, no importa se cada uma das amostras tem uma distribuio normal.
A distribuio das mdias amostrais, no entanto, vai sempre ser normal,
pois a probabilidade de coletarmos uma amostra que se afaste muito da
mdia da populao diminui conforme cresce a diferena. Quanto maiores
as amostras, mais simtrica ser a curva de distribuio de mdias amostrais.
O grfico abaixo (fig. 11) representa uma dessas curvas. Podemos notar
a forma simtrica e as freqncias de ocorrncia decrescentes de mdias
amostrais que se afastam muito da mdia populacional.
UAB
116
Licenciatura em Matemtica
Estatstica
117
UAB
UAB
118
Licenciatura em Matemtica
Figura 12: rea em uma curva de distribuio de mdias amostrais coberta pela mdia, mais ou menos um erro padro.
Devemos sempre lembrar que a rea sob uma curva normal equivale a 1, ou
100% da distribuio. Da mdia para cima, esto 50% dos dados; da mdia
para baixo, os outros 50%. Digamos que queremos saber qual a probabilidade de nossa amostra ter uma mdia maior que m+SE.
A lgica simples. Se 68% dos dados esto um erro padro longe da mdia,
a rea coberta por +SE = 34% e por SE = 34%, pois 34%+34% = 68%. A
rea correspondente s mdias amostrais menores que +SE vai ser a soma
de toda a rea abaixo da mdia (50%) somada rea do erro padro positivo (34%), ou seja, 50%+34% = 84%. Assim, a probabilidade de nossa
amostra ter mdia maior que +SE igual a 100% - 84% = 16%. Podemos
usar o mesmo mtodo para saber a probabilidade de nossa amostra ter mdia menor que -SE, ou outras combinaes.
O erro padro depende de dois valores: o desvio padro da amostra que
coletamos (que, teoricamente, uma das vrias amostras possveis dentro
de uma distribuio de estatsticas amostrais) e o tamanho da amostra. O
erro padro menor que o desvio padro, como vimos antes, pois a variao
dentro da amostra maior que entre as mdias amostrais.
Ento, o tamanho da amostra , extremamente, importante, pois quanto
maior a amostra, mais nos aproximamos dos valores da populao. Para
Estatstica
119
UAB
Se, por exemplo, temos amostra de 100 notas de provas com uma mdia de
50 pontos e desvio padro de 15 pontos, podemos esperar que as mdias de
todas as amostras desse tipo tenham um erro padro de:
pontos.
Por causa da raiz quadrada no denominador dessa frao, se quisermos diminuir o erro pela metade, teremos que quadruplicar o tamanho da amostra:
pontos.
UAB
120
Licenciatura em Matemtica
Figura 13: Posio das mdias de quatro amostras em relao ao intervalo de confiana de 68%, em uma curva de distribuio de mdias amostrais.
Vemos ento que, com um intervalo de confiana de 68%, h uma probabilidade ainda alta (34%, mais do que uma chance em trs) de nossa mdia
amostral, mais ou menos o erro padro, no conter a mdia populacional.
As amostras 1 e 4 esto fora dos limites entre a mdia populacional e o erro
padro. Um intervalo de confiana de 68%, portanto, no muito confivel
para uma estimativa.
Se quisermos ficar ainda mais confiantes de nossa estimativa para a mdia
da populao, devemos ampliar esse intervalo de confiana, para torn-lo
mais abrangente. Fazemos isso, aumentando o nmero de erros padro que
fazem os limites de nosso intervalo.
Por exemplo, usando os dados da amostra de 100 notas de provas, nosso
intervalo de confiana de 68% diz que a mdia da populao est entre
SE, ou seja, entre 50 - 1,5 = 48,5 ( -SE) e 50 +1,5 = 51,5 ( +SE) pontos.
Se quisermos aumentar nossa confiana de pegar a mdia populacional,
podemos usar 2SE; nesse caso, o intervalo vai de 50 3,0 = 47 at 50 +
3 = 53 pontos, subindo para 95,4%. Assim, a probabilidade da mdia populacional estar fora desse intervalo de 4,6%.
Podemos ainda usar um intervalo de confiana de 99,7%: 3SE. Nele,
podemos afirmar que a mdia populacional das notas dos alunos estaria
entre 50 4,5 = 45,5 e 50 + 4,5 = 54,5 pontos. A probabilidade aqui de
no termos a mdia populacional dentro desse intervalo de apenas 0,3%.
Estatstica
121
UAB
Pode parecer pouco, mas uma probabilidade de 0,3% de algo acontecer significa que o evento tem trs chances em mil de acontecer. Nunca podemos
ter certeza absoluta de que temos a mdia populacional em um intervalo de
confiana, mas podemos estimar esse valor com uma probabilidade muito
pequena de estar completamente errados.
Em anlises estatsticas, geralmente, usamos intervalos de confiana de 95%
ou 99%, o que o suficiente para que tenhamos uma boa ideia dos parmetros populacionais.
Outros parmetros de uma populao podem ser estimados de forma muito
semelhante que usamos para estimar a mdia populacional. Um que pode
ser usado em muitas situaes diferentes a proporo, que o valor que
usado, quando estamos estudando uma varivel categrica.
Por exemplo, digamos que queremos saber a proporo de indstrias com
programas de reciclagem em vrios municpios. Essa proporo vai variar de
um municpio para outros 0,19 em um, 0,23 em outro, 0,21 em um terceiro e assim por diante. Mas a distribuio de todas as propores vai seguir
o teorema do limite central e vai estar distribuda em torno da verdadeira
proporo de todas as indstrias em todos os municpios que possuem programas de reciclagem. Ainda, podemos usar o erro padro da proporo
para calcular nosso intervalo de confiana, se acharmos que a proporo
verdadeira.
Como no h variabilidade em uma amostra de um valor proporcional, no
podemos calcular o erro padro, usando o desvio padro da amostra, o
qual calculado atravs da multiplicao da proporo de interesse pela
proporo restante, dividindo o resultado pelo nmero de casos da amostra
e tomando a raiz quadrada.
Por exemplo, se uma amostra aleatria de 100 indstrias mostrou que 20
tm programas de reciclagem e 80 no tm, o erro padro da proporo
ser:
UAB
122
Licenciatura em Matemtica
Resumo
A anlise de amostras retiradas de uma populao pode servir de base para
a estimao de parmetros populacionais atravs das estatsticas amostrais.
O tamanho da amostra fundamental para que seja vlida na estimao dos
parmetros com base nas estatsticas.
A Estatstica se baseia na Probabilstica para assumir que muitas variveis
vo ter um padro de distribuio normal, simtrico, que pode ser descrito,
usando-se a mdia e o desvio padro.
Os pressupostos matemticos sobre a distribuio normal permitem o clculo da significncia de testes de hipteses.
Muitas variveis no apresentam uma distribuio normal, mas podem ser
bimodais ou assimtricas. Os mtodos para se trabalhar na estimao de pa-
Estatstica
123
UAB
Referncias
CHATFIELD, C.: Problem Solving A Statisticians Guide. London: CHAPMAN & HALL.
1991.
LEME, R. A. DA S.: Curso de Estatstica Elementos. Rio de Janeiro: AO LIVRO TCNICO.
1967.
LEVIN, J.: Estatstica Aplicada s Cincias Humanas. So Paulo: HARPER & ROW DO
BRASIL. 1978.
SPIEGEL, M. R.: Estatstica. MAKRON. 1994.
VIEIRA, S. M.: Introduo Bioestatstica. 3 edio. So Paulo: EDITORA CAMPUS. 1998.
UAB
124
Licenciatura em Matemtica
Estatstica
125
UAB
UAB
126
Licenciatura em Matemtica
Objetivos
Compreender as bases tericas dos testes estatsticos de hipteses;
Entender o Mtodo Cientfico como forma de evitar vieses cognitivos;
Conhecer e aplicar os testes de medidas de associao entre
variveis.
Assunto
Em nossa ltima aula, vamos aprender como a Estatstica pode ser usada
para entender as relaes entre duas ou mais variveis, que podem se relacionar de diversas formas, seja causando um efeito que influencie a disperso de outra, ou ainda podem ser, intimamente, relacionadas, causando
uma variao quantificvel que pode ser usada para prever os valores que
no esto em uma amostra. Para compreender como isso ocorre, no entanto, temos que primeiro conhecer o embasamento filosfico para essa linha
de aplicao da Estatstica e como podemos evitar vieses que advm de
nossa prpria percepo.
Introduo
Aprendendo a Entender
Desde muito cedo, o Homem percebeu que no podia confiar somente em
suas opinies ou crenas se quisesse, realmente, entender os fenmenos da
Estatstica
127
UAB
Enquanto na Europa, a Idade Mdia enfrentava tempos de ignorncia supersticiosa, no Oriente Mdio ocorria a chamada Era Dourada do Islamismo.
Filsofos muulmanos passaram a usar mtodos experimentais e quantitativos para resolver disputas entre correntes discordantes de pensamento. O
primeiro mtodo cientfico propriamente descrito foi o de Ibn al-Haytham,
ou Alhazen (965-1040, fig. 2), fsico e matemtico iraquiano. Ele usou mtodos que envolviam a observao, a experimentao, a matemtica e a
argumentao lgica para explicar que a ideia antiga que a luz emanava dos
olhos em vez dos objetos iluminados pelo sol ou outra fonte de luz, como
disse Aristteles, estava errada. Seu trabalho O Livro da tica o primeiro
exemplo de experimentao cientfica controlada com a finalidade de esclarecer dvidas relevantes sobre a natureza dos fenmenos fsicos.
UAB
128
Licenciatura em Matemtica
Figura 2: Homenagem a Alhazen em uma nota de 10 dinares iraquianos. Fonte: Wikimedia Commons.
O mundo islmico tambm produziu cientistas como o mineralogista Al-Biruni (973 - 1048) e o mdico Avicena (982 1037), que aplicaram mtodos
experimentais e usaram a matemtica, to rigorosamente, em suas pesquisas, que muitos de seus resultados esto corretos at os dias atuais.
Apesar dos trabalhos dos cientistas islmicos terem sido traduzidos para o latim desde o sculo XI, os textos foram banidos como herticos e passaram-se
vrios sculos para que os europeus, finalmente, entendessem a importncia
do mtodo cientfico. Por essa razo, no mundo ocidental, o pai do mtodo cientfico Galileu Galilei (1564 1642), que chegou a ser excomungado
por afirmar que a Terra gira em torno do Sol, como observado por ele, e no,
o contrrio, como pregado pela Igreja. Aps Galilei, muitos outros filsofos e
cientistas passaram a usar mtodos sistemticos de pesquisa, que se desenvolveram, a partir do sculo XIX, no mtodo cientfico que usamos at hoje,
incluindo o uso da Estatstica.
As Aparncias Enganam
Uma das razes para seguirmos o mtodo cientfico um fenmeno chamado vis cognitivo. O vis cognitivo um erro de julgamento causado
por fatores inerentes ao funcionamento de nosso crebro e que pode levar
a erros crassos em pesquisas cientficas.
Estatstica
129
UAB
Testes de Hipteses
Nesta aula, vamos utilizar alguns mtodos da Estatstica Inferencial como
uma ferramenta investigativa e para isso devemos primeiro entender qual
a lgica por trs da pesquisa cientfica e, por que devemos sempre tomar
cuidado ao tentar entender um fenmeno atravs de anlises de amostras.
O Mtodo Cientfico
Primeiro, devemos entender o que uma hiptese cientfica. O Mtodo
Cientfico se presta a formular e testar fenmenos falsificveis, ou testveis. Falsificvel no que dizer falso; quer dizer que, se o fenmeno, ou
UAB
130
Licenciatura em Matemtica
Estatstica
131
UAB
Testar novamente Geralmente, essa etapa feita por outros pesquisadores, mas fundamental para se compreender fenmenos complexos
ou muito dispersos.
Seguindo esses passos, o pesquisador pode responder uma pergunta relevante sobre uma populao-alvo com certo grau de confiana e pode dar
oportunidade para que outras perguntas importantes sejam feitas, elucidando fenmenos dentro daquela populao.
A Hiptese Estatstica
Para que possamos testar uma hiptese cientfica com a Estatstica, devemos fazer inferncias sobre parmetros da populao-alvo, pois isso que a
Estatstica calcula. Uma pergunta cientfica vlida pode ter diversas formas,
mas, ao ser transformada em uma hiptese estatstica, vai tomar apenas
uma forma bsica: os dados coletados vieram ou no da mesma populao?
Digamos que queremos testar a eficincia de dois filtros para chamins industriais. Nossa pergunta : a eficincia do filtro A igual do filtro B? A
varivel que vamos testar a quantidade de poluentes no ar que sai dos
filtros, que algo mensurvel.
Aps coletarmos nossa amostra, que contm o mesmo nmero de filtros A
e B, podemos usar testes estatsticos para ver se as mdias de poluentes so
iguais ou diferentes. Isso testado comparando-se as duas mdias e vendo
se poderiam ter sado de uma mesma populao.
Como vimos antes, estimamos parmetros populacionais (como a mdia ou
propores) atravs de amostras; em um teste para ver se os filtros A e B so
iguais, supe-se que A e B so parte da mesma populao. Dessa forma, se
dividirmos a amostra em dois grupos, um s de filtros A e outro s de filtros
B e estimarmos a mdia da populao com cada grupo separadamente,
ambos os grupos devem estar dentro do intervalo de confiana que contm
a mdia da populao. Os dois filtros, ento, so parte de uma mesma populao, ou seja, tm eficincia igual (fig.3).
UAB
132
Licenciatura em Matemtica
Figura 3: Mdia e disperso das amostras de filtros dos tipos A e B dentro de uma
curva normal estimada para uma nica populao.
Aqui, vemos que a mdia de poluentes saindo dos filtros A menor que a
dos filtros B, mas nem to menor assim que no sirva para estimar a mesma
mdia da populao, ou seja, a diferena ainda est dentro do intervalo de
confiana que contm a mesma mdia populacional. H vrios testes que
podem ser feitos em Estatstica com essa finalidade e seus clculos so bem
distintos, mas, basicamente, esse tipo de similaridade de parmetros estimados que calculado.
Se, por um acaso, as mdias obtidas com os grupos A e B, separadamente,
no se sobrepuserem sobre uma estimativa de mdia populacional comum,
eles no so parte da mesma populao e possuem eficincias diferentes.
Podemos perceber que os filtros A tambm deixam no ar, em mdia, menos
poluentes que os filtros B. Mas, aqui, a diferena entre mdias amostrais
to grande que no podemos estimar a mesma mdia populacional com as
duas amostras (fig. 4).
Figura 4: Mdia e disperso das amostras de filtros dos tipos A e B dentro de uma
curva normal estimada para uma nica populao.
Estatstica
133
UAB
UAB
134
Licenciatura em Matemtica
Estatstica
135
UAB
Deciso
H0 verdadeira
H0 falsa
Aceitar H0
1 : deciso correta
: erro tipo II
Rejeitar H0
: erro tipo I
1 : deciso correta
UAB
136
Licenciatura em Matemtica
Na prtica, outros valores so usados para saber o poder de um teste, incluindo o tamanho da amostra e at a diferena mxima entre as mdias
amostrais.
Estatstica
137
UAB
UAB
138
Licenciatura em Matemtica
J a regresso calcula o efeito de uma varivel x sobre uma varivel y e permite que calculemos um valor de y hipottico com base em um valor de x
que no possumos em nossa amostra. Regresses podem ser lineares ou
no e podem ser simples, quando usam apenas duas variveis, ou mltiplas,
com trs ou mais variveis. As regresses devem ser feitas em dados que
preencham as exigncias para testes paramtricos e podem ser: a distribuio normal dos dados e a varincia homognea entre os vrios pontos de
dados dentro de uma varivel.
Para se saber se a distribuio dos dados normal, so usados testes de
normalidade. H vrios testes que vo comparar a distribuio de uma varivel aleatria com a distribuio normal hipottica de uma varivel com as
mesmas medidas de tendncia central e de disperso.
Os mais conhecidos so os testes de Kolmogorov-Smirnov, o AndersonDarling e o Ryan-Joiner, e qualquer programa de computador que trabalhe
com Estatstica oferece vrias opes. Para amostras pequenas, o teste de
Kolmogorov-Smirnov para normalidade pode ser feito manualmente e h
diversos livros que explicam a tcnica, simples e laboriosa, e fornecem as
tabelas estatsticas para verificar os valores necessrios ao clculo.
Assim, a distribuio considerada normal se, para um = 0,05, o valor
de p for maior que 0,05, ou seja, h menos de 5% de chance de que a distribuio da varivel seja, significantemente, diferente de uma distribuio
normal ao acaso. Mais adiante, veremos como um programa de computador
apresenta o resultado de um teste K-S normal.
Se o resultado de um teste de normalidade diz que a distribuio da varivel
difere de uma distribuio normal, ainda podemos confirmar se a varincia
dentro da varivel homognea. Para isso, usamos um teste de homocedasticidade (homogeneidade de varincia). Os mais comuns so o teste de
Levene e o de Bartlett, tambm, facilmente, calculados por programas de
computador. Se a varivel, mesmo no normal, apresentar uma varincia
homognea, ainda possvel usar um teste paramtrico, pois os principais
clculos de testes como a regresso e a correlao de Pearson? Ideia incompleta!
Vamos agora aprender a utilizar as duas medidas de associao e entender
que devemos ser cautelosos na interpretao de seus resultados.
Estatstica
139
UAB
Correlao
A correlao mede o quanto duas variveis se alteram juntas. Uma forma
simples de comprovar se h variao conjunta entre duas variveis criar um
grfico de pontos contendo uma varivel no eixo de x e outra no eixo de y.
Agora, usando dados j vistos em uma de nossas aulas anteriores, contendo
o peso e a altura de 24 indivduos que so duas variveis que, geralmente,
mudam juntas, mesmo que uma amostra tenha indivduos mais gordinhos
ou mais magrinhos. De modo geral, quanto mais alta a pessoa, mais pesada
ela .
Ento, vamos usar os dados que citamos e pedir para o MS Excel criar um
grfico de pontos. Aps editar os eixos para que comecem um pouco abaixo
da altura e peso mnimos (clicando no eixo do grfico e em Formatar),
temos um grfico como este da fig. 5.
Podemos ver que, em geral, quanto mais alto o valor de x, mais alto o valor
de y (com exceo de alguns magrinhos e gordinhos). Podemos, ento,
ver que parece haver uma relao entre as duas variveis. Mas ser que essa
relao real? Qual a sua fora?
Para descobrir isso, devemos calcular a correlao entre essas variveis. Podemos escolher entre o mtodo paramtrico, se a distribuio normal,
ou no paramtrico, se no normal.
UAB
140
Licenciatura em Matemtica
Ento, vamos testar nossas variveis para normalidade com o programa MINITAB 14 (www.minitab.com), do qual falamos em uma aula anterior, mas
podemos usar qualquer programa de estatstica. Usando o teste K-S normal
(teste Kolmogorov-Smirnov para normalidade), podemos verificar que tanto
a altura quanto o peso tm distribuio que no difere, significantemente,
de uma distribuio normal.
Para tal, devemos organizar os dados em duas colunas, uma para cada varivel, sendo que a altura e o peso de cada indivduo devem estar na mesma
linha, pois o programa calcular a correlao linha por linha, pois cria um
grfico em que so plotados os dados da varivel contra uma linha, representando os valores esperados em uma distribuio normal.
A figura 6 apresenta um grfico do teste de normalidade para a varivel
Altura (cm).
Figura 6: Grfico do teste K-S normal para a varivel Altura (cm) criado pelo programa de computador MINITAB.
Vemos que o resultado do teste aparece em uma legenda no grfico, indicando que a mdia de 164,9 cm e o desvio padro de 10,28 cm, h 24
pontos de dados (N) e segue com os valores do teste K-S (0,088, com um
valor de P maior que 0,150). Para o alfa de 0,05, o teste indica que a distribuio da varivel no difere de uma distribuio normal. Aps realizar o
mesmo teste com a varivel Peso (kg), vemos que essa tambm tem uma
distribuio normal.
Estatstica
141
UAB
Essa frmula utiliza apenas trs valores: o total de observaes ou tamanho da amostra (n), a soma de x e a soma de y. Assim, possvel fazer
esse clculo, mesmo com grandes bases de dados, no Excel: basta selecionar
a coluna da varivel que a soma dos valores aparece no canto inferior direito
da janela.
Para calcular a correlao de Pearson no MINITAB, vamos ento clicar em
Estatsticas, Estatsticas Bsicas e Correlao. O programa baseia esse
teste na frmula acima e vai fornecer os resultados em uma caixa de dilogo
(fig. 7).
Figura 7: Caixa de dilogo do programa MINITAB, com os resultados de uma correlao de Pearson entre as variveis Altura (cm) e Peso.
UAB
142
Licenciatura em Matemtica
Estatstica
143
UAB
Os dois testes que vimos agora so correlaes lineares simples que pedem que as variveis sejam medidas em escala de razo (a correlao de
Spearman tambm permite que dados em escala ordinal sejam trabalhados).
Mas h muitos outros tipos de correlao.
Para dados ordinais, temos o coeficiente de contingncia C e o coeficiente de concordncia de Kendall. Esses testes usam tabelas de contingncia
nas quais se encontram dados agrupados por categorias ordinais. O coeficiente de correlao de Kendall tambm usado em dados ordinais. J
para dados nominais, utiliza-se o coeficiente phi, sendo os dados organizados em frequncias absolutas das categorias.
H testes que trabalham com mais de uma varivel ao mesmo tempo. Para o
clculo da correlao entre duas variveis que so afetadas por uma terceira,
usa-se a correlao parcial. Nela, podemos corrigir a correlao entre x
e y por causa da influncia de uma varivel z.
Para entender as correlaes entre vrias variveis, pode-se usar uma matriz
de correlao: se temos x, y, w e z, uma matriz de correlao vai calcular as
correlaes entre x e y, entre x e w, entre x e z, e assim por diante. Matrizes
de correlao e correlao parcial so, como a correlao de Pearson, testes
paramtricos. J a contingncia c, a concordncia e a correlao de Kendall,
e o coeficiente phi so, como o teste de Spearman, no paramtricos.
Correlaes Lineares
As correlaes lineares s so eficientes em dados que tenham associaes
lineares, como diz o nome. Se a associao , fortemente, positiva, vamos
ter um grfico como o representado na figura 9.
UAB
144
Licenciatura em Matemtica
Uma associao positiva mais fraca mostra os pontos de dados menos centralizados, mas ainda ascendentes (fig. 10).
Estatstica
145
UAB
Figura 13: Grfico de disperso xy mostrando duas variveis no associadas. O coeficiente de correlao de Pearson confirma a no associao.
Figura 14: Grfico de disperso xy mostrando uma associao no linear entre duas
variveis. O r de Pearson no detecta essa associao.
UAB
146
Licenciatura em Matemtica
Estatstica
147
UAB
Regresso
Outro teste para medir associaes entre variveis a anlise de regresso.
Devemos tomar cuidado para no confundir a regresso com a correlao.
Enquanto a correlao calculada atravs da associao de cada ponto de
dados de uma varivel com a outra (por exemplo, x1 e y1, x2 e y2, etc.), a
regresso utiliza valores ajustados atravs da tcnica de mnimos quadrados, formando uma reta (quando a regresso linear) que liga estes valores
calculados. A regresso usa os resduos, ou erros, da associao entre uma
varivel independente (o fator de predio) e uma varivel dependente (ou
resposta), fazendo com que a varivel dependente seja uma funo da independenteA grande diferena entre a correlao e a regresso que esta
usada para extrapolar os valores que temos em nossa base de dados, fazendo com que possamos prever como a varivel dependente vai se comportar, quando a varivel independente alcanar um valor ainda desconhecido.
Regresses so usadas, por exemplo, em Meteorologia e Economia, para
prever eventos que ainda no ocorreram.
A forma mais simples da regresso a da regresso linear simples, que
usa apenas uma varivel independente (x), tambm chamada varivel de
efeito, e uma dependente (y), a varivel-resposta. Esse teste de amplo uso
em pesquisas, sejam cientficas, de mercado ou de opinio e serve para entender a influncia, ou efeito, de uma varivel sobre a outra.
Assim, o grande atrativo da regresso a capacidade de fornecer uma equao que servir pra prever valores fora daqueles coletados em uma amostra,
permitindo extrapolar os valores amostrais at os limites da distribuio dos
UAB
148
Licenciatura em Matemtica
Estatstica
149
UAB
Figura 15: Tabela de variveis e caixa de dilogo para regresso linear simples, no
programa MINITAB, entre o tempo (em minutos por ms) de exposio na mdia e o
volume de vendas (em milhares) de um produto alimentcio.
Dependendo do programa, os resultados so expostos de forma, ligeiramente, diferente. O MINITAB apresenta um estudo detalhado da regresso.
Para a nossa pesquisa sobre o efeito da propaganda nas vendas, o programa
retornou a seguinte informao:
Anlise de Regresso: Vendas (milhares) x Minutos/ms
A equao de regresso :
Vendas (milhares) = 5,84 + 0, 269 Minutos/ms
UAB
150
Varivel
independente
Coeficiente
Erro padro
do coef.
Minutos/ms
0,26882
0,01087
24,72
0,000
Licenciatura em Matemtica
Regresso
611,11
0,000
Estatstica
151
UAB
Figura 16: Grfico de regresso linear, com linha de regresso, do efeito do tempo de
exposio mdia (em minutos/ms) e as vendas (em milhares de unidades) de um
produto alimentcio.
H outros tipos de regresso que podem ser aplicados para verificar a influncia de vrias variveis independentes sobre uma dependente, ou para lidar
com dados que tm associaes no lineares.
UAB
152
Licenciatura em Matemtica
Estatstica
153
UAB
Resumo
A Estatstica Inferencial se preocupa com o teste de hipteses, comparando
a distribuio de dados amostrais com uma distribuio estimada ou esperada. Para que seja vlida, essa abordagem deve seguir algumas regras metodolgicas baseadas no Mtodo Cientfico, podendo assim ser usada com
certo grau de confiana para entender relaes e efeitos entre variveis. As
medidas de associao mostram como duas ou mais variveis se relacionam.
A correlao verifica o quanto duas variveis variam juntas, existindo um
mtodo paramtrico (correlao de Pearson) e um no paramtrico (correlao de Spearman); a regresso verifica se h algum efeito da varivel x sobre
a varivel y, e permite que dados sejam extrapolados alm ou aqum dos
valores amostrais.
As medidas de associao so utilizadas em diversas reas do conhecimento,
mas se deve tomar cuidado com a interpretao dos resultados. H mtodos
de correlao e regresso para variveis mltiplas que podem ser usados
para lidar com muitas variveis ao mesmo tempo e mtodos de regresso
que permitem lidar com dados binrios e distribuies no normais.
Referncias
CHATFIELD, C.: Problem Solving A Statisticians Guide. London: CHAPMAN & HALL.
1991.
GRAFEN, A.: Modern Statistics to the Life Sciences. Oxford: OXFORD UNIVERSITY PRESS.
2002.
LEVIN, J.: Estatstica Aplicada s Cincias Humanas. So Paulo: HARPER & ROW DO
BRASIL. 1978.
LITTLE, R. J. A.: Statistical Analysis with Missing Data. New York: WILEY. 1987.
ROWNTREE, D.: Statistics Without Tears. Londres: PENGUIN BOOKS. 2000.
SPIEGEL, M. R.: Estatstica. MAKRON. 1994.
.
UAB
154
Licenciatura em Matemtica
Estatstica
155
UAB