Sie sind auf Seite 1von 155

Licenciatura em Matemtica

Estatstica
Karin Elisabeth Von Schamlz Peixoto

Instituto Federal de Educao,


Cincia e Tecnologia
de Pernambuco

Recife-PE
2010

Presidncia da Repblica Federativa do Brasil


Ministrio da Educao
Coordenao de Aperfeioamento de Pessoal de Nvel Superior - CAPES

Este Caderno foi elaborado em parceria entre o Instituto Federal de Educao,


Cincia e Tecnologiade Pernambuco - IFPE e a Universidade Aberta do Brasil - UAB

Equipe de Elaborao
Coordenao do Curso
Maria de Ftima Neves Cabral
Superviso de Tutoria
Snia Quintela Carneiro
Logstica de Contedo
Clayson Pereira da Silva
Giselle Tereza Cunha de Arajo
Maridiane Viana
Vernica Emlia Campos Freire
Coordenao Institucional
Reitoria
Pr-Reitoria de Ensino
Diretoria de Educao a Distncia
Pr-Reitoria de Extenso
Pr-Reitoria de Pesquisa e Inovao
Pr-Reitoria de Administrao e Planejamento

Diagramao
Rafaela Pereira Pimenta de Oliveira
Edio de Imagens
Vernica Emlia Campos Freire
Reviso de Contedo
Moacyr Cunha Filho
Reviso Lingustica
Ivone Lira de Arajo

Sumrio

Sumrio

Palavra do professor-autor

Apresentao da Disciplina

Aula 1

11

Aula 2

31

Aula 3

61

Aula 4

85

Aula 5

103

Aula 6

127

Palavra do professor-autor

Ol!
Eu sou Karin von Schmalz Peixoto, professora conteudista de Estatstica. Sou
graduada em Cincias Biolgicas pela Universidade Federal de Pernambuco, mestre em Zoologia pela Universidade Federal da Paraba e doutora em
Zoologia Numrica pela University of Oxford, na Inglaterra. Comecei a ver
a beleza da Estatstica ainda na graduao e, desde 1995, ministro cursos
voltados aplicao do mtodo estatstico na Biologia, Arqueologia e Cincias Sociais. Fui professora da Universidade Federal Rural de Pernambuco,
ensinando Gentica Quantitativa, e hoje sou consultora da rea, ajudando
pesquisadores, laboratrios e empresas a entender como longas listas de
nmeros podem, na verdade, deixar suas vidas mais fceis.
Espero passar a vocs a admirao e entusiasmo que tenho por este ramo
da Matemtica.
Bom estudo!

Estatstica

UAB

Apresentao da Disciplina

Caros alunos!
Vamos, a partir de agora, estudar a Estatstica, que talvez seja a face mais
popular das Cincias Matemticas, alm dos clculos bsicos que fazemos
diariamente.
A Estatstica nos ajuda a entender como nos comportamos, votamos e o
que escolhemos enquanto populao, e nos faz compreender como escolhas individuais, quando frequentes, mudam a face de uma multido.
A Estatstica nos mostra, tambm, o poder das massas e como as tendncias, quando populares, superam os interesses individuais.
Essa a ferramenta que nos permite entender as grandes quantidades, de
pessoas, eventos, opinies ou caractersticas, sem que nos percamos em
uma floresta de nmeros.
Neste curso, vamos aprender todo o necessrio para que possamos coletar
dados, analis-los atravs de mtodos estatsticos e, mais importante, interpretemos seus resultados com a confiana de entender como chegamos l.
Bons estudos!

Estatstica

UAB

Aula 1

Objetivos
Entender o que a Estatstica, quais suas origens e diferentes
abordagens;
Compreender os conceitos bsicos em Estatstica;
Aprender a fazer as aplicaes da Estatstica no estudo de populaes;
Entender os diferentes mtodos de amostragem e suas aplicaes.

Assuntos
Nesta aula, veremos como surgiu a Estatstica, quais so seus objetivos e
conceitos bsicos e quais so os mtodos utilizados na primeira etapa de um
trabalho estatstico: a amostragem.

Introduo: Breve Histria da Estatstica


O que a Estatstica?
Estatstica um ramo da matemtica aplicada que visa descrio e sumarizao das caractersticas de uma populao.
O nome Estatstica vem do latim Statisticum collegium, que significa
conselho de estado, e da palavra Statista, estadista ou poltico.
A palavra (em alemo, Statistik) foi usada pela primeira vez pelo filsofo
alemo Gottfried Achenwalt (1719-1772), em 1749, para descrever os mtodos usados pelos governos para analisar dados de censos demogrficos
e conhecer a situao econmica, social e poltica das populaes de seus
estados.

Estatstica

11

UAB

Por isso, Achenwalt considerado um dos pais da Estatstica, sendo o


primeiro a ensinar a disciplina na Universidade de Gttingen, na Alemanha,
em meados do Sculo XVIII.
De uma forma geral, a Estatstica divide-se em duas reas bsicas:
A Estatstica Descritiva que lida com a coleta, organizao, sumarizao,
descrio e apresentao dos dados representativos de uma populao. Os
resultados de uma anlise de Estatstica Descritiva so apresentados atravs
de tabelas de frequncias e grficos, como o grfico de barras e a curva de
frequncias acumuladas, que veremos mais tarde.
J a Estatstica Inferencial, tambm chamada Indutiva, lida com o teste
de hipteses e a interpretao dos fatores que afetam os dados representativos de uma populao.

Como surgiu a Estatstica?


A partir do crescimento dos grandes aglomerados humanos e da formao
de Estados, governos sentiram a necessidade de saber as caractersticas de
suas populaes.
Quantos sditos h no reino? Com quantos soldados podemos contar?
Quais as principais atividades econmicas em nossas fronteiras? Qual a posio poltica ou a religio da maioria dos habitantes? Como devemos cobrar
impostos dessa populao?
Essas perguntas so de importncia crucial para a manuteno de um governo e assim os regentes passaram a organizar grandes pesquisas, como os
censos demogrficos, na tentativa de respond-las.
Censos demogrficos so a forma mais antiga de aplicao da matemtica
na descrio de uma populao. O mais antigo censo que se tem conhecimento foi realizado pelos babilnios em 3800 AC que era atualizado a cada
seis ou sete anos, quando representantes do rei contabilizavam a populao,
o gado, os estoques de manteiga, mel, leite, l e vegetais.
No Egito, faras realizaram censos entre 3340 e 3050 AC. O primeiro censo,
documentado total e matematicamente mais elaborado, foi realizado pelos
militares do Imprio Persa no ano 500 e serviu como base para distribuio
de terras e cobrana de impostos.

UAB

12

Licenciatura em Matemtica

Governos da Grcia Antiga usavam mtodos matemticos simples para contabilizar seus potenciais exrcitos. No Oriente, imperadores chineses faziam
censos agrcolas e industriais, como os descritos por Confcio no Sculo V
a.C. No perodo medieval, o mais famoso censo realizado foi o Domesday
Book (que pode ser traduzido como o Livro do Juzo Final), encomendado,
em 1066, pelo rei Guilherme I, que havia invadido e tomado as Ilhas Britnicas, e queria saber quanta riqueza estava sobre seu comando. O relatrio
resultante ficou pronto em 1086 e at hoje, o melhor retrato da populao
britnica daquela poca (fig. 1).

Figura 1: Domesday Book, o Livro do Juzo Final do Rei Guilherme I. Fonte: Arquivo
Nacional do Reino Unido.

Mas os censos demogrficos antigos usavam, basicamente, as quatro operaes matemticas bsicas para seus fins. Usava-se a soma dos habitantes
das vilas e provncias para saber a populao geral do reino; ao se subtrair
do total as mulheres, crianas e os idosos, era possvel saber qual o tamanho
potencial dos exrcitos. Calculava-se o quanto um reino poderia produzir,
multiplicando-se a rea cultivvel total pela produo de, por exemplo, trigo ou beterraba em uma rea menor; e os impostos eram calculados pela
diviso da riqueza individual em partes iguais: uma parte era mantida pelo
sdito, outra iria para o regente.
A Estatstica, como se conhece hoje, baseia-se, principalmente, nos conceitos da Teoria das Probabilidades, que iremos ver mais adiante em nosso
curso. Com base em trabalhos anteriores que tentavam entender a nature-

Estatstica

13

UAB

za dos jogos de dados e cartas, o matemtico holands Christian Huygens


(1629-1695) foi o primeiro a descrever as propriedades probabilsticas em
um livro de 1657. A partir da, a Estatstica moderna comeou a se formar.
Muitos estudiosos citam o trabalho do demgrafo ingls John Graunt (16201674) como um dos primeiros trabalhos formais de Estatstica, apesar deste
ramo da cincia s ter se estabelecido um sculo mais tarde. Graunt (fig. 2)
utilizou os dados coletados pelos censos britnicos para preparar tabelas
de vida, em que estimava a expectativa de vida das vrias faixas etrias nas
diversas regies do pas.

Figura 2: O demgrafo John Graunt, capito do exrcito britnico. Fonte: Universidade de York, Inglaterra.

O trabalho de Gottfried Achenwall ainda era voltado ao estudo demogrfico, tanto que, alm do nome Estatstica relacionar a cincia aos dados
estatais, o termo foi traduzido para o ingls como aritmtica poltica. Apenas no sculo XIX, o termo passou a abranger a coleta, classificao e anlise
de dados de qualquer origem.
Foi durante o sculo XX, no entanto, que a Estatstica provou ser um instrumento fundamental para todas as cincias quantitativas e qualitativas.
O desenvolvimento, no incio do sculo, de frmulas matemticas especiais
para lidar com questes agrcolas, de sade pblica e de controle de qualidade industrial, entre outros, levou a Estatstica para fora de sua rea de

UAB

14

Licenciatura em Matemtica

origem e hoje ela instrumento fundamental para as cincias sociais, ambientais, mdicas, humanas e econmicas.
Ateno!
Basicamente, a Estatstica se presta a responder as perguntas
dos pesquisadores em relao a um conjunto de dados que foram coletados de uma populao.
As duas abordagens estatsticas, a descritiva e a inferencial, respondem a perguntas bem diferentes.
Abaixo esto alguns exemplos do que cada abordagem pode
investigar.
Estatstica Descritiva:
Qual o valor mnimo e mximo?
Qual o valor mais comum?
Como difere um indivduo em particular da populao como
um todo?
Quantos tipos diferentes existem?
Quais os tipos mais frequentes?
Qual evento mais provvel de ocorrer no futuro?
Estatstica Inferencial:
Como se relacionam duas caractersticas de uma populao?
H diferenas entre grupos dentro da populao?
Qual a diferena entre grupos?
Como a variao de um elemento afeta o outro?
Quais elementos tm influncia sobre uma caracterstica?
Quo forte a influncia de uma caracterstica sobre a outra?

Conceitos Bsicos
A Estatstica usa termos que estamos acostumados a usar em nosso dia-adia, como amostra, populao e dados, mas os significados desses
termos em so bem claros e, por vezes, diferentes do significado coloquial. A

Estatstica

15

UAB

seguir, veremos os termos mais comuns que usaremos em nosso curso, seus
significados e suas variaes.
Populao: Para a Estatstica, populao uma coleo completa de
pessoas, animais, plantas ou coisas da qual ns podemos coletar dados
(fig. 3). o grupo inteiro, ou universo, no qual estamos interessados e
o qual desejamos descrever ou tirar concluses sobre um aspecto em particular. De forma, ao fazer qualquer generalizao sobre uma populao,
devemos estudar, geralmente, uma amostra, que deve ser representativa da mesma, como um todo. Para cada populao h muitas amostras
possveis.
Uma amostra estatstica fornece informao sobre um parmetro correspondente da populao. Por exemplo, a mdia da amostra de um conjunto
de dados deve fornecer informao sobre a mdia geral da populao.
importante que o pesquisador defina a populao, cuidadosa e completamente, antes de coletar a amostra, incluindo uma descrio dos membros a
ser inseridos.
Um exemplo: a populao, em um estudo de sade infantil, poderia ser todas as crianas nascidas no Brasil na dcada de 90. Uma amostra seria todas
as crianas nascidas no dia seis de junho de qualquer um dos anos.

Figura 3: Uma populao. Fonte: www.freefoto.com

Amostra: Uma amostra (fig. 4) um grupo de unidades selecionado de


um grupo maior (a populao). Ao se estudar uma amostra, espera-se
que ela fornea concluses vlidas sobre o grupo maior. Pois, ela , geral-

UAB

16

Licenciatura em Matemtica

mente, selecionada, porque a populao grande demais para ser estudada por inteiro. Assim, deve ser representativa da populao em geral.
Isso , geralmente, alcanado com sucesso ao se fazer uma amostragem
aleatria, ou seja, ao acaso. Contudo, importante definir a populao
antes de fazer a amostragem, ou corre-se o risco de produzir uma amostra enviesada, ou seja, tendenciosa.
Por exemplo, se numa pesquisa sobre a qualidade da gua que a populao
de um municpio consome forem entrevistadas apenas as pessoas que moram em ruas pavimentadas, a amostra ser enviesada, pois essas residncias
tendem a ser servidas pelo sistema de abastecimento de gua tratada e no
representar os indivduos que consomem gua de poo ou outras fontes.
Mais adiante, veremos os diversos mtodos de amostragem.

Figura 4: Uma amostra da populao acima. Fonte: www.freefoto.com

Parmetro: Um parmetro um valor, geralmente, desconhecido (e o


qual deve ser estimado), usado para representar certa caracterstica de
uma populao. Por exemplo, a mdia de uma populao um parmetro que , em geral, usado para indicar o valor mdio, ou tendncia
central, de uma quantidade.
Dentro de uma populao, o parmetro um valor fixo, que no varia. Cada
amostra tirada da populao tem seu prprio valor de qualquer estatstica
que usada para estimar esse parmetro. Por exemplo, a mdia dos dados, em uma amostra, usada para dar informao sobre a mdia geral na
populao da qual foi tirada. Parmetros so, comumente, designados por
caracteres gregos (como ou ), enquanto estatsticas so designadas por
caracteres romanos (como s ou x).

Estatstica

17

UAB

Glossrio

Estatstica: com a inicial maiscula, o ramo da cincia que estamos estudando, uma estatstica o valor que calculado a partir de uma amostra de dados. usada para dar informao sobre valores (ou parmetros)
desconhecidos na populao correspondente.
Por exemplo, a mdia de um grupo de dados (estatstica) fornece informao
sobre a mdia geral (parmetro) da populao da qual se coletou a amostra.

Se usarmos as espcies de
plantas de uma rea para
descrever uma populao
(nesse caso, de vegetais),
estaremos criando uma
varivel nominal.

O tamanho dos sapatos,


apesar de representado por
nmeros inteiros, uma
varivel ordinal.

Temperatura em graus
Celsius um dos poucos
exemplos de uma varivel
intervalar.

Qualquer medida de peso


uma varivel em escala
de razo. Um objeto pode
ser duas vezes mais pesado
que outro e zero quer dizer
ausncia.

UAB

possvel tirar mais de uma amostra da mesma populao e o valor da estatstica, geralmente, vai variar de uma amostra para outra.
Varivel: Uma varivel qualquer atributo ou caracterstica medida que
difere para diferentes indivduos, ou objetos. Por exemplo, se o peso de
30 indivduos foi medido, ento o peso uma varivel. Variveis podem
ser classificadas em grupos distintos de vrias formas. Para entendermos
melhor a diferenciao dos tipos de variveis, teremos primeiro que entender as escalas de mensurao que podem ser usadas. Mais adiante,
veremos os tipos diferentes de variveis.

Escalas de Mensurao ou Nveis de Medidas


Uma das formas de se classificar as variveis de acordo com o nvel de
medida que utilizamos. H quatro nveis possveis de medidas que podemos
coletar em uma amostra, cada uma um pouco mais refinada que a anterior.
Os nveis ou escalas de medidas so a nominal, a ordinal, a intervalar e a
escala de razo.
Nominal: A mais simples medida que pode ser tomada de uma caracterstica da escala nominal. Uma varivel nominal possui classes, ou
categorias, podemos descrever um atributo de cada indivduo ou objeto. No nvel nominal, todas as categorias so iguais, ou tm o mesmo
peso. Exemplos de variveis medidas em escala nominal so o gnero
de um indivduo (masculino ou feminino), a cor de um objeto (verde,
azul, amarelo, etc.) ou a espcie de uma planta de uma rea (coqueiro,
babau, etc.). Variveis nominais fornecem frequncias em vez de medidas propriamente ditas. Por exemplo, uma populao humana pode
ter 49% de homens e 51% de mulheres; uma rea pode ter 20% de
coqueiros, 40% de palmeiras, 30% de um tipo de grama e 10% de
cajueiros. Como vemos, todas as categorias tm igual importncia e o
mesmo valor para o pesquisador.

18

Licenciatura em Matemtica

Ordinal: A escala ordinal tambm possui categorias, ou classes, e tambm vai fornecer frequncias. Mas, na escala ordinal, aparece mais uma
informao sobre as caractersticas de uma populao: o valor ou peso
das categorias cresce gradualmente, ou seja, h uma ordem de importncia das classes. Exemplos de variveis ordinais so o nvel de escolaridade (primrio, mdio, superior), o porte de um vegetal (erva, arbusto,
rvore) ou a escala de Mohs para identificar a dureza de um mineral (indo
de 1(um) para minerais macios como o talco, at 10(dez) para minerais
duros como o diamante). Apesar de classes ordinais ser organizadas em
uma ordem graduada, no fornecem informao sobre o tamanho da
diferena entre as classes. Por exemplo, na varivel ordinal classe social
(baixa, mdia e alta), a diferena entre a classe baixa e a mdia no a
mesma entre a mdia e a alta.

Glossrio
Os quatro nveis de
mensurao fornecem,
gradualmente, mais
informao com preciso
crescente. Enquanto o nvel
nominal s permite que
calculemos as frequncias
dos tipos, o nvel ordinal
j fornece a ideia de
gradao, o intervalar d o
tamanho da diferena entre
classes, e o de razo d a
ideia de ausncia.

Intervalar: Se uma varivel apresenta classes que, alm de poder ser organizadas de forma graduada, apresentam intervalos iguais entre si, essa
varivel foi medida em uma escala intervalar. Um exemplo clssico da
escala de medida intervalar a temperatura em graus Celsius: as classes
(o valor da temperatura) so, homogeneamente, distantes entre si; em
intervalos regulares. Outra caracterstica das variveis intervalares que
o valor de zero no significa ausncia da caracterstica, mas apenas
um ponto de referncia arbitrrio e valores negativos tambm podem ser
usados. Zero grau Celsius no quer dizer ausncia de temperatura, mas
um ponto de referncia, indicando a temperatura de congelamento
da gua. Outro exemplo de medida intervalar o calendrio Gregoriano
(que usamos): o Ano Zero foi estipulado pelo nascimento de Cristo e
datas anteriores so negativas, e designadas por a.C. (antes de Cristo).
Alm desses exemplos, escalas intervalares so raras.
Escala de razo: Variveis medidas em escala de razo tm as mesmas
caractersticas da escala intervalar, com a diferena que o valor de zero
significa ausncia do atributo medido. Por exemplo, na escala de temperatura Kelvin, o valor de zero, realmente, significa ausncia de temperatura: quando a -273,15 C, ou zero kelvin, no h nenhuma transferncia de energia trmica. Todas as variveis de contagem, que incluam
o valor de zero significando ausncia, so em escala de razo. Exemplos
so tamanho, peso, nmero de vezes que um evento ocorre, quantidade
de substncias, etc. A escala de razo assim chamada, porque se pode
descrever a relao entre medidas atravs de fraes: Jos pesa duas vezes mais que Maria; meu carro usa a metade da gasolina do seu; o cabelo

Estatstica

19

UAB

de Joana trs vezes mais longo que o de Josefa. Escalas de razo no


tm valores negativos.

Ferramentas do estatstico
Anlises estatsticas podem ser feitas manualmente ou com a ajuda de um
computador. Na pesquisa manual, o estatstico precisa de:
Calculadora: para facilitar o clculo das frequncias;
Papel milimetrado: para desenhar os grficos com mais preciso;
Tabelas estatsticas: contm os valores de significncia de testes de
estatstica inferencial.
Ao usar o computador, h dois tipos bsicos de programas:
Editores de planilhas: como o Excel; servem para organizar e armazenar os dados, criar grficos de frequncias e calcular algumas
estatsticas descritivas.
Programas de estatstica: Realizam tarefas complexas como testes
de significncia, criam grficos elaborados e j possuem as tabelas
estatsticas includas.
Os editores de planilhas so suficientes para a preparao de relatrios descritivos. J anlises inferenciais precisam de programas estatsticos. Usar o
computador como ferramenta estatstica permite a anlise de uma grande
quantidade de dados sem medo de cometer pequenos erros.
Os quatro nveis de mensurao fornecem, gradualmente, mais informao
com preciso crescente. Enquanto o nvel nominal s permite que calculemos frequncias dos tipos; o nvel ordinal j fornece a ideia de gradao, o
intervalar d o tamanho da diferena entre classes e o de razo d a ideia
de ausncia.

Tipos de Variveis
Como foi dito antes, podemos classificar as variveis de diversas maneiras.
Se nos basearmos nos nveis de mensurao, as variveis podem ser qualitativas ou quantitativas. Variveis qualitativas so tambm chamadas categricas e so medidas em escala nominal, ou escala ordinal no numrica
(como classe baixa, classe mdia e classe alta). Variveis quantitativas

UAB

20

Licenciatura em Matemtica

so medidas em escalas ordinal numrica, intervalar ou de razo. Por exemplo, se perguntarmos aos alunos do jardim de infncia qual a sua cor favorita, a resposta seria uma varivel categrica, ou qualitativa. Se medirmos o
tempo de resposta de cada um a essa pergunta, a varivel ser quantitativa.
Variveis quantitativas podem ser subdivididas em discretas, tambm chamadas descontnuas e contnuas.
Variveis discretas podem apresentar qualquer valor entre zero e infinito,
desde que seja um nmero inteiro. Por exemplo, se contarmos o nmero de
pessoas em cada cidade de um pas, todos os valores sero nmeros inteiros, pois no podemos ter meio habitante. Assim, as contagens em geral,
como censos e levantamentos, produzem variveis discretas.
J as variveis contnuas podem ter qualquer valor entre dois valores previamente estabelecidos, mesmo nmeros no inteiros. Por exemplo, a altura
dos soldados de um batalho pode ser qualquer medida entre as alturas
mnima e a mxima permitidas: 1,61m; 1,87m; 1,76m; etc.
Do ponto de vista da Estatstica Inferencial, podemos dividir as variveis entre
independentes e dependentes.
Variveis independentes so selecionadas e medidas pelo pesquisador na
amostra de uma populao e no so passveis de controle, ou seja, suas
variaes so aleatrias.
J as variveis dependentes tm sua variao atrelada diversificao de
uma varivel independente. Se pensarmos em termos de causa e efeito, as
variveis independentes so causa da variao de uma varivel dependente.
Um exemplo seria uma pesquisa sobre o efeito de um poluente, como o
chumbo, no peso dos peixes de um rio. No podemos controlar a quantidade de chumbo absorvida por cada peixe que pesarmos, ento a exposio
ao chumbo, medida pelo nvel do metal em cada peixe, uma varivel independente.
J o peso dos peixes o efeito da exposio ao chumbo, sendo ento a varivel dependente. Variveis independentes so chamadas, quando usamos
um programa de computador para clculos estatsticos, de fatores e as dependentes, de respostas.

Estatstica

21

UAB

Amostragem
Amostragem a parte da prtica da Estatstica que se refere seleo de
uma amostra, ou subconjunto, de observaes individuais com as quais se
pretende estimar parmetros de uma populao de interesse.
O processo de amostragem fundamental para a coleta de dados e contm
diversos estgios:
Definio da populao de interesse;
Especificao da base de sondagem, ou conjunto de itens ou eventos mensurveis;
Especificao do mtodo de amostragem para selecionar itens ou
eventos da base de sondagem;
Definio do tamanho da amostra;
Implementao do plano de amostragem;
Amostragem e coleta de dados;
Reviso do processo de amostragem.
A razo pela qual o processo de amostragem to rigoroso se deve ao fato
de que um erro nesse processo pode invalidar toda a anlise estatstica, tornando o trabalho do pesquisador intil. Como j vimos, as amostras devem
representar a populao de interesse e uma amostragem desleixada vai nos
prover uma amostra no representativa da populao, cheia de vieses que
levaro a concluses erradas.
A seguir, olharemos cada uma das etapas em maiores detalhes.
Para que se realize a prtica estatstica com sucesso, necessrio que a populao de interesse seja definida com cuidado. Uma populao pode ser
vista como um conjunto que inclui todas as pessoas, itens ou eventos que
possuem uma caracterstica que desejamos compreender. Como vimos, ,
geralmente, impossvel coletar todos os dados de toda uma populao de
interesse, ento devemos almejar a coleta de uma amostra representativa da
mesma.
s vezes, fcil definir uma populao. Em uma indstria, por exemplo, que
se deseje verificar a qualidade de uma remessa de material, que a populao da qual ser retirada a amostra. Em outras ocasies, a populao de
interesse pode ser menos tangvel e no envolver um conjunto de objetos.
Se quisermos realizar um estudo sobre o tamanho das filas de um supermer-

UAB

22

Licenciatura em Matemtica

cado durante as vrias horas do dia, ou o comportamento de um animal nas


vrias estaes do ano, o tempo vira o foco dessa populao e as amostras
devero ser coletadas dentro de determinados perodos de tempo.
Em alguns casos, a populao estudada ainda mais abstrata. Um estudo famoso, feito pelo engenheiro britnico Joseph Jagger (1830-1892) no
cassino de Monte Carlo em 1873, teve como populao o desempenho
de seis rodas de roleta. Jagger contratou seis pessoas para anotar todos os
resultados dessas seis rodas de roleta e descobriu que, em algumas delas,
alguns nmeros ocorriam com maior frequncia que outros. Assim, ele passou a apostar nos nmeros que ocorriam com maior frequncia e se tornou
conhecido como o homem que quebrou a banca em Monte Carlo. Jagger
investigou a distribuio de probabilidades dos resultados das roletas em
tentativas infinitas e assim conseguiu identificar que roletas estavam enviesadas. O mesmo se aplica a qualquer pesquisa que envolva medies repetidas
de alguma caracterstica fsica, como quando os dados de jogar so testados, ou estuda-se a condutividade eltrica de materiais.
Em certos casos, possvel ter acesso a toda uma populao de interesse,
como os materiais de uma fbrica, nos quais podemos retirar amostras de
cada lote. Em outros casos, no possvel ter acesso imediato a toda a populao, seja por que ela no conhecida, ou por que no possvel identificar
todos os indivduos. Assim, necessrio o uso de uma base de sondagem,
na qual podemos identificar todos os elementos em que podemos selecionar
qualquer um para nossa amostra.
Por exemplo, em pesquisas de opinio, podemos usar listas telefnicas como
uma base de sondagem, da qual podemos selecionar, aleatoriamente, indivduos para nossa pesquisa. Dependendo do tipo de estudo, podemos usar
mapas de ruas (de que selecionamos as ruas que sero visitadas), listas de
eleitores (para pesquisas eleitorais), listas de usurios do SUS (para pesquisas de sade), registros de crianas matriculadas em escolas pblicas (para
pesquisas sobre educao), etc. As bases de sondagem devem ser escolhidas
com cuidado para incluir toda a populao de interesse, sem que haja repeties, de modo que a amostra coletada a partir dessa base seja, realmente,
representativa da populao a ser estudada.
Aps definir a base de sondagem, o pesquisador deve escolher o mtodo de
amostragem. Como vimos, na maioria dos casos, importante que a amostra seja aleatria. Isso garante que cada um dos elementos da populao

Estatstica

23

UAB

tenha uma probabilidade maior que zero de ser escolhida, aleatoriamente,


para uma amostra. Esse tipo de amostragem chamado de amostragem
probabilstica e permite que calculemos a probabilidade exata de cada elemento da populao de ser escolhido. Tal abordagem a comumente usada
em estudos gerais, que pedem uma amostra no enviesada de uma populao, como os censos demogrficos.
A amostragem probabilstica permite que sejam calculados os erros que poderiam alterar os resultados da anlise e lev-los em considerao quando
da interpretao dos mesmos.
A amostragem no probabilstica qualquer mtodo em que alguns elementos da populao no tm nenhuma chance de serem selecionados, ou
quando no se pode calcular com preciso qual a probabilidade de seleo
dos elementos. Por causa de sua natureza no aleatria, a amostragem no
probabilstica no permite o clculo de erros de amostragem e essa abordagem deve ser especificada, quando os resultados so apresentados. Por
exemplo, se estivermos usando um mapa de ruas como base de sondagem
e formos visitar cada uma das casas das ruas escolhidas, para entrevistar a
pessoa que abrir a porta, durante o horrio de trabalho, entrevistaremos
apenas as pessoas desempregadas, excluindo todos os trabalhadores que
no faltaram. Essa uma abordagem no probabilstica, pois impossvel
calcular a probabilidade de entrevistarmos um trabalhador e assim no poderemos calcular possveis erros de amostragem.

Mtodos de Amostragem
Dentro das duas abordagens de amostragem, existem vrios mtodos que
podem ser empregados, sozinhos ou em conjunto, dependendo de fatores como a natureza e qualidade da base de sondagem, disponibilidade de
informaes auxiliares sobre os elementos da populao, necessidade de
acurcia de mensurao, nvel de detalhe da anlise e custos operacionais.
A seguir, veremos brevemente os mtodos mais comuns de amostragem,
tanto da abordagem probabilstica quanto da no probabilstica
Mtodos Probabilsticos: Em que todos os elementos tm uma probabilidade maior que zero de ser escolhidos e envolvem seleo aleatria:
Amostragem Aleatria Simples Todos os elementos da base de sondagem tm igual probabilidade de ser escolhidos para uma amostra, pois

UAB

24

Licenciatura em Matemtica

a base no subdividida ou particionada. Alm disso, qualquer par de


elementos tem a mesma chance de seleo que outro, o que minimiza
o risco de um vis na amostra. No entanto, esse mtodo vulnervel a
erros de amostragem, pois uma amostra pode no representar a constituio da populao. Por exemplo, uma amostra de uma populao
humana pode no representar a real proporo entre homens e mulheres
de uma populao. Tal mtodo pode ser inadequado para populaes
muito grandes.
Amostragem Sistemtica Envolve organizar a populao-alvo em algum sistema de ordenao antes de selecionar os elementos, em intervalos, atravs da lista ordenada.
Nesse mtodo, o incio da lista aleatrio, mas selecionam-se os ele, em que:
mentos em intervalos k, definidos pela frmula
N = tamanho da populao;
n = tamanho da amostra.
importante que o incio da lista seja aleatrio e no seja escolhido
o primeiro elemento, o que tiraria o carter probabilstico do mtodo.
Amostragens sistemticas no podem ser usadas em bases de sondagem
que possuem alguma periodicidade, pois se o valor k for um mltiplo ou
fator do valor de periodicidade da lista, o mtodo torna-se menos acurado que a amostragem aleatria simples.
Amostragem Estratificada Usada quando a populao possui categorias distintas, dentro das quais a base de sondagem pode ser organizada,
criando estratos separados. Cada estrato ento amostrado como
uma populao independente, no qual elementos so escolhidos aleatoriamente.
Um exemplo seria a estratificao da populao estudantil por sries,
sendo as amostras coletadas, aleatoriamente, dentro de cada srie. Esse
mtodo oferece vantagens quando a base de sondagem permite que
os elementos sejam estratificados, desde que haja pouca variabilidade
dentro dos estratos e grande variabilidade entre os estratos. Na, prtica,
algumas vezes, esse mtodo pode ser mais oneroso que a amostragem
simples.

Estatstica

25

UAB

Mtodos no probabilsticos: Quando no h probabilidade de se escolher alguns membros da populao, ou quando outras variveis ligadas aos
elementos afetam a probabilidade de que sejam escolhidos.
Amostragem em cotas A populao separada em grupos, mutuamente, excludentes, como na amostragem estratificada, mas a etapa seguinte no aleatria, pois alguns elementos so excludos da amostra.
Exemplos comuns so as pesquisas de opinio que abordam um nmero
determinado de homens e mulheres (os estratos), mas em que pessoas
com aparncia simptica so mais frequentemente entrevistadas do
que as que parecem antipticas. As amostras podem se tornar enviesadas nesse caso e seu uso, por misturar uma abordagem aleatria com
uma no aleatria, motivo de controvrsia.
Amostragem Acidental Nesse mtodo, a amostra colhida da parte
da populao que est mais prxima, ou disponvel, ao pesquisador. Tambm chamada de amostragem de convenincia. Muito utilizada em
pesquisas socioculturais, a amostra no representativa da populao
e no possvel estimar parmetros populacionais gerais a partir dela.
Ainda assim, um mtodo til para pesquisas-piloto, que verificam a
viabilidade da pesquisa antes que a coleta de dados vlida seja iniciada.
Amostragem em Bola-de-neve Nesse mtodo, entrevista-se uma
pessoa aleatoriamente, que se refere a um amigo que tambm entrevistado e recomenda outro amigo, assim por diante. comumente usada
nas pesquisas de mercado, quando se est interessado em entender a
aceitao de um produto dentro de determinados grupos sociais.
Alm dos mtodos probabilsticos e no probabilsticos mais comuns, vrios
mtodos j foram desenvolvidos para enderear problemas encontrados em
pesquisas especficas. Casos especiais so comuns nas cincias experimentais, em que os elementos so conhecidos e em pequeno nmero (como
ratos de laboratrio, por exemplo). Por exemplo, quando testando um novo
medicamento em animais de laboratrio, a amostra contm todos os animais
usados, sendo assim no aleatria. Nesse caso, devem-se controlar todas as
variveis possveis dos elementos, para examinar possveis efeitos cruzados
que alterariam ou confundiriam os resultados da pesquisa.

UAB

26

Licenciatura em Matemtica

Os dados da amostra, uma vez coletados, devem ser organizados em bases


de dados, que serviro para a anlise estatstica. A pesquisa estatstica conta, basicamente, de seis etapas distintas:
1) Coleta de dados: Nessa fase, define-se qual a populao de interesse
e toma-se cuidado para que o mtodo de coleta fornea uma amostra que
represente a populao.
2) Avaliao dos dados: Antes de iniciar os trabalhos estatsticos propriamente ditos, os dados devem ser avaliados quanto a possveis erros de coleta, falhas e lacunas.
3) Descrio dos dados: Aps verificar-se que os dados so vlidos, podese descrever a amostra atravs de estatsticas descritivas.
4) Anlise dos dados: Quando testando hipteses, clculos especficos podem ser usados para anlises inferenciais.
5) Apresentao dos dados: Tanto as estatsticas descritivas quanto as inferenciais podem ser representadas por grficos, que tm impacto maior na
hora de se explicar os resultados da pesquisa. A descrio de uma amostra
tambm deve ser feita atravs de tabelas.
6) Anlise dos resultados: As estatsticas descritivas devem ser suficientes
para descrever uma populao atravs da amostra coletada; os resultados
podem ser interpretados dentro dos limites de qualidade dos dados. Estatsticas inferenciais devem ser interpretadas com mais cuidados, mas podem
servir para ilustrar as interaes complexas entre fatores presentes em uma
populao.
Na prxima aula, veremos como utilizaremos, na prtica, os conceitos e mtodos que vimos aqui, e comearemos a trabalhar, matematicamente, os
dados.
At l!

Estatstica

27

UAB

Resumo
A Estatstica um ramo da Matemtica que surgiu da necessidade dos governos de conhecer suas populaes. Hoje uma cincia fundamental para
campos to diversos quanto as Cincias Econmicas e Sociais, a Medicina e
a pesquisa cientfica, a indstria e o comrcio.
Os conceitos bsicos da Estatstica so conhecidos coloquialmente, mas tm
significados bem especficos dentro desse ramo do conhecimento, incluindo
palavras comuns como amostra, populao e varivel.
A primeira etapa de uma pesquisa estatstica envolve a coleta de uma amostra que represente uma populao de interesse, em que caractersticas especficas dos indivduos, as variveis, serviro para se calcular os parmetros
populacionais.
H duas abordagens bsicas de amostragem: a probabilstica, onde todos
os elementos de uma populao tm uma probabilidade maior que zero
de ser escolhidos para uma amostra, e a no probabilstica, na qual essa
probabilidade igual a zero para alguns elementos, ou no pode ser calculada. H mtodos probabilsticos e no probabilsticos de amostragem, que
podem ser usados isoladamente ou em conjunto, para evitar problemas com
a validade da amostra.
Cara Colega, o resumo deve conter todo teor da aula, de forma concisa
e objetiva, para facilitar o ensino/aprendizagem do (a) aluno (a).Agradece,
Ivone Lira (revisora lingustica e textual).

Referncias
LEME, R. A. DA S.: Curso de Estatstica Elementos. Rio de Janeiro: AO LIVRO TCNICO.
1967.
LEVIN, J.: Estatstica Aplicada s Cincias Humanas. So Paulo: HARPER & ROW DO
BRASIL. 1978.
SPIEGEL, MURRAY R, Estatstica. MAKRON. 1994.

Estatstica

29

UAB

Aula 2 - Distribuio de Frequncias

Objetivos
Aprender a descrever as frequncias absolutas e relativas em
uma amostra;
Compreender as medidas de tendncia central de uma populao e como determinar essas estatsticas em uma amostra;
Entender as medidas de disperso de uma varivel e como medir
as estatsticas em uma amostra;
Aprender a usar as ferramentas estatsticas do Excel da Microsoft.

Assuntos
Nesta aula vamos entender como podemos descrever a distribuio de uma
amostra, usando tcnicas simples, que fornecem uma viso geral dos dados
coletados. Sendo a amostra vlida e representativa de uma populao, a
estatstica descritiva permite que sejam estimados os parmetros populacionais. Vamos entender o que significam as estatsticas amostrais e como calcul-la atravs de frmulas ou usando um editor de planilhas como o Excel.

Introduo
Os mtodos de amostragem, que vimos na nossa primeira aula, nos permitem coletar dados confiveis que sero representativos de uma populao
de interesse. Com esses dados amostrais, poderemos calcular suas estatsticas e assim estimar os parmetros da populao. Mas a coleta de dados
apenas o primeiro passo de uma pesquisa estatstica e os passos seguintes
so cruciais para que um estudo tenha validade.
O principal objetivo de uma pesquisa dessa natureza descobrir como os
dados esto distribudos, ou seja, quais so os valores extremos, que valores

Estatstica

31

UAB

ocorrem mais frequentemente e que intervalos de valores englobam a maior


parte da populao. Para descrever uma distribuio de frequncias, o pesquisador necessita organizar os dados de uma forma prtica, tornando mais
fcil o trabalho de calcular a repetio de ocorrncia dos eventos em questo. Para isso, preciso organizar tabelas de frequncias, grficos e planilhas
de anlise, de que possam ser retirados os valores necessrios para o clculo
das estatsticas amostrais.

Tabelas de Frequncias
O primeiro passo de um pesquisador, que pretende descrever uma populao atravs de uma amostra, descobrir a distribuio dos dados amostrais.
Pode-se descrever uma amostra atravs de tabelas de frequncia ou de
grficos.
Uma tabela de frequncia uma forma de organizar os dados, listando todos os valores possveis como uma coluna de nmeros e a frequncia de
ocorrncia de cada valor como outra.
Assim, para se calcular a frequncia absoluta de um valor ou categoria,
deve-se apenas contar quantas vezes cada um desses valores ou categorias
aparece em um grupo de dados. Na maioria dos casos, devemos incluir valores que no aparecem no conjunto de dados, que iro ser assinalados com a
frequncia absoluta de zero. Isso importante para se entender a populao
atravs de uma amostra.
Por exemplo, se estamos estudando a frequncia da cor de olhos em uma
populao e ningum tem olhos azuis, essa informao relevante e deve
ser includa, pois azul uma cor de olhos possvel nos humanos.
Ao criarmos uma tabela de frequncias, entendemos a distribuio de frequncias dos valores de uma varivel, ou seja, quantas vezes cada valor ou
classe aparece na amostra que estudamos.
Logo, a distribuio de frequncias importante para entendermos no apenas quantas vezes cada valor ou classe de uma varivel representado, mas
fornece informao sobre a amplitude de variao dessa varivel e sobre a
natureza dessa variao, como veremos mais tarde.

UAB

32

Licenciatura em Matemtica

Criando uma tabela de frequncias


Vamos imaginar que um fabricante de sapatos femininos quer saber quais
os tamanhos deve fabricar para suprir a demanda em uma cidade como,
digamos, Recife. Para isso, ele coleta uma amostra do tamanho dos ps das
mulheres da cidade, perguntando a vinte mulheres qual o nmero de seus
sapatos e consegue os seguintes valores (tabela 1):
Tabela 1: Tamanho dos sapatos de 20 mulheres de Recife PE.

37

35

36

37

34

38

39

37

36

35

37

36

38

33

34

36

37

37

35

36

Digamos que o fabricante tem, em sua linha de produtos, uma numerao


de sapatos femininos que vai do 32 ao 40. Para ajudarmos ao fabricante,
devemos organizar os dados que ele coletou em relao s linhas de sapatos
femininos que j tem.
Vamos, ento, criar uma tabela de frequncias, usando os nmeros disponveis em sua fbrica e contaremos quantas vezes esses nmeros ocorrem na
amostra que ele coletou na cidade (tabela 2):
Tabela 2: Frequncias absolutas dos nmeros de sapatos usados por 20 mulheres da cidade de Recife PE.

Estatstica

Nmero do sapato

Frequncia absoluta (f)

32

33

34

35
36
37

3
5
6

38

39

40

Total

20

33

UAB

Podemos logo avisar ao fabricante de sapatos que, na amostra que ele coletou, no h nenhuma mulher que calce sapatos 32 ou 40, e que o tamanho
mais comum o 37. O fabricante, ento, nos pergunta qual a proporo de
cada nmero de sapatos que deveria fabricar, para que no tenha nmeros
pouco procurados, encalhados em suas lojas.
Podemos responder a sua pergunta, calculando as frequncias relativas
dos tamanhos de sapatos da amostra, em valores proporcionais expressos
em propores (que vo de 0 a 1) ou porcentagens (que vo de 0 a 100).
Assim, acrescentaremos mais uma coluna na tabela que j vimos (tabela 3):
Tabela 3: Frequncias absolutas e relativas dos nmeros de sapatos de 20
mulheres de Recife PE.
Nmero do sapato

Frequncia absoluta (f)

Frequncia relativa (fr)

32

33

0,05

34

0,1

35

0,15

36

0,25

37

0,3

38

0,1

39

0,05

40

Total

20

As frequncias relativas so calculadas como se calculam propores: dividese a frequncia absoluta da classe em questo pelo total de dados da amostra. Mas, se quisermos representar as frequncias absolutas em porcentagens, s multiplicar a proporo por 100.
Assim, teramos a tabela de frequncias representada um pouco diferente
(tabela 4):

UAB

34

Licenciatura em Matemtica

Tabela 4: Frequncias absolutas e frequncias relativas proporcionais e percentuais dos nmeros de sapatos de 20 mulheres de Recife PE.
Nmero do sapato

Frequncia absoluta (f)

Frequncia relativa (%)

32

33

34

10

35

15

36

25

37

30

38

10

39

40

Total

20

100

Nosso amigo fabricante ficar feliz em saber que 30% das mulheres da
amostra calam sapatos tamanho 37, que 25% calam 36 e assim por diante. Ento, poder ajustar a sua produo para atender a demanda do mercado.
Outra forma de representar a distribuio das frequncias atravs das frequncias acumuladas ou cumulativas. Para se conseguir isso, devemos
apenas somar as frequncias absolutas ou relativas de cada classe com a
seguinte. Esse tipo de representao tem diversas aplicaes que veremos
nas prximas aulas, mas, de forma geral, serve para termos uma ideia de
onde a maioria dos valores se encontra. No exemplo que estamos usando,
poderamos acrescentar uma coluna de frequncias relativas acumuladas
nossa tabela (tabela 5):
Tabela 5: Frequncias absolutas, relativas proporcionais e percentuais, e frequncias cumulativas percentuais dos nmeros de sapatos de 20 mulheres
de Recife PE.

Estatstica

35

UAB

Nmero do sapato

Frequncia
absoluta (f)

Frequncia
relativa (%)

Frequncia
cumulativa (F)

32

33

34

10

15

35

15

30

36

25

55

37

30

85

38

10

95

39

100

40

100

Total

20

100

100

Para o fabricante de calados, relevante saber que 95% das mulheres da


cidade calam sapatos de nmero 38 ou menor. Se precisar reduzir a produo, ele no ter grandes prejuzos se parar, temporariamente, de fabricar
nmeros maiores que 38.
O tamanho do calado, que utilizamos no exemplo, uma varivel em escala ordinal. Os nmeros dos sapatos no so representativos de uma medida,
como centmetros, mas so categorias criadas em cima de medidas. Se os
fabricantes de sapatos fossem usar centmetros como base para seus produtos, seria impossvel cobrir toda a variao milimtrica que encontramos nas
pessoas. Assim, foram criadas medidas relativas que podem ser usadas por
pessoas com tamanhos de ps prximos, mas no, necessariamente iguais.
Por isso, s vezes, um calado do nmero que usamos, normalmente, no
fica perfeito. Os tamanhos de calados so categorias que podem ser ordenadas por ordem de tamanho (o 36 menor que o 37, etc.), mas a diferena
entre os tamanhos no exatamente igual.
Quando lidamos com variveis medidas em escala de razo, fica muito
difcil criar tabelas de frequncias. Uma forma, que temos para lidar com
isso, classificar os dados de uma varivel contnua, em escala de razo, em
intervalos que cobriro toda a variao encontrada na amostra.
Vamos imaginar que um mdico decidiu ver a frequncia da altura dos soldados de um batalho do exrcito. Ele mediu um soldado a cada cinco que

UAB

36

Licenciatura em Matemtica

passavam em frente porta do consultrio e assim, conseguiu uma amostra


aleatria (tabela 6). No fim do dia, ele tinha a altura, em metros, de 30 soldados.
Tabela 6: Altura, em metros, de 30 soldados de um batalho do Exrcito
Brasileiro.

1,81

1,61

1,75

1,84

1,67

1,60

1,77

1,66

1,61

1,75

1,72

1,62

1,94

1,72

1,62

1,80

1,74

1,68

1,83

1,70

1,88

1,85

1,79

1,73

1,76

1,73

1,65

1,69

1,65

1,80

Vemos que h dois soldados medindo 1,61m, dois com 1,72m, etc. Mas a
maioria das medidas ocorre uma s vez. Assim, se fssemos criar uma tabela
de frequncias como a que fizemos com o tamanhos dos sapatos, teramos
um monte de medidas com a frequncia absoluta de 1 e no chegaramos
a qualquer concluso. Desse modo, podemos criar intervalos de medidas
que cubram a variao das medidas e ainda assim nos d uma ideia de qual
intervalo de altura o mais frequente no batalho. Devemos, em primeiro
lugar, verificar qual o valor mnimo e mximo, e assim, decidiremos quantas
classes de intervalos sero criadas.
Digamos que seria interessante fazer um intervalo de cinco centmetros: o
primeiro cobriria alturas de 1,60m at 1,649m (o mdico no mediu com
essa acurcia, mas devemos deixar bem claro, quais so os limites de nossos
intervalos); o segundo, de 1,65m at 1,699m; o terceiro iria de 1,70m at
1,749m, e assim por diante. Nossa tabela de frequncias ficaria assim (tabela
7):
Tabela 7: Frequncias absoluta, relativas e cumulativa da altura de 30 soldados do Exrcito Brasileiro, em intervalos de 5 cm.

Estatstica

37

UAB

Frequncia
absoluta

Frequncia
relativa

Frequncia
relativa (%)

Frequncia
cumulativa (%)

0,17

17

17

1,65 1,699

0,2

20

37

1,70 1,749

0,2

20

57

1,75 1,799

0,17

17

74

1,80 1,849

0,17

17

91

1,85 1,899

0,06

97

1,90 1,949

0,03

100

30

100

100

Altura (m)
1,60 1,649

Total

Veremos na prxima aula como podemos montar grficos, usando as tabelas


de frequncia e como essas informaes podem nos ajudar a entender uma
populao que estamos estudando.

Como apresentar uma tabela de frequncias


H regras bem estabelecidas sobre como uma tabela de frequncias deve ser
apresentada em um trabalho acadmico ou relatrio profissional.
Uma tabela deve ser apresentada com um ttulo explicativo do seu contedo e deve ser, devidamente, numerada dentro do trabalho. Tambm no
ttulo, entram as notas que elucidam detalhes de abreviaturas ou mtodos
utilizados.
No cabealho, vo as informaes sobre os dados contidos nas colunas,
verticais. A primeira coluna denominada coluna indicadora e contm informao sobre os dados contidos nas linhas, horizontais. O corpo da coluna formado pelas clulas, que so a intercesso entre as linhas e colunas.
No rodap, deve-se indicar a fonte da informao, quando necessrio.
O formato usado deve ser o de duas barras, separando o cabealho e uma
linha contendo a tabela na parte inferior. Se usarmos uma linha final para
indicar totais, deve ser destacada e separada por duas barras, como o cabealho. No editor de texto Word, da Microsoft, deve-se usar o formato
Tabela clssica. Verifiquem a tabela 7, acima, para ver como o formato
final deve ser.

UAB

38

Licenciatura em Matemtica

Tal formato deve ser usado em toda a extenso de um relatrio ou trabalho


acadmico, tendo-se o cuidado com a numerao das tabelas apresentadas.
Esse o primeiro passo para um bom trabalho descritivo de Estatstica aplicada a qualquer rea do conhecimento.

Medidas de Tendncia Central


Como vimos, podemos descrever uma amostra representativa de uma populao atravs das frequncias das classes, ou valores, de uma varivel,
criando uma distribuio de frequncias. Para entendermos a distribuio
dos dados de uma varivel, precisamos resumir a varivel em medidas que
representem seus valores centrais e sua amplitude.
Assim, temos as medidas de tendncia central, que representam os valores centrais de uma distribuio e as medidas de disperso, que representam sua amplitude, as quais estudaremos mais tarde.
As medidas de tendncia central so medidas da localizao do meio ou
centro de uma distribuio. A definio de meio ou centro deixada
um tanto quanto vaga de propsito, de modo que o termo tendncia central pode se referir a uma larga variedade de medidas.
A mdia aritmtica a medida de tendncia central mais comum e a que
estamos mais acostumados a usar: das nossas notas em uma disciplina at
notcias nos jornais, fala-se sempre nessa medida. As outras duas medidas
de tendncia central so a mediana e a moda.

Mdia aritmtica
A mdia aritmtica , simplesmente, a soma de todos os nmeros dividida
pela quantidade dos mesmos. O smbolo (a letra grega mu) usado para
representar a mdia de uma populao, que um parmetro. Os smbolos
(pronunciado xis barra) ou M representam a mdia de uma amostra, que
uma estatstica.
A frmula para a mdia aritmtica a mesma para uma amostra ou populao, muito simples. Abaixo, podemos ver a frmula da mdia aritmtica
de uma amostra ( ):

Estatstica

39

UAB

Em que x a soma de todos os nmeros, ou valores, em uma amostra e n


a quantidade de nmeros, ou valores, nessa amostra.
Por exemplo, a mdia dos nmeros 1, 2, 3, 6 e 8 igual a 4, pois a soma dos
cinco nmeros 20, ento 20/5 = 4.
Podemos coletar dados sobre o nmero de chutes a gol de cada um dos 31
times de um campeonato de futebol (tabela 8); os dados esto no quadro
abaixo, organizados do maior para o menor valor:
Tabela 8: Nmero de chutes a gol de 31 times de futebol durante um campeonato.

37

33

33

32

29

28

28

23

22

22

22

21

21

21

20

20

19

19

18

18

18

18

16

15

14

14

14

12

12

Com esses valores, podemos calcular a mdia de chutes a gol dos times nesse campeonato, usando a frmula acima:

Mas devemos prestar ateno quando o uso da mdia aritmtica vlido


e o quanto ela representa a realidade. Sabemos que o nmero de chutes
a gol uma varivel descontnua, ou seja, no existem nmeros decimais,
apenas inteiros. No possvel que exista meio chute a gol. Devemos, ento,
lembrar que o valor 20,4516 uma aproximao da realidade, j que esse
valor no inteiro.
A mdia aritmtica, obviamente, no pode ser usada em variveis categricas, pois no podemos somar, por exemplo, azul, vermelho e verde.
Para valores contnuos, que possuem nmeros no inteiros (como altura ou
peso), a mdia aritmtica muito mais acurada, representando um valor
possvel de ocorrer. Em muitos casos, a melhor medida de tendncia central
para uma varivel discreta, como a acima, no a mdia, mas uma das outras medidas que veremos a seguir.

UAB

40

Licenciatura em Matemtica

Mediana
A mediana tambm uma medida de tendncia central, frequentemente,
usada. o ponto central de uma distribuio: se ordenarmos os dados, h a
mesma quantidade de valores acima da mediana e abaixo dela. Se usarmos,
novamente, os dados dos chutes a gol dos times em um campeonato, no
quadro acima, sabemos que h 31 valores. O 16 valor mais alto, que corresponde a 20, a mediana, pois h 15 valores maiores e 15 valores menores
que ele. Assim, a mesma divide a amostra em duas partes iguais.
A mediana independe da amplitude da amostra. Por exemplo, se temos os
valores: 1, 23, 54, 76, 190, 379 e 1098, a mediana ser 76, pois h trs
valores menores e trs maiores que esse nmero. Ainda, na srie 1, 16, 53,
76, 82, 90 e 92, ela ser 76, pois tambm h trs valores maiores e menores
que ele.
No primeiro exemplo, a amplitude dos dados maior, indo de 1 a 1098.
No segundo exemplo, vai apenas de 1 a 92. Em ambos os casos, a amostra
consiste de sete nmeros, com o valor de 76 caindo, exatamente, no meio
da distribuio.
A mediana, no entanto, dependente do tamanho da amostra, pois divide
a distribuio em duas partes iguais. Quanto maior a amostra, mais alta a
posio da mesma.
Para calcularmos a mediana, devemos organizar os dados por ordem de
tamanho. Se tivermos uma amostra com um nmero mpar de dados, ela
ser aquele, exatamente, do meio. E a sua posio pode ser calculada pela
frmula:

Em que Me a mediana e n o nmero de dados em uma varivel.


Por exemplo, na distribuio 11, 12, 13, 16, 17, 20 e 25, a mediana igual
a 16, pois o valor que est, exatamente, no meio da distribuio:
4a posio.
Mas ateno: essa frmula serve para localizar a posio da mediana e no,
o seu valor que se encontrar na posio indicada pela frmula, quando os
dados forem organizados em ordem crescente.

Estatstica

41

UAB

Se o nmero de dados da amostra par, a mediana o ponto da distribuio que antecedido e precedido por igual nmero de dados, mesmo que
seu valor especfico no figure entre os dados, pois em um nmero par de
dados, h dois valores centrais. Por exemplo, na distribuio 11, 12, 13, 16,
17, 20, 25 e 26, podemos usar a frmula acima:

Isso significa que a mediana se encontra entre o quarto e o quinto valor da


srie, que na quarta posio 16 e na quinta, 17. E para ach-la , tiramos a
mdia aritmtica desses dois valores:

Assim, a mediana da srie 16,5, apesar desse valor no existir na srie em


questo.
O fato de a mediana ser uma posio a torna inadequada para certas bases
de dados. Por exemplos, para a srie 1, 2, 3, 100, 200, 300, a mediana seria
3+100/2 = 51,5, o que a deixa muito mais perto dos valores menores da
srie e bem distante dos maiores.
J a mdia aritmtica seria 606/6 = 101 e d uma ideia mais adequada desse
grupo de dados. A mediana ideal, no entanto, para descrever a tendncia
central de um grupo de dados proporcionais ou em porcentagem, j que
esses ficaro entre 0 e 1 ou 0 e 100.

Moda
A terceira ltima medida de tendncia central a moda, que consiste simplesmente no valor que ocorre mais frequentemente.
Assim, no nosso exemplo, l em cima, dos chutes a gol dos 31 times em um
campeonato d futebol, a moda 18, pois, pois quatro dos 31 times fizeram
18 chutes a gol. Para dados contnuos, que possuem valores decimais, muito difcil que se encontrem vrios valores iguais, e geralmente acabamos com
vrios valores da frequncia de ocorrncia 1, ou seja, cada valor s ocorre
uma vez. Nesses casos, o que se pode fazer agrupar os dados em intervalos
e criar uma distribuio de frequncias agrupadas.
Vejamos um exemplo: um pesquisador mediu o tempo de resoluo de 20
alunos para um quebra-cabea. Os valores, medidos em segundo, variaram

UAB

42

Licenciatura em Matemtica

entre 500 e 1100, e nenhum aluno resolveu o quebra-cabea, exatamente, no mesmo tempo. Assim, podemos criar uma distribuio de frequncia
agrupada (tabela 9).
Tabela 9: Frequncia absoluta dos intervalos de tempo de resoluo de um
quebra-cabea, em segundos, por 20 alunos de uma escola.

Amplitude de tempo (segundos)

Frequncia absoluta

500 599

600 699

700 799

800 899

900 999

1000 1100

Nessa amostra, a amplitude de tempo que contm o maior nmero de registros a de 600 a 699 segundos, com seis estudantes resolvendo o problema
nesse intervalo de tempo. A moda estar no meio do intervalo e corresponder a 650 segundos.
A moda a nica medida de tendncia central que pode ser utilizada em
dados categricos, nominais ou ordinais no numricos. Moda quer dizer
apenas o que mais comum, e assim, o termo estatstico tem um significado
bem diferente do sentido coloquial da palavra.
Enquanto no nosso dia-a-dia, os estilistas criam peas exclusivas que poucas
pessoas vo usar e chamam isso de moda, j a moda estatstica o que a
maioria das pessoas est vestindo. Assim, calas jeans e camiseta formam a
moda estatstica na maioria dos pases ocidentais.

Medidas de disperso
Vimos como podemos verificar quais os valores mais comuns em uma varivel, usando as medidas de tendncia central. Mas sem sabermos algo sobre
como os dados esto dispersos, as medidas de tendncia central podem dar
uma impresso errada da varivel.

Estatstica

43

UAB

Por exemplo, uma rua residencial h 20 casas com um valor mdio de R$


200.000,00, mas com pouca variao entre os preos, seria muito diferente
de uma rua cujas 20 casas tm o mesmo valor mdio, mas que trs casas
valem R$1.000.000,00 e as outras 17 custam cerca de R$ 60.000,00.
As medidas de disperso do uma viso mais completa e nos fazem entender melhor o tamanho da variao dos dados. Elas incluem a amplitude, o
desvio mdio, a varincia e o desvio padro.

Amplitude
A mais simples medida de disperso a amplitude que calculada, simplesmente, tomando-se a diferena entre os valores mximo e mnimo do
conjunto de dados.
No entanto, a amplitude s fornece informao sobre os valores extremos e
no diz nada sobre os valores entre eles, ou seja, se a variao homognea
ou se os valores esto mais agrupados prximos aos extremos. Ela usada
apenas para ilustrar o intervalo de valores dentro do qual um grupo de dados
se encontra.

Desvio mdio
Para se ter uma melhor compreenso da distribuio dos dados em uma
amostra, os valores residuais so utilizados para calcular o quanto cada
ponto de dados est afastado dos valores esperados em uma distribuio.
Esses resduos podem ser calculados com base nas diferenas entre cada
ponto de dados e a mdia, ou atravs de valores estimados atravs de, por
exemplo, um clculo de regresso, que veremos mais tarde.
Um mtodo para calcular o desvio, ou resduo, em uma amostra o desvio
mdio, que calcula a diferena mdia entre cada ponto de dados (cada valor da varivel) e a mdia dos pontos de dados, e a divide pelo nmero de
dados.
Ao se fazer esse clculo, no entanto, o resultado ser um desvio igual a zero,
pois os valores acima da mdia iro cancelar aqueles abaixo. Se esse mtodo
for usado, o valor absoluto da diferena deve ser medido, de modo, que
apenas valores positivos so obtidos e o resultado chamado de desvio
mdio absoluto:
ou

UAB

44

Licenciatura em Matemtica

Em que:
= desvio mdio absoluto;
= cada ponto de dados;
= mdia da amostra;
n = total de pontos de dados na amostra.
O desvio mdio no difcil de calcular e tem certo apelo intuitivo.
No entanto, quando utilizado para anlises estatsticas subsequentes, os
clculos matemticos se tornam muito complexos, pois a maior parte dos
teoremas estatsticos se baseia na minimizao da soma dos resduos ao
quadrado, em vez da soma dos resduos absolutos. Por causa dessa complexidade, o desvio mdio no , comumente, usado como uma medida de
disperso.

Varincia
Uma maneira de resolver o problema que o desvio mdio apresenta usar a
varincia como medida de disperso.
A varincia de uma varivel uma medida de disperso estatstica que tira a
mdia da distncia ao quadrado entre todos os valores possveis e a mdia
aritmtica da varivel. Desse modo, todos os valores so positivos e a unidade da varincia o quadrado da unidade da varivel.
Para usarmos a medida de disperso mais comum, o desvio padro, que
veremos a seguir, precisamos primeiro calcular a varincia.
A varincia de uma populao um parmetro representado por
ncia de uma amostra representada por s2.

; a vari-

Geralmente, trabalhamos com amostras que representam uma populao;


por isso, devemos usar a frmula da varincia amostral:

Estatstica

45

UAB

Lemos a frmula como o somatrio da diferena entre cada valor e a mdia,


ao quadrado, dividida pelo nmero de valores, menos um.
O clculo da varincia resolve um problema que o desvio mdio apresenta,
que o de criar valores residuais muito diversos. A aplicao da potncia
quadrtica funciona como se utiliza um logaritmo, homogeneizando as diferenas quando forem calculadas outras estatsticas, como o desvio padro,
que veremos a seguir. Por esse motivo, a medida de disperso usada como
base na maioria dos clculos estatsticos, inclusive em anlises avanadas.
Vamos aplicar essa frmula a um exemplo. Queremos entender quantos
quilos de detritos so produzidos em mdia pela indstria de tecelagem. Coletamos informao de dez tecelagens e conseguimos a seguinte amostra,
em toneladas de detritos por ano (tabela 10).
Tabela 10: Toneladas de detritos produzidos, por ano, em dez tecelagens.

60

74

58

61

56

55

54

57

65

42

Vamos, ento, produzir uma tabela para calcular a varincia.


O primeiro passo calcular a mdia. A soma dos valores de nossa amostra
582. A mdia ser 582/10 + 58,2. A partir desse resultado, podemos calcular
a diferena entre cada valor e a mdia. Por exemplo, se subtrairmos a mdia
do primeiro nmero, 60, teremos 1,8.
As fbricas, que produziram menos que 58,2 toneladas de detritos por ano,
tero desvios da mdia com valores negativos; esse o problema que vimos
sobre o uso do desvio mdio como uma medida de disperso: se somarmos
todos os valores da coluna preenchida, a soma ser zero.
Mas sabemos que, se multiplicarmos um valor negativo por ele mesmo, ou
seja, se o fazemos ao quadrado, esse valor se tornar positivo. Por exemplo,
(-0,02) x (-0,02) = 0,04. Vamos ento preencher a ltima coluna e fazer a
soma dos desvios ao quadrado que precisamos para calcular a varincia (tabela 11).

UAB

46

Licenciatura em Matemtica

Tabela 11: Desvio da mdia e desvio da mdia ao quadrado da produo de


detritos em dez tecelagens.

Detritos
(Toneladas/ano)

Desvio da mdia
(Xi - )

Desvio da mdia ao
quadrado (Xi - )2

60

1,8

3,24

74

15,8

249,64

58

-0,2

0,04

61

2,8

7,84

56

-2,20

4,84

55

-3,20

10,24

54

-4,20

17,64

57

-1,20

1,44

65

6,8

46,24

42

-16,20

262,44

Mdia: 58,2

Soma: 603,60

Agora que temos a soma de todos os desvios da mdia ao quadrado e sabemos que (n-1) = 10-1 = 9, podemos substituir os termos da frmula:

Nesse caso, como vimos, a unidade da varincia uma quantidade ao quadrado. Dizemos, ento, que a varincia na quantidade de detritos produzida
pelas indstrias da tecelagem de 67,07 toneladas por ano ao quadrado.
Quando calculamos a varincia de uma populao, usamos a mesma frmula. A diferena que usaremos a mdia da populao (), que um parmetro, em vez da mdia amostral ( ), que uma estatstica.

Desvio Padro
A varincia d a ideia da amplitude da distribuio, mas como seu resultado
um valor ao quadrado, precisamos saber qual o desvio da mdia em geral,
usando uma unidade igual unidade da varivel.

Estatstica

47

UAB

No nosso exemplo, precisamos saber qual o desvio geral da mdia em toneladas de detritos por ano. Assim, devemos usar o desvio padro, cujo resultado dado na mesma unidade da varivel.
O desvio padro , simplesmente, a raiz quadrada da varincia, sendo representado por , quando representando um parmetro populacional, ou por
s, quando representando uma estatstica amostral. Novamente, usaremos a
estatstica amostral como exemplo em nossa frmula:

A raiz quadrada anula a potncia de dois, ento temos o desvio padro.


Seguindo o exemplo que usamos at agora, teremos:

Podemos ento dizer que, usando nossa amostra de indstrias de tecelagem, a quantidade mdia de resduos de 58,2 toneladas por ano e o desvio padro de 8,19 toneladas por ano. Para resumir, ns apresentamos os
resultados da seguinte forma: a quantidade mdia de resduos da indstria
de tecelagem de 58,2 8,19 toneladas por ano.
Quando apresentamos os resultados dessa forma, damos duas ideias bsicas: uma a da tendncia central da varivel, dada nesse caso pela mdia. A
outra a ideia de disperso, fornecida pelo desvio padro.
Com estas duas medidas, estamos descrevendo a maioria dos dados que
analisamos. De volta ao nosso exemplo, se subtrairmos o desvio padro da
mdia, teremos o valor de 50,01 toneladas/ano; se somarmos os valores, o
resultado de 66,39 toneladas/ano. Vamos ver quanto dos nossos dados
esto entre 50,01 e 66,39:
42 54 55 56 57 58 60 61 65 74
Nesse caso, subtraindo ou adicionando o desvio padro, a mdia suficiente
para cobrir 80% dos dados. Por isso, o formato s ou serve bem
para descrever os dados de uma amostra ou populao.

UAB

48

Licenciatura em Matemtica

Estatstica no Excel
Os programas de computador podem economizar muito tempo de uma pesquisa estatstica e os editores de planilhas so ideais para a organizao das
bases de dados.
Alguns desses editores servem apenas como base para que sejam listados os
dados, para depois serem transferidos a programas estatsticos, que realizam
os clculos. Outros editores possuem funes que permitem o clculo de
estatsticas bsicas, como as medidas de tendncia central e de disperso. O
mais popular dos editores de planilhas o Excel da Microsoft, que apresenta
vrias funes estatsticas.
muito provvel que a maioria de vocs j esteja familiarizada com esse programa, que em muito facilita a vida de quem trabalha com nmeros. Criado,
inicialmente, para a rea financeira, os editores de planilhas como o Excel
so hoje utilizados em todas as reas do conhecimento que apresentem
dados quantificveis.
A seguir, veremos como criar uma pequena base de dados no Excel e como
calcular as principais estatsticas de uma amostra.
O primeiro passo criar um novo arquivo. A primeira linha ser sua linha de
ttulo, conter o nome e a unidade de medida das variveis. (figura 1).

Figura 1: Aparncia de um novo arquivo no editor de planilhas do Excel.

Estatstica

49

UAB

A partir da linha 2, comece a colocar os valores da varivel, uma clula para


cada indivduo e uma abaixo da outra. Se houver mais de uma medida de
cada indivduo, usam-se as colunas seguintes, sempre mantendo os valores
para um mesmo indivduo na mesma linha (figura 2).

Figura 2: Planilha de Excel contendo a altura (em cm), o peso (em kg) e a cor dos
olhos de 12 indivduos.

Os dados inseridos nas planilhas de Excel podem ser, facilmente, organizados


em ordem crescente ou decrescente, permitindo que, em um lance, possamos ver que caractersticas so mais frequentes, ou mesmo qual o intervalo
(amplitude) de dados numricos. Para isso, devemos selecionar toda a tabela
(pois se selecionarmos apenas a varivel, s ela ser classificada) e usar a
ferramenta classificar dados (Dados => Classificar) para organiz-los em
ordem crescente ou decrescente. Temos a opo de avisar ao programa se
temos ou no uma linha de cabealho (figura 3).

UAB

50

Licenciatura em Matemtica

Figura 3: Usando a ferramenta Classificar dados do Excel para ordenar, alfabeticamente, os dados pela varivel Cor dos olhos.

A ordenao dos dados importante em vrios testes estatsticos, como as


chamadas correlaes de postos. Mesmo que eles no sejam realizados
pelo Excel da Microsoft, a simples ordenao automtica dos dados j remove a fase mais demorada desse tipo de teste.

Medidas de tendncia central no Excel


Podemos calcular as medidas de tendncia central com a ajuda do programa
Excel, de forma rpida e fcil.

Mdia aritmtica
O Excel possui um sistema de frmulas que podemos utilizar. Por exemplo,
para calcular a mdia da altura dos indivduos da tabela vista na figura 2,
devemos ir at o fim da coluna em questo e digitar a seguinte frmula:
=mdia(b2:b13)
O Excel reconhece o sinal de = como um aviso que vamos usar uma frmula e, entre parnteses, devemos inserir o intervalo de clulas que contm
a varivel, separado por dois pontos. No caso, da clula 2 da coluna B (b2)
at a clula 18 da coluna B (b18)( figura 4).

Estatstica

51

UAB

Figura 4: Calculando a mdia de uma varivel no Excel.

O programa, automaticamente, calcula a mdia dos dados em questo, bastando para isso que pressionemos a tecla enter. O valor da mdia aparecer, de forma automtica, na clula em que escrevemos a frmula (figura 5).

Figura 5: O valor da mdia da varivel Altura (cm) calculado, automaticamente,


pelo Excel.

UAB

52

Licenciatura em Matemtica

Mediana
Agora, usando a mesma tabela, vamos calcular a mediana para a altura dos
indivduos. H uma frmula para isso e seu comando, no Excel, MED.
Assim, para que possamos calcular a mediana de nossa varivel, devemos
escrever, em uma clula livre, a frmula =med(b2:b13), como pode ser
visto na figura 6.

Figura 6: A frmula para a mediana no Excel.

Novamente, pressionando-se a tecla enter, o valor da mediana , automaticamente, calculado (figura 7).

Figura 7: A mediana dos valores de altura de uma amostra com 20 indivduos.

Estatstica

53

UAB

Moda
Para calcular a moda, vamos usar a varivel categrica nominal cor dos
olhos, que possui trs classes (azul, castanho e verde) e est representada
na figura 2.
Como fizemos para a organizao dos dados, vamos selecionar toda a tabela e pedir que o programa classifique os dados pela varivel cor dos olhos,
da mesma forma como foi vista naffigura 3. Com as classes ordenadas, podemos, facilmente, contar qual a classe mais abundante. Castanho a moda
para a cor dos olhos dos indivduos da amostra, com sete indivduos, em
uma amostra de 12, apresentando olhos castanhos ffigura 8).

Figura 8: Dados nominais ordenados permitem a identificao da classe modal no


Excel.

Varincia e desvio padro com Excel


Podemos usar o Excel para calcular a varincia de uma varivel bem rapidamente; isso muito til, principalmente, com grandes bases de dados. O
Excel possui um comando para calcular a varincia: VAR. Ento, vamos usar
nosso exemplo da altura de um grupo de indivduos, com a mesma tabela
que estamos utilizando, inserindo a frmula =var (b2:b13) em uma clula
livre ffigura 9).

UAB

54

Licenciatura em Matemtica

Figura 9: A frmula para calcular a varincia em Excel.

Novamente, o valor calculado, automaticamente, ao se pressionar enter


ffigura 10).

Figura 10: A varincia dos valores de altura de uma amostra com 20 indivduos.

H duas maneiras de se calcular o desvio padro a partir de agora: podemos, simplesmente, tirar a raiz quadrada da varincia em uma calculadora
comum, ou podemos aplicar o comando DESVPAD no Excel ffigura 11).

Estatstica

55

UAB

Figura 11: A frmula do desvio padro no Excel.

A vantagem de se utilizar a frmula na planilha do Excel que podemos ter


todos os clculos em um nico luga (ffigura 12). No h problema se terminamos com uma sequncia de valores, aparentemente, desconhecidos abaixo de nossos dados, pois, quando selecionamos a clula, a frmula utilizada
aparece na caixa de funo (fx) no alto da janela do Excel.

Figura 12: O desvio padro dos valores de altura de uma amostra com 20 indivduos.

UAB

56

Licenciatura em Matemtica

Em nossa base de dados, estudamos a varivel Altura (cm) e verificamos


que, em nossa amostra, os indivduos tinham uma altura mdia de 164,17
11,38 cm. Podemos, rapidamente, calcular as mesmas estatsticas para a
varivel Peso (kg), ou qualquer outra, em outras bases de dados, com a
ajuda dos comandos e frmulas do MS Excel.

Resumo
As medidas de tendncia central so a mdia aritmtica, a mediana e
a moda, e do uma ideia em que est a maioria dos dados ou onde cai o
meio da distribuio, assim:
a mdia aritmtica influenciada pelos valores extremos;
a mediana apenas a posio do valor central e no sofre influncia dos
valores extremos;
a moda a classe mais comum em um grupo de dados.

A mdia aritmtica serve como tendncia central de muitos tipos de dados,


desde que a distncia entre eles seja, relativamente, homognea. Em bases
de dados cujos valores esto agrupados mais aos extremos, a mediana se
torna mais apropriada; essa medida tambm ideal para variveis proporcionais ou em porcentagem. A moda usada para variveis categricas ou
dados contnuos agrupados.
As medidas de disperso do a ideia da amplitude da distribuio, que ,
simplesmente, a distncia entre o menor e o maior valor.
O desvio mdio parece ser adequado para descrever a amplitude, mas os
clculos complexos necessrios a seu uso o tornam inadequado para anlises
estatsticas.
A varincia d o desvio ao quadrado da mdia; calcula-se o desvio padro,
a partir desse valor, que a medida de disperso mais usada em anlises
estatsticas descritivas.
A mdia e o desvio padro juntos do uma boa ideia de como uma varivel: sabemos onde esto a maioria dos dados e o quanto eles variam. O
formato s a maneira mais comum de resumir uma varivel.

Estatstica

57

UAB

Referncias
LEME, R. A. DA S.: Curso de Estatstica Elementos. Rio de Janeiro: AO LIVRO TCNICO.
1967.
LEVIN, J.: Estatstica Aplicada s Cincias Humanas. So Paulo: HARPER & ROW DO
BRASIL. 1978.
SCHMULLER, J.: Statistical Analysis with Excel. Hoboken: Willey Publishing Inc. 2009.
SPIEGELRRAY R, Estatstica. MAKRON. 1994

UAB

58

Licenciatura em Matemtica

Estatstica

59

UAB

UAB

60

Licenciatura em Matemtica

Aula 3 - Representaes grficas

Objetivos
Conhecer a apresentao visual de dados amostrais e sua aplicao na pesquisa estatstica;
Aprender a construir os tipos mais comuns de representaes
grficas na Estatstica;
Conhecer alguns tipos de grficos para variveis mltiplas;
Usar o Excel na elaborao de grficos.

Assunto
Nesta aula, veremos como possvel representar um conjunto de dados
amostrais visualmente, de forma a permitir uma rpida compreenso da
informao coletada. Veremos os formatos de grficos mais comuns para representar uma nica varivel e algumas maneiras de trabalhar com mltiplas
informaes visveis, assim como aprenderemos a aplicar esse conhecimento
nas pesquisas estatsticas.

Introduo
Uma forma simples de sumarizar uma varivel atravs das representaes
grficas. Grficos e diagramas ajudam a visualizar os dados imediatamente - entende-se, de pronto, a distribuio das frequncias, ajudando-nos a
reconhecer padres j existentes.
H dezenas de possveis representaes grficas na Estatstica. Nesta aula, no
entanto, vamos nos ater s formas mais utilizadas em relatrios e trabalhos
acadmicos, de forma a permitir a descrio adequada de dados amostrais.
O uso de grficos em trabalhos estatsticos cresceu a partir da popularizao
dos computadores: grficos que eram, penosamente, desenhados a mo

Estatstica

61

UAB

podem ser feitos, hoje em dia, em segundos, e com possibilidades infinitas


de cores e formas. Porm, h um lado bom e um lado mau no uso crescente
de representaes grficas.
No lado bom, os grficos fceis de fazer incentivam a importncia da anlise
exploratria. No mau, existe o uso excessivo de recursos visuais mais sofisticados, como animaes, dimenses mltiplas, muitas cores, texturas e
formas originais. O embelezamento excessivo das representaes estatsticas
grficas timo para uma apresentao de negcios, mas pssimo para a
Cincia, por distrair a ateno dos valores reais.
H uma regra muito simples no uso de grficos: fazer tudo o mais simples
possvel. Poucas linhas, cores padronizadas e uma apresentao limpa so
muito mais eficazes para apresentar dados cientficos.
Logo, devemos lembrar que dados de uma pesquisa devem ser entendidos e
necessitam ser representados o mais precisamente possvel. Qualquer resultado extrado de um grupo de dados , igualmente, importante, ento no
h necessidade de distrair o leitor com cores e formas.
As representaes grficas de uma varivel, geralmente, envolvem a apresentao de frequncias de distribuio, que podem ser agrupadas ou cumulativas. Mais adiante, no curso, veremos o uso das representaes de dados
brutos na Estatstica Inferencial. Para a anlise descritiva de um grupo de
dados, os mtodos de representao visual incluem:
Grficos de barras e de torta;
Grficos de frequncia contnua e histogramas;
Polgonos de frequncia absoluta e curva de frequncia acumulada;
Diagramas do tipo ramo e folha.
Nos prximos itens vamos aprender a construir cada um deles.

Grficos de barras e torta


Grficos de barras e tortas so o tipo mais comum de representao estatstica. Esse tipo de sumrio grfico permite uma visualizao imediata
das frequncias de ocorrncia de dados categricos. Para dados ordinais, a
representao em um grfico de barras fornece uma compreenso instan-

UAB

62

Licenciatura em Matemtica

tnea sobre a distribuio, enquanto o grfico de torta nos permite ver o


tamanho das fatias de cada categoria nominal prontamente.
A, neste tipo de representao so usados dados categricos (nominais e
ordinais podem ser usados diretamente; mas os contnuos precisam ser separados em intervalos) com frequncias absolutas.
Vamos, ento, representar, em um grfico de barras, os dados de uma varivel nominal. Estamos interessados em saber qual candidato seria eleito como
representante estudantil de uma universidade, e para isso, entrevistamos
573 alunos de um total de 5000, ou seja, um pouco mais de 10% dos eleitores em potencial. Descobrimos que 54 votariam em Jos, 167 em Maria,
198 em Joo, 89 em Ana e 65 em Robert.
Agora que nossos dados foram quantificados, podemos criar um grfico de
barras. Primeiro, devemos criar a rea do grfico. Nela temos o eixo de x, na
horizontal, que vai conter as classes de materiais dentro da varivel e o eixo
de y, vertical, graduado de forma a representar as frequncias absolutas de
cada classe.
Em seguida, desenhamos as barras correspondentes a cada classe; o tamanho da barra limitado pela repetio de cada classe. Todo grfico deve
ser acompanhado de uma legenda, detalhando o tamanho da amostra e
de onde vieram os dados (fig. 1). A frequncia absoluta de cada categoria
tambm pode ser exibida.

Figura 1: Frequncias absolutas das intenes de votos para a eleio de um representante estudantil de uma universidade (n = 573).

Estatstica

63

UAB

Nesse caso, a varivel nominal, portanto podemos ordenar as categorias


no eixo de x da forma que quisermos. Se a varivel fosse ordinal, a ordem
das categorias tambm dever ser mantida no grfico. A grande vantagem
desse tipo de grfico a visualizao imediata da categoria mais frequente;
no caso, sabemos, imediatamente, qual o candidato que possui mais intenes de voto.
Outra forma de se representar esse tipo de dados atravs do grfico de
torta (fig. 2). A grande diferena entre o grfico de barras e o de torta
que o ltimo representa dados proporcionais: os 360 do crculo representam 100% e cada fatia representa a proporo que cada categoria tem
nesses 100%:

Figura 2: Frequncias relativas das intenes de votos para a eleio de um representante estudantil de uma universidade (n = 573).

Os grficos de torta so perfeitos para comparar as diferenas de frequncias entre diferentes amostras, especialmente, se elas tm tamanhos diferentes. Por exemplo, se estivssemos pesquisando eleies estaduais ou
nacionais, poderamos comparar os resultados entre os municpios, mesmo
que as amostras fossem respectivamente de 330, 240, 159 e 58 eleitores.
Para fazer, manualmente, um grfico de torta, devemos transformar as frequncias absolutas em relativas e da em graus. Isso muito simples: se

UAB

64

Licenciatura em Matemtica

100% = 360, ento 1% =


. Assim, seguindo nosso exemplo anterior,
vamos construir uma tabela (tabela 1).
Tabela 1: Frequncias absolutas e relativas das intenes de votos para a
eleio de um representante estudantil de uma universidade (n = 573) e seus
equivalentes em graus ().

Candidato

Fr. absoluta

Fr. relativa (%)

Graus ()

Jos

54

9,42

33,93

Maria

167

29,14

104,92

Joo

198

34,55

124,40

Ana

89

15,53

55,92

Robert

65

11,34

40,84

Total

573

100

360

Com o uso do compasso e do transferidor, podemos desenhar o grfico de


torta e colorir as fatias a gosto.

Grficos de barras contnuas e histogramas


Esses dois tipos de representao so utilizados para sumarizar intervalos ou
escalas de razo, ou seja, variveis contnuas. Medidas como altura, peso ou
comprimento podem ser representadas assim, dando ideia do padro geral
da distribuio. O nmero de casas decimais usadas, nesses casos, depende do nvel de detalhe necessrio e da acurcia da medio, mas de forma
geral, variveis contnuas possuem valores que aparecem apenas uma vez.
Assim, antes de comear os grficos, devemos criar intervalos de valores,
como fizemos com o tempo de resposta de estudantes a um quebra-cabea
na aula anterior. O grfico de barras contnuas daqueles dados teria a aparncia vista na fig. 3.

Estatstica

65

UAB

Figura 3: Histograma de frequncias absolutas dos intervalos de tempo de resoluo


de um quebra-cabea, em segundos, por 20 alunos de uma escola.

A diferena entre o grfico de barras contnuas e um histograma a mesma


que entre um grfico de barras e um de torta: o grfico de barras contnuas
criado em cima de frequncias absolutas e o histograma, das relativas, ou
proporcionais. A principal caracterstica do histograma que a soma das
reas de suas barras vai sempre ser 1, o que igual a 100%.
Vamos imaginar que coletamos informao sobre o comprimento das espigas de uma variedade de milho. Aps medirmos 30 espigas, chegamos
tabela 2.
Tabela 2: Tabela de frequncias absoluta e relativa dos intervalos de comprimento, em centmetros, de 30 espigas da variedade A de milho.

UAB

66

Licenciatura em Matemtica

Tamanho da espiga (cm)

Fr. absoluta

Fr. relativa

15 16,9

0,07

17 18,9

0,2

19 20,9

10

0,33

21 22,9

0,3

23 24,9

0,1

Total

30

Com as frequncias relativas, podemos construir um histograma (fig. 4).

Figura 4: Histograma de frequncias relativas dos intervalos de comprimento, em


centmetros, de 30 espigas da variedade A de milho.

A vantagem dos histogramas a mesma do grfico de torta: podemos colocar, lado a lado, informaes vindas de amostras com tamanhos diferentes,

Estatstica

67

UAB

pois os dados esto representados em propores. No se poderia fazer isso


com um grfico de barras contnuas a no ser que as amostras fossem do
mesmo tamanho.

Polgonos e curvas de frequncia


Outra forma de apresentar frequncias, graficamente, atravs dos polgonos e curvas de frequncia. O polgono de frequncia pode ser usado quando no h intervalos entre os valores e, basicamente, um grfico cujos
pontos so conectados por uma linha. Por exemplo, digamos que estamos
tentando descobrir o nmero de moradores em 109 apartamentos de um
conjunto residencial. Os resultados que encontramos esto na tabela 3.
Tabela 3: Tabela de frequncias absolutas do nmero de moradores em 109
domiclios de um conjunto habitacional.

Nmero de moradores por domiclio

Nmero de domiclios

17

30

26

17

13

Total

109

O polgono de frequncia pode ser construdo tanto com frequncias absolutas quanto relativas. Contudo, nesse caso, usaremos, apenas, as absolutas
(fig.5).

UAB

68

Licenciatura em Matemtica

Figura 5: Polgono de frequncias absolutas do nmero de moradores em 109 domiclios de um conjunto habitacional.

Podemos representar os mesmos dados em uma curva de frequncias acumuladas. Desta vez, vamos usar frequncias relativas e vamos somar cada
valor com o anterior, como vimos nas aulas passadas. Adicionaremos, ento,
mais duas colunas nossa tabela, criando a tabela 4.
Tabela 4: Tabela de frequncias absoluta, relativa e acumulada do nmero de
moradores em 109 domiclios de um conjunto habitacional.

Nmero de
espcies vegetais

Nmero de lotes

Fr. relativa
(%)

Fr. acumulada
(%)

17

15,60

15,60

30

27,52

43,12

26

23,85

66,97

17

15,60

82,57

13

11,93

94,50

5,50

100

100

100

6
Total

Estatstica

6
109

69

UAB

O grfico resultante ser uma curva de frequncias acumuladas, como vista


na fig. 6.

Figura 6: Curva de frequncias relativas acumuladas do nmero de moradores em


109 domiclios de um conjunto habitacional.

Esse tipo de grfico , extremamente, til para comparar distribuies ordinais entre amostras de tamanhos diferentes e para entender onde est a
maioria dos dados. Curvas cumulativas so muito usadas em avaliaes ambientais, no controle de qualidade, em avaliaes de segurana e em estudos
sobre populaes humanas.

Diagramas de ramo e folha


Todas as representaes grficas anteriores perdem informao, pois no
representam todos os valores reais de uma varivel, e sim, os sumariza e
agrupa de forma a dar uma viso geral dos dados.
Os diagramas de ramo e folha, s vezes, chamados dendrogramas, (apesar desse termo tambm ser usado para outros diagramas, especialmente
em Lingustica e Biologia), preservam os valores individuais dos dados.
Outra vantagem dos diagramas de ramo e folha que eles podem ser
montados manualmente, ou com o auxlio de uma mquina de escrever ou
processador de texto, sem a necessidade de planilhas ou programas estatsticos.
Vejamos um exemplo: coletamos a emisso de dixido de carbono de 35
indstrias (em toneladas por ano) e conseguimos os seguintes dados:

UAB

70

Licenciatura em Matemtica

48
48
43
48
38

57
49
40
53
35

66
48
44
43
30

48
47
40
43
38

50
57
34
25
38

58
40
42
45
28

47
50
47
39
27

Para criar o diagrama, devemos separar os valores em dois dgitos. Escrevemos os dgitos das dezenas verticalmente, formando o ramo:
2
3
4
5
6
Depois acrescentamos os dgitos que sobraram (as unidades) nas fileiras correspondentes: so as folhas:
2| 5
3| 0
4| 0
5| 0
6| 6

7
4
0
0

8
5 8 8 8 9
0 2 3 3 3 4 5 7 7 7 8 8 8 8 8 9
3 7 7 8

Todos os dados esto expostos no diagrama. Se quisermos, tambm colocaremos dois ramos para cada dezena: um conter as folhas de 0 a 4, e
o outro, de 5 a 9:
2|
2| 5
3| 0
3| 5
4| 0
4| 5
5| 0
5| 7
6|
6| 6

7
4
8
0
7
0
7

8
8 8 9
0 2 3 3 3 4
7 7 8 8 8 8 8 9
3
8

Estatstica

71

UAB

Alm desse tipo de diagrama permitir que observemos, imediatamente, quais


os valores mais repetidos, pode-se usar a informao para outros tipos de
anlises ou representaes, pois a amostra j est totalmente representada.

Grficos com informaes mltiplas


s vezes, necessrio que se represente mais de uma informao em um
nico grfico, seja por que desejamos verificar se h alguma influncia entre
duas caractersticas de um mesmo elemento de uma populao, ou por que
queremos representar como duas ou mais caractersticas so afetadas por
uma determinada variao de condies.
Grficos mais complexos, baseados nos tipos que vimos at agora, podem
ser usados para representar duas ou mais amostras de uma mesma populao. Por exemplo, se quisermos visualizar a variao do nmero de moradores, em cada domiclio de um conjunto habitacional atravs dos anos,
podemos usar um polgono de frequncia como o da figura 5 e criar linhas
separadas para cada ano estudado (fig.7).

Figura 7: Polgonos de frequncias absolutas do nmero de moradores em 109 domiclios de um conjunto habitacional nos Censos de 2000, 2005 e 2010.

A mesma tcnica pode ser usada com grficos de barras ou curvas de frequncia, usando os dados sobre uma mesma varivel de amostras obtidas de
populaes diferentes, ou da mesma populao em momentos diferentes,
como o grfico acima.
At agora, nossos grficos apresentam, no eixo de y, a frequncia absoluta
ou relativa da ocorrncia de uma caracterstica, ou seja, estamos represen-

UAB

72

Licenciatura em Matemtica

tando apenas uma varivel. Para representar as relaes entre duas ou mais
variveis, x e y vo representar duas caractersticas que se encontram em um
indivduo, ou elemento, da amostra.
Por exemplo, podemos usar um grfico de disperso para verificar a relao
entre duas variveis. Digamos que pesamos e medimos 12 alunos de uma
sala de aula e gostaramos de saber se, como era esperado, os alunos mais
pesados so tambm os mais altos.
Ento, usamos do eixo de x para a altura e o de y para o peso, e criamos um
grfico com doze pontos, cada um representando um aluno (fig. 8).

Figura 8: Relao entre altura (em kg) e peso (em cm) de 12 alunos de uma escola
municipal.

fcil perceber pelo grfico da figura 7 que, de forma geral, quanto mais
alto um aluno, mais pesado ele , mesmo que a relao entre as duas variveis no seja perfeita. Quanto mais dados apresentamos em um grfico de
disperso, ou seja, quanto maior a amostra, mais visualmente clara se torna
a existncia, ou no, de uma relao entre as variveis.
Temos que nos lembrar que, cada ponto em um grfico de disperso um
elemento ou indivduo da amostra; assim, se n = 250, haver 250 pontos em
um grfico de disperso xy. Voltaremos a falar desse tipo de grfico e de sua
interpretao, quando abordarmos Regresso.

Estatstica

73

UAB

Os grficos em caixas ou boxplots so muito teis para visualizar subgrupos dentro de uma amostra. Digamos que tenhamos medido a altura dos
indivduos em um grupo de 13 mulheres e 13 homens (n = 26) e gostaramos
de visualizar uma possvel diferena na disperso e tendncia central da altura em cada um dos gneros.
Podemos, ento, criar um grfico boxplot, usando o eixo de y para a altura
em centmetros e o eixo de x para as duas categorias de interesse: mulheres
e homens.
Assim, o grfico criado traando-se uma linha vertical sobre cada categoria
que vai do menor ao maior valor para cada categoria, marcando os extremos
da disperso. A partir dessa linha, marcado um ponto da medida da tendncia central escolhida e marca-se, a partir da medida central, um valor de
medida de disperso acima e abaixo dela.
Por exemplo, se usarmos a mdia, ento marcaremos na linha a mdia e o
desvio padro positivo e negativo; se usarmos a mediana, usaremos o primeiro e o terceiro quartis (um quartil se consegue, dividindo a distncia entre
a mediana e os extremos em dois).
A partir dessas medidas, desenha-se uma caixa limitando onde a maioria
da populao se encontra. O grfico visto na fig. 9 ilustra como, em nossa
amostra, h uma diferena aparente na distribuio das alturas entre mulheres e homens, sendo eles, geralmente, mais altos.

Figura 9: Boxplot das alturas, em cm, de 13 mulheres e 13 homens; a linha central


marca a mediana.

UAB

74

Licenciatura em Matemtica

Sendo uma representao geral, o boxplot mais indicado para amostras


grandes, e normalmente usado para ilustrar anlises de varincia. Em trabalhos gerais, ou quando a amostra , relativamente, pequena, uma forma
de representar a diferena entre subgrupos, sem perder nenhuma informao o grfico de valores individuais.
Nele, cada valor (no nosso caso, cada indivduo) marcado como um ponto,
formando uma linha vertical sobre cada categoria do eixo de x. Os dados
usados no grfico da figura 9, se apresentados em um grfico de valores
individuais, apresentam-se como visto na figura 10.

Figura 10: Grfico de valores individuais da altura, em cm, de 13 mulheres e 13 homens. O losango representa a mdia.

possvel representar a mdia desvio padro, ou a mediana e o primeiro


e terceiro quartis (Q1 e Q3), usando smbolos, como o da mdia acima, ou
linhas horizontais curtas.
H dezenas de outros grficos mltiplos para representar a relao entre variveis ou observar diferenas dentro de subgrupos amostrais e muitos deles
so utilizados em conjunto com testes estatsticos especficos.
Vrias anlises fazem uso de grficos tridimensionais (com os de eixos x, y e
z), como pesquisas de geografia, geologia, cartografia e oceanografia que
usam a estatstica espacial. Os tipos apresentados aqui, no entanto, so os
mais comumente usados para descrever dados.

Estatstica

75

UAB

Representaes grficas no Excel


O Excel tem uma funo para criar grficos, o Assistente de grfico (um
cone com um grfico no alto da barra de tarefas, direita). H vrios grficos que podem ser criados com essa funo, desde que a tabela usada para
cri-los esteja, adequadamente, preparada. Mas alguns deles no podem ser
preparados pelo Excel e dependem de programas de estatstica mais sofisticados, porm, possvel ilustrar um relatrio de estatstica descritiva usando
apenas o Excel.
O primeiro passo para criar um grfico no Excel selecionar os dados que
queremos representar. Geralmente, isso feito, movendo as teclas direcionais enquanto se pressiona a tecla shift, at que se cubra a rea desejada
(fig. 11). No necessrio incluir sempre o ttulo das colunas, uma vez que
essa informao pode ser includa depois.

Figura 11: Tabela de Excel com a frequncia de inteno de votos em uma eleio
para representante estudantil; a rea selecionada ser usada para confeccionar um
grfico.

Em seguida, clicamos no cone do assistente de grfico (fig. 12), e assim


abriremos uma caixa de dilogo da funo.

UAB

76

Licenciatura em Matemtica

Figura 12: Assistente de grficos no Excel da Microsoft.

A caixa de dilogo do Assistente de Grfico oferece uma grande variedade


de formatos pr-estabelecidos, alm de permitir formatos personalizados.
Por exemplo, se queremos fazer um grfico de barras (no Excel, chamado
de colunas; o de barras orientado horizontalmente), clicamos no cone
correspondente (fig. 13).

Figura 13: Caixa de dilogo do Assistente de Grfico no Excel da Microsoft.

Estatstica

77

UAB

H vrias opes de representao, desde a mais simples, que vamos fazer,


at aquelas que comportam dois conjuntos de dados ou tm barras tridimensionais. Vamos escolher a apresentao mais simples, que a recomendada na maioria dos relatrios estatsticos ou trabalhos acadmicos (fig. 14).
As apresentaes mais, visualmente, sofisticadas, com efeitos de textura,
tridimensionais, etc., so, de modo geral, usadas em brochuras comerciais e
em jornais e revistas.

Figura 14: Segunda etapa da criao de um grfico de colunas no Excel da Microsoft.

Podemos editar o grfico, acrescentando a legenda dos eixos, removendo


legendas laterais desnecessrias, retirando linhas verticais, etc. (fig.15). H
inmeras opes de edio e apenas a prtica com esse programa de computador permite explorar todas as possibilidades.

UAB

78

Licenciatura em Matemtica

Figura 15: Editando um grfico de colunas no Excel da Microsoft.

Depois de concludo, ainda podemos editar o grfico, mudando cores e legendas. E o mesmo pode ser salvo na prpria planilha do Excel (fig. 16) ou
em uma nova planilha. Assim, sempre que a tabela original dos dados for
modificada, o grfico ser, automaticamente, atualizado. Se ele for copiado
e colado em um documento de Word, tambm existe a opo de atualizao
automtica, desde que os dois documentos estejam associados.

Figura 16: Grfico de barras (colunas) preparado pelo Excel da Microsoft.

Estatstica

79

UAB

Os mesmos passos devem ser seguidos para preparar um grfico de torta.


Basta selecionar esse tipo quando abrir o assistente de grfico (fig. 17).

Figura 17: Caixa de dilogo do Assistente de Grfico do Excel da Microsoft, mostrando as opes para um grfico de torta (pizza).

Seguindo os mesmos passos que o grfico anterior, podemos editar o diagrama durante a criao ou aps estar pronto. O grfico de torta final ser
aquele que vimos na figura 2.
Polgonos e curvas de frequncia acumulada so feitos com a opo de grficos de linhas no assistente de grfico. A forma do grfico vai depender se
estamos usando frequncias absolutas ou acumuladas.
Para os grficos de disperso, selecionamos a opo inicial Disperso (XY)
na Caixa de Dilogo. O Assistente de Grfico permite que algumas sries, ou
variveis, includas em uma tabela, sejam removidas da apresentao grfica.
Tambm possvel mudar o valor inicial dos eixos, como visto no grfico da
figura 8, aps o mesmo estar pronto. Para isso, basta clicar duas vezes no
eixo que se quer modificar, abrindo a caixa de dilogo para edio dele (fig.
18). Assim, muitas outras caractersticas podem ser editadas.

UAB

80

Licenciatura em Matemtica

Figura 18: Caixa de dilogo para edio de um eixo de um grfico do Excel da Microsoft.

Por fim, esse editor de planilhas pode criar a maior parte das representaes grficas mais importantes para auxiliar a visualizao imediata de dados
amostrais. A enormidade de funes e opes de edio desses grficos merece ser experimentada, e apenas com a prtica possvel explorar a maioria
dos recursos que esse programa de computador oferece.

Resumo
Representaes grficas so, extremamente, teis para a visualizao de dados amostrais e so parte indispensvel de qualquer relatrio de pesquisa
que envolva anlises estatsticas. Os tipos mais comuns de grficos de frequncia para uma varivel so os grficos de barras, de torta, os histogramas,
os polgonos de frequncia, as curvas de frequncia acumulada e os grficos
de ramo e folha.
Todos os grficos pedem, para sua confeco, a criao de tabelas de frequncia. Informaes mltiplas podem ser representadas em grficos de frequncias, representando amostras mltiplas, ou em grficos multivariados,
em que mais de uma varivel podem ser representadas, como os grficos de
disperso.

Estatstica

81

UAB

Subgrupos amostrais podem ser representados atravs de grficos de caixas


(boxplots) ou de valores individuais. O editor de planilhas do Excel possui
um Assistente de Grfico que permite a criao rpida de uma variedade de
representaes grficas e apresenta inmeros recursos para personalizar os
grficos criados.

Referncias
CHATFIELD, C.: Problem Solving A Statisticians Guide. London: CHAPMAN & HALL.
1991.
LEVIN, J.: Estatstica Aplicada s Cincias Humanas. So Paulo: HARPER & ROW DO
BRASIL. 1978.
SCHMULLER, J.: Statistical Analysis with Excel. Hoboken: Willey Publishing Inc. 2009.
VIEIRA, S. M.: Introduo Bioestatstica. 3 edio. So Paulo: EDITORA CAMPUS. 1998.

UAB

82

Licenciatura em Matemtica

Estatstica

83

UAB

UAB

84

Licenciatura em Matemtica

Aula 4 - Probabilidades

Objetivos
Entender os conceitos bsicos de probabilidades e suas relaes
com a anlise estatstica de uma amostra;
Aprender a trabalhar com probabilidades aplicadas aos diversos
tipos de variveis.

Assunto
Neste mdulo, vamos entender como funciona a Estatstica e como podemos confiar que uma amostra seja representativa de uma populao. Vimos
no primeiro mdulo que a Estatstica baseada em probabilidades, ento,
vamos compreender como as leis da probabilidade podem ser usadas para
estimar parmetros de uma populao.

Introduo
O termo probabilidade vem do latim probabilis, provvel. Esse termo era
empregado, desde os tempos romanos, principalmente no contexto jurdico
e se referia qualidade de uma testemunha legal ou medida de autoridade
de um cidado, e era, geralmente, relacionada nobreza. Assim, um nobre
era provavelmente (probabilis) uma testemunha mais confivel que um
plebeu.
At o sculo XVII, o termo probabilis era usado no sentido de aprovao
de uma opinio ou ao. Uma opinio provvel era aquela que as pessoas
sensatas teriam. S quando o estudo matemtico das chances se tornou
mais profundo, foi cunhado o termo probabilidade com o sentido que
usamos hoje.

Estatstica

85

UAB

Uma Cincia de Jogadores


O estudo das probabilidades to antigo quanto os chamados jogos de
azar. H milnios que jogadores tentam entender as chances em jogos
diversos e apostam dinheiro, calculando a probabilidade de que os ganhos
cubram o investimento inicial.
O italiano renascentista Girolamo Cardano (1501-1576, fig. 1) era filsofo,
mdico, matemtico e advogado, foi pioneiro em muitas cincias, resolveu
as primeiras equaes algbricas, descreveu os sintomas e desenvolvimento
da febre tifide, e descobriu a diferena entre energia eltrica e magntica.
Amigo de Leonardo da Vinci, tambm era um jogador inveterado e escreveu, em 1560, o Lber de Ludo Aleae, o Livro dos Jogos de Dados. Nele, h
o primeiro tratamento sistemtico das probabilidades (ou chances) e um
captulo inteiro em como trapacear. O livro s foi publicado quase um sculo
aps sua morte.

Figura 1: Girolamo Cardano (1501-1576). Fonte: Wikimedia Commons.

O Nascimento da Cincia Probabilstica


Considera-se que o estudo das probabilidades se tornou formal com a correspondncia entre os matemticos e filsofos franceses Pierre de Fermat
(1601-1665) e Blaise Pascal (1623 1662, fig. 2). Fermat era tambm advogado, mas desenvolveu teoremas que servem de base ao Clculo Diferencial
moderno. J Pascal, que tambm era mdico, inventou a primeira calculadora mecnica e desenvolveu muitas ideias sobre a natureza fsica do universo,
mais tarde revisadas por outros intelectuais. Os dois franceses passaram anos
trocando ideias sobre probabilidades, porque Pascal comeou a se interessar
pelas recm-criadas cincias econmicas e sociais.

UAB

86

Licenciatura em Matemtica

Figura 2: Blaise Pascal (1623-1662). Fonte: Wikimedia Commons.

O primeiro livro, exclusivamente, dedicado ao estudo formal das probabilidades foi escrito por Christiaan Huygens (1629-1695), fsico e matemtico
holands. Huygens descobriu que a luz se propaga em ondas, o que serviu
mais tarde para o estudo das partculas subatmicas. Seu livro sobre probabilidades foi escrito, porque Pascal o encorajou.
Dois livros importantes, do sculo XVIII, colocaram o estudo das probabilidades como um ramo formal da Matemtica: Ars Conjectandi, ou a Arte da
Conjectura, de Jakob Bernoulli (1654 1705) e The Doctrine of Chances, a
Doutrina das Chances, de Abraham de Moivre (1667 1754, fig. 3). Vrios
matemticos desenvolveram o tema atravs dos sculos XIX e XX. J no sculo XXI, o uso dos computadores permite clculos quase infinitos, usando
teoremas com sculos de vida.

Figura 3: Abraham de Moivre (1667-1754). Fonte: Wikimedia Commons.

Estatstica

87

UAB

Conceitos bsicos da Probabilidade


O estudo da probabilidade surgiu por causa dos chamados jogos de azar.
Desde a Grcia antiga, apostadores querem saber quais as chances que suas
apostas tm de ganhar a sorte grande. Essa relao entre jogos e probabilidade perdura at hoje nos termos que usamos em Estatstica: a palavra
aleatrio vem do latim Alea, ou dado de jogar. conhecida a frase de
Jlio Csar antes de uma dura campanha militar cujo resultado dependia
quase, totalmente, da sorte: Alea jacta est, o dado foi lanado.
No contexto da Estatstica, o termo probabilidade refere-se frequncia relativa de ocorrncia de um valor ou evento qualquer, ou chance que esse
valor ou evento ocorra ao acaso. Dizemos que a probabilidade associada
a um evento o nmero de vezes que tal evento pode ocorrer em relao
ao nmero total de eventos. Por exemplo, em um dado de jogar temos seis
faces numeradas. A probabilidade de obtermos um trs quando lanamos
um dado vai ser:
Probabilidade de obter um trs = = 0, 166666667 = 16,67%, j que o
dado tem seis faces e s uma tem o valor trs. Isso vale para cada um dos
valores em um dado.
Mas, isso s se aplica a um dado de jogar honesto, ou seja, h a mesma
chance de cair em qualquer uma das seis faces. Sabemos que existem dados
desonestos, feitos para sempre dar valores mais altos. Com um dado de
jogar honesto, toda vez que o lanarmos, teremos quase 17% de chance de
que ele caia em um nmero em particular.
Esse um conceito muito importante para entendermos sobre a probabilidade: que no cumulativa, ou seja, se jogarmos um dado trs vezes e obtivermos trs 1, isso no quer dizer que temos mais chance de que saia um 6.
Toda vez que lanamos o dado, temos quase 17% de chance que saia um 6.
Se usarmos um dado honesto e o jogarmos apenas seis vezes, provavelmente, no conseguiremos um nmero diferente em cada jogada. Nossa
amostra pequena demais para representar as probabilidades de todos os
possveis lanamentos de dados, ento podemos ter uma distribuio como
a representada na figura 4.

UAB

88

Licenciatura em Matemtica

Figura 4: Distribuio de frequncias da ocorrncia das faces de um dado em seis


lanamentos.

No conseguimos nem um 4 ou 5 nas seis vezes que jogamos os dados; no


entanto, a face 1 e a face 6 apareceram duas vezes cada. Apenas as faces 2
e 3 tiveram a frequncia esperada.
Vejamos o que acontece quando jogamos o dado 20 vezes (fig. 5):

Figura 5: Distribuio de frequncias da ocorrncia das faces de um dado em 20 lanamentos.

Dessa vez, todas as faces aparecem. Mas, ainda, h uma grande diferena
entre as frequncias com que as faces aparecem. Lembremos que, no caso
de um dado de jogar honesto, todas as faces tm chances iguais de apa-

Estatstica

89

UAB

recer. Vamos continuar jogando o dado e anotando os resultados. Aps 200


lanamentos, chegamos distribuio vista na Figura 6.

Figura 6: Distribuio de frequncias da ocorrncia das faces de um dado em 200


lanamentos.

Quanto mais cresce o tamanho de nossa amostra, mais prximas as frequncias se encontram do esperado, que ter repeties de ocorrncia de
cada face muito prximas das outras, ou quase iguais (afinal, cada face tem
16,67% de chance de ocorrer em cada lanamento de dado). Se continuarmos jogando o dado, aps mil lanamentos, teremos pouca diferena entre
as frequncias de ocorrncia de cada uma das faces. Um exemplo o grfico
abaixo, mostrando a frequncia relativa da ocorrncia de cada face do dado
aps mil lanamentos (fig. 7).

Figura 7: Distribuio de frequncias da ocorrncia das faces de um dado em 1000


lanamentos.

UAB

90

Licenciatura em Matemtica

Podemos ver que nos aproximamos muito das frequncias relativas esperadas, ou seja, da probabilidade calculada de ocorrncia de cada face. Podemos dizer, ento, que o dado que usamos honesto, balanceado e no
tem vis. Nossa amostra de mil lanamentos um exemplo de amostragem
aleatria e representa a populao de todos os lanamentos de dados possveis, se aproximando das frequncias esperadas.
Digamos que, aps mil lanamentos de um dado de jogar, chegamos seguinte distribuio (fig. 8):

Figura 8: Distribuio de frequncias da ocorrncia das faces de um dado em 1000


lanamentos.

Nesse caso, podemos afirmar que esse no um dado honesto: se o cortamos ao meio, possvel que achemos um peso dentro dele para que caia
com mais frequncia na face 6. A distribuio de frequncias desvia tanto
dos valores esperados, que no h dvida de que algo (no caso, o peso dentro do dado) est enviesando os resultados.Assim, dizemos que esses valores
no so aleatrios, mas so influenciados por algum fator (o peso).
Entender o conceito de valores que esto dentro das probabilidades esperadas ao acaso (randmicos ou aleatrios) e de valores que desviam do esperado (no randmicos ou no aleatrios, tambm chamados determinsticos)
servem de base para descobrirmos se fatores externos ou internos afetam
os valores de um conjunto de dados estatsticos. Essa a base da Estatstica
Inferencial.

Estatstica

91

UAB

Algumas Ideias Sobre Probabilidades


H algumas ideias gerais sobre probabilidades que nada mais so do que o
bvio. Por exemplo, a probabilidade de um evento impossvel ocorrer zero.
Algo que v contra as propriedades da matria, por exemplo, tem 0% de
chance de acontecer, ao menos no que se pode detectar do universo. J um
evento certo tem probabilidade de 1, ou 100%. Tudo o mais tem uma probabilidade entre 0 e 1, ou 0 e 100%, de acontecer, mesmo que infinitesimal.
Algo que possa ser respondido com um sim ou no tem 50% de chance de
acontecer ou no.
Charlates, que se passam por adivinhos, usam probabilidades de senso
comum para parecer que acertaram o futuro. Se conseguirem acertar 50%
de dez previses do tipo sim-ou-no, o pblico s vai lembrar-se dos cinco
acertos e esquecer os cinco erros.
Logo, um adivinho de verdade teria que acertar 100% das previses para
poder ser considerado, realmente, algum com viso do futuro, ou pelo
menos algum de muita sorte: a probabilidade que acerte, ao acaso, dez
previses tipo sim-ou-no seguidas de 0, 00098.

Leis da Probabilidade
Vimos como probabilidade a chance que um evento ocorra ao acaso. Essa
chance calculada, dividindo o nmero de vezes que o evento pode ocorrer
pelo nmero total de eventos possveis.
Assim, a chance da face de um dado de jogar aparecer em um lanamento
de 1/6 e a chance de sair cara ou coroa ao se lanar uma moeda de . Se
usarmos um baralho de cartas completo, com 52 cartas, podemos calcular
que a chance de tirarmos, digamos, um s de espadas de 1/52. Mas como
fazemos, quando um evento possui dois ou mais termos? A, entra a aplicao das chamadas Leis da Probabilidade.
A primeira lei da probabilidade que vamos aplicar aqui a Lei Multiplicativa. Ela afirma que a chance de dois ou mais eventos independentes
ocorrerem juntos o produto da probabilidade dos eventos ocorrerem
separadamente. Vamos ver como isso se aplica se lanarmos dois dados de
jogar em vez de um s.
Vimos que a probabilidade de conseguirmos um 6, ao lanarmos um dado
de 1/6. Qual a probabilidade de conseguirmos dois 6, formando um 12, se
lanarmos dois dados?

UAB

92

Licenciatura em Matemtica

Probabilidade de conseguirmos um seis em um dado =

= 16,67%

Probabilidade de conseguirmos um seis em cada dado =

= 2,78%

Aqui j descobrimos que o evento um seis em cada um dos dois dados


uma possibilidade em 36. Ser que h 36 configuraes diferentes ao se jogar dois dados? Vamos colocar, na tabela 1, todas as configuraes possveis
ao se lanar dois dados de jogar.
Tabela 1: Configuraes possveis dos lanamentos de dois dados de jogar,
representados por (x, y), sendo:
x= primeiro dado e y = segundo dado.

(1,1)

(2,1)

(3,1)

(4,1)

(5,1)

(6,1)

(1,2)

(2,2)

(3,2)

(4,2)

(5,2)

(6,2)

(1,3)

(2,3)

(3,3)

(4,3)

(5,3)

(6,3)

(1,4)

(2,4)

(3,4)

(4,4)

(5,4)

(6,4)

(1,5)

(2,5)

(3,5)

(4,5)

(5,5)

(6,5)

(1,6)

(2,6)

(3,6)

(4,6)

(5,6)

(6,6)

Temos, ento, os 36 resultados possveis ao lanarmos dois dados de jogar e


apenas um deles representa o evento que calculamos acima: os dois dados
com um seis.
Vejamos outro problema: qual a probabilidade de conseguirmos um valor
especfico, lanando dois dados de jogar? Se jogarmos dois dados, obteremos qualquer valor entre o mnimo de dois (1,1) e um mximo de doze (6,6).
Mas, exceto esses dois valores, que s podem ser conseguidos em uma das
36 configuraes possveis, outros valores podem ser conseguidos de mais
de uma maneira. Por exemplo, podemos conseguir o valor de nove de quatro formas diferentes: (3,6), (6,3), (4,5) e (5,4).
Para calcular a probabilidade de conseguirmos um nove ao lanar dois dados
de jogar, devemos aplicar a Lei Aditiva da Probabilidade: ela calcula a
probabilidade de que um evento ocorra em duas ou mais formas diferentes
e calculada, simplesmente, atravs da soma das probabilidades de cada
forma do evento.

Estatstica

93

UAB

No caso que estamos estudando, o evento em questo o valor de nove


com dois dados de jogar. H quatro maneiras diferentes de conseguirmos
um nove e cada uma das formas tem 1/36, ou 2,78% de chance de ocorrer.
Vamos, ento, ao clculo:
Probabilidade de conseguir um nove com dois dados = (3,6) + (6,3) + (4,5) +
= 11,11%.
(5,4) =

Vejamos quantas maneiras diferentes h de se conseguir os valores possveis


com dois dados (tabela 2).
Tabela 2: Valores possveis no lanamento de dois dados de jogar e configuraes necessrias.

(1,6)

(1,5)

(6,1)

(2,6)

(1,4)

(5,1)

(2,5)

(6,2)

(3,6)

(1,3)

(4,1)

(2,4)

(5,2)

(3,5)

(6,3)

(4,6)

(1,2) (3,1)

(2,3)

(4,2)

(3,4)

(5,3)

(4,5)

(6,4)

(5,6)

(2,1) (2,2)

(3,2)

(3,3)

(4,3)

(4,4)

(5,4)

(5,5)

(6,5)

(6,6)

10

11

12

Est claro que o valor de sete o mais provvel de ser conseguido com dois
dados, pois h seis formas diferentes de rolar um sete. Vejamos qual a probabilidade de conseguir um sete com dois dados:
P(sete)

(1,6)

(6,1)

(2,5) + (5,2)
16,67%

(3,4)

(4,3)

Ou seja, a probabilidade de conseguirmos um sete, jogando dois dados,


a mesma de se conseguir qualquer uma das faces ao se jogar apenas um
dado: 1/6. Por isso, em pases onde o jogo de dados legal, sempre se paga
menos por um sete do que por um dois ou um doze, que tm menor probabilidade de sair.

UAB

94

Licenciatura em Matemtica

Consideremos a tabela dos valores possveis de dois dados acima e as formas


que esses valores podem tomar, vemos que a probabilidade de conseguirmos qualquer uma das 36 configuraes igual, 1/36 ou 2,78%. Ento, se
lanarmos os dados de forma a obter uma amostra representativa (digamos,
2000 lanamentos) da populao de lanamentos de dois dados possveis
(que tende ao infinito), vamos conseguir uma distribuio de frequncias
cuja forma se assemelha pirmide que conseguimos acima (fig. 9).

Figura 9: Frequncias relativas (em %) dos valores possveis em 2000 lanamentos


de dois dados.

Podemos dizer que, nesse grupo de dados estatsticos, a moda sete, j que
esse o valor mais comum. Se destrincharmos os valores, as configuraes
dos dois dados de jogar - (3,4), (6,3), (2,2), etc. teramos todas as 36 barras
do mesmo tamanho, pois as 36 configuraes tm chances iguais de ocorrer.
Mas, ateno: probabilidades no tm memria! Se jogarmos os dados
trs vezes e obtivermos trs (6,6), isso no quer dizer que temos mais ou
menos chance de conseguirmos outro (6,6). Todas as vezes que lanarmos
os dados, teremos a mesma chance de conseguir uma das 36 configuraes
e uma chance em seis de conseguir um valor de sete.
O exemplo que vimos bem simples, mas podem ser usadas as mesmas leis
para entender a probabilidade de eventos muito complexos.

Estatstica

95

UAB

O estudo das probabilidades extremamente intricado e alguns matemticos dedicam suas carreiras a essa rea, chamada Probabilstica. No nossa
inteno, portanto, ter o entendimento profundo ou minucioso do clculo
das probabilidades. Os conceitos bsicos, no entanto, devero nos servir
para que entendamos suas aplicaes nos clculos de estimativas que so
fundamentais nas anlises estatsticas.

Prevendo Erros
Um dos pontos fundamentais da Estatstica que toda amostra contm erros que variam com o tamanho da amostra em relao populao estudada. A probabilidade de que nossos dados no representem a populao
est, explicitamente, inserida em todo clculo estatstico. Por isso mesmo,
como veremos mais tarde, nunca se tem certeza absoluta da validade de
uma amostra.
Usando os mesmo clculos probabilsticos, no entanto, pode-se garantir a
validade de uma amostra em 95%, 98% ou at 99,99%. Nunca 100%. Eis
a razo pela qual devemos ter cautela quando interpretamos resultados de
estatsticas, pois so estimativas generalizadas passveis de erro. Quanto
maior o tamanho da amostra, menor fica o erro e podemos ter mais segurana quando interpretamos os resultados.

Esperado x Observado
Tudo em Estatstica baseado na ideia que as frequncias de ocorrncia de
todo evento ao acaso vo assumir probabilidades que podem ser calculadas.
Elas servem de base para a estimao das frequncias de ocorrncia desses
eventos em uma populao.
Assim, quando analisamos uma amostra, comparamos os dados que temos
com aqueles calculados atravs de probabilidades. Muito do que se testa,
estatisticamente, envolve comparar a nossa amostra (os valores observados), com aqueles valores conseguidos atravs dos clculos de probabilidade
(esperados). Se os mesmos diferem muito dos valores esperados, h fatores
influenciando as frequncias da amostra.

Teoremas bsicos
No estudo da probabilidade, h dois teoremas bsicos.
O primeiro a chamada Lei dos Grandes Nmeros, que descreve a
estabilidade em longo termo da mdia de uma varivel aleatria. Dada uma

UAB

96

Licenciatura em Matemtica

varivel com um valor esperado finito, se seus valores forem amostrados


repetidamente, medida que a amostra cresce, a mdia tende para o valor
esperado. Ns vimos um exemplo com as frequncias de um dado de jogar:
cada valor de um dado tem 1/6 de chance de ocorrer, mas essas frequncias
s aparecem quando jogamos o dado muitas vezes.
O segundo o Teorema do Limite Central, que diz que a soma de muitas variveis aleatrias independentes, que tenham uma mesma distribuio
de probabilidades, vai produzir uma distribuio que se aproxima da distribuio normal.
Em nosso curso, vimos que o que ocorre quando jogamos dois dados de
jogar juntos: a soma dessas duas variveis aleatrias independentes (dois
dados) vai produzir, depois de muitas jogadas, uma distribuio que muito
se assemelha a uma curva gaussiana.

Probabilidade na Estatstica
Agora que temos uma noo do clculo das probabilidades, podemos comear a entender como isso se relaciona Estatstica. Primeiro, vimos como
as probabilidades so calculadas dentro de um nmero possvel de eventos, como se comportam e so equivalentes s frequncias relativas de uma
amostra.
Depois, vimos como o tamanho da amostra fundamental para validar as
estimativas dos parmetros da populao da qual a mesma foi retirada:
quanto maior a amostra, mas prximo chegamos s frequncias esperadas
dos eventos dentro de uma populao.
Quando vamos aplicar os conceitos de probabilidade em Estatstica, estamos
nos referindo capacidade de estimar os parmetros populacionais, usando
uma amostra representativa dessa populao.
Isso funciona da seguinte maneira: se usarmos uma amostra representativa
de uma populao, poderemos descrever as frequncias de ocorrncia dos
eventos em uma distribuio de frequncias, como vimos acima, com os
dois dados de jogar.
Neste exemplo, ns calculamos as probabilidades de cada nmero sair de
forma bem simples, j que se trata de uma varivel aleatria discreta,

Estatstica

97

UAB

ou seja, tm apenas nmeros inteiros e que se situam dentro de uma amplitude restrita (no caso, entre 2 e 12). Esse tipo de distribuio chamado
binomial. Mas possvel calcular as probabilidades de quaisquer eventos,
mesmo de variveis aleatrias contnuas, desde que se faa primeiro, uma
distribuio de frequncias a partir de uma amostra. Ento, estimam-se os
parmetros populacionais que sero usados nos clculos das probabilidades.
Usando essas ideias, podemos construir, com base em uma distribuio de
frequncias de uma amostra vlida, uma distribuio de probabilidades
de ocorrncias dos eventos em uma populao.
Um grfico que represente uma distribuio de probabilidades qualquer vai
se parecer muito com um grfico de distribuio de frequncias de uma boa
amostra, afinal, elas se aproximam das frequncias das probabilidades de
uma populao.
Matemticos probabilistas usam clculos mais elaborados para calcular as
probabilidades de todos os eventos possveis, mesmo aqueles que ainda no
foram observados. possvel extrapolar valores observados para incluir valores que so possveis de ocorrer, mas ningum nunca viu, pois so eventos
muito raros.
Por exemplo, um pesquisador coletou uma amostra da distncia de 319
casas de uma regio para um grande oleoduto, para tentar entender qual
seria o risco para a populao no caso de um vazamento. Com base nessa
amostra, ele construiu um histograma das frequncias relativas (fig. 10).

Figura 10: Histograma das frequncias relativas da distncia entre 319 domiclios e
um oleoduto.

UAB

98

Licenciatura em Matemtica

Vemos aqui que, a distribuio das frequncias um tanto irregular, mas h


um grande nmero de casas entre 160 e 400 metros de distncia do oleoduto.
Nosso amigo pesquisador, que no poderia medir a distncia de todas as
casas da regio em questo do oleoduto, usou um programa de estatstica
para estimar, usando as leis da probabilidade, qual a distribuio das probabilidades das distncias de todas as casas para o oleoduto.
O programa estimou os dados que faltavam amostra e criou uma distribuio de probabilidades correspondente. E tambm avaliou qual a mdia e o
desvio padro para a amostra que foi coletada, pois em cima desses valores,
as probabilidades foram calculadas (fig. 11).

Figura 11: Histograma de frequncias relativas com curva normal da distncia entre
319 domiclios e um oleoduto.

A linha que forma uma curva em sino chamada Curva Normal. uma curva
estimada que d uma ideia da forma da distribuio e permite que se saiba
a probabilidade de ocorrncia de qualquer evento dentro de uma populao
com base em amostras.
Vamos entender mais sobre ela na prxima aula.

Estatstica

99

UAB

Estatstica no Computador
Os programas de computador para Estatstica so fundamentais para a anlise de grandes bases de dados e para o uso adequado dos testes de Estatstica Inferencial. H vrios programas disponveis, desde os muito sofisticados,
usados por astrnomos, at programas mais simples, que ajudam a calcular
testes bsicos.
Alguns programas so de graa e podem ser baixados pela internet:
BioEstat 5.0 Do Instituto Mamirau, serve para a anlise descritiva
e alguns testes inferenciais com mais de uma varivel (multivariados).
Apesar de voltado para as Cincias Biolgicas, esse programa pode ser
usado para ajudar qualquer pesquisa cientfica que utilize a Estatstica. A
melhor caracterstica do BioEstat seu manual de instruo, que explica em detalhes como so feitos os clculos oferecidos pelo programa e
como evitar problemas. A verso em Portugus pode ser encontrada no
endereo http://www.mamiraua.org.br/download/
Winidams 1.3 Para validao, manipulao e anlise de dados. Em
ingls.
ADE 4 (2004) Para anlises bsicas, tambm em ingls.
Expanses do Excel Podem ser baixados para que o editor de planilhas tambm possa realizar anlises mais complexas. Alguns deles so o
XLStatistics e o BiPlot.
Programas avanados so, geralmente, caros, mas realizam todos os testes e
ainda criam grficos editveis. Alguns dos mais conhecidos so o Statistica,
o SPSS e o MINITAB. Muitos possuem verses demo em suas pginas da
internet que podem ser usados, de graa, por um ms, e possuem verses
em portugus. Todos os programas se baseiam nas mesmas regras. O que
importa saber utiliz-los.

Resumo
(contm todo teor da aula vista acima?)
A anlise de amostras retiradas de uma populao pode servir de base para
a estimao de parmetros populacionais atravs de estatsticas amostrais.

UAB

100

Licenciatura em Matemtica

O tamanho da amostra fundamental para que ela seja vlida na estimao


dos parmetros com base nas estatsticas. A Estatstica se baseia na probabilstica para assumir que muitas variveis vo ter um padro de distribuio
normal, simtrico, que pode ser descrito, usando-se a mdia e o desvio padro. Os pressupostos matemticos sobre a distribuio normal permitem o
clculo da significncia de testes de hipteses.

Referncias
CHATFIELD, C.: Problem Solving A Statisticians Guide. London: CHAPMAN & HALL.
1991.
LEME, R. A. DA S.: Curso de Estatstica Elementos. Rio de Janeiro: AO LIVRO TCNICO.
1967.
LEVIN, J.: Estatstica Aplicada s Cincias Humanas. So Paulo: HARPER & ROW DO
BRASIL. 1978.
SCHMULLER, J.: Statistical Analysis with Excel. Hoboken: Willey Publishing Inc. 2009.
SPIEGEL, M. R, Estatstica. MAKRON. 1994

Estatstica

101

UAB

UAB

102

Licenciatura em Matemtica

Aula 5 - Distribuies
de Probabilidades

Objetivos
Compreender a aplicao dos teoremas fundamentais da probabilstica na Estatstica;
Conhecer os diversos tipos possveis de distribuies amostrais;
Compreender como so estimados e com que acurcia, os parmetros populacionais a partir de estatsticas amostrais.

Assunto
A aplicao da Probabilstica na Estatstica baseada em distribuies de
frequncias provveis, que podem ser estimadas a partir de amostras. A
partir desta aula, vamos entender como os teoremas fundamentais das probabilidades so aplicados nas pesquisas que usam a Estatstica como instrumento para estimar parmetros populacionais, em todas as reas do conhecimento que possuam caractersticas mensurveis.

Introduo
Amostra e distribuio de amostras
Na ltima aula, vimos como a distribuio de frequncias de uma varivel
aleatria contnua de uma amostra pode ser limitada por uma curva de probabilidades terica, a curva normal, representando as frequncias em uma
populao. Esse tipo de distribuio chamado distribuio normal e sua
curva representativa tem uma forma simtrica, mais alta nos valores centrais
(mais frequentes) e que desce, simetricamente, para os valores extremos

Estatstica

103

UAB

(mais raros). Muitos fenmenos naturais ou antrpicos tm este padro de


distribuio. Por isso, vamos nos deter, um pouco, conhecendo mais esse
tipo de distribuio.

A Curva Normal
Tambm chamada de Curva de Gauss, a curva normal a representao terica da distribuio das probabilidades de uma varivel em uma determinada
populao. Vamos ver, novamente, a curva normal do exemplo da ltima
aula: distncia em metros entre as casas de uma regio e um oleoduto (fig.
1).

Figura 1: Curva normal de distribuio da distncia entre 319 domiclios e um oleoduto.

Podemos notar que a curva simtrica, apresentando frequncias maiores


no centro, onde estaria a mdia, as quais vo caindo em direo aos extremos. Alm dessas caractersticas bvias, a curva normal tambm apresenta
certas particularidades.
Notem que as caudas da curva normal, em direo aos extremos, nunca
toca o eixo de x: mesmo nos extremos, no h uma frequncia de zero.
Isso ocorre por que, como vimos, exceto por eventos impossveis, todos os
eventos tm uma probabilidade maior que zero. No caso, sempre h a probabilidade que haja uma casa mais distante ou mais perto do oleoduto do
que aquelas que o pesquisador contou em sua amostra.

UAB

104

Licenciatura em Matemtica

Outra caracterstica dessa curva que ela , absolutamente, simtrica. Essa


particularidade faz com que, numa curva normal, todas as medidas de tendncia central caiam no mesmo ponto, ou estejam muito prximas. Nesse
caso, a distncia mdia entre as casas e o oleoduto de 262,43 metros; a
mediana, 264 metros.
A rea sob a curva a soma de todas as probabilidades de todas as distncias possveis. Sendo, por isso, igual a 1 (ou 100%). Tal noo nos servir
para calcular estatsticas mais tarde.
Uma curva normal representa a distribuio em uma populao, como j
vimos. Nela, podemos traar uma linha, mostrando nossa medida de tendncia central, que a dividir exatamente ao meio. Por se tratar da representao de uma populao e no de uma amostra, a mdia, em uma curva
normal, representada por m e o desvio padro representado por s.
Se somarmos ou subtrairmos o desvio padro do valor da mdia, em uma
curva normal, cobriremos 68,26% dos dados ali representados. Isso se d
por causa da padronizao da distribuio normal, que a torna totalmente
simtrica. Se somarmos ou diminuirmos duas vezes o desvio padro do valor
da mdia, 95,44% dos valores estaro nesse intervalo (fig. 2). Uma populao normal tem 99,74% dos seus valores a uma distncia de trs desvios
padro da mdia.

Figura 2: Proporo de dados, em uma distribuio normal, inseridos nos intervalos

e2 .

Estatstica

105

UAB

As propores das reas dentro de uma curva normal servem de base para
o clculo de um valor estatstico fundamental para o teste de hipteses,
chamado z.
No final de todo livro de Estatstica, h uma tabela, mostrando os valores de
z e t, que vo dar a significncia dos testes de hipteses. A proporo das
reas cobertas pelos parmetros e , referentes a uma populao, d a
forma da curva normal e serve de base para testar a significncia de testes
estatsticos.
No entanto, as estatsticas que usam o valor z assumem que parmetros
como e so conhecidos. Isso no verdade para as amostras: nela temos
os valores de e s. Com base nas duas estatsticas, so criadas as tabelas de
valores t, tambm usadas como base de testes de significncia, usando reas
proporcionais da curva de distribuio como alicerce matemtico.
Resumindo, a maior parte dos testes estatsticos que so realizados em amostras aleatrias supe que a populao da qual foi retirada uma amostra apresenta uma distribuio normal das frequncias em questo e que 99,7% dos
dados estaro contidos em um intervalo de 3 ou, assumindo-se que a
amostra seja representativa da populao, 3s.
Nem toda distribuio amostral, no entanto, do tipo normal, mesmo que
se tenha uma amostra grande. Algumas variveis podem apresentar distribuies de outros tipos, especialmente, nas Cincias Biolgicas e Sociais.

Tipos de curva
A curva de Gauss a curva normal, totalmente, simtrica. Nela, mdia e
mediana tm o mesmo valor, ou valores muito prximos. H distribuies,
no entanto, que no so totalmente simtricas. Na distribuio assimtrica
direita, a mediana mais alta que a mdia e a curva tem uma cauda
mais longa direita do grfico (fig. 3).

UAB

106

Licenciatura em Matemtica

Figura 3: Curva de distribuio de probabilidades assimtrica direita, com as posies da mdia e da mediana.

J na curva assimtrica esquerda, a mediana mais baixa que a mdia e


a curva apresenta uma cauda mais longa esquerda (fig.4).

Figura 4: Curva de distribuio de probabilidades assimtrica esquerda, com as


posies da mediana e da mdia.

Quando descobrimos, durante a anlise descritiva, que h essa diferena entre mediana e mdia, devemos ter cuidado extra quando passamos analise
inferencial desses dados: s vezes, a diferena impede que utilizemos certos
testes estatsticos.
O tamanho das caudas de uma distribuio de probabilidades chamado
de curtose, sendo a segunda caracterstica de importncia na descrio da

Estatstica

107

UAB

forma de uma distribuio normal. Se as caudas forem longas, afastando-se


da mdia, chamamos essa curva de leptocrtica (fig. 5).

Figura 5: Curva de distribuio de probabilidades do tipo leptocrtica.

Nesse tipo de distribuio, a amplitude total grande, mas valores extremos


so mais raros. Quase todos os dados esto em s.
Quando as caudas de uma distribuio so curtas, temos uma distribuio
platicrtica (fig. 6).

Figura 6: Curva de distribuio de probabilidades do tipo platicrtica.

Aqui, a maioria dos dados est alm de s (podendo estar em


3s). S os valores realmente extremos so raros.

UAB

108

2s ou

Licenciatura em Matemtica

A forma das distribuies normais tem implicaes para a validao dos dados e para o uso de testes estatsticos.

Outros Tipos de Distribuio


s vezes, encontramos um tipo de distribuio de frequncias amostrais que
possui no um, mas dois picos de frequncia. chamado de bimodal,
por possuir duas modas, e geralmente, envolve variveis aleatrias discretas
(apesar de haver variveis contnuas que se comportam dessa forma). No
exemplo da figura 7, vemos a frequncia do nmero de sementes em uma
espcie de leguminosa. Devido s caractersticas genticas da espcie, as
vagens do vegetal possuem, geralmente, duas ou dezesseis sementes, mas
podem, raramente, apresentar qualquer valor par entre esses dois extremos.
Um histograma das frequncias dos nmeros de sementes nessa espcie de
leguminosa apresentaria dois picos de frequncia e duas modas. Esse
um caso bem particular e impede que usemos as suposies sobre distribuies normais ao se trabalhar com esse tipo de dado.

Figura 7: Histograma de frequncias absolutas do nmero de sementes em 25 vagens


de uma planta leguminosa.

Outro tipo de distribuio encontrado, comumente, em amostras nas Cincias Biolgicas e Sociais, a distribuio assimtrica, que pode envolver
tanto variveis aleatrias discretas como contnuas.
Nela, os valores mais frequentes no esto no meio da distribuio e no
podemos usar, novamente, as suposies sobre a curva normal para calcular
as estatsticas de uma amostra com esse tipo de distribuio.

Estatstica

109

UAB

Um exemplo de distribuio assimtrica o tamanho da ninhada de ces da


raa Dlmata. Apesar de ser uma raa conhecida por produzir, raramente, as
maiores ninhadas entre todas as raas de ces, a grande maioria tem apenas
trs filhotes (fig. 8).

Figura 8: Histograma de frequncias absolutas do nmero de filhotes em 25 ninhadas de ces da raa Dlmata.

Aplicao dos Conceitos de Distribuio


No podemos menosprezar o papel do tipo de distribuio na aplicao da
Estatstica. De fato, ele to importante que, antes de realizarmos um teste
de hiptese com uma varivel, devemos descobrir de que tipo a distribuio das frequncias.
Ao criar uma tabela de frequncias, j temos uma ideia de que tipo a distribuio. Vimos que a distribuio de frequncias de ocorrncia dos valores de
dois dados se parece muito com uma curva normal. Apesar de essa varivel
ser discreta, ela tem uma distribuio binomial do tipo (a+b)2 = a2 + 2ab + b2.
Porm, o clculo estatstico muito mais complexo que o binmio de
Newton aqui representado, mas o resultado simtrico e as frequncias diminuem, simetricamente, em direo aos limites de valores. Podemos dizer
que a distribuio das frequncias de valores de dois dados de jogar segue
um padro normal.
Se criarmos uma tabela de frequncias e, posteriormente, um grfico de barras com os dados do histograma acima, logo veremos que a distribuio dos
dados no segue um padro normal, mas assimtrico. Ento, ao criar um

UAB

110

Licenciatura em Matemtica

grfico de barras, ou um histograma, j temos uma ideia se a distribuio


dos dados da varivel pode ser considerada normal ou no.
Para o uso de testes de significncia, no entanto, o mais correto testar a
varivel para saber se ela tem uma distribuio normal. H vrios testes de
normalidade oferecidos por programas de computador que podem checar
se os dados de uma amostra tm uma distribuio normal ou no. Os mais
comuns so o Anderson-Darling, o Ryan-Joiner e o Kolmogorov-Smirnov. Esses clculos testam a hiptese de que a distribuio de um grupo de
dados no difere de uma distribuio normal e sua aplicao garante que
poderemos ter certeza do tipo de distribuio de nossos dados.
Esses conceitos de probabilidades e distribuio so, primariamente, usados
para testar hipteses sobre uma populao, usando dados coletados em
uma amostra.
Apesar da maioria dos testes de hipteses ser baseada na suposio de que
os dados testados tm uma distribuio normal, na abordagem estatstica
chamada de paramtrica, h uma gama de testes que no calculam probabilidades com base em uma distribuio normal, a estatstica no-paramtrica.
Assim, sempre que se percebe que os dados no so, normalmente, distribudos, deve-se dar preferncia aplicao de testes estatsticos no-paramtricos. Programas de computador, no entanto, frequentemente, apresentam
ferramentas em que podemos avisar se a distribuio bimodal ou assimtrica e os clculos so ajustados automaticamente.

A Maturidade da Estatstica
A Estatstica transformou-se com a compreenso da distribuio normal. A
ideia de normalidade foi, primeiramente, sugerida por Abraham de Moivre (1667-1754) em um artigo de 1733. Nele, o autor percebeu como a
forma de distribuies binomiais se parecia quando a amostra era muito
grande. Pierre-Simon, Marqus de Laplace (1749-1827, fig. 9), expandiu o
conceito, fazendo em seu livro A Teoria Analtica das Probabilidades, no
qual descreveu a aproximao normal de uma distribuio binomial. O teorema descrito, hoje conhecido como Teorema de Moivre-Laplace.

Estatstica

111

UAB

Figura 9: Marqus de Laplace (1749-1827). Fonte: Wikimedia Commons.

Em 1805, Adrien-Marie Legendre (1752-1833), matemtico francs, introduziu o mtodo dos Mnimos Quadrados, que at hoje usado no clculo
de anlises de regresses. No entanto, o matemtico alemo Johann Gauss
(1777-1855, fig. 10) afirmou que j usava esse mtodo desde 1794 e provou
sua tese que propunha a distribuio normal de erros em 1809. Hoje em dia,
s vezes, chamamos uma distribuio normal de Gaussiana, apesar de
Gauss no ter sido o primeiro a descrever tal tipo de distribuio.
Esse um exemplo da chamada Lei de Stigler, que diz que as grandes
descobertas cientficas no so chamadas pelo nome de seus descobridores,
mas pelo nome daquele que difunde a ideia.

Figura 10: Johann Carl Friedrich Gauss (1777-1855). Fonte: Wikimedia Commons.

UAB

112

Licenciatura em Matemtica

Estimao de Parmetros Populacionais


Nas aulas anteriores, ns aprendemos a calcular a mdia e o desvio padro
de uma amostra, e vimos como, ao conhecer essas estatsticas, podemos ter
uma ideia geral da forma da distribuio desses dados. Usando esses valores, podemos dar um palpite educado sobre a amostra, mesmo que no
tenhamos acesso aos valores brutos que um pesquisador usou.
Mas nem sempre na forma da distribuio amostral que estamos interessados. Para um pesquisador, o importante saber o quanto podemos
generalizar, a partir desses dados, sobre o que ocorre com a populao.
Se, por exemplo, coletamos uma amostra sobre a produo dos detritos de
tecelagens e conseguimos uma mdia de 58 toneladas por ano, ser que
conseguiremos o mesmo valor se coletarmos os dados de todas as tecelagens do Brasil?
A resposta mais simples no, pois, como vimos, se coletarmos amostras
diferentes de uma populao, suas medidas de tendncia central e disperso vo variar, e sero diferentes das medidas da populao em geral. Mas,
se a amostra for aleatria, coletada de forma no enviesada, as mdias da
amostra e da populao (assim como suas medidas de disperso) devero
ter valores prximos.
Nesta sesso, vamos entender como podemos calcular quo prximas dos
parmetros populacionais so as estatsticas que obtemos de uma amostra
dessa populao.

Mdia Amostral e Distribuio de Mdias


Quando coletamos uma amostra aleatria, temos uma probabilidade maior
de conseguirmos dados que cubram quase toda a distribuio de uma populao do que dados que estejam prximos dos extremos dessa distribuio.
Mas podem ocorrer erros que no percebemos, e por isso devemos tomar
cuidados ao estimar parmetros atravs de estatsticas amostrais.
Vamos imaginar que uma arqueloga est descrevendo, pela primeira vez,
um tipo de vaso cermico de 10.000 anos de idade, usado para depositar
objetos sagrados nas sepulturas de uma civilizao. Esse tipo de vaso, nico,
foi achado em apenas uma sepultura dentre centenas que foram escavadas
por sua equipe. Ela descreveu a decorao, a funo e a forma do vaso, e
mediu a altura, que era de 10 cm.

Estatstica

113

UAB

Todavia, nossa colega est na desconfortvel situao de ter uma amostra


com apenas um dado. No h como saber se o vaso , particularmente,
grande ou pequeno, pois no h como compar-lo com outros da mesma
escavao.
Mas, se fosse obrigada a chutar um valor, a arqueloga no teria outra
opo a no ser dizer que esse tipo de vaso tem cerca de 10 cm de altura e
no teria condies de dizer o tamanho da disperso desses valores, ou se
10 cm est mais perto da mdia ou dos extremos da distribuio das alturas
desse tipo de artefato.
Escavando outro stio arqueolgico da mesma civilizao antiga, no entanto, a cientista foi feliz e encontrou outros quatro exemplares de vasos com
a mesma forma, decorao e funo, medindo 9,2 cm, 9,6 cm, 10,3 cm e
10,5 cm. Junto com o primeiro vaso, ela agora tem uma amostra de cinco
artefatos, que fornecem a mdia de 9,9 cm de altura e o desvio padro de
apenas 0,5 cm. A partir dessa pequena amostra, nossa arqueloga j infere
ou estima - que a disperso da distribuio da varivel (altura do vaso) ,
relativamente, pequena: poucos vasos seriam menores que a mdia menos
trs vezes o desvio padro (o que d 8,5 cm) ou maiores que a mdia mais
trs vezes o desvio padro (11,5 cm). Assim, as estatsticas so estimativas
dos valores dos parmetros, e no, os parmetros verdadeiros.
Podemos ver que possvel fazer muitas inferncias sobre populaes, completamente, desconhecidas com pouqussima informao, mas essas inferncias devem ser modificadas medida que acrescentamos mais informao.
lgico que, para nossa colega saber com certeza os valores dos parmetros
para a altura desse tipo de vaso, ela teria que medir todos os vasos j feitos
com essa forma, decorao e funo por aquela civilizao; nesse caso, ela
no estaria estimando, ou fazendo uma inferncia e sim, estaria descrevendo um conjunto de dados enorme.
Mas como medir toda a populao de artefatos arqueolgicos, ou coletar
toda a informao sobre uma varivel em uma populao , virtualmente,
impossvel. O melhor que ns podemos fazer dizer que a verdadeira mdia populacional, ou o verdadeiro desvio padro da populao, ou qualquer que seja o parmetro, tem alguma probabilidade de estar dentro de
certa amplitude de valores possveis.

UAB

114

Licenciatura em Matemtica

Toda inferncia passvel de erro, como vimos. No possvel eliminar o erro


nem com todos os clculos estatsticos existentes, ento devemos torn-lo
explcito.
Vamos entender a lgica da amostragem, pesquisando a mdia de altura
dos habitantes de uma cidade. Fomos a uma praa do centro da cidade
e tiramos uma amostra aleatria, pedindo a uma pessoa de cada dez que
passassem a nossa frente para que se deixasse medir. Terminamos com uma
amostra de dez pessoas e uma mdia de altura de 1,67 m.
Nos dias seguintes, fizemos o mesmo procedimento, pedindo para dez pessoas entre cem que passaram nossa frente para que se deixassem medir.
Mas digamos que, no segundo dia, havia uma conveno de jogadores de
basquete dos times dos bairros, justamente, naquela praa e terminamos
com uma altura mdia de 1,77 m. H uma diferena de 10 cm entre as mdias do primeiro e do segundo dia.
No terceiro dia, sem que soubssemos, o sindicato dos jqueis de cavalos
estava fazendo uma reunio prxima praa e ns terminamos o dia com
uma amostra que forneceu a mdia de altura de 1,57 m. Novamente, h 10
cm de diferena entre a mdia da amostra do primeiro dia e a do terceiro.
Nos outros dias, conseguimos mdias de 1,66, 1,68, 1,67, 1,67, 1,68, 1,65
e 1,68 m.
Com as dez amostras, vimos que no apenas h uma variao nos dados
dentro de cada amostra, mas tambm entre amostras: a mdia de altura do
segundo dia 20 cm maior que a mdia do terceiro. No apenas a mdia
varia entre amostras, mas outras estatsticas tambm. A isto chamamos variao amostral, ou seja, a variao dos valores das estatsticas de amostras
diferentes tiradas de uma mesma populao.
Se agruparmos nossos resultados, teremos uma amostra total de 100 pessoas e uma altura mdia de 1,67 m, que a mdia das dez mdias amostrais.
Mas se tirarmos outra amostra de 100 habitantes da cidade, encontraramos
outra mdia e se nossas amostras dirias fossem maiores (50 pessoas em vez
de dez), a variao da mdia entre as amostras seria menor, pois teramos
uma menor probabilidade de incluir uma proporo grande de jogadores de
basquete ou jqueis em nossos dados. Mesmo assim, essa variao amostral
nunca h de desaparecer totalmente. Como lidar com isso?

Estatstica

115

UAB

A lgica simples. Imaginem que continuamos nossa pesquisa sobre a altura dos habitantes por mais 100 dias. Depois, ao invs de usar a altura dos
1100 habitantes como base para nossas anlises, ns usamos as 110 mdias
amostrais como uma varivel e construmos, com isso, uma distribuio de
frequncias. Essa ser uma distribuio de mdias amostrais.
Tal distribuio de mdias amostrais vai, por sua vez, ter uma mdia tambm.
Se coletarmos um nmero, suficientemente, grande de amostras, a curva de
distribuio das mdias amostrais vai ter sua tendncia central em torno da
tendncia central da populao, ou seja, o valor das mdias amostrais vai
ser a mdia da populao da qual essas amostras foram tiradas.
Uma curva de distribuio de mdias amostrais vai ser semelhante a uma
curva normal. Como vimos em nosso exemplo, as amostras que mais se
afastam da mdia das mdias amostrais (que calculamos em 1,67 m) foram
aquelas que, sem querer, incluram pessoas muito altas os jogadores de
basquete e pessoas muito baixas os jqueis.
J as outras amostras apresentavam valores bem prximos da mdia das
mdias amostrais. Isso por que valores extremos so mais raros que valores
prximos mdia de uma populao, ento temos maior chance de encontrar pessoas de estatura mediana do que as muito altas ou muito baixas.
Agora, no importa se cada uma das amostras tem uma distribuio normal.
A distribuio das mdias amostrais, no entanto, vai sempre ser normal,
pois a probabilidade de coletarmos uma amostra que se afaste muito da
mdia da populao diminui conforme cresce a diferena. Quanto maiores
as amostras, mais simtrica ser a curva de distribuio de mdias amostrais.
O grfico abaixo (fig. 11) representa uma dessas curvas. Podemos notar
a forma simtrica e as freqncias de ocorrncia decrescentes de mdias
amostrais que se afastam muito da mdia populacional.

UAB

116

Licenciatura em Matemtica

Figura 11: Curva de distribuio de frequncias de mdias amostrais.

Na vida real, no entanto, nunca encontramos uma distribuio de mdias


amostrais para estimar a mdia da populao. Geralmente, temos que estim-la com base em uma nica amostra. Com certeza, teremos um erro
ao avaliar a mdia populacional por essa nica amostra e a pergunta que
devemos fazer : qual o tamanho do erro, ou seja, quo distante da mdia
populacional nossa mdia amostral estar?
Vamos olhar novamente para o grfico acima. Qual probabilidade maior: a
de coletarmos uma amostra que tenha a mdia um pouco diferente da mdia populacional ou a de coletarmos uma amostra que tenha a mdia muito
diferente da mdia populacional?
Vemos na distribuio das mdias amostrais que, quanto maior for a diferena entre a mdia amostral e a mdia populacional, menor a chance de
coletarmos uma amostra com essa mdia. Em outras palavras, quanto maior
nosso erro, menor a chance de ocorrer.
Mas a mdia uma medida de tendncia central e nos diz onde est a
maioria dos dados. Nessa distribuio de mdias amostrais, como em qualquer outra distribuio, h outras medidas importantes para que possamos
entend-la: as medidas de disperso.

Estatstica

117

UAB

Assim, no grfico acima, temos a mdia das mdias amostrais, e tambm


temos um desvio padro da mesma que vai ser menor que o desvio padro
da mdia de uma populao. Isso se d por que numa distribuio de mdias
amostrais, estamos lidando com estatsticas e no, com dados brutos.
Logo, a amplitude, ou seja, a disperso dos dados em uma populao real
vai ser bem maior do que um desvio padro calculado apenas atravs de
mdias de vrias amostras.
Por exemplo, se usarmos, novamente, nosso exemplo da altura dos habitantes de uma cidade, a mdia amostral mais baixa nunca vai ser igual altura
do habitante mais baixo, pois a pessoa no foi medida sozinha. O mesmo
vale para o habitante mais alto. Digamos que, naquelas dez amostras que
coletamos, a pessoa mais baixa (um jquei) medisse 1,42 m e a mais alta
(um jogador de basquete) 1,98 m. Mas a mdia amostral mais baixa foi
de 1,57 m e a mais alta, de 1,77 m. Sendo assim, a distribuio de mdias
amostrais sempre vai ser menos dispersa que a distribuio dos dados brutos de uma populao.

O Erro Padro e a Estimativa da Mdia


da Populao
Como vimos, a distribuio de uma estatstica amostral vai ter uma mdia
e um desvio padro prprios. A mdia dessa distribuio de estatsticas, no
caso, de mdias amostrais, vai ser a mdia populacional. Mas o desvio padro da distribuio de estatsticas vai ser menor do que o desvio padro da
populao.
Para evitar confuso, chamamos o desvio padro de uma distribuio de
estatsticas de erro padro (representado por SE, do ingls standard error)
e usamos o termo desvio padro apenas para distribuies amostrais. A
ideia do erro padro nos permitir saber as chances de que uma particular
mdia amostral seja muito maior ou muito menor que a mdia populacional.
Vimos em aulas passadas que, numa distribuio normal, 68% dos dados
encontram-se a um desvio padro para mais ou para menos da mdia, ou
seja, esto dentro de s. J que a distribuio de mdias amostrais tambm uma curva normal, 68% dos dados (as mdias amostrais) estaro um
erro padro para mais ou para menos da mdia populacional ( SE, fig.
12).

UAB

118

Licenciatura em Matemtica

Figura 12: rea em uma curva de distribuio de mdias amostrais coberta pela mdia, mais ou menos um erro padro.

Devemos sempre lembrar que a rea sob uma curva normal equivale a 1, ou
100% da distribuio. Da mdia para cima, esto 50% dos dados; da mdia
para baixo, os outros 50%. Digamos que queremos saber qual a probabilidade de nossa amostra ter uma mdia maior que m+SE.
A lgica simples. Se 68% dos dados esto um erro padro longe da mdia,
a rea coberta por +SE = 34% e por SE = 34%, pois 34%+34% = 68%. A
rea correspondente s mdias amostrais menores que +SE vai ser a soma
de toda a rea abaixo da mdia (50%) somada rea do erro padro positivo (34%), ou seja, 50%+34% = 84%. Assim, a probabilidade de nossa
amostra ter mdia maior que +SE igual a 100% - 84% = 16%. Podemos
usar o mesmo mtodo para saber a probabilidade de nossa amostra ter mdia menor que -SE, ou outras combinaes.
O erro padro depende de dois valores: o desvio padro da amostra que
coletamos (que, teoricamente, uma das vrias amostras possveis dentro
de uma distribuio de estatsticas amostrais) e o tamanho da amostra. O
erro padro menor que o desvio padro, como vimos antes, pois a variao
dentro da amostra maior que entre as mdias amostrais.
Ento, o tamanho da amostra , extremamente, importante, pois quanto
maior a amostra, mais nos aproximamos dos valores da populao. Para

Estatstica

119

UAB

calcular o erro padro, usamos o desvio padro da amostra dividido pela


raiz quadrada do tamanho da amostra. Isso ocorre por que no sabemos se
erramos para mais ou para menos, quando usamos uma estatstica amostral
para estimar um parmetro. A frmula do erro padro bem simples:

Se, por exemplo, temos amostra de 100 notas de provas com uma mdia de
50 pontos e desvio padro de 15 pontos, podemos esperar que as mdias de
todas as amostras desse tipo tenham um erro padro de:
pontos.

Por causa da raiz quadrada no denominador dessa frao, se quisermos diminuir o erro pela metade, teremos que quadruplicar o tamanho da amostra:
pontos.

Podemos dizer, agora, que SE contm 68% de todas as mdias amostrais


da populao de que coletamos nossa amostra. Tambm diremos que h
uma probabilidade de 68% de que a mdia da populao estar dentro
da amplitude da mdia de nossa amostra, mais ou menos o erro padro.
Os valores resultantes so os limites de nosso intervalo de confiana, no
caso, um intervalo de confiana de 68%, pois estamos 68% confiantes que
a mdia populacional vai estar entre esses valores.
Vejamos o grfico abaixo (fig. 13): nele temos as mdias de quatro amostras ( 1, 2, 3 e 4) e uma barra de erro padro, que mostra a amplitude
coberta por SE. Para as amostras 2 e 3, a mdia populacional est dentro
desse intervalo.

UAB

120

Licenciatura em Matemtica

Figura 13: Posio das mdias de quatro amostras em relao ao intervalo de confiana de 68%, em uma curva de distribuio de mdias amostrais.

Vemos ento que, com um intervalo de confiana de 68%, h uma probabilidade ainda alta (34%, mais do que uma chance em trs) de nossa mdia
amostral, mais ou menos o erro padro, no conter a mdia populacional.
As amostras 1 e 4 esto fora dos limites entre a mdia populacional e o erro
padro. Um intervalo de confiana de 68%, portanto, no muito confivel
para uma estimativa.
Se quisermos ficar ainda mais confiantes de nossa estimativa para a mdia
da populao, devemos ampliar esse intervalo de confiana, para torn-lo
mais abrangente. Fazemos isso, aumentando o nmero de erros padro que
fazem os limites de nosso intervalo.
Por exemplo, usando os dados da amostra de 100 notas de provas, nosso
intervalo de confiana de 68% diz que a mdia da populao est entre
SE, ou seja, entre 50 - 1,5 = 48,5 ( -SE) e 50 +1,5 = 51,5 ( +SE) pontos.
Se quisermos aumentar nossa confiana de pegar a mdia populacional,
podemos usar 2SE; nesse caso, o intervalo vai de 50 3,0 = 47 at 50 +
3 = 53 pontos, subindo para 95,4%. Assim, a probabilidade da mdia populacional estar fora desse intervalo de 4,6%.
Podemos ainda usar um intervalo de confiana de 99,7%: 3SE. Nele,
podemos afirmar que a mdia populacional das notas dos alunos estaria
entre 50 4,5 = 45,5 e 50 + 4,5 = 54,5 pontos. A probabilidade aqui de
no termos a mdia populacional dentro desse intervalo de apenas 0,3%.

Estatstica

121

UAB

Pode parecer pouco, mas uma probabilidade de 0,3% de algo acontecer significa que o evento tem trs chances em mil de acontecer. Nunca podemos
ter certeza absoluta de que temos a mdia populacional em um intervalo de
confiana, mas podemos estimar esse valor com uma probabilidade muito
pequena de estar completamente errados.
Em anlises estatsticas, geralmente, usamos intervalos de confiana de 95%
ou 99%, o que o suficiente para que tenhamos uma boa ideia dos parmetros populacionais.
Outros parmetros de uma populao podem ser estimados de forma muito
semelhante que usamos para estimar a mdia populacional. Um que pode
ser usado em muitas situaes diferentes a proporo, que o valor que
usado, quando estamos estudando uma varivel categrica.
Por exemplo, digamos que queremos saber a proporo de indstrias com
programas de reciclagem em vrios municpios. Essa proporo vai variar de
um municpio para outros 0,19 em um, 0,23 em outro, 0,21 em um terceiro e assim por diante. Mas a distribuio de todas as propores vai seguir
o teorema do limite central e vai estar distribuda em torno da verdadeira
proporo de todas as indstrias em todos os municpios que possuem programas de reciclagem. Ainda, podemos usar o erro padro da proporo
para calcular nosso intervalo de confiana, se acharmos que a proporo
verdadeira.
Como no h variabilidade em uma amostra de um valor proporcional, no
podemos calcular o erro padro, usando o desvio padro da amostra, o
qual calculado atravs da multiplicao da proporo de interesse pela
proporo restante, dividindo o resultado pelo nmero de casos da amostra
e tomando a raiz quadrada.
Por exemplo, se uma amostra aleatria de 100 indstrias mostrou que 20
tm programas de reciclagem e 80 no tm, o erro padro da proporo
ser:

UAB

122

Licenciatura em Matemtica

Se quisermos ter 99% de confiana sobre a proporo real de programas


de reciclagem na indstria, dizemos que a proporo est no intervalo de
0,22,5 (0,04) = 0,10 a 0,30, ou de 10 a 30%.

Tamanho das Amostras


O tamanho das amostras, como vimos, fundamental para termos uma boa
ideia da populao que estudamos. H vrios mtodos para calcular o tamanho de uma amostra em relao populao estimada total, mas, regra
geral, quanto maior a amostra, maior a preciso das estimativas.
Alguns testes estatsticos requerem um tamanho amostral mnimo de 30
medies. Amostras menores devem cumprir outras regras (como uma distribuio normal) para poder ser testadas.
Quando o tamanho total da populao conhecido, o ideal que a amostra
corresponda ao menos a 5% da populao total.
Alguns experimentos precisam ser feitos com tamanhos amostrais muito pequenos, como testes de remdios e outros envolvendo animais de laboratrio. Nesses casos, devem-se tomar cuidados especiais para validar a amostra.
Mas possvel conseguir resultados relevantes com amostras de at quatro
medies, desde que certas precaues sejam tomadas e que a interpretao dos resultados seja comedida.

Resumo
A anlise de amostras retiradas de uma populao pode servir de base para
a estimao de parmetros populacionais atravs das estatsticas amostrais.
O tamanho da amostra fundamental para que seja vlida na estimao dos
parmetros com base nas estatsticas.
A Estatstica se baseia na Probabilstica para assumir que muitas variveis
vo ter um padro de distribuio normal, simtrico, que pode ser descrito,
usando-se a mdia e o desvio padro.
Os pressupostos matemticos sobre a distribuio normal permitem o clculo da significncia de testes de hipteses.
Muitas variveis no apresentam uma distribuio normal, mas podem ser
bimodais ou assimtricas. Os mtodos para se trabalhar na estimao de pa-

Estatstica

123

UAB

rmetros populacionais com base em amostras no normais so diferentes


dos usados em distribuies normais.
Parmetros populacionais so estimados com base nas distribuies estimadas de mdias amostrais, que usa o erro padro, em vez do desvio padro,
como medida de disperso.
Prezada Professora, o seu texto muito bom, contudo poderia torn-lo mais
conciso se evitasse a repetio de alguns termos, a saber: distribuio, amostras, mdia(s), frequncia, entre outros. (Se for possvel, haja vista que so
termos tcnicos.) Grata, Prof. Ivone Lira (revisora lingustica e textual).

Referncias
CHATFIELD, C.: Problem Solving A Statisticians Guide. London: CHAPMAN & HALL.
1991.
LEME, R. A. DA S.: Curso de Estatstica Elementos. Rio de Janeiro: AO LIVRO TCNICO.
1967.
LEVIN, J.: Estatstica Aplicada s Cincias Humanas. So Paulo: HARPER & ROW DO
BRASIL. 1978.
SPIEGEL, M. R.: Estatstica. MAKRON. 1994.
VIEIRA, S. M.: Introduo Bioestatstica. 3 edio. So Paulo: EDITORA CAMPUS. 1998.

UAB

124

Licenciatura em Matemtica

Estatstica

125

UAB

UAB

126

Licenciatura em Matemtica

Aula 6 - Testes de Hipteses


e Medidas de Associao
entre Variveis

Objetivos
Compreender as bases tericas dos testes estatsticos de hipteses;
Entender o Mtodo Cientfico como forma de evitar vieses cognitivos;
Conhecer e aplicar os testes de medidas de associao entre
variveis.

Assunto
Em nossa ltima aula, vamos aprender como a Estatstica pode ser usada
para entender as relaes entre duas ou mais variveis, que podem se relacionar de diversas formas, seja causando um efeito que influencie a disperso de outra, ou ainda podem ser, intimamente, relacionadas, causando
uma variao quantificvel que pode ser usada para prever os valores que
no esto em uma amostra. Para compreender como isso ocorre, no entanto, temos que primeiro conhecer o embasamento filosfico para essa linha
de aplicao da Estatstica e como podemos evitar vieses que advm de
nossa prpria percepo.

Introduo
Aprendendo a Entender
Desde muito cedo, o Homem percebeu que no podia confiar somente em
suas opinies ou crenas se quisesse, realmente, entender os fenmenos da

Estatstica

127

UAB

natureza. Os mdicos do Egito Antigo j haviam desenvolvido um mtodo


para descrever e diagnosticar doenas, que eram tratadas sistematicamente,
h mais de 3500 anos atrs. Na antiga Grcia (fig. 1), filsofos como Plato
(428 AC 348 AC) e Aristteles (384 AC 322 AC) lanaram os primeiros
fundamentos de uma metodologia lgica, para o estudo de fenmenos atravs da observao sistemtica.
Aristteles descreveu a fauna da ilha de Lesbos, s vezes, com uma preciso
que s foi pareada sculos depois, embora, muito do que ele escreveu fosse
permeado por crenas e mitos: Aristteles jamais viu um bode e uma cabra
no ato reprodutivo, e deduziu que as cabras emprenhavam, porque o vento
forte do outono, poca de acasalamento da espcie, soprava em suas orelhas.

Figura 1: Runas da Acrpole na Antiga Atenas. Fonte: Wikimedia Commons.

Enquanto na Europa, a Idade Mdia enfrentava tempos de ignorncia supersticiosa, no Oriente Mdio ocorria a chamada Era Dourada do Islamismo.
Filsofos muulmanos passaram a usar mtodos experimentais e quantitativos para resolver disputas entre correntes discordantes de pensamento. O
primeiro mtodo cientfico propriamente descrito foi o de Ibn al-Haytham,
ou Alhazen (965-1040, fig. 2), fsico e matemtico iraquiano. Ele usou mtodos que envolviam a observao, a experimentao, a matemtica e a
argumentao lgica para explicar que a ideia antiga que a luz emanava dos
olhos em vez dos objetos iluminados pelo sol ou outra fonte de luz, como
disse Aristteles, estava errada. Seu trabalho O Livro da tica o primeiro
exemplo de experimentao cientfica controlada com a finalidade de esclarecer dvidas relevantes sobre a natureza dos fenmenos fsicos.

UAB

128

Licenciatura em Matemtica

Figura 2: Homenagem a Alhazen em uma nota de 10 dinares iraquianos. Fonte: Wikimedia Commons.

O mundo islmico tambm produziu cientistas como o mineralogista Al-Biruni (973 - 1048) e o mdico Avicena (982 1037), que aplicaram mtodos
experimentais e usaram a matemtica, to rigorosamente, em suas pesquisas, que muitos de seus resultados esto corretos at os dias atuais.
Apesar dos trabalhos dos cientistas islmicos terem sido traduzidos para o latim desde o sculo XI, os textos foram banidos como herticos e passaram-se
vrios sculos para que os europeus, finalmente, entendessem a importncia
do mtodo cientfico. Por essa razo, no mundo ocidental, o pai do mtodo cientfico Galileu Galilei (1564 1642), que chegou a ser excomungado
por afirmar que a Terra gira em torno do Sol, como observado por ele, e no,
o contrrio, como pregado pela Igreja. Aps Galilei, muitos outros filsofos e
cientistas passaram a usar mtodos sistemticos de pesquisa, que se desenvolveram, a partir do sculo XIX, no mtodo cientfico que usamos at hoje,
incluindo o uso da Estatstica.

As Aparncias Enganam
Uma das razes para seguirmos o mtodo cientfico um fenmeno chamado vis cognitivo. O vis cognitivo um erro de julgamento causado
por fatores inerentes ao funcionamento de nosso crebro e que pode levar
a erros crassos em pesquisas cientficas.

Estatstica

129

UAB

H vrios tipos de erros que podemos cometer se tentarmos entender algo


por instinto e o mtodo cientfico sempre ajustado para reduzir ou eliminar esse problema, que objeto de estudo da Psicologia e da Sociologia.
Alguns tipos comuns de vis cognitivo so:
Iluso do Agrupamento a tendncia de ver padres onde no h
nenhum.
Falcia do Jogador a tendncia de achar que um evento aleatrio
individual influenciado por outro evento aleatrio anterior (Se eu tirei
1 no dado duas vezes, a prxima vai ser um 6!).
Efeito da Expectativa do Observador quando um pesquisador
espera um dado resultado e de modo inconsciente, manipula um experimento ou interpreta os dados, erroneamente, de forma a achar o que
ele espera.
Efeito dos Eventos Recentes - a tendncia a dar mais valor a um
evento que ocorreu recentemente do que a um que ocorreu h mais
tempo.
Falcia da Conjuno a tendncia de supor que condies especficas so mais provveis do que condies gerais.
H dezenas de outros vieses cognitivos j descritos por psiclogos e socilogos, que estudam o efeito desses fenmenos na economia, poltica e,
principalmente, nos resultados de pesquisas cientficas.

Testes de Hipteses
Nesta aula, vamos utilizar alguns mtodos da Estatstica Inferencial como
uma ferramenta investigativa e para isso devemos primeiro entender qual
a lgica por trs da pesquisa cientfica e, por que devemos sempre tomar
cuidado ao tentar entender um fenmeno atravs de anlises de amostras.

O Mtodo Cientfico
Primeiro, devemos entender o que uma hiptese cientfica. O Mtodo
Cientfico se presta a formular e testar fenmenos falsificveis, ou testveis. Falsificvel no que dizer falso; quer dizer que, se o fenmeno, ou

UAB

130

Licenciatura em Matemtica

conjunto de dados, ou o que quer que estejamos pesquisando, for falso,


podemos detectar isso atravs de testes, geralmente, estatsticos.
O mtodo cientfico contm passos ou etapas que devemos seguir se quisermos ter resultados vlidos e relevantes. H vrias frmulas para se seguir
o mtodo cientfico, mas, de forma geral, as etapas a se completar so:
Definir uma questo - Em que estamos interessados? Qual a relevncia
dessa questo?
Coletar informaes e recursos - Devemos observar o fenmeno em
questo, ou juntar informaes atravs de referncias bibliogrficas.
Formular hipteses - Uma hiptese uma suposio educada, que
deve ser postulada como uma pergunta ou afirmao. Ser que cidades
com uma maior rede de esgoto tm menos doentes? ou Uma cidade
com uma melhor rede de esgotos tem menos doentes. Obviamente,
uma hiptese tem que ser verificvel e mensurvel.
Fazer experimentos e coletar dados Se vamos a um bairro e fazemos perguntas a moradores aleatrios, esse um tipo de experimento
que produz dados. Testar medicamentos em ratos de laboratrio outro
tipo de experimento (esse, literal) que tambm produz dados. A importncia da coleta de dados (amostragem) j foi vista em nosso curso.
Analisar os dados Nessa etapa, vamos precisar da Estatstica, tanto
para descrever nossos dados e validar nossa amostra quanto para
testar as hipteses que formulamos.
Interpretar os resultados e tirar concluses Devemos ser cuidadosos ao interpretar nossos resultados, pois nossas concluses sero baseadas nessas interpretaes. Muitas pesquisas bem feitas acabam por se
invalidar nessa etapa. Vale a pena lembrar que resultados cientficos devem deixar espao para serem revalidados ou reformulados pelos autores
ou por outros pesquisadores.
Publicar os resultados De nada adianta ter uma pesquisa muito importante se ela no divulgada para o pblico em geral ou um grupo de
pessoas interessadas na pesquisa (governo, indstria, organizaes civis,
grupos acadmicos).

Estatstica

131

UAB

Testar novamente Geralmente, essa etapa feita por outros pesquisadores, mas fundamental para se compreender fenmenos complexos
ou muito dispersos.
Seguindo esses passos, o pesquisador pode responder uma pergunta relevante sobre uma populao-alvo com certo grau de confiana e pode dar
oportunidade para que outras perguntas importantes sejam feitas, elucidando fenmenos dentro daquela populao.

A Hiptese Estatstica
Para que possamos testar uma hiptese cientfica com a Estatstica, devemos fazer inferncias sobre parmetros da populao-alvo, pois isso que a
Estatstica calcula. Uma pergunta cientfica vlida pode ter diversas formas,
mas, ao ser transformada em uma hiptese estatstica, vai tomar apenas
uma forma bsica: os dados coletados vieram ou no da mesma populao?
Digamos que queremos testar a eficincia de dois filtros para chamins industriais. Nossa pergunta : a eficincia do filtro A igual do filtro B? A
varivel que vamos testar a quantidade de poluentes no ar que sai dos
filtros, que algo mensurvel.
Aps coletarmos nossa amostra, que contm o mesmo nmero de filtros A
e B, podemos usar testes estatsticos para ver se as mdias de poluentes so
iguais ou diferentes. Isso testado comparando-se as duas mdias e vendo
se poderiam ter sado de uma mesma populao.
Como vimos antes, estimamos parmetros populacionais (como a mdia ou
propores) atravs de amostras; em um teste para ver se os filtros A e B so
iguais, supe-se que A e B so parte da mesma populao. Dessa forma, se
dividirmos a amostra em dois grupos, um s de filtros A e outro s de filtros
B e estimarmos a mdia da populao com cada grupo separadamente,
ambos os grupos devem estar dentro do intervalo de confiana que contm
a mdia da populao. Os dois filtros, ento, so parte de uma mesma populao, ou seja, tm eficincia igual (fig.3).

UAB

132

Licenciatura em Matemtica

Figura 3: Mdia e disperso das amostras de filtros dos tipos A e B dentro de uma
curva normal estimada para uma nica populao.

Aqui, vemos que a mdia de poluentes saindo dos filtros A menor que a
dos filtros B, mas nem to menor assim que no sirva para estimar a mesma
mdia da populao, ou seja, a diferena ainda est dentro do intervalo de
confiana que contm a mesma mdia populacional. H vrios testes que
podem ser feitos em Estatstica com essa finalidade e seus clculos so bem
distintos, mas, basicamente, esse tipo de similaridade de parmetros estimados que calculado.
Se, por um acaso, as mdias obtidas com os grupos A e B, separadamente,
no se sobrepuserem sobre uma estimativa de mdia populacional comum,
eles no so parte da mesma populao e possuem eficincias diferentes.
Podemos perceber que os filtros A tambm deixam no ar, em mdia, menos
poluentes que os filtros B. Mas, aqui, a diferena entre mdias amostrais
to grande que no podemos estimar a mesma mdia populacional com as
duas amostras (fig. 4).

Figura 4: Mdia e disperso das amostras de filtros dos tipos A e B dentro de uma
curva normal estimada para uma nica populao.

Estatstica

133

UAB

Este o princpio do teste de hipteses na Estatstica Inferencial. Quando


realizamos um teste, ns formulamos duas hipteses:
A Hiptese Nula (representada por H0) supe que no h diferenas
entre dois grupos de dados. Ela assume que as mdias de duas amostras
no so diferentes de uma maneira significante no que diz respeito s
estatsticas, ou seja, as duas estatsticas amostrais poderiam ter sado de
uma mesma populao. No nosso exemplo, a hiptese nula diz que os
filtros A e B tm eficincia semelhante.
A Hiptese Alternativa (representada por H1, ou HA) sustenta o contrrio. Ela sugere que h diferena, estatisticamente, significante entre
duas mdias, o que indica que h uma probabilidade muito baixa de
acordo com o intervalo de confiana escolhido que as duas mdias
venham de amostras de uma mesma populao. No nosso exemplo, a
hiptese alternativa que h uma diferena significante entre a eficincia dos filtros A e B.
Ao comparar dois grupos de dados amostrais dessa forma, estamos aplicando um teste de significncia. E perguntamos se a diferena entre as estatsticas desses dois grupos , realmente, grande o suficiente para significar
que h uma diferena real entre eles.
Na verdade, o teste apenas examina a hiptese nula, de que as duas estatsticas vieram de uma mesma populao. Com o resultado do teste, podemos
aceitar ou rejeitar a hiptese nula. Caso seja rejeitada, devemos aceitar a
hiptese alternativa.

Reconhecendo os Prprios Erros


Dois grandes nomes da Estatstica, o polons radicado nos EUA Jerzy Neyman (1894 1981) e o britnico Egon Pearson (1895 1980) desenvolveram
o chamado Lema de Neyman-Pearson entre 1928 e 1930. Eles questionaram o problema de se obter falsos positivos e falsos negativos em testes
de significncia.
Aos falsos positivos, chamaram de erros tipo I, tambm conhecidos como
erros de credulidade excessiva. Aos falsos negativos, chamaram de erros
tipo II, os erros de ceticismo excessivo. Nos anos seguintes, eles desenvolveram o que , at hoje, usado como condio de eficincia para novos
mtodos de testes de hipteses.

UAB

134

Licenciatura em Matemtica

Ou seja, na anlise estatstica podemos incorrer em dois tipos de erros de


deciso. Podemos rejeitar a hiptese nula quando ela verdadeira, ou seja,
podemos achar uma diferena onde no h nenhuma. o chamado erro
tipo I do lema de Neyman-Pearson. Esse tipo de erro ocorre quando, por
exemplo, tomamos amostras enviesadas de uma populao e assim fazemos
estimativas irreais dos parmetros populacionais.
O erro tipo II ocorre quando aceitamos a hiptese nula quando ela falsa,
ou seja, no percebemos uma diferena que existe. Podemos incorrer nesse
erro se tomamos amostras pequenas demais, que no permitem aos clculos
detectar uma diferena que existiria se a amostra fosse maior.
Devemos tomar cuidado para evitar erros de deciso, mas sempre mais
grave cometer um erro tipo I do que um erro tipo II. Se no conseguimos,
em uma pesquisa, perceber uma diferena que existe, outros pesquisadores
podem, mais tarde, perceber essa diferena.
Afinal, assumimos desde o comeo que no havia diferena entre as estatsticas amostrais e que todas fariam parte da mesma populao. Mas se
dissermos que h uma diferena que no real, as repercusses podem ser
mais graves, pois implicam que h duas distribuies populacionais em vez
de uma s, ou seja, estamos implicando a existncia de todo um universo
de dados inexistentes. A seguir, vamos entender como podemos evitar erros
de deciso.

Evitando Erros de Deciso


Para evitar cometer erros de deciso, devemos primeiro entender que toda
anlise estatstica tem certo grau de incerteza, como vimos antes. No podemos eliminar essa incerteza totalmente, pois, para isso precisaramos analisar
toda uma populao e medir, diretamente, os parmetros que nos interessam. Isso impossvel, portanto o melhor que podemos fazer deixar, bem
claro, qual o grau de incerteza com que estamos trabalhando.
H dois valores que ns podemos ajustar para realizar testes estatsticos. O
primeiro o valor (alfa), que representa a probabilidade mxima de cometermos um erro tipo I, ou seja, rejeitar a hiptese nula quando ela verdadeira. O segundo o valor (beta), que representa a probabilidade mxima
de cometermos um erro tipo II, aceitando a hiptese nula quando ela falsa.
A especificao da probabilidade mxima de cometermos um erro tipo I, ou
, chamada de nvel de significncia de um teste estatstico. Ns esco-

Estatstica

135

UAB

lhemos esse valor de acordo com a segurana, ou confiana, que queremos


ter em no cometer um erro tipo I: se queremos ter 95% de confiana (0,95
em proporo), para calcular a significncia de um teste, usamos o termo
1 = 0,95; = 0,05.
Esse um nvel de significncia de 0,05, ou 5%, sendo o mais comumente
usado. Significa que s consideraremos significativo um teste em que tenhamos 5%, ou menos, de chance de cometer um erro tipo I. Em programas de
computador, esse o , automaticamente, usado. Podemos mudar o nvel
de significncia para mais ou para menos, dependendo do tipo de amostra
que estivermos usando e quantos testes faremos com um mesmo conjunto
de dados. Regra geral, quanto mais testes realizamos, menor deve ser o .
O valor tambm chamado valor crtico de significncia. Ele servir
como ponto de corte para decidirmos se um teste ou no significante.
Por exemplo, tentando descobrir se h uma diferena real entre duas mdias
de 0,05. Aps realizar um teste de significncia
amostrais usamos um
adequado, obtemos um resultado menor que . Isso significa que a probabilidade que estamos rejeitando a hiptese nula de que no h diferena
entre as mdias amostrais sendo ela verdadeira, menor que 5%, Temos,
ento, mais de 95% de confiana de que no estamos cometendo um erro
de deciso tipo I.
Vejamos a tabela 1 abaixo. Aqui vemos as quatro consequncias resultantes
da tomada de deciso sobre um teste estatstico.
Tabela 1: Consequncias da tomada de deciso em testes estatsticos.

Deciso

H0 verdadeira

H0 falsa

Aceitar H0

1 : deciso correta

: erro tipo II

Rejeitar H0

: erro tipo I

1 : deciso correta

tambm importante. Ele a probabilidade de cometermos


O valor de
um erro tipo II, ou seja, aceitar a hiptese nula, quando ela falsa. Em outras palavras, no perceber uma diferena real entre estatsticas amostrais. O
termo 1 chamado de poder estatstico de um teste de significncia e
corresponde probabilidade de rejeitar, corretamente, H0 quando for falsa.
Quanto mais alto o resultado de 1 , mais poderoso o teste.

UAB

136

Licenciatura em Matemtica

Na prtica, outros valores so usados para saber o poder de um teste, incluindo o tamanho da amostra e at a diferena mxima entre as mdias
amostrais.

Significncia Estatstica: o Valor P


Sabemos, ento, que a probabilidade de acharmos uma diferena entre duas
estatsticas amostrais, em um teste de hipteses, quando a diferena no
real (erro tipo I) representada por , o nvel de significncia. Tambm
podemos decidir qual o nvel de significncia aceitvel para nosso teste de
hipteses. Mas como saber se o resultado de um teste estatstico est dentro
ou fora do nvel de significncia que desejamos?
A maior parte dos programas de computador estatsticos vai fornecer, quando requisitado a realizar um teste de hipteses, um valor p. Esse valor a
probabilidade que, dentro daquele conjunto de dados amostrais, achamos
um valor to extremo quanto o obtido, dado que a hiptese nula seja verdadeira, ou seja, que no haja uma diferena real entre as amostras. Tambm
chamamos este valor de valor crtico amostral.
O valor determinado por ns; o valor p calculado com base nos dados
e deve ser comparado com o limite crtico de que ns escolhemos. O valor
p uma probabilidade, portanto estar entre 0 e 1.
Por exemplo, se em nosso estudo sobre a eficincia dos filtros industriais
A e B escolhermos um de 0,05, estipularemos o limite aceitvel da probabilidade de cometermos o erro de dizer que h uma diferena quando
essa no existe. Fizemos um teste de significncia e obtivemos o valor p =
0,00487. Podemos ento dizer que h a probabilidade de 0,487% de que
encontraramos a mesma diferena de eficincia dos dois tipos de filtros que
encontramos na amostra se estas amostras viessem de uma mesma populao. Comparando a probabilidade (p) com a probabilidade de acharmos,
erroneamente, uma diferena que no existe ( ), vemos que p < , e podemos dizer que essa diferena , estatisticamente, significante.
Mas se o resultado do teste fosse, digamos, p = 0,4, veramos que a probabilidade de termos essa diferena em uma mesma populao seria maior
que a probabilidade de cometermos um erro tipo I e devemos concluir que
a diferena entre os dois tipos de filtros , estatisticamente, no significante.
Mas nem tudo to simples, quando interpretamos o valor p. H muitos
enganos comuns, como o de achar que um valor p a probabilidade da

Estatstica

137

UAB

hiptese testada ser verdadeira, ou de que o tamanho de p indica a fora da


influncia de uma varivel sobre outra. Como vimos, o valor p apenas diminui a incerteza que temos sobre as diferenas amostrais.
O limite de aceitao de um valor p baseado no nvel de significncia
que decidimos antes mesmo de olhar os dados amostrais. Mas muitos
pesquisadores cometem o erro de interpretar os testes estatsticos como se
fosse uma resposta do tipo sim-ou-no: significante ou no significante.
Na verdade, se temos um de 0,05, h uma diferena muito grande entre
p = 0,60 e p = 0,06.
Comparado com , p = 0,06 menor, mas apenas indica que h 1% a mais
de probabilidade de obtermos uma diferena como aquela dentro da mesma
populao. Se p = 0,60, h uma probabilidade de 60% de que a diferena
encontrada seja apenas amostral e no populacional. Podemos dizer que
um teste com p = 0,60 no significante e com p = 0,06 marginalmente
significante.
O mais importante aqui lembrar que no podemos extrapolar as suposies que baseiam os valores , e, principalmente, p. Estamos verificando
probabilidades e tentando reduzir a incerteza, mas nunca temos certeza absoluta das generalizaes que fazemos atravs da Estatstica.
A mdia est recheada de exemplos do mau uso da Estatstica e da interpretao errnea de seus resultados. Para que nossas pesquisas sejam relevantes, devemos sempre exercer a parcimnia ao interpretar os resultados de
testes de hipteses.

Medidas de Associao entre Variveis


Agora que j entendemos os pressupostos da Estatstica Inferencial, podemos trabalhar com as medidas de associao entre duas variveis. As medidas de associao permitem que as conexes, ou relaes, que existem
entre duas variveis, sejam identificadas e at medidas. H dois tipos de
medidas de associao: a correlao e a regresso.
A correlao permite medir o grau de associao entre uma varivel x e uma
varivel y. H vrios tipos de clculo de correlao, mas os mais comuns, e
simples, so os de correlaes lineares. H um mtodo paramtrico, a correlao linear de Pearson e um mtodo no paramtrico, a correlao por
postos de Spearman.

UAB

138

Licenciatura em Matemtica

J a regresso calcula o efeito de uma varivel x sobre uma varivel y e permite que calculemos um valor de y hipottico com base em um valor de x
que no possumos em nossa amostra. Regresses podem ser lineares ou
no e podem ser simples, quando usam apenas duas variveis, ou mltiplas,
com trs ou mais variveis. As regresses devem ser feitas em dados que
preencham as exigncias para testes paramtricos e podem ser: a distribuio normal dos dados e a varincia homognea entre os vrios pontos de
dados dentro de uma varivel.
Para se saber se a distribuio dos dados normal, so usados testes de
normalidade. H vrios testes que vo comparar a distribuio de uma varivel aleatria com a distribuio normal hipottica de uma varivel com as
mesmas medidas de tendncia central e de disperso.
Os mais conhecidos so os testes de Kolmogorov-Smirnov, o AndersonDarling e o Ryan-Joiner, e qualquer programa de computador que trabalhe
com Estatstica oferece vrias opes. Para amostras pequenas, o teste de
Kolmogorov-Smirnov para normalidade pode ser feito manualmente e h
diversos livros que explicam a tcnica, simples e laboriosa, e fornecem as
tabelas estatsticas para verificar os valores necessrios ao clculo.
Assim, a distribuio considerada normal se, para um = 0,05, o valor
de p for maior que 0,05, ou seja, h menos de 5% de chance de que a distribuio da varivel seja, significantemente, diferente de uma distribuio
normal ao acaso. Mais adiante, veremos como um programa de computador
apresenta o resultado de um teste K-S normal.
Se o resultado de um teste de normalidade diz que a distribuio da varivel
difere de uma distribuio normal, ainda podemos confirmar se a varincia
dentro da varivel homognea. Para isso, usamos um teste de homocedasticidade (homogeneidade de varincia). Os mais comuns so o teste de
Levene e o de Bartlett, tambm, facilmente, calculados por programas de
computador. Se a varivel, mesmo no normal, apresentar uma varincia
homognea, ainda possvel usar um teste paramtrico, pois os principais
clculos de testes como a regresso e a correlao de Pearson? Ideia incompleta!
Vamos agora aprender a utilizar as duas medidas de associao e entender
que devemos ser cautelosos na interpretao de seus resultados.

Estatstica

139

UAB

Correlao
A correlao mede o quanto duas variveis se alteram juntas. Uma forma
simples de comprovar se h variao conjunta entre duas variveis criar um
grfico de pontos contendo uma varivel no eixo de x e outra no eixo de y.
Agora, usando dados j vistos em uma de nossas aulas anteriores, contendo
o peso e a altura de 24 indivduos que so duas variveis que, geralmente,
mudam juntas, mesmo que uma amostra tenha indivduos mais gordinhos
ou mais magrinhos. De modo geral, quanto mais alta a pessoa, mais pesada
ela .
Ento, vamos usar os dados que citamos e pedir para o MS Excel criar um
grfico de pontos. Aps editar os eixos para que comecem um pouco abaixo
da altura e peso mnimos (clicando no eixo do grfico e em Formatar),
temos um grfico como este da fig. 5.

Figura 5: Grfico de disperso XY dos pesos (x) e alturas (y) de 24 indivduos.

Podemos ver que, em geral, quanto mais alto o valor de x, mais alto o valor
de y (com exceo de alguns magrinhos e gordinhos). Podemos, ento,
ver que parece haver uma relao entre as duas variveis. Mas ser que essa
relao real? Qual a sua fora?
Para descobrir isso, devemos calcular a correlao entre essas variveis. Podemos escolher entre o mtodo paramtrico, se a distribuio normal,
ou no paramtrico, se no normal.

UAB

140

Licenciatura em Matemtica

Ento, vamos testar nossas variveis para normalidade com o programa MINITAB 14 (www.minitab.com), do qual falamos em uma aula anterior, mas
podemos usar qualquer programa de estatstica. Usando o teste K-S normal
(teste Kolmogorov-Smirnov para normalidade), podemos verificar que tanto
a altura quanto o peso tm distribuio que no difere, significantemente,
de uma distribuio normal.
Para tal, devemos organizar os dados em duas colunas, uma para cada varivel, sendo que a altura e o peso de cada indivduo devem estar na mesma
linha, pois o programa calcular a correlao linha por linha, pois cria um
grfico em que so plotados os dados da varivel contra uma linha, representando os valores esperados em uma distribuio normal.
A figura 6 apresenta um grfico do teste de normalidade para a varivel
Altura (cm).

Figura 6: Grfico do teste K-S normal para a varivel Altura (cm) criado pelo programa de computador MINITAB.

Vemos que o resultado do teste aparece em uma legenda no grfico, indicando que a mdia de 164,9 cm e o desvio padro de 10,28 cm, h 24
pontos de dados (N) e segue com os valores do teste K-S (0,088, com um
valor de P maior que 0,150). Para o alfa de 0,05, o teste indica que a distribuio da varivel no difere de uma distribuio normal. Aps realizar o
mesmo teste com a varivel Peso (kg), vemos que essa tambm tem uma
distribuio normal.

Estatstica

141

UAB

Podemos, ento, usar a correlao de Pearson para testar a relao entre as


duas variveis. O resultado de uma correlao de Pearson vai ser o valor r,
que indica a fora e a direo de uma correlao e varia entre -1 e 1. Uma
correlao de valor zero no existe; a correlao positiva indica que duas
variveis variam juntas (se x aumenta, y aumenta) e uma correlao negativa
indica que se o valor de x aumenta y diminui.
Para achar o r de Pearson, o clculo simples, se bem que pode ser laborioso
se houver muitos pontos de dados para somar manualmente:

Essa frmula utiliza apenas trs valores: o total de observaes ou tamanho da amostra (n), a soma de x e a soma de y. Assim, possvel fazer
esse clculo, mesmo com grandes bases de dados, no Excel: basta selecionar
a coluna da varivel que a soma dos valores aparece no canto inferior direito
da janela.
Para calcular a correlao de Pearson no MINITAB, vamos ento clicar em
Estatsticas, Estatsticas Bsicas e Correlao. O programa baseia esse
teste na frmula acima e vai fornecer os resultados em uma caixa de dilogo
(fig. 7).

Figura 7: Caixa de dilogo do programa MINITAB, com os resultados de uma correlao de Pearson entre as variveis Altura (cm) e Peso.

UAB

142

Licenciatura em Matemtica

Em nosso exemplo, a correlao , fortemente, positiva com o valor de r de


0,829. A significncia do teste mostrada pelo valor de P, que zero (bem
menor que o limite de 0,05).
Digamos que, aps testarmos nossas variveis para normalidade, o teste
K-S normal nos indicasse que a distribuio dos nossos dados era, significantemente, diferente de uma distribuio normal (p>0,05): nesse caso,
usaramos o coeficiente de correlao por postos de Spearman, que um
teste no paramtrico, o qual calculado a partir da organizao dos dados
de cada varivel em ordem crescente (os postos) e calculando-se a diferena
entre os valores pareados (d1 = x1 - y1, d2 = x2 - y2,..., di = xi yi). Representado
pela letra grega , o coeficiente de correlao de Pearson calculado pela
frmula:

Programas de computador tambm realizam esse clculo, geralmente, na


ferramenta estatstica para anlise no paramtrica.
No MINITAB, a mesma ferramenta para a correlao de Pearson calcula, imediatamente, a correlao de Spearman, se os dados estiverem ordenados.
Em outros programas, como o BioEstat 5.0, pode-se pedir para que o programa calcule o coeficiente de Spearman em dados no ordenados, sendo
os resultados mostrados em uma caixa de dilogo (fig.8).

Figura 8: Caixa de dilogo do programa de computador BioEstat 5.0, mostrando os


resultados do clculo do coeficiente de correlao por postos de Spearman, entre o
peso e a altura de 17 indivduos.

Estatstica

143

UAB

Os dois testes que vimos agora so correlaes lineares simples que pedem que as variveis sejam medidas em escala de razo (a correlao de
Spearman tambm permite que dados em escala ordinal sejam trabalhados).
Mas h muitos outros tipos de correlao.
Para dados ordinais, temos o coeficiente de contingncia C e o coeficiente de concordncia de Kendall. Esses testes usam tabelas de contingncia
nas quais se encontram dados agrupados por categorias ordinais. O coeficiente de correlao de Kendall tambm usado em dados ordinais. J
para dados nominais, utiliza-se o coeficiente phi, sendo os dados organizados em frequncias absolutas das categorias.
H testes que trabalham com mais de uma varivel ao mesmo tempo. Para o
clculo da correlao entre duas variveis que so afetadas por uma terceira,
usa-se a correlao parcial. Nela, podemos corrigir a correlao entre x
e y por causa da influncia de uma varivel z.
Para entender as correlaes entre vrias variveis, pode-se usar uma matriz
de correlao: se temos x, y, w e z, uma matriz de correlao vai calcular as
correlaes entre x e y, entre x e w, entre x e z, e assim por diante. Matrizes
de correlao e correlao parcial so, como a correlao de Pearson, testes
paramtricos. J a contingncia c, a concordncia e a correlao de Kendall,
e o coeficiente phi so, como o teste de Spearman, no paramtricos.

Correlaes Lineares
As correlaes lineares s so eficientes em dados que tenham associaes
lineares, como diz o nome. Se a associao , fortemente, positiva, vamos
ter um grfico como o representado na figura 9.

Figura 9: Grfico de disperso xy com correlao de Pearson, fortemente positiva.

UAB

144

Licenciatura em Matemtica

Uma associao positiva mais fraca mostra os pontos de dados menos centralizados, mas ainda ascendentes (fig. 10).

Figura 10: Grfico de disperso xy com correlao de Pearson positiva.

O mesmo se d com as correlaes negativas. Uma correlao, fortemente,


negativa apresentaria os pontos dos dados bem prximos, em uma configurao descendente (fig. 11), enquanto uma correlao mais fraca teria pontos de dados mais esparsos, apesar de manter a configurao descendente
(fig. 12).

Figura 11: Grfico de disperso xy com correlao de Pearson, fortemente negativa.

Figura 12: Grfico de disperso xy com correlao de Pearson negativa.

Estatstica

145

UAB

Devemos sempre checar o grfico de uma correlao com r = 0,0. Como


os testes de correlao so feitos para detectar correlaes lineares, ela no
detecta correlaes no lineares, mesmo que fortes. Por exemplo, se dois
grupos de dados no possuem nenhum tipo de correlao, o grfico apresentaria pontos dispersos, sem nenhuma associao evidente (fig. 13).

Figura 13: Grfico de disperso xy mostrando duas variveis no associadas. O coeficiente de correlao de Pearson confirma a no associao.

No entanto, as duas variveis podem estar correlacionadas de forma no


linear. Se aplicarmos um teste de correlao linear, como o Pearson, nessas
variveis, o coeficiente de correlao linear ainda vai ser r = 0,0.
O grfico tira a dvida, pois se duas variveis se correlacionam de forma
no linear, ele dever mostrar essa associao (fig. 14). Nesse caso, h testes
sofisticados mais apropriados para calcular a fora e direo da associao.

Figura 14: Grfico de disperso xy mostrando uma associao no linear entre duas
variveis. O r de Pearson no detecta essa associao.

UAB

146

Licenciatura em Matemtica

Os Enganos Comuns no Uso (e Abuso) das Correlaes


Apesar das correlaes serem ferramentas importantes no estudo de muitos
fenmenos, no devemos nunca esquecer que se trata de testes estatsticos
e como tal devem ser interpretados com parcimnia. H muitos enganos
comuns no uso das correlaes, que devem ser evitados sob pena de invalidarem uma anlise estatstica:
Confundir correlao com causa Esse o engano mais comum. Se
a varivel x est correlacionada com a varivel y, no quer dizer que x
causa y, ou vice-versa. Na verdade, as duas podem ser causadas por uma
varivel z que no conhecida, ou estarem ligadas por foras (como as
leis da fsica ou aspectos da biologia) que permeiam todos os fatores
estudados.
Comparar coeficientes de correlao Os coeficientes de correlao
(r, , etc.) no podem ser comparados diretamente. Uma correlao de
0,5 no duas vezes mais forte que uma de 0,25. Os coeficientes de correlao indicam a direo da ligao e no sua fora real. J o valor de R2
calculado a partir do teste de regresso, que veremos a seguir, pode ser
comparado, pois indica o quanto da varincia de uma varivel , estatisticamente, explicado por outra. Uma regresso com o R2 de 80% explica
duas vezes mais a varincia do que uma de 40%.
Tirar a mdia aritmtica de vrias correlaes um erro muito grave, pois correlaes no so nmeros comuns, portanto no podem ser
tratados como medidas de uma varivel. Uma mdia aritmtica de vrios
coeficientes de correlao , completamente, sem sentido e pode levar a
enganos de interpretao. H clculos, no entanto, que permitem achar
a medida de tendncia central de um grupo de correlaes, usando-se a
transformao z de Fisher.
Achar que o valor de p indica a importncia da correlao Apesar
de j termos falado disso, sempre bom lembrar que o valor de p a probabilidade de que o resultado achado ocorra ao acaso, caso a hiptese
nula seja verdadeira. Numa correlao, a probabilidade de acharmos tal
coeficiente de correlao por pura sorte, quando no h correlao real.
s vezes, uma correlao fracamente positiva (de, digamos, r = 0,15)
pode ter um p bastante significativo (como p = 0, 0012). Outras podem
ter uma correlao fortemente negativa (r = -0,98), mas ter o valor de
p no limite crtico escolhido (como p = 0, 059). O tamanho da amostra
vai ter um efeito maior no valor de p do que o coeficiente de correlao.

Estatstica

147

UAB

Pescar correlaes significativas A Pescaria estatstica um erro


fatal de anlise e pode invalidar toda uma base de dados. comum ver
pesquisadores criando matrizes de correlao, contendo todas as variveis possveis e examinando todas as correlaes em busca de resultados
significativos que so explicados posteriormente. Isso significa que a
hiptese foi elaborada aps a anlise, o que o contrrio da pesquisa
cientfica vlida, que testa hipteses criadas a priori. Alm disso, se realizarmos muitos testes estatsticos em um mesmo conjunto de dados, vamos acabar por achar resultados significativos ao acaso. Se escolhermos
um = 0,05, temos uma chance em 20 de achar um falso positivo.
Se realizarmos 20 ou mais testes, temos uma grande chance de ter um
falso positivo entre os resultados. Por isso, devemos ser comedidos na
quantidade de testes de hipteses utilizados em uma base de dados.

Regresso
Outro teste para medir associaes entre variveis a anlise de regresso.
Devemos tomar cuidado para no confundir a regresso com a correlao.
Enquanto a correlao calculada atravs da associao de cada ponto de
dados de uma varivel com a outra (por exemplo, x1 e y1, x2 e y2, etc.), a
regresso utiliza valores ajustados atravs da tcnica de mnimos quadrados, formando uma reta (quando a regresso linear) que liga estes valores
calculados. A regresso usa os resduos, ou erros, da associao entre uma
varivel independente (o fator de predio) e uma varivel dependente (ou
resposta), fazendo com que a varivel dependente seja uma funo da independenteA grande diferena entre a correlao e a regresso que esta
usada para extrapolar os valores que temos em nossa base de dados, fazendo com que possamos prever como a varivel dependente vai se comportar, quando a varivel independente alcanar um valor ainda desconhecido.
Regresses so usadas, por exemplo, em Meteorologia e Economia, para
prever eventos que ainda no ocorreram.
A forma mais simples da regresso a da regresso linear simples, que
usa apenas uma varivel independente (x), tambm chamada varivel de
efeito, e uma dependente (y), a varivel-resposta. Esse teste de amplo uso
em pesquisas, sejam cientficas, de mercado ou de opinio e serve para entender a influncia, ou efeito, de uma varivel sobre a outra.
Assim, o grande atrativo da regresso a capacidade de fornecer uma equao que servir pra prever valores fora daqueles coletados em uma amostra,
permitindo extrapolar os valores amostrais at os limites da distribuio dos

UAB

148

Licenciatura em Matemtica

dados. A regresso linear simples um teste paramtrico e estima uma curva


normal a partir da amostra, dentro da qual valores ausentes so estimados.
Como com a correlao de Pearson, devemos antes testar as variveis envolvidas para a normalidade.
Logo, o clculo da regresso linear simples envolve saber a covarincia entre
as duas variveis, ou seja, o quanto elas variam conjuntamente. A partir da
amostra, o teste estima uma linha de progresso (chamada linha de regresso de melhor ajuste), em que y calculado pela frmula:
y = a + bx
O valor b, chamado de coeficiente de regresso, calcula o quanto y muda,
em mdia, por aumento de x, dando a inclinao da linha de regresso.
calculado a partir da covarincia de x e y, dividido pela varincia de x:

O valor a a interseo y, ou seja, qual valor y teria se x = 0, calculado,


subtraindo-se a mdia de y da multiplicao da mdia de x pelo coeficiente
de regresso:

Assim, a frmula y = a + bx pode ser aplicada para estimar qualquer valor y


a partir de um valor x.
Programas de computador calculam a regresso linear simples e produzem
um grfico de disperso xy com a linha de regresso de melhor ajuste.
Caso nos interesse verificar, se o tempo de exposio de um produto na
mdia, atravs de propagandas de rdio e televiso, influencia as vendas de
um produto alimentcio. E nossa hiptese inicial presume que a propaganda
no influencia as vendas, o tempo de exposio na mdia, ento, a varivel
independente. O volume de vendas deve ser analisado para que possamos
saber se ele ou no dependente da intensidade de publicidade.
Ento, podemos calcular manualmente ou com a ajuda do Excel, como fizemos em aulas passadas, para chegarmos covarincia entre as variveis, a
varincia de x, e as mdias de x e y. Todos os programas de computador, vol-

Estatstica

149

UAB

tados Estatstica, oferecem a opo de regresso linear simples e produzem


grficos de qualidade. A figura 15 apresenta a caixa de dilogo do MINITAB
para a regresso simples. A maioria dos programas apresenta uma configurao semelhante, em que selecionamos a varivel-resposta (response, em
ingls) e a varivel independente (ou predictor, em ingls).

Figura 15: Tabela de variveis e caixa de dilogo para regresso linear simples, no
programa MINITAB, entre o tempo (em minutos por ms) de exposio na mdia e o
volume de vendas (em milhares) de um produto alimentcio.

Dependendo do programa, os resultados so expostos de forma, ligeiramente, diferente. O MINITAB apresenta um estudo detalhado da regresso.
Para a nossa pesquisa sobre o efeito da propaganda nas vendas, o programa
retornou a seguinte informao:
Anlise de Regresso: Vendas (milhares) x Minutos/ms
A equao de regresso :
Vendas (milhares) = 5,84 + 0, 269 Minutos/ms

UAB

150

Varivel
independente

Coeficiente

Erro padro
do coef.

Minutos/ms

0,26882

0,01087

24,72

0,000

Licenciatura em Matemtica

b = 0, 881761 R2 = 98,4% R2 (ajustado) = 98,2%


Anlise de Varincia

Regresso

611,11

0,000

O primeiro valor que devemos olhar o valor F (regresso). Quanto maior


esse valor, mais chance temos de ter uma regresso significante. No caso,
vemos que o valor de p, colocado logo aps F, de 0, 0000. Isso significa
que temos 0,00% de chance de conseguir o valor F quando a hiptese nula
verdadeira. Ou seja, devemos rejeitar a hiptese nula, de que a propaganda na mdia no influencia a quantidade de vendas, e aceitar a hiptese
alternativa, de que h uma influncia da publicidade nas vendas do produto.
A direo dessa influncia dada pelo Coeficiente de Correlao (b) acima,
de 0, 881761. As duas variveis tm uma associao, fortemente, positiva,
ou seja, quanto mais tempo um produto anunciado em mdia, por ms,
na mdia, mais consumidores iro compr-lo.
O valor R2 o coeficiente de determinao e representa a porcentagem da
variao total da varivel-resposta (y) que explicada pela variao da varivel de efeito (x). De forma geral, quanto mais prximo de 100% o R2, tanto
melhor o modelo (a equao de regresso) se ajusta aos dados. Em nosso
caso, a variao em x explica 98,2% da variao em y.
O grfico de uma regresso muito similar ao de uma correlao, com a
diferena que ele contm uma linha de regresso ajustada. Tal linha mostra
o melhor ajuste possvel de uma reta dentro de um grfico de pontos das
duas variveis, ou seja, a linha que mais se aproxima os pontos do grfico.
Para o nosso exemplo, o grfico de regresso fica assim, como pode ser visto
na fig. 16.

Estatstica

151

UAB

Figura 16: Grfico de regresso linear, com linha de regresso, do efeito do tempo de
exposio mdia (em minutos/ms) e as vendas (em milhares de unidades) de um
produto alimentcio.

H outros tipos de regresso que podem ser aplicados para verificar a influncia de vrias variveis independentes sobre uma dependente, ou para lidar
com dados que tm associaes no lineares.

Outros Tipos de Regresso


Apesar de regresses lineares simples serem, geralmente, suficientes para
que possamos entender o efeito de uma varivel sobre a outra, em algumas
ocasies, precisamos de outros tipos de testes de regresso; os mais comuns
so:
Regresso Linear Mltipla Nesse teste, podemos verificar a influncia
de duas ou mais variveis independentes sobre uma varivel dependente.
Devemos ter cuidado, no entanto, para selecionar as variveis que vo
entrar no modelo, pois podemos invalidar esse modelo se, por exemplo,
apenas uma das trs variveis independentes tiver um efeito sobre a dependente. Mtodos de seleo de variveis incluem a seleo por passos,
feita por muitos programas estatsticos.
Ajustamento de curvas Esse mtodo , extremamente, til quando
a associao entre as variveis no linear, mas exponencial, logartmica
ou geomtrica. O teste procura que tipo de curva mais se ajusta associao entre variveis e calcula o coeficiente de regresso.

UAB

152

Licenciatura em Matemtica

Regresso Logstica Simples A regresso logstica simples usada


quando a varivel dependente pode ser colocada de forma binria, ou
seja, em forma de sim-ou-no, ou sucessos/insucessos, representados pelos dgitos 0 e 1.Mas a varivel independente pode ser contnua.
Esse teste muito til em anlises de presena/ausncia ou quando comparamos dois grupos distintos e excludentes.
Regresso Logstica Mltipla Como a logstica simples, a varivel
dependente binria, mas sendo uma regresso mltipla, h duas ou
mais variveis independentes, que podem ser todas binrias ou ter uma
contnua. Devemos ter cuidado redobrado, no entanto, na organizao
dos dados.
Regresses Polinomiais Referem-se a um conjunto de testes que
usam frmulas polinomiais para o clculo dos coeficientes de regresso.
Formas como regresses quadrticas, cbicas ou qurticas podem ser calculadas em situaes em que a associao entre variveis assume formas
curvas diversas. importante, no entanto, que os intervalos nos dados
sejam de tamanhos homogneos. A maioria dos programas de computador no apenas realiza esses testes, como tambm ajuda a entend-los e
saber qual a situao adequada para seu uso.
Chegamos ao final de nossa disciplina, com a esperana de que a introduo ao vastssimo universo da Estatstica tenha despertado o interesse e
fomentado o aprofundamento dos seus conhecimentos nessa cincia. A Estatstica cria vida quando aplicada e so inmeras as maneiras de se extrair
informao de um conjunto de dados. H um velho ditado da rea que diz:
se apresentarmos um problema para dez estatsticos, cada um deles ter um
mtodo diferente, mas todos chegaro mesma resposta.
A flexibilidade e a interao entre frmulas matemticas, caractersticas dos
clculos estatsticos, permitem tantos ajustes especficos a cada caso que o
mtodo se torna feito sob medida. No h uma receita nica de se trabalhar com a Estatstica, mas devemos sempre seguir os fundamentos bsicos
que vimos aqui. Essa a lgica que a guia, e sem ela todos os resultados
perdem o sentido.
Com o crescimento das populaes, e o enorme poder que grandes grupos tm ao preferir produtos, escolherem governantes e exigir eficincia dos
servios pblicos, as pesquisas estatsticas sero cada vez mais frequentes e

Estatstica

153

UAB

importantes; assim, especialistas nesse ramo da Matemtica, certamente,


no so, ou sero no futuro, desperdiados.
Bom trabalho!

Resumo
A Estatstica Inferencial se preocupa com o teste de hipteses, comparando
a distribuio de dados amostrais com uma distribuio estimada ou esperada. Para que seja vlida, essa abordagem deve seguir algumas regras metodolgicas baseadas no Mtodo Cientfico, podendo assim ser usada com
certo grau de confiana para entender relaes e efeitos entre variveis. As
medidas de associao mostram como duas ou mais variveis se relacionam.
A correlao verifica o quanto duas variveis variam juntas, existindo um
mtodo paramtrico (correlao de Pearson) e um no paramtrico (correlao de Spearman); a regresso verifica se h algum efeito da varivel x sobre
a varivel y, e permite que dados sejam extrapolados alm ou aqum dos
valores amostrais.
As medidas de associao so utilizadas em diversas reas do conhecimento,
mas se deve tomar cuidado com a interpretao dos resultados. H mtodos
de correlao e regresso para variveis mltiplas que podem ser usados
para lidar com muitas variveis ao mesmo tempo e mtodos de regresso
que permitem lidar com dados binrios e distribuies no normais.

Referncias
CHATFIELD, C.: Problem Solving A Statisticians Guide. London: CHAPMAN & HALL.
1991.
GRAFEN, A.: Modern Statistics to the Life Sciences. Oxford: OXFORD UNIVERSITY PRESS.
2002.
LEVIN, J.: Estatstica Aplicada s Cincias Humanas. So Paulo: HARPER & ROW DO
BRASIL. 1978.
LITTLE, R. J. A.: Statistical Analysis with Missing Data. New York: WILEY. 1987.
ROWNTREE, D.: Statistics Without Tears. Londres: PENGUIN BOOKS. 2000.
SPIEGEL, M. R.: Estatstica. MAKRON. 1994.
.

UAB

154

Licenciatura em Matemtica

Estatstica

155

UAB

Das könnte Ihnen auch gefallen