Beruflich Dokumente
Kultur Dokumente
EDUCAÇÃO A DISTÂNCIA
LICENCIATURA EM
Computação
Estatística
André Luiz Sena da Rocha
A Coordenação
Governo Federal
Ministro de Educação
Aloizio Mercadante Oliva
Pró-Reitor de Graduação
Augusto Carlos Pavão
© 2013 by NEaD/UFERSA - Todos os direitos reservados. Nenhuma parte desta publicação poderá ser reproduzida
ou transmitida de qualquer modo ou por qualquer outro meio, eletrônico ou mecânico, incluindo fotocópia, gravação
ou qualquer outro tipo de sistema de armazenamento e transmissão de informação, sem prévia autorização, por escrito,
do NEaD/UFERSA. O conteúdo da obra é de exclusiva responsabilidade dos autores.
ISBN: 978-85-63145-57-4
Bibliotecário-Documentalista
Mário Gaudêncio – CRB-15/476
http://nead.ufersa.edu.br/
APRESENTAÇÃO DA DISCIPLINA
Um forte abraço.
SOBRE O AUTOR
UNIDADE I
ESTATÍSTICA DESCRITIVA
POPULAÇÃO E AMOSTRA 13
• População 14
• Amostra 14
TIPOS DE VARIÁVEIS 17
O MÉTODO ESTATÍSTICO 22
REPRESENTAÇÃO TABULAR 26
REPRESENTAÇÃO GRÁFICA 43
• Gráfico de Colunas 43
• Gráfico de setores 45
• Gráfico de linhas 46
• Média Aritmética 48
• Mediana 51
• Moda 52
• Separatrizes 59
MEDIDAS DE DISPERSÃO 63
• Amplitude Total 64
• Variância 65
• Desvio padrão 66
• Coeficiente de Variação 67
UNIDADE II
INTRODUÇÃO À PROBABILIDADE 75
• Experimentos aleatórios 75
• Espaço amostral 76
• Eventos 77
• Definição de probabilidade 80
• Resultados equiprováveis 83
• Probabilidade condicional 84
• Independência estatística 88
• Função de probabilidades 92
• Esperança e Variância 98
UNIDADE III
Objetivos:
Não existe uma data específica de quando surgiu a estatística, mas sabe-se que des-
de a antiguidade vários povos faziam a contagem de número de pessoas, quanti-
Banco de imagens/NEaD
dade de nascimentos, óbitos, tamanho de suas riquezas, etc. Naquele tempo, essas
informações eram coletadas, predominantemente, para fins bélicos e tributários,
ou seja, o que na época era de maior importância para a maioria das civilizações
era aumentar suas riquezas e saber o tamanho do seu exército e armamento para,
no caso de ser necessário, tomar uma decisão sobre a entrada em uma guerra.
Antes de dar continuidade aos nossos estudos, precisamos saber o que é Estatística. Para que ela serve e
como podemos aplicá-la.
FIQUE DE OLHO
Estatística é a ciência que diz respeito à coleta, apresentação e análise de dados (numéricos1 ou Informações
1
não numéricos2 ), de tal forma que seja possível realizar julgamentos ou interpretações sobre eles. representadas
por números.
Ex: Número
2
Informações Imagine que você e mais 49 colegas da classe de pessoas na
representadas por família.
fizeram uma prova e, que o professor irá divul-
categorias que não
são numéricas. gar as notas. No entanto, você quer saber como
Mas como assim?
Ex: Nome completo foi o desempenho da turma, e logo pergunta
Como podemos fazer
de cada membro ao professor: professor, como a turma se saiu
da família.
julgamentos de dados
quantitativos? nessa prova? 13
Na verdade, o que você quer saber é como foi o desempenho da turma. No entan-
to, o que você está fazendo aqui é uma análise quantitativa a partir da coleta dos
Banco de imagens/NEaD
dados (a coleta foi a aplicação das provas, sendo os dados as notas dos alunos).
Quando o professor responde como foi o desempenho da turma, isso é o julga-
mento dos dados. Mas e aí, será que para saber se a turma foi boa é necessário
analisar todas as 50 notas? Ou será que se analisarmos só uma parte já seria pos-
sível ter uma ideia do desempenho da turma? Você vai descobrir.
SAIBA MAIS
Quer saber mais sobre a estatística e sua história? Veja os vídeos abaixo:
População e amostra
UN 01
Você acabou de ver o exemplo das notas dos 50 alunos, e terminamos a seção passada questionando se era
preciso saber o resultado das 50 notas para ter uma ideia do desempenho da turma. Antes de responder a
esta pergunta, precisamos saber primeiro o que significam População e Amostra.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
População
População é o conjunto de todos os elementos que têm no mínimo uma determinada característica em co-
mum a ser mensurada pelo pesquisador (identificamos pela letra “N”). A população pode ser finita, como
o conjunto de alunos de uma determinada escola, ou infinita, como o número de vezes que se pode jogar
um dado.
Quando é realizado um estudo sobre uma população, ou seja, quando estudamos todos os elementos com
características em comum do nosso interesse, damos a este estudo o nome de censo.
Um exemplo de um censo é o que o nosso País realiza a cada 10 anos para fazer a contagem de todas as
pessoas do território nacional.
Banco de imagens/NEaD
anemia? É claro que não! Precisamos apenas de uma pequena quan-
tidade de sangue para saber como está todo o sangue do nosso cor-
po assim,chamamos esta pequena quantidade de sangue (que está
representando toda a população) de Amostra.
Amostra
14
Amostra é qualquer subconjunto da população (identificamos pela letra “n”). A amostra pode ser pequena
(no mínimo 1) ou grande (no máximo N–1), logo:
1 ≤ n ≤ (N-1)
Banco de imagens/NEaD
População Amostra
O procedimento de se trabalhar com amostras em vez da população é muito utilizado na inferência esta-
tística.
FIQUE DE OLHO
Inferência Estatística é o ramo da estatística no qual o pesquisador faz afirmações da população
a partir de um estudo de uma amostra previamente selecionada.
O uso da Inferência Estatística é de suma importância, principalmente, em situações nas quais não podemos
estudar toda a população, na maior parte dos casos por tomar muito tempo ou gerar alto custo, de modo a
inviabilizar o estudo; por isso, tomamos uma amostra para analisar a variável de nosso interesse. A partir
do estudo realizado na amostra, poderemos compreender como a população se comporta em média. Esse
procedimento, conhecido como Inferência Estatística, tem forte fundamento na Teoria da Probabilidade.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
Vamos exercitar?
EXERCÍCIO RESOLVIDO
1. Dada a população representada pelos números reais (R ),
cite três exemplos de amostras:
2. Dada a população representada pelos números inteiros, cite uma amostra desse conjunto:
a) No cadastro com todos os bebês nascidos vivos nos hospitais do Rio Grande do Norte em 2009, foi
realizado um sorteio de 1000 desses bebês, sem mais critérios de seleção e calculada a taxa de mor-
talidade infantil dos que não completaram um ano de vida.
15
POPULAÇÃO: Todos os bebês nascidos vivos nos hospitais do Rio Grande do Norte em 2009.
b) Um funcionário de um Canil deseja averiguar se os cães estão infectados com um tipo de bactéria
encontrada na ração. Sabendo que o estabelecimento é composto por 10 canis e que em cada um há
cinco cachorros, o funcionário se preocupou em colher uma amostra de sangue de dois cães de cada
um dos canis.
AMOSTRA: 20 cães
c) Um pediatra deseja estudar as curvas de crescimento de peso corporal e estatura de crianças nas-
cidas na Maternidade Januário Cicco, em Natal-RN, no período de 2000 a 2005. Para tanto, ele fez, a
partir do cadastro disponibilizado pela maternidade, o sorteio de 300 crianças utilizando o critério
de haver exatamente 50 bebês nascidos em cada um dos anos pesquisados.
POPULAÇÃO: Crianças nascidas na Maternidade Januário Cicco, em Natal-RN, no período de 2000 a 2005.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
d) Para analisar as causas de gastrite de seus pacientes, o gastroenterologista Robério pretende realizar
uma pesquisa com seus pacientes sobre a quantidade de ingestão de refrigerantes por semana. Para
tanto, por não poder questionar todos, indagou ao primeiro paciente que entrou em seu consultório;
dando um intervalo de dois pacientes, e perguntando novamente ao quarto paciente, depois ao séti-
mo, décimo e assim por diante.
e) Um instituto de pesquisa realizou um estudo de ração para engorda do gado da raça Nelore, da fa-
zenda “Nova Aurora”. Para tanto, levando em conta que o gado desta raça recebe uma etiqueta com
código em uma de suas orelhas, foi feito um sorteio de 100 animais, sendo acompanhado e se houve
engorda significativa com uso da ração testada.
f) Dentre os 3000 alunos de uma escola, selecionaram-se 30 que foram inquiridos sobre o programa
de televisão preferido, dando como respostas: a Telejornal, 10 alunos; Novelas, 12 alunos e Cinema,
8 alunos.
16
POPULAÇÃO: 3.000 alunos de uma escola.
AMOSTRA: 30 alunos.
g) Para aferir a aceitação de uma nova ração canina para filhotes de médio porte com até seis meses de
idade, uma empresa selecionou 200 filhotes de diversas raças, com até 6 meses de vida, e contabili-
zou o crescimento deles.
POPULAÇÃO: Todas as dissertações dos cursos de Geografia, História e Pedagogia defendidas a partir
do ano de 2000 cadastradas no banco de dissertações da Biblioteca Central.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
EXERCÍCIO PROPOSTO
1. Descreva a população e amostra para as seguintes situações:
a) A fim de saber a aceitação de um novo remédio para dor de cabeça, para pessoas do sexo feminino,
com idades entre 30 a 40 anos e que sofrem de enxaqueca crônica há mais de 10 anos, uma empresa
selecionou 200 dessas pessoas e realizou um experimento.
b) A fim de analisar a resistência à compressão de 280 kg, um engenheiro de materiais selecionou alea-
toriamente 7.589 tijolos, dentre os produzidos no dia 24 de junho de 2013, na empresa "Cerâmica e
Cia", no turno da manhã. Não houve critérios adicionais na seleção.
Banco de imagens/NEaD
Tipos de variáveis
UN 01
Quando realizamos um estudo, seja em uma população ou em parte dela (amostra), estamos observando,
contando ou medindo uma característica comum aos elementos estudados. Esta característica mensurada
se chama variável de interesse. As variáveis surgem quando você pergunta o quê irá medir, contar ou ob-
servar nos elementos da população. As variáveis estatísticas podem ser classificadas em dois tipos:
Nominal
1 - Qualitativa
Ordinal
Discreta
2 - Quantitativa
Continua
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
1. Variáveis Quantitativas: São as características que podem ser medidas em uma escala quantitativa,
ou seja, apresentam valores numéricos que fazem sentido. Podem ser contínuas ou discretas.
a) Variáveis Discretas: Características mensuráveis que podem assumir apenas um número finito ou
infinito contável de valores e, assim, somente fazem sentido valores inteiros. Geralmente, são o resultado
de contagens. Exemplos: número de filhos, número de bactérias por litro de leite, número de cigarros fu-
mados por dia, número de trilhas no CD.
b) Variáveis Contínuas: Características mensuráveis que assumem valores em uma escala contínua (na
reta real), para as quais valores fracionais fazem sentido. Usualmente devem ser medidas através de algum
instrumento. Exemplos: peso (balança), altura (régua), tempo (relógio), idade (anos).
2. Variáveis Qualitativas (ou categóricas): São as características que não possuem valores quantita-
tivos, mas, ao contrário, são definidas por várias categóricas, ou seja, representam uma classificação
dos indivíduos. Podem ser nominais ou ordinais.
a) Variáveis Nominais: Não existe ordenação dentre as categorias.
Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio, sim/não.
b) Variáveis Ordinais: Existe uma ordenação entre as categorias, ou seja, há uma hierarquia natural entre
elas, sendo possível criar uma sequência lógica.
Exemplos: escolaridade (1º, 2º, 3º graus), estágio da doença (inicial, intermediário, terminal), mês de
observação (janeiro, fevereiro,..., dezembro), opinião sobre o atendimento de um restaurante (péssimo,
ruim, regular, bom, ótimo).
Agora veremos uma situação prática que irá nos auxiliar no entendimento deste assunto.
SITUAÇÃO PRÁTICA
Suponha que um funcionário da biblioteca da Ufersa tenha que preencher uma ficha, chamada folha de
Folha de Verificação
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
Perceba que as respostas que estamos mensurando na folha de verificação são nossas variáveis de inter-
esse e há perguntas classificadas como quantitativas (perguntas 3, 4, 5, 6, 7, 9) e como qualitativas (1, 2,
8, 10, 11, 12, 13).
Observe que as perguntas 6, 7 e 9 são classificadas como quantitativas discretas, uma vez que é possível
realizar uma contagem inteira do número de livros numa estante, prateleira e sua quantidade de páginas.
Já as perguntas 3, 4 e 5 são classificadas como quantitativas contínuas, pois estas medem a altura, largura
e peso do livro, valores estes presentes numa reta real.
As perguntas 8, 11 e 13 são classificadas como qualitativa ordinal, uma vez que podemos estabelecer uma
ordenação natural das categorias, como por exemplo, a pergunta 13, pode-se ordenar de acordo com a
temperatura (desde a menor temperatura até a de maior). A pergunta 11 pode-se ordenar de acordo com
a ordem cronológica (abaixo de 5 anos, entre 5 e 10 anos, acima de 10 anos). A pergunta 8 pode-se ordenar
de acordo com o nível de conservação do livro (desde o pior conservado até o de melhor estado). Observe
que ainda há perguntas classificadas como qualitativas.
“Nem sempre poderemos ordenar todas as categorias qualitativas; as perguntas 1, 2, 10 e 12 são exem-
plos disso. Nessas, não há possibilidade de criar uma ordenação ou hierarquia natural das categorias,
como por exemplo, a pergunta 2 (Título do livro); suponha dois títulos de livro: “Análise e expressão
textual” e “Análise de livros didáticos”, qual desses títulos será ordenado como o primeiro?
Não é possível responder essa pergunta, porque não há uma hierarquia entre essas duas categorias.
O mesmo ocorre nas perguntas 1, 10 e 12. A pergunta 1 trata do nome do funcionário (imagine dois
funcionários: André e Alberto), não temos como ordenar esses nomes. A pergunta 10 (ocorrência de
página rasgada no livro), não podemos ordenar as categorias “sim” e “não”. A pergunta 12 (necessidade
de restauração do livro), é similar a pergunta 10, pois podemos descrever a pergunta 12 como “sim”
19
(necessário restaurar) ou “não” (não é necessário restaurar”).
Assim, pelo mesmo motivo, não podemos ordenar essas categorias. Logo, essas perguntas são qualifica-
das como qualitativas nominais.”
SAIBA MAIS
Apesar de haver a classificação do tipo de variável, uma variável originalmente quantitativa pode
ser coletada de forma qualitativa.
Por exemplo, a variável idade em anos completos, é quantitativa (contínua); mas, se for informada
apenas a faixa etária (0 a 5 anos, 6 a 10 anos, 11 a 15 anos, etc...), é qualitativa (ordinal). Outro
exemplo é o peso dos lutadores de boxe, medido em quilogramas; originalmente é uma variável
quantitativa (contínua), mas pode ser coletada como uma variável qualitativa (ordinal) se o classi-
ficarmos nas categorias do boxe (peso-pena, peso-leve, peso-pesado, etc.).
Outro ponto importante é que, nem sempre, uma variável representada por números é quanti-
tativa. Temos, por exemplo, o número do telefone de uma pessoa, o número da casa, o número
de sua identidade. Essas informações, apesar de numéricas, representam um código de identifi-
cação e não necessariamente dão ideia de quantidade. Ocorrendo o mesmo com os recensea-
dores do IBGE ao fazer as pesquisas domiciliares, muitas vezes registram o sexo do indivíduo na
planilha de dados como 1, se masculino e 2, se feminino. Isto não significa que a variável sexo
passou a ser quantitativa!
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
EXERCÍCIO RESOLVIDO
c) Marcas de placa-mãe que serão testadas pelo INMETRO (ASSUS, Intel, Gigabyte, Acer);
Resp.: Qualitativa nominal.
k) Opinião sobre a eficácia de certo remédio (péssima, ruim, regular, boa, ótima);
Resp.: Qualitativa ordinal.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
EXERCÍCIO PROPOSTOS
a) Cor da pele.
j) Número de votos que um candidato pode ter em uma eleição para vereador.
O método estatístico
UN 01
O método estatístico é fundamental em grande parte de pesquisas e estudos científicos. Este método é
composto por etapas que o pesquisador deve seguir para desenvolver o estudo da melhor forma possível
e interpretar os dados de forma mais eficaz. As fases do método estatístico são:
Definição de Planejamento
Problema da Pesquisa
Apresentação
Apresentação
dos Dados
dos Dados
(Tabelas e
(Conclusões)
Gráficos)
DEFINIÇÃO DO PROBLEMA
É a primeira etapa e uma das mais importantes, pois é nela que o pesquisador irá definir com a máxima
precisão possível, o que vai estudar.
Exemplo: um candidato a prefeito de uma cidade deseja saber qual o percentual da pretensão de votos na
cidade em que irá concorrer à eleição. Logo, será realizada uma pesquisa para estudar o percentual de
votos dos eleitores a favor desse candidato.
PLANEJAMENTO
No planejamento, serão levantadas todas as informações possíveis do problema a ser estudado. Nessa
etapa, será definido se a pesquisa será feita com a população (censo) ou com uma amostra dela, e a partir
daí serão definidos os cronogramas das atividades desenvolvidas: custos envolvidos, tamanho da equipe
para a pesquisa, critérios de aplicação, etc.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
COLETA DE DADOS
É a coleta das informações, ou seja, quando o pesquisador vai a campo com sua equipe.
Exemplo: A coleta de dados para o exemplo anterior será a aplicação dos questionários nos eleitores da
cidade em que o candidato a prefeito está concorrendo.
CRÍTICA DE DADOS
Nessa etapa, é realizada uma busca por possíveis erros que possam ter ocorrido e comprometam a pes-
quisa. Assim, é da sensibilidade do pesquisador investigar todo resultado não esperado como, também, o
muito acima ou abaixo do normal.
Exemplo: a crítica de dados para o exemplo anterior será a análise dos questionários aplicados e tabulados
numa planilha eletrônica. O pesquisador irá à procura de possíveis erros, como: Erro de digitação, número
de questionários incompatível com o número de questionários na planilha, averiguação se foi aplicado
corretamente os questionários nos locais planejados, se não ocorreu nenhum problema na pesquisa, se
há respostas estranhas como, por exemplo, idade de um entrevistado igual a 120 anos, etc. O papel do
pesquisador nessa etapa será de investigar todos os possíveis erros da pesquisa para poder averiguar sua
veracidade.
Após a coleta e a crítica dos dados, será realizado um tratamento estatístico das informações levantadas
por meio de tabelas e gráficos.
23
Exemplo: A apresentação dos dados no exemplo anterior será basicamente a construção, a partir dos da-
dos da planilha eletrônica, de tabelas e gráficos que irão representar o percentual dos eleitores que vota-
rão no candidato em questão, bem como em outros candidatos. Nesta etapa poderá ser mensurada tam-
bém informações sobre os eleitores, como o sexo, faixa etária, renda familiar bruta, nível de instrução, etc.
Havendo uma descrição e análise do problema estudado através das tabelas e gráficos, o pesquisador po-
derá tomar uma decisão é concluir sobre a(s) possível(is) causa(s) do problema investigado.
Exemplo: Uma vez que o pesquisador já tem os dados da pesquisa representados por tabelas e gráficos,
poderá ser informado ao candidato o percentual de votos favoráveis a ele, bem como suas qualidades e
defeitos informados na pesquisa. Assim, o candidato poderá adaptar sua campanha com base na opinião
dos eleitores mensurada na pesquisa.
Em suma, a Estatística pode ser divida em duas grandes áreas: a Estatística Descritiva e a Estatística In-
dutiva.
A Estatística Descritiva é a área que trabalha basicamente realizando uma descrição inicial dos dados. É
nela que se realizam a organização, apresentação e análise de dados por meio de tabelas e gráficos, como
também por meio de outras medidas estatísticas (por exemplo, a média).
A Estatística Indutiva é onde há aplicações da inferência estatística, ou seja, é nela que o pesquisador vai
extrapolar os resultados que encontrou na amostra para a população. Vimos no início do nosso caderno
didático o exemplo do professor que aplicou a prova para você e seus 49 colegas de sala. Quando retira-
mos uma amostra de provas e calculamos a média das notas dessa amostra; ao extrapolar o resultado que
encontramos nessa amostra para toda a turma, estamos realizando inferência estatística. No entanto, na
Unidade III veremos que haverá uma probabilidade (α, em que 0 ≤ α ≤ 1) de estarmos errados e uma pro-
babilidade (1 – α) de estarmos corretos.
Antes de trabalharmos com as principais aplicações numéricas da estatística, veremos na próxima seção
os critérios para realizar arredondamento de números, procedimento bastante utilizado em nosso cader-
no didático.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
Em muitas situações do nosso caderno, teremos números com grande quantidade de casas decimais (ou
até casas decimais infinitas, como, por exemplo, no caso de uma dízima periódica), impossibilitando ou
dificultando os cálculos. Assim, faz-se necessário arredondar este número para uma quantidade finita de
casas decimais.
π = 3,14159265358979
Podemos observar que o número pi está entre os números inteiros 3 e 4. No entanto, ele está mais próximo
do número 3 do que o número 4. Abaixo segue uma ilustração:
π = 3,14159265358979...
2 3 4 5
Ao representarmos o número pi por um número inteiro, o valor mais próximo seria 3. Caso arredondásse-
mos para o número 4, estaríamos cometendo um erro maior do que representá-lo por 3.
Para o arredondamento, deveremos utilizar a regra que consiste em analisar o dígito posterior à última
casa decimal a ser considerada e:
a) Se este dígito for maior ou igual a 5 (entre 5 e 9), somar 1 à última casa decimal;
24 b) Se este dígito for menor que 5 (de 0 a 4), manter a última casa decimal inalterada.
EXERCÍCIO RESOLVIDO
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
d) Uma casa decimal:6,4789473675 ≈ 6,5 , pois o 2º número após a vírgula (7) é igual ou superior a 5.
e) Uma casa decimal:7,59874673 ≈ 7,6 , pois o 2º número após a vírgula (9) é igual ou superior a 5.
f) Uma casa decimal:17,7441233 ≈ 17,7 , pois o 2º número após a vírgula (4) é inferior a 5.
g) Duas casas decimais:6,4789473675 ≈ 6,48 , pois o 3º número após a vírgula (8) é igual ou superior
a 5.
h) Duas casas decimais: 7,59874673 ≈ 7,60 , pois o 3º número após a vírgula é igual ou superior a 5. No
entanto, a 2º casa decimal não tinha como aumentar (9), logo, o arredondamento foi dado no 1º nú-
mero após a vírgula, aumentando de (5) para (6).
i) Duas casas decimais: 17,7441233 ≈ 17,74 , pois o 3º número após a vírgula (4) é inferior a 5.
j) Três casas decimais: 6,4789473675 ≈ 6,479 , pois o 4º número após a vírgula (9) é igual ou superior
a 5.
k) Três casas decimais: 7,59874673 ≈ 7,599 , pois o 4º número após a vírgula (7) é igual ou superior a 5.
l) Três casas decimais: 17,7441233 ≈ 17,744 , pois o 4º número após a vírgula (1) é inferior a 5.
m) Quatro casas decimais: 6,4789473675 ≈ 6,4789 , pois o 5º número após a vírgula (4) é inferior a 5.
n) Quatro casas decimais: 7,59874673 ≈ 7,5987 , pois o 5º número após a vírgula (4) é inferior a 5.
o) Quatro casas decimais: 17,7441233 ≈ 17,7441 , pois o 5º número após a vírgula (2) é inferior a 5.
EXERCÍCIO PROPOSTOS 25
1. Faça o arredondamento para as seguintes situações:
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
Representação tabular
UN 01
Uma vez realizada a coleta de dados, eles estarão em uma planilha na qual, muitas vezes, não apresen-
A representação tam um significado claro. Logo, para podermos apresentá-los de uma forma mais intuitiva e didática, nos
tabular também é utilizamos de tabelas e gráficos para esse fim. No entanto, antes de irmos para as conhecidas “tabelas”,
conhecida como
precisamos saber os conceitos de tipos de dados, dados brutos e dados em rol.
distribuição de
frequências. Numa pesquisa, poderemos trabalhar com dois tipos diferentes de dados: dados primários e dados se-
cundários.
Dados Primários: São aqueles que ainda não foram coletados e o pesquisador irá coletá-los durante a
pesquisa.
Dados Secundários: São aqueles que já foram coletados e muitas vezes já foram tabulados e ordenados.
Normalmente são fornecidos pela empresa que o pesquisador está realizando o estudo, ou foram obtidos
em livros, artigos, sites de instituições como IBGE, SEBRAE, DATASUS e etc.
FIQUE DE OLHO
Dados Brutos: são os dados apresentados desordenadamente, da forma como foram coletados
e que não passaram por nenhuma síntese ou análise.
EXEMPLO
Caso perguntemos as idades em anos completos de 15 alunos de uma sala de aula de certa faculdade. E
21 24 22 26 31 28 22 37 19 17 22 25 52 22 28
Perceba que as idades não estão em ordem crescente ou decrescente, mas na ordem em que foram cole-
tadas.
Banco de imagens/NEaD
FIQUE DE OLHO
Dados em Rol: São os dados que foram coletados anteriormente e apresentados em ordem
crescente ou decrescente.
Utiliza-se com
maior frequência No exemplo a seguir, vamos ultilizar as idades dos 15 alunos e colocar em ordem crescente. Repare que
dados em rol em dessa forma, os dados estão em rol.
ordem crescente.
17 19 21 22 22 22 22 24 25 26 28 28 31 37 52
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
SAIBA MAIS
Lembre-se de que quando coletamos dados (dados primários) e os apresentamos da forma como
foram coletados sem nenhuma síntese ou análise, os chamamos de dados brutos.
Quando colocamos esses dados em ordem crescente ou decrescente, os chamamos de dados
em rol.
Quando trabalhamos com dados secundários, dificilmente eles são dados brutos, uma vez que
são apresentados em sua maior parte, já ordenados e tabulados. Sendo assim, dizemos que es-
ses tipos de dados também são dados em rol.
E como seriam os dados brutos e em forma de rol nos casos de uma variável qualitativa?
Suponha que foi realizada uma pesquisa sobre o nível de satisfação em relação à coleta de lixo de uma
cidade do Rio Grande do Norte. Foi indagado a 91 morador como você classifica a coleta de lixo: (Péssimo,
Ruim, Regular, Bom ou Ótimo)
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
Observa-se que os dados estão da forma como foram coletados; logo, estes são dados brutos.
Aí teríamos dados em forma de rol (neste caso, como são dados qualitativos, não os colocamos, mas em
ordem alfabética).
28 22
25
Ruim
Ruim
32
33
Regular
Regular
1
8
Bom
Bom
26 Ruim 39 Regular 12 Bom
28 Ruim 40 Regular 18 Bom
30 Ruim 43 Regular 36 Bom
34 Ruim 45 Regular 41 Bom
35 Ruim 48 Regular 44 Bom
37 Ruim 49 Regular 47 Bom
38 Ruim 50 Regular 56 Bom
42 Ruim 54 Regular 60 Bom
51 Ruim 55 Regular 64 Bom
52 Ruim 58 Regular 72 Bom
61 Ruim 59 Regular 80 Bom
63 Ruim 62 Bom 13 Ótimo
66 Ruim 67 Péssimo 65 Ótimo
77 Ruim 68 Regular 82 Ótimo
81 Ruim 69 Regular 87 Ótimo
83 Ruim 70 Bom
89 Ruim 71 Ruim
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
Agora que sabemos os conceitos de dados brutos e em rol, veremos o que uma tabela deve conter. No en-
tanto, a partir de agora, iremos nos referir a ela como Distribuição de Frequências.
Título
Rodapé
SAIBA MAIS
Existe uma diferença entre Tabela e Quadro. Como podemos ver, a Tabela 1 é aberta (ou vazada)
nas extremidades, característica típica dela.
Quando temos uma “Tabela” fechada em ambos os lados (nas extremidades), ela deixa de ser
uma Tabela e se torna um Quadro. Como já vimos o exemplo da Tabela, veremos a seguir o
exemplo de como ficaria a mesma “Tabela” agora como um Quadro.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
Falando em tabelas, existem dois tipo de tabelas ou distribuições de frequências: Distribuição de Fre-
quências Simples e Distribuição de Frequências por Classe.
O tipo de distribuição que se deve utilizar depende do tipo de variável mensurada no estudo. A Distribui-
ção de Frequências Simples é utilizada quando analisamos dados qualitativos (ordinais ou nominais) e
dados quantitativos discretos. Já a Distribuição de Frequências por Classe é utilizada, principalmente,
quando a variável mensurada é composta por dados quantitativos contínuos. A seguir, veremos um exem-
plo de cada uma.
30
b) Variável Qualitativa Nominal
Alumínio 21 5,68%
Cobre 8 2,16%
Chumbo 80 21,62%
Total 370 100%
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
Fonte:<www.portal.inep.gov.br/
Notas Frequência Frequência (%)
PASSO 3: Listar a frequência de todos os elementos diferentes em uma segunda coluna de nome
“frequência” ou abreviada por “fi”;
PASSO 4: Somar todos os elementos da coluna “fi” e na célula abaixo nomear o resultado como
“total”;
EXERCÍCIO RESOLVIDO
DISTRIBUIÇÃO DE FREQUÊNCIAS SIMPLES PARA DADOS QUANTITATIVOS DISCRETOS
Em uma pesquisa feita para identificar o número de filhos de uma amostra de empregados de uma multi-
nacional, foram encontrados os seguintes valores:
Número de filhos por funcionário (dados brutos)
1 4 2 5 3 2 0 3 2 1 5 4 2 5 0
3 2 4 2 3 2 3 2 1 4 2 1 3 4 2
PASSO 2: Listamos em uma primeira coluna o número de elementos distintos e nomeamos a coluna (vari-
ável mensurada, neste caso, “Nº de filhos por funcionário”):
PASSOS 3, 4 e 5: Listar a frequência de todos os elementos diferentes em uma segunda coluna de nome
"frequência" ou abreviada por "fi", somando a seguir e informando o resultado na última célula de nome
“Total”. Ao final, informar o Título e Fonte.
32 4
5
5
3
Total 30
PASSO 6: (Opcional): Iremos calcular o percentual para cada frequência. Mas como vamos calcular?
Veremos a seguir.
Nesse exemplo, sabemos que 30 é igual a 100%; então, quanto vale o 1º fi (ou f1)? Para sabermos, devemos
realizar uma regra de três simples.
30 100% 2
30 f1 % 100 2 f1 % 100
2 f1 % 30
f
fi % i 100
n
onde “n” é o total de elementos utilizados (também informado como o total da distribuição de frequên-
cias).
Assim, teremos os percentuais calculados com duas casas decimais para cada frequência:
f 2
f1 % 1 100 100 6, 666% 6, 67%
n 30
f 4
f 2 % 2 100 100 13,333% 13,33%
n 30
f 10
f3 % 3 100 100 33,333% 33,33%
n 30
ESTATÍSTICA f 6
f 4 % 4 100 100 20%
E Autor: André Luiz Sena da Rocha
n 30
f 4
f 2 % 2 100 100 13,333% 13,33%
n 30 I - ESTATÍSTICA DESCRITIVA
f 10
f3 % 3 100 100 33,333% 33,33%
n 30
f 6
f 4 % 4 100 100 20%
n 30
f 5
f5 % 5 100 100 16, 666% 16, 67%
n 30
f 3
f 6 % 6 100 100 10%
n 30
Logo, nossa distribuição de frequências simples estará completa, sendo representada a seguir.
Bom, não existe uma regra definida previamente; no entanto, é recomendado que se chame a atenção para
os tópicos mais extremos, ou seja, as maiores e menores frequências e, também, seja verificada a existên-
cia de um padrão ascendente ou descendente nos dados. Veremos uma possível interpretação da tabela a
seguir: 33
Em relação à Tabela 7, observa-se que a maioria dos funcionários (33,33%) têm dois filhos. Já a minoria
(6,67%) não têm filhos. Analisa-se também que após o número de funcionários que têm mais de dois filhos
a frequência vai diminuindo de acordo com o aumento do número de filhos. (Inversamente proporcional).
EXERCÍCIO RESOLVIDO
DISTRIBUIÇÃO DE FREQUÊNCIAS SIMPLES PARA DADOS QUALITATIVOS ORDINAIS.
Suponha que foi realizada uma pesquisa sobre o nível de satisfação em relação à coleta de lixo de uma
cidade do Rio Grande do Norte. Foi indagado se o morador da cidade classifica o tipo de coleta como “Pés-
simo”, “Ruim”, “Regular”, “Bom” ou “Ótimo”. Os dados são disponibilizados a seguir:
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
No caso de dados qualitativos, a construção de uma distribuição de frequências simples é similar. A maior di-
ferença é que em vez de listarmos os elementos diferentes em uma coluna, iremos listar as categorias distintas
nessa coluna. Posteriormente, contabilizaremos a frequência de cada categoria. Assim, temos a Tabela 8 abaixo:
EXERCÍCIO RESOLVIDO
Este exemplo apresenta o sexo dos 90 moradores que opinaram sobre a qualidade na coleta de lixo de sua
cidade. Assim, para a construção de uma distribuição de frequências simples, teremos:
Masculino 53 58,89
Feminino 37 41,11
Fonte:
Total 90 100
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
Agora que conhecemos os elementos essenciais para a construção de uma distribuição, veremos o
passo-a-passo para isso:
PASSO 3: Calcular o número de classes e arredondar o valor final para um número inteiro uti-
lizando a regra de arredondamento:
C = 1 + (3,33) • log(n);
OBS: Lembre-se de que o valor de “C” deve estar arredondado para um número inteiro.
PASSO 5: Construir as colunas da tabela. A 1º coluna será sempre a coluna das classes (coluna
dos intervalos). A 2º coluna será a que constará as frequências e a 3º (opcional) será a que
apresentará o percentual de cada frequência da 2º coluna;
PASSO 6: Para calcular os intervalos da 1º coluna, o menor número dos dados em rol será o
limite inferior da primeira classe (“LI” da fórmula utilizada na amplitude total “A”), a partir do 35
qual todas as outras classes serão definidas, somando-o ao intervalo entre classes (i). Vejamos
o Exemplo a seguir.
C = 1 + (3,33) • log(n)
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
EXERCÍCIO RESOLVIDO
Suponha que os dados abaixo representam as notas de 20 alunos de uma disciplina de Estatística.
Notas dos alunos (dados em rol)
7, 4 7, 4 7, 5 7, 6 7, 6 7, 6 7, 7 7, 8 7, 8 7, 9
8, 0 8, 0 8, 0 8, 0 8, 3 8, 5 8, 5 8, 5 8, 8 8, 9
Como podemos ver, o menor número é 7,4 (LI = 7,4). Já o maior número é 8,9 (LS = 8,9). A quantidade
de números é igual a 20 (n=20). Logo, podemos calcular a amplitude total, o intervalo entre classes e
o número de classes (sendo este arredondado para um número inteiro ao final).
i = (A / C) = (1,5 / 5) = 0,3.
Como o valor de C foi 5, teremos cinco classes em nossa tabela. Cada classe terá um limite inferior e
um limite superior.
Para a primeira classe, o limite inferior será sempre o menor valor dos dados, ou seja, o LI. Assim, para
o nosso exemplo, o limite inferior da 1ª classe será 7,4.
Já o limite superior desta classe será dado pela soma do limite inferior ao intervalo entre classes, ou
seja, LSClasse = LI + i = 7,4 + 0,3 = 7,7. Logo, os limites: inferior e superior da primeira classe são 7,4 e 7,7.
36 Utilizando o mesmo critério para a segunda classe, o limite inferior será igual ao limite superior da
classe anterior, ou seja, 7,7. Já o limite superior será 7,7 + 0,3 = 8,0. Faremos isto até termos as 5 clas-
ses previamente estabelecidas. Ao término, o limite superior da última classe será o maior valor dos
dados, ou seja, o LS = 8,9.
Para indicar o intervalo misto (um dos limites pertence à classe, e o outro, não), utilizaremos o símbo-
lo |- . No nosso exemplo, o limite inferior da primeira classe é igual a 7,4 e o limite superior da classe
será igual a 7,7 (7,4 + i = 7,4 + 0,3). Assim, indicaremos este intervalo como: 7,4 |- 7,7.
Isto é igual ao uso matemático de sinais que representa intervalo fechado à esquerda e aberto à direita:
[7,4 ; 7,7[
Essa notação representa todos os números de 7,4 (inclusive) até o mais próximo possível de 7,77 (não
chega a 7,7 pois ele pertencerá ao limite inferior da próxima classe).
Apenas no último intervalo (intervalo fechado) será fechado em ambos os lados. Sendo ele no nosso
exemplo representado por:
PASSO 6: Somar todos os elementos da coluna “fi” e na célula abaixo nomear o resultado
como “Total”;
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
EXERCÍCIO RESOLVIDO
Os dados abaixo representam notas de 20 alunos de uma disciplina de Estatística. Construa uma distribui-
ção de frequência para os dados e justifique sua escolha.
Notas dos alunos (dados em rol)
7, 4 7, 4 7, 5 7, 6 7, 6 7, 6 7, 7 7, 8 7, 8 7, 9
8, 0 8, 0 8, 0 8, 0 8, 3 8, 5 8, 5 8, 5 8, 8 8, 9
Vamos utilizar uma distribuição de frequências em classes, pois os dados são quantitativos contínuos.
Calculando o intervalo:
37
i = A / C = 1,5 / 5 = 0,3.
Agora que já sabemos que nossa tabela terá 5 classes, vamos calcular o intervalo de cada classe. Lem-
bre-se de que o primeiro número será sempre o limite inferior dos dados em rol, no exemplo das
notas, 7,4, com valor de “i” igual a 0,3. Logo, temos:
Coluna com os intervalos das notas dos alunos
Notas
7,4 |- (7,4 + i) = 7,7
7,7 |- (7,7 + i) = 8,0
8,0 |- (8,0 + i) = 8,3
8,3 |- (8,6 + i) = 8,6
8,6 |-| (8,6 + i) = 8,9
Total
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
Banco de imagens/NEaD
Banco de imagens/NEaD
Depois de construímos a coluna com as classes, vamos agora contabilizar a frequência de cada classe.
1º Classe 2º Classe
7, 4 7, 4 7, 5 7, 6 7, 6 7, 6 7, 7 7, 8 7, 8 7, 9
3º Classe 4º Classe 5º Classe
8, 0 8, 0 8, 0 8, 0 8, 3 8, 5 8, 5 8, 5 8, 8 8, 9
Ao término da contagem das frequências de cada classe, calcularemos seus percentuais. Logo, temos:
38 f
f1 % 1 100
n
6
100 30%
20
f 4
f 2 % 2 100 100 20%
n 20
f 4
f3 % 4 100 100 20%
n 20
f 4
f 4 % 4 100 100 20%
n 20
f5 2
f5 % 100 100 10%
n 20
Assim, para terminar de construir nossa tabela, basta informarmos o título e a fonte. Logo, temos:
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
EXERCÍCIO RESOLVIDO
No Hospital Walfredo Gurgel, situado em Natal-RN, foi avaliada a quantidade de creatinina (em miligra-
mas por 100 mililitros) encontrada na urina (nas últimas 24 horas) de seus pacientes internados com
problemas renais. Os dados são apresentados abaixo:
Quantidade de creatinina (dados brutos)
1,51 1,65 1,58 1,54 1,65 1,40 1,61 1,08 1,81 1,38
1,69 1,22 1,22 1,68 1,47 1,68 1,49 1,80 1,33 1,83
1,67 1,60 1,23 1,54 1,73 1,43 2,18 1,46 1,53 1,60
1,46 1,72 1,56 1,43 1,69 1,15 1,89 1,47 2,00 1,58
1,76 1,62 1,96 1,66 1,51 1,31 2,29 1,58 2,34 1,66
1,66 1,36 1,43 1,26 1,47 1,52 1,57 1,33 1,86 1,75
1,52 1,66 1,90 1,59 1,47 1,86 1,73 1,55 1,52 1,40
1,56 1,50 1,59 1,37 1,71 1,57 1,86 1,83 1,46 1,49
1,40 1,44 1,83 2,02
Construa uma distribuição de frequências em classes para representar a quantidade de creatinina nos
pacientes.
Antes de começarmos a construir nossa tabela, você reparou que foram apresentados dados brutos
em vez dos dados em rol? Assim, devemos primeiro colocá-los em ordem crescente.
1,08 1,15 1,22 1,22 1,23 1,26 1,31 1,33 1,33 1,36
1,37 1,38 1,40 1,40 1,40 1,43 1,43 1,43 1,44 1,46
1,46 1,46 1,47 1,47 1,47 1,47 1,49 1,49 1,50 1,51
1,52 1,52 1,52 1,53 1,54 1,54 1,55 1,56 1,56 1,57
1,57 1,58 1,58 1,58 1,59 1,59 1,60 1,60 1,61 1,62
1,65 1,65 1,66 1,66 1,66 1,66 1,67 1,68 1,68 1,69
1,69 1,71 1,72 1,73 1,73 1,75 1,76 1,80 1,81 1,83
1,83 1,83 1,86 1,86 1,86 1,89 1,90 1,96 2,00 2,02
2,18 2,29 2,34
Amplitude Total:
Analisando-se a quantidade de creatinina encontrada na urina dos pacientes, verificou-se que ocorreu
variação de 1,26 miligrama por 100 mililitros.
Como o exemplo não informou o tamanho da amostra, precisamos contar quantos elementos foram
apresentados no estudo, totalizando 84; logo, 84 pacientes.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
Logo, nosso intervalo resultou em 0,18(mg/100ml). Para nossas sete classes, o cálculo destas é ilus-
trado a seguir:
Quantidade de Creatinina
1,08 |- (1,08 + i) = 1,26
1,26 |- (1,26 + i) = 1,44
1,44 |- (1,44 + i) = 1,62
1,62 |- (1,62 + i) = 1,80
1,80 |- (1,80 + i) = 1,98
1,98 |- (1,98 + i) = 2,16
2,16 |-| (2,16 + i) = 2,34
Total
Assim, para a nossa 1ª coluna, temos:
Quantidade de Creatinina
1,08 |- 1,26
1,26 |- 1,44
1,44 |- 1,62
1,62 |- 1,80
1,80 |- 1,98
1,98 |- 2,16
2,16 |-| 2,34
Total
40
Contabilizando as frequências de cada classe, vemos que cada cor irá representar uma classe distinta:
1,08 1,15 1,22 1,22 1,23 1,26 1,31 1,33 1,33 1,36
1,37 1,38 1,40 1,40 1,40 1,43 1,43 1,43 1,44 1,46
1,46 1,46 1,47 1,47 1,47 1,47 1,49 1,49 1,50 1,51
1,52 1,52 1,52 1,53 1,54 1,54 1,55 1,56 1,56 1,57
1,57 1,58 1,58 1,58 1,59 1,59 1,60 1,60 1,61 1,62
1,65 1,65 1,66 1,66 1,66 1,66 1,67 1,68 1,68 1,69
1,69 1,71 1,72 1,73 1,73 1,75 1,76 1,80 1,81 1,83
1,83 1,83 1,86 1,86 1,86 1,89 1,90 1,96 2,00 2,02
2,18 2,29 2,34
Logo, nossa tabela, para este exemplo, será composta das seguintes frequências:
Calculando os percentuais (de forma análoga ao Exercício resolvidos das páginas 31 e 32) e informan-
do título e fonte na distribuição de frequências, teremos:
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
0 0 0 5 5 5 5 5 5 7 7 7 7 7 7
7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
7 7 7 10 10 10 10 10 10 10 10 10 10 10 10
10 10 10 12 12 12 12 12 12 12 12 12 12 12 12
Construa uma distribuição de frequências adequada para os dados acima e justifique sua escolha.
41
(Utilize duas casas decimais com arredondamento).
2. Foi realizada uma pesquisa na Escola Estadual “Antônio Pinto de Medeiros” com os professores no 1º
bimestre de 2011. Dentre as perguntas feitas aos professores, foi feito um levantamento do número de
filhos por cada uma dos 40 professores, descrito por meio dos dados abaixo:
Número de filhos (dados brutos)
0 1 2 3 2 1 0 4 1 2 3 2 0 1 2 3 2 3 4 1
3 2 2 1 2 1 5 2 2 0 2 1 2 3 1 3 0 1 2 2
Construa uma distribuição de frequências adequada para os dados acima e justifique sua escolha.
(Utilize três casas decimais com arredondamento).
3. Uma pesquisa realizada pelo IBGE em 2012 divulgou a quantidade de notebooks por residência em
um bairro de classe média de um estado brasileiro. Foram ouvidas 198 famílias desse bairro.
Número de notebooks (dados em rol)
0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
Construa uma distribuição de frequências adequada para os dados do quadro e justifique sua escolha.
(Utilize duas casas decimais com arredondamento).
4. Os dados abaixo se referem a uma amostra das notas de 88 alunos que fizeram uma prova de conhe-
cimentos gerais em certa escola.
Notas dos alunos (dados em rol)
0,2 0,8 0,9 1,0 1,2 1,5 1,6 1,7 1,8 1,9 2,0
2,3 2,5 2,7 2,9 3,0 3,0 3,0 3,0 3,0 3,1 3,3
3,6 3,8 4,0 4,0 4,0 4,1 4,2 4,2 4,3 4,4 4,4
4,5 4,6 4,8 4,8 5,0 5,0 5,0 5,1 5,2 5,3 5,5
5,7 5,8 5,8 5,9 6,0 6,0 6,0 6,0 6,2 6,2 6,5
6,5 6,5 6,5 6,8 6,9 7,0 7,0 7,0 7,0 7,0 7,1
7,2 7,2 7,5 7,5 7,5 7,5 7,8 7,8 7,9 8,0 8,0
8,1 8,5 8,6 8,8 9,0 9,1 9,2 9,5 9,6 10,0 10,0
Construa uma distribuição de frequências adequada para os dados acima e justifique sua escolha.
(Utilize duas casas decimais com arredondamento).
5. Os dados abaixo correspondem ao tempo (em minutos) que pessoas passam em uma parada de ôni-
bus até chegar o coletivo aguardado em um estado brasileiro:
42 2,1
16,7
4,4
7,4
2,7
8,2
19,2
8,3
0,3
1,6
3,5
2,0
6,6
1,2
4,1
2,4
2,4
3,7
12,6
9,6
13,5 7,4 0,2 5,8 9,0 3,3 1,0 26,7 14,7 6,1
24,0 1,4 8,2 9,9 4,3 14,1 18,0 1,6 0,2 8,7
5,6 0,4 31,0 6,9 1,3 11,4 3,9 18,4 18,0 23,1
Construa uma distribuição de frequências adequada para os dados acima e justifique sua escolha.
(Utilize duas casas decimais com arredondamento).
6. Os dados abaixo se referem à quantidade em milhares de reais de indenizações trabalhistas a 105 fun-
cionários em janeiro de 2012. Os dados foram divulgados pelo Ministério do Trabalho do Rio Grande
do Norte.
Valor da idenização (dados em rol)
3,4 3,5 3,8 3,8 3,9 4,0 4,0 4,0 4,0 4,1
4,2 4,2 4,3 4,3 4,4 4,4 4,4 4,4 4,5 4,5
4,6 4,6 4,8 4,9 5,0 5,0 5,0 5,1 5,1 5,1
5,1 5,1 5,2 5,2 5,3 5,3 5,3 5,4 5,4 5,4
5,5 5,5 5,5 5,6 5,6 5,7 5,7 5,7 5,7 5,8
5,8 5,8 5,9 5,9 5,9 6,0 6,1 6,3 6,3 6,4
6,4 6,4 6,8 6,9 7,1 7,1 7,2 7,2 7,3 7,5
7,9 8,0 8,1 8,4 8,5 8,6 8,9 9,0 9,0 9,0
9,0 9,1 9,5 9,5 9,5 9,7 9,7 9,8 10,0 10,1
10,0 10,1 10,1 10,5 10,5 10,8 10,8 10,9 11,2 11,4
11,5 11,6 11,6 12,0 12,2
Construa uma distribuição de frequências adequada para os dados acima e justifique seu uso.
(Utilize duas casas decimais com arredondamento).
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
Representação gráfica
UN 01
Da mesma forma que vimos em tabelas, todo gráfico deve apresentar título, escala (crescendo da esquerda
para a direita e de baixo para cima) e fonte (e quando necessário, legenda). A seguir, veremos os principais
tipos de gráficos: É recomendado utilizar
o gráfico de colunas quando
a descrição das categorias é
Gráfico de Colunas ou em Barras pequena. Caso contrário,
categorias com grande
descrição irá sobrecarregar
a área do texto para
identificação das
São gráficos que representam uma série de dados por meio de retângulos. Quando esses retângulos estão colunas.
dispostos verticalmente, temos um gráfico de colunas; quando estão representados horizontalmente, te-
mos um gráfico de barras. A seguir, veremos cada um deles:
GRÁFICO DE COLUNAS
No caso de um gráfico de colunas, os retângulos terão a mesma largura e são desenhadas lado a lado com
“espaçamento” entre eles. Suas alturas são proporcionais às frequências dos dados ou categorias das ta-
belas. Suas categorias são informadas no eixo horizontal (eixo x) e a frequência de cada categoria no eixo
vertical (eixo y). Veremos a seguir um exemplo na Tabela 1.12:
35%
30%
25%
Fonte: IBGE, Censo Demográfico 2010.
20%
15%
10%
5%
0%
Duas Três Quatro Cinco
Analisando a Tabela 12 e o Gráfico 1, observa-se que a maioria das famílias em Natal no ano de 2012 é
composta por duas e três pessoas.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
GRÁFICO DE BARRAS
Ensino Fundamental
44
Ensino Pré-Escolar
A respeito da Tabela 13 e do Gráfico 2, infere-se que a maior parte dos professores do ensino básico de
Mossoró em 2012 é do ensino fundamental.
HISTOGRAMA
O histograma é muito utilizado para representar graficamente uma distribuição de frequências em classes
como também dados contínuos. É um gráfico cujas colunas retangulares têm base definida pelas classes
da distribuição de frequências e altura representa a frequência dos valores que estão presentes em casa
uma das classes.
4 |- 6 9 18%
6 |- 8 12 24%
8 |- 10 18 36%
Total 50 100%
O Histograma para essa tabela é representado no Gráfico 3. Observe que a maioria dos alunos tiraram
notas altas (maior concentração nas notas acima de 6). Veremos, quando estudarmos simetria em Moda
Estatística na pagina 62, que classificaremos essa distribuição como assimétrica à esquerda.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
Quantidade de alunos
16
14
12
10
Gráfico de setores
Quando há muitos
setores (mais
O gráfico de setores (também conhecido como gráfico de pizza ou gráfico de torta) é usado
de 10), este
quando cada categoria representa uma parte de um todo (o total é representado pelo círculo
gráfico não é
com raio qualquer). Obtemos cada setor por meio de uma regra de três simples e direta, sen-
recomendado.
do o total de elementos correspondente a 360º. Veremos um exemplo de construção de um
gráfico de pizza na tabela 15. Veja o Gráfico 4.
Cidade População 45
Natal 853.928
Mossoró 280.314
Parnamirim 229.414
São Gonçalo do Amarante 95.218
Macaíba 75.548
Fonte: IBGE.
Ceará-Mirim 71.856
Total 1.606.278
1.606.278 360º
853.928 x1
x1
360º 853.928
191,3 191º
1.606.278
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
Natal
Mossoró
Parnamirim
São Gonçalo do
Amarante
Macaíba
Ceará-Mirim
Fonte: IBGE.
Observando a tabela 1.15 e o Gráfico 1.4, analisa-se que as cidades com maior população serão as de Natal,
Mossoró e Parnamirim.
Gráfico de linhas
46
O gráfico de linhas é utilizado com maior frequência para representar uma série de dados cronológicos,
ou seja, a mensuração de um fenômeno de acordo com o tempo (dias, meses, anos, décadas, etc.). A seguir,
veremos um exemplo sobre o número de inscrições do ENEM entre 2003 a 2013 na Tabela 16.
2003 1.882.393
2004 1.552.316
2005 3.004.491
2006 3.742.827
2007 3.568.592
2008 4.018.070
2009 4.576.126
2010 4.611.505
2011 5.366.780
2012 5.790.989
2013 7.173.574
Total 49.635.318
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
5.000.000
4.000.000
3.000.000
2.000.000
1.000.000
0
2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
Anos
Em relação à Tabela 15 e ao Gráfico 5, observa-se que a cada ano, o número de inscrições do ENEM está
crescendo.
Na Tabela 17, mensuramos o número de professores do ensino básico em Mossoró no ano de 2012. Neste 47
caso poderíamos, por exemplo, mensurar o número de professores das instituições públicas e privadas.
Nº de professores Escola
do ensino básico Pública Privada
Censo Educacional 2012.
1200
Fonte: Ministério da Educação, Instituto Nacional de Estudos e Pesqui-
1000
800
sas Educacionais - INEP - Censo Educacional 2012.
Pública
Privada 600
400
200
0
Ensino Ensino médio
Ensino Pré-Escolar
Fundamental
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
As medidas de posição ou de tendência central são utilizadas para resumir as informações de uma série
de dados, pois representam um valor central, em torno do qual os dados se concentram. Aqui, veremos as
principais medidas, que são: média aritmética, mediana, moda e separatrizes.
Média Aritmética
A média aritmética, além de ser conhecida como medida de posição, também é definida como uma medida
de tendência central, considerando que é uma medida que tende para o centro da distribuição e tem a
capacidade de representá-la como um todo. Assim, veremos a seguir sua definição:
x1 , x2 , x3 , , xn - 2 , xn -1 , xn .
A média aritmética para uma amostra, aqui representada por X (lê-se “xis barra”), pode ser definida como
o quociente entre a soma de todos os elementos e o número dos elementos somados, ou seja:
48
n
x1 + x2 + x3 + + xn - 2 + xn -1 + xn ∑x i
=X = i=
1
n n
Já a média aritmética para uma população é representada por µ (lê-se "mi") e, supondo que a população
seja composta por N elementos, a média pode ser calculada como:
N
x1 + x2 + x3 + + xN - 2 + xN -1 + xN ∑x i
=m = i=
1
N N
Apesar de haver dois tipos de médias (uma para população e outra para a amostra); utilizaremos apenas a
média amostral para os nossos cálculos, já que estaremos sempre trabalhando com amostras.
EXERCÍCIO RESOLVIDO
1. Os dados abaixo representam as notas de uma amostra de 10 alunos de uma prova de estatística. Cal-
cule a média e interprete.
∑x i
5,8 + 6,9 + 7,1 + 6, 2 + 8, 4 + 9, 6 + 10 + 8,1 + 7, 2 + 8, 6
=X =
i =1
≈ 7,9
10 10
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
Analisa-se que a amostra das notas dos alunos resultou em uma média de 7,9, valor que representa a dis-
tribuição das 10 notas.
Então sempre poderemos utilizar
a média para representar um
banco de dados?
Banco de imagens/NEaD
adiante, logo após conhecermos
as Propriedades da Média.
Banco de imagens/NEaD
PROPRIEDADES DA MÉDIA
∑(x - X ) =
i =1
0
i
Exemplo
49
1. Sejam os números: 2, 5, 7, 3, 5, 2.
2+5+ 7 +3+5+ 2
X = 4
6
∑(x - X ) =
i =1
( 2 - 4) + (5 - 4) + ( 7 - 4) + (3 - 4) + (5 - 4) + ( 2 - 4) =
i -2 + 1 + 3 - 1 + 1 - 2 =-
5 5=0
• Realizando uma operação como soma (ou subtração) de uma constante (k) de todos os valores de
uma variável, a média dos dados ficará aumentada (ou diminuída) desta mesma constante.
yi =
xi ± k ⇒ Y =
X ±k
Sejam os números: 2, 5, 7, 3, 5, 2. Esses elementos têm média igual a 4. Logo, vamos somar com o valor 5.
Assim, teremos: 7, 10, 12, 8, 10, 7. Portanto, a média será:
7 + 10 + 12 + 8 + 10 + 7
X= = 9= (4 + 5)
6
• Realizando uma operação como multiplicação (ou divisão) de uma constante (k) de todos os valores
de uma variável, a média dos dados ficará multiplicada (ou dividida) por essa mesma constante.
yi
= ( xi ) k ⇒ Y
= (X )k
ou
xi X
yi
= ⇒ Y
=
k k
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
Exemplo:
1. Sejam os números: 2, 5, 7, 3, 5, 2. Estes elementos têm média igual a 4. Logo, vamos multiplicar cada
um por 3. Assim, teremos: 6, 15, 21, 9, 15, 6. Portanto, a média será:
6 + 15 + 21 + 9 + 15 + 6
X= = 12= (4 ⋅ 3)
6
A média nem sempre é confiável. Esta medida de tendência central perde eficiência quando na distribui-
ção dos dados existe a presença de outliers (também conhecidos como valores extremos ou valores discre-
pantes). Os outliers são valores que estão muito acima ou muito abaixo da concentração da distribuição
dos dados. Temos como exemplos de outliers:
Banco de imagens/NEaD
50
Outlier superior
Perceba que a maioria das pessoas têm um salário entre R$ 700,00 a R$ 900,00. No entanto, uma pessoa
apresenta um salário extremamente alto em relação aos demais (R$ 17.850,00). Este último valor é deno-
minado outlier superior, de vez que está bem acima da concentração dos dados.
02 57 60 70 80 80 90 90 90 95
Já para este caso, ocorre o contrário do caso anterior, pois se analisa que a maioria das pessoas ficou na parada de
ônibus entre 60 a 90 minutos. No entanto, há uma pessoa que ficou apenas dois minutos na parada até pegar o co-
letivo. Este último valor é denominado outlier inferior, de vez que está bem abaixo da concentração dos dados.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
Mas o que um outlier pode influenciar? Veja um exemplo de um outlier que está muito acima da concen-
tração dos dados.
EXERCÍCIO RESOLVIDO
1. Sejam as idades em anos completos de 8 alunos:
16 17 18 18 19 20 21 22
16 + 17 + 18 + 18 + 19 + 20 + 21 + 22
=X1 = 18,875 ≈ 19 anos
8
Se adicionarmos uma pessoa com 101anos (valor extremo superior), teremos como idade média dessas 9
pessoas aproximadamente 30 anos.
51
16 + 17 + 18 + 18 + 19 + 20 + 21 + 22 + 101
X2 = 28 anos
9
O fato de adicionarmos um outlier superior inflacionou a idade média de 19 para 28 anos, superestiman-
do-a. Para situações como esta, é mais aconselhável utilizar a mediana, insensível a valores discrepantes.
Mediana
Valor que divide a distribuição em duas partes iguais, em relação à quantidade de elementos, isto é, trata-
-se do valor que ocupa o centro da distribuição, de onde se conclui que 50% dos elementos ficam abaixo
dela e 50% ficam acima.
Colocados em ordem crescente ou decrescente, a mediana (Med) é o valor que divide a amostra ou popula-
ção em duas partes iguais. Aconselha-se seu uso quando há presença de valores extremos na distribuição
dos dados, tendo em vista ser insensível aos outliers.
Assim, para se calcular a mediana para dados em rol, serão utilizados dois critérios distintos, um quando
o tamanho da amostra (n) é par e outro quando é ímpar.
Med = χ n +1
2
χ n + χ n +1
2 2
Med =
2
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
EXERCÍCIO RESOLVIDO
1. Dados em rol de tamanho ímpar:
Seja uma amostra do tempo de uso, em anos, de 13 capacitores utilizados em máquinas de costura:
1 1 3 3 3 5 8 9 9 11 12 15 19
= χ 13=
Med +1
χ=
( 7 ) 7 elemento do rol
= 8anos
2
EXERCÍCIO RESOLVIDO
1. Dados em rol de tamanho par:
Seja uma amostra da quantidade de dias que 14 pacientes ficam internados em um hospital
Quantidade de dias de internamento (dados em rol)
52 1 1 3 3 3 5 8 9 9 11 12 15 19 21
χ n + χ n
2
+1
2
χ( 6) + χ( 7 ) 6° elemento + 7° elemento 5 + 8
Med
= = = = = 6,5 anos de uso
2 2 2 2
50% 50%
Interpretação: Como a mediana resultou em 6,5 dias, metade dos pacientes ficou internada no hospital
entre um a seis dias e meio, e a outra metade ficou internada entre seis dias e meio a 21 dias.
A moda é a única
medida de tendência
central que pode ser Moda
calculada para dados
qualitativos e
quantitativos..
É o valor ou categoria que detém o maior número de observações ou o que mais se repete (ou que apre-
senta maior frequência) em uma distribuição de dados. É possível que haja mais de uma moda, da mesma
forma que há possibilidade de em uma distribuição esta medida de tendência central não existir. A moda
pode ser usada também para dados qualitativos. Vamos ver alguns exemplos? Os dados abaixo represen-
tam os resultados de uma pesquisa
EXERCÍCIO RESOLVIDO
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
Esses três exemplos apresentaram uma moda. No caso do restaurante A, esta é a nota 5. Já para o B, apesar
de haver outros números que se repetem, um número, 7, apresenta maior frequência, sendo este a moda.
O mesmo ocorre para o restaurante C, sendo a moda igual a 9.
EXERCÍCIO RESOLVIDO
1. Opinião sobre a comida de um restaurante, no qual as categorias são representadas por: Ótimo (O),
Bom (B), Regular (REG), Ruim (R) e Péssimo (P).
Esses três exemplos também apresentaram uma moda. No caso do restaurante A, foi a opinião de que a
comida é ótima. Já para o B, comida regular. E o restaurante C, comida péssima.
53
Banco de imagens/NEaD
Exemplo: Na série 0, 0, 1, 3, 3, 4, 7, 8, 8, 11, 12, 12, 13, 13 Moda1 = 0, Moda2 = 3, Moda3 = 8, Moda4 =
12 e Moda5 = 13
Mas e quando queremos, por exemplo, calcular a moda para dados contínuos, pois normalmente os nú-
meros são todos diferentes, no entanto, muitas vezes próximos? Nesse caso, para tal estudo utilizaremos
a Moda de Pearson.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
Utilizada principalmente para dados contínuos. Nela, se faz necessário o cálculo da média (X) e mediana
(Med). A Moda de Pearson irá descrever em qual intervalo há maior concentração dos elementos. Ela pode
ser calculada como:
MoP = 3Med - 2 X
Por meio da comparação entre a Média, Mediana e Moda de Pearson podemos saber sobre a simetria da
distribuição dos dados. No entanto, precisamos saber primeiro o que é simetria.
Simetria: É a semelhança exata da forma em torno de ponto, eixo ou plano de uma figura. Ao compararmos
os lados das figuras em relação ao ponto de simetria, observa-se que esses lados são iguais (simétricos).
Repare que as figuras do exemplo abaixo são simétricas em torno de um eixo, ou seja, os lados são iguais.
Banco de imagens/NEaD
54
Repare que nas seis figuras, todos os lados que são cortados pela reta (eixo) são iguais. Chamamos então
essas figuras de figuras simétricas (lados iguais). No entanto, no Exemplo que segue não teremos figuras
simétricas.
Neste exemplo, temos figuras assimétricas, ou seja, independente do eixo ou reta que trace em algum pon-
to da figura, os lados não serão iguais. Logo, chamamos de figuras assimétricas (não simétricas).
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
Suponha que um professor vai entregar as notas de uma prova de matemática. Supondo que houve moda
de Pearson na distribuição das notas, ou seja, muitos alunos tiraram notas próximas, há três cenários dis-
tintos que podem ocorrer:
CENÁRIO A CENÁRIO B
Banco de imagens/NEaD
Banco de imagens/NEaD
CENÁRIO C
Banco de imagens/NEaD
O Cenário A seria a melhor situação, por ilustrar a posição na qual a maioria dos alunos tiraram notas
altas. Ele é definido como uma distribuição assimétrica à esquerda.
Já o Cenário B apresenta o pior resultado para a turma, pois significa que a maioria dos alunos tiraram
notas baixas. Ele é definido como uma distribuição assimétrica à direita.
Já o Cenário C representa o fato de a maioria dos alunos ter tirado notas intermediárias, ou seja, notas
55
nem muito altas nem muito baixas. Existem alunos neste cenário que tiraram notas altas e notas baixas;
no entanto, repare que são a minoria, pois na medida em que as notas vão aumentando ou diminuindo, a
frequência diminui. Definimos esse cenário como uma distribuição simétrica.
Utilizando a Moda de Pearson, poderemos calcular e chegar ao cenário no qual os dados vão se encaixar. A
seguir, veremos suas classificações.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
A concentração dos dados está no centro. Na medida em que os valores vão se aproximando dos extremos
(maiores ou menores valores), a frequência vai diminuindo.
Banco de imagens/NEaD
EXERCÍCIO RESOLVIDO
Distância, em metros, percorrida por 10 nadadores em uma prova de 4 minutos. Calcule a Moda de Pear-
son e interprete.
5,8 6,0 6,2 7,0 7,8 7,9 8,0 8,1 8,5 9,4
Significa que, em média, cada nadador nadou 7,47 metros nessa prova.
Para o cálculo da mediana, devemos nos lembrar de que, para calculá-la, precisamos averiguar se os dados
estão em rol. Nesse caso, como os dados estão em rol, então podemos calcular a ordem do elemento que
será a mediana.
χ n + χ n
2
+1
2
χ ( 5) + χ ( 6 ) 5° elemento + 6° elemento 7,8 + 7,9
Med
= = = = = 7,85 metros
2 2 2 2
Podemos interpretar que metade dos nadadores nadou no tempo de 4 minutos entre 5,8 a 7,47 metros e a
outra metade nadou entre 7,47 a 9,4 metros.
Interpretação: Como a média é menor do que a mediana e esta também é inferior à Moda de Pearson, os
dados são assimétricos à esquerda, ou seja, a distribuição poderá ser representada da forma abaixo, o que
significa que a maioria dos nadadores nadou uma grande distância em metros nessa prova dos 4 minutos.
Banco de imagens/NEaD
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
EXERCÍCIO RESOLVIDO
Os dados abaixo representam o peso (kg) de 29 crianças ao nascer. Calcule a Moda de Pearson e interprete.
Peso das crianças (dados em rol)
2,1 2,1 2,2 2,3 2,3 2,4 2,4 2,4 2,5 2,5
2,6 2,6 2,7 2,7 3,2 3 3 3,4 3,7 3,9
4 4 4,2 4,3 4,4 4,4 4,5 4,5 4,5
Podemos interpretar que cada criança nasceu em média com 3,2 kg.
χ n +1 χ 29+1 =
Med == χ (15) =
15° elemento =
3, 2 kg
2 2
Interpreta-se que metade das crianças nasceu com 2,1 a 3,2 kg. E a outra metade das crianças nasceu com
3,2 a 4,5 kg.
MoP = 3Med - 2 X = 3 ( 3, 2 ) - 2 ( 3, 2 ) = 3, 2 kg
X Med
= = MoP
Interpretação: Como a Moda de Pearson foi igual à média e Mediana, os dados são simétricos, ou seja,
a maioria dos bebês nasceu com média de 3,2 kg. Existem bebês mais leves e mais pesados, no entanto,
57
representam a minoria. O gráfico que melhor representa esta situação é descrito abaixo.
Banco de imagens/NEaD
EXERCÍCIO RESOLVIDO
Os dados abaixo representam as temperaturas (em ºC) na cidade de São Paulo durante 40 dias de certo
período do ano. Calcule a Moda de Pearson e interprete.
12,2 12,4 12,4 12,5 12,7 12,7 12,8 12,9 13,0 13,5
13,7 13,8 13,8 13,9 14,1 14,1 14,2 14,2 14,5 14,5
14,5 14,5 14,9 14,9 15,0 15,0 15,3 15,9 16,2 16,2
17,2 17,8 17,9 17,9 18,0 18,1 18,4 18,7 18,7 19,0
19,1 19,1 19,2 19,3 19,3 19,7 19,7 19,8 19,8 19,9
20,0 20,0 20,1 20,5 20,5 20,5 20,7 21,5 22,0 24,0
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
χ n + χ n
2
2 +1
χ( 30 ) + χ( 31) 30°elemento + 31°elemento 16, 2 + 17, 2
Med = = = = = 16, 7 °C
2 2 2 2
Interpreta-se que metade dos dias mais frios apresentou temperaturas de 12,1 °C a 16,7 °C. E a outra me-
tade dos dias com maior temperatura apresentou valores entre 16,7 °C a 24 °C.
Interpretação: Como a Moda de Pearson é menor que a mediana e esta também é inferior à média, os
dados são assimétricos à direita, ou seja, a distribuição poderá ser representada da forma abaixo, o que
significa que a maioria dos dias medidos na cidade de São Paulo apresentou temperaturas mais baixas.
Banco de imagens/NEaD
58
EXERCÍCIO PROPOSTO
1. Os dados abaixo apresentam a altura (m) de 14 jogadores de vôlei de dois times de uma escola de
ensino médio. Calcule a Moda de Pearson e interprete todos os resultados, informe sobre a simetria
dos dados. (Utilize duas casas decimais com arredondamento).
2. Os dados abaixo apresentam a duração em dias de 70 gestações. Calcule a Moda de Pearson e in-
terprete todos os resultados, informe sobre a simetria dos dados. (Utilize duas casas decimais com
arredondamento).
211 211 211 212 215 220 224 225 226 230
230 230 231 232 235 240 240 240 240 240
242 245 245 245 246 250 250 251 251 252
252 252 252 252 252 256 267 268 268 270
270 270 270 270 270 270 270 270 270 270
271 271 271 272 273 274 275 275 275 275
275 277 277 278 278 279 280 280 282 284
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
Os quartis são uma das separatrizes mais utilizadas para representar uma distribuição de dados, e por
isso são de suma importância. Eles dividem a distribuição de dados em quatro partes iguais. Já os decis
dividem em 10 partes e os percentis, dividem a distribuição em 100 partes iguais.
59
Mediana (Med) divide em duas partes iguais
-------------------!------------------- A própria
mediana é uma
Md separatriz, porém a
mais simples delas, pois
---------!---------!---------!---------
divide a distribuição em
Q1 Q2 Q3 dois pedaços
iguais.
-----!-----!-----!-----!-----!-----!-----!-----!-----!-----
D1 D2 D3 D4 D5 D6 D7 D8 D9
-------!-------!-------!-------!-------!-------!-------!-------!-------!------
Para calcular qualquer separatriz, primeiro encontra-se a posição que ela ocupa na distribuição dos
dados (chamamos essa posição de estatística de ordem); em seguida, identifica-se a classe para cada
separatriz.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
EXERCÍCIO RESOLVIDO
1. Considere a idade (anos) de 24 pessoas que estão em uma festa. Vamos calcular os quartis e inter-
pretar.
17 18 19 20 21 22 23 24 25 26 27 29
32 33 35 38 39 42 44 46 48 50 54 57
60 Em relação aos quartis, encontramos os 6º, 12º e o 18º elementos da distribuição dos dados, que
correspondem aos números 22, 29 e 42.
• 25% das pessoas mais novas da festa têm idade entre 17 a 22;
• 50% das pessoas mais novas da festa têm idade entre 17 a 29 anos;
• 75% das pessoas mais novas da festa têm idade entre 17 a 42 anos;
• 25% das pessoas mais velhas da festa têm idade entre 42 a 57 anos.
Obs.: Neste exercicio, todos os quartis resultaram em um elemento inteiro (Q1 = 6º elemento; Q2 = 12°;
Q3 = 18°). No entanto, nem sempre isso ocorrerá, pois é possível que o elemento de uma separatriz resulte
em um valor decimal, como pode ser visto abaixo.
Situação em que o elemento da separatriz é decimal. Seja a distância percorrida em km por 7 corredores
profissionais num determinado tempo.
12 13 17 19 21 22 22
x ⋅ n 1⋅ 7
P
=Q1 = = 1, 75o elemento = ???
4 4
Nesse exemplo, o 1º quartil resultou no elemento 1,75°, ou seja, o Q1 se encontra entre o 1° e o 2° números
dos dados em rol. O procedimento consistirá em uma ponderação entre estes dois elementos, na qual será
dado maior peso ao 2º elemento, de vez que a separatriz está mais próxima dele do que o 1º. A seguir, será
apresentada a metodologia para este procedimento:
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
PSx e = ( xi + ( xi +1 - xi ) ⋅ pdQx )
Obs.: Quando o elemento da separatriz resultar em um valor decimal, mesmo que a variável seja discreta,
deverá ser utilizado este procedimento. Recomenda-se, no entanto, que ao final se arredonde o número
para um valor inteiro.
EXERCÍCIO RESOLVIDO
1. Os dados abaixo representam a distância percorrida (km) por 98 automóveis utilizando apenas seis
litros de combustível
11,7 11,7 12,0 12,0 12,3 12,4 12,5 13,5 13,8 14,8
16,2 17,0 17,8 18,1 18,3 18,7 19,2 19,4 19,6 19,6
22,8 22,9 23,6 23,6 23,6 23,6 23,9 24,6 25,8 26,7
29,8 30,5 31,5 31,5 31,5 32,6 32,8 33,3 33,5 34,5 61
36,6 37,5 38,8 38,8 38,8 40,1 40,3 41,0 41,2 42,4
45,0 46,1 47,7 47,7 47,7 49,3 49,6 50,4 50,7 52,2
55,4 56,7 58,6 58,7 58,7 60,7 61,0 62,0 62,3 64,2
68,1 69,8 72,1 73,5 74,5 74,6 75,0 76,3 76,7 79,0
83,8 85,8 88,7 88,7 88,7 91,8 92,2 93,8 94,3 97,1
103,1 105,6 109,1 109,1 109,2 112,9 113,4 115,4
Calcule:
Repare que o 1º e o 3º quartis resultaram em uma estatística de ordem decimal. Logo, faz-se ne-
cessário utilizar o segundo procedimento para encontrar o valor exato das duas separatrizes.
χQ1( 24,5) ⇒ PQ1 = ( 24° + ( 25° − 24º ) ⋅ 0,5 ) ⇒ Q1 = ( 23, 6 + ( 23, 6 − 23, 6 ) ⋅ 0,5 ) = 23, 6 km
χQ3( 73,5) ⇒ PQ3 = ( 73° + ( 74° − 73º ) ⋅ 0, 75 ) ⇒ Q3 = ( 72,1 + ( 73,5 − 72,1) ⋅ 0, 75 ) = 72,85 km
• Observa-se que 25% dos carros fizeram entre 11,7 a 23,6 km com apenas seis litros de combus-
tível;
• Metade dos carros fez entre 11,7 a 41,2 km com seis litros de combustível;
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
• 75% dos carros fizeram entre 11,7 a 72,85 km com apenas seis litros de combustível;
• 25% dos carros fizeram entre 72,85 a 115,4 km com seis litros de combustível.
• Observa-se que 30% dos carros fizeram entre 11,7 a 26,15 km com apenas seis litros de combus-
tível;
• 70% dos carros fizeram entre 11,7 a 62,2 km com seis litros de combustível;
• 90% dos caros fizeram entre 11,7 a 93,92 km com apenas seis litros de combustível.
χ P15 15⋅98 = χ P15(14,7 ) ⇒ PP15 = (14° + (15° − 14º ) ⋅ 0, 7 ) ⇒ P15 = (18,1 + (18,3 − 18,1) ⋅ 0, 7 ) = 18, 23 km
100
χ P 37 37⋅98 = χ D 7( 36,26 ) ⇒ P37 = ( 36° + ( 37° − 36º ) ⋅ 0, 26 ) ⇒ P37 = ( 32, 6 + ( 32,8 − 32, 6 ) ⋅ 0, 26 ) = 32, 63 km
62 100
χ P 59 59⋅98 = χ P 59( 57,82 ) ⇒ P59 = ( 57° + ( 58° − 57º ) ⋅ 0,82 ) ⇒ P59 = ( 49, 6 + ( 50, 4 − 49, 6 ) ⋅ 0,82 ) = 50, 27 km
100
Observa-se que 15% dos carros fizeram entre 11,7 a 1823 km com apenas seis litros de combustível;
• 37% dos carros fizeram entre 11,7 a 32,63 km com seis litros de combustível;
• 59% dos caros fizeram entre 11,7 a 50,27 km com apenas seis litros de combustível.
EXERCÍCIO PROPOSTO
1. Utilizando os dados do exercício proposto 2 da página 58, calcule os três quartis e interprete todos.
2. Utilizando os dados do exercício proposto 4 da página 42, calcule o 3º, 4º e 8º decis e interprete
todos.
3. Utilizando os dados do exercício proposto 3 da página 41, calcule o 21°, 55° e 88° percentil e inter-
prete todos.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
Medidas de dispersão
UN 01
Estudamos, anteriormente, as medidas de tendência central e de posição. No entanto, para uma análise
estatística, não podemos apenas informar as posições dos principais números dos dados. Devemos infor-
mar sobre a variedade (ou variabilidade ou dispersão) de elementos, de modo que teremos informações
sobre a homogeneidade ou heterogeneidade (se, por ventura, ocorrer esse último caso, é preciso saber
quão heterogêneos são).
Esta variabilidade nos dados vai definir quão diferentes são entre si mesmos. Quanto maior for a diferença
de um elemento para o outro em uma distribuição, maior será a dispersão dos dados.
Abaixo veremos três exemplos de que nem sempre as medidas de tendência central são a melhor opção
para a representatividade dos dados.
Imagine que temos três hospitais (A, B e C). Em cada hospital, é apresentado o número de cirurgias reali-
zadas em 5 dias:
Vamos ver qual será o número médio de cirurgias por dia em cada hospital? Calculando a média aritmética
de cada um desses conjuntos, obtemos:
XA =
∑x i
⇒ XA =
500
= 100
n 5
XB =
∑x i
⇒ XB =
500
= 100
n 5
XC =
∑x i
⇒ XC =
500
= 100
n 5
Observamos, então, que os três hospitais apresentam a mesma média aritmética: 100 cirurgias por dia.
Assim, vamos então calculando a mediana para os três hospitais:
Logo, a mediana também resultou no mesmo valor e, consequentemente, a Moda de Pearson também terá o mesmo valor.
No entanto, apesar de estas medidas estatísticas resultarem em valores iguais, os hospitais são bem diferentes, ou seja, o
Hospital A, por exemplo, não apresenta variabilidade: todos os dias houve a mesma quantidade de cirurgias. Já o Hospital
B teve um valor diferente a cada dia; no entanto, foram valores bem próximos, o contrário do que ocorre com o Hospital
C, apresentando uma discrepância acentuada, pois a diferença entre a quantidade de cirurgias de um dia para o outro é
muito alta.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
Assim, a partir desse exemplo, você deve ter percebido que, apesar das distribuições de dados serem dife-
rentes (hospitais A, B e C), há medidas estatísticas que não conseguem diferenciá-las. Desse modo, vere-
mos a seguir medidas que vão representar matematicamente valores que demonstram o quão diferentes
esses valores são uns dos outros. Essas medidas estatísticas são denominadas Medidas de Dispersão.
As principais medidas de dispersão absolutas são: amplitude total, variância, desvio padrão e coeficiente
de variação.
Amplitude Total
A Amplitude Total é a medida de dispersão mais simples. Já a utilizamos antes quando construíamos uma
distribuição de frequências em classes. Vimos que esta medida é definida como a diferença entre o maior
valor e o menor valor dos dados.
A = LS – LI
A amplitude irá representar a dispersão entre os elementos, ou seja, quanto maior for seu valor, maior será
a variabilidade entre os dados. No entanto, existe uma desvantagem no uso dessa medida de dispersão,
pois ela utiliza em seu cálculo apenas os dois elementos extremos (o maior e o menor), não levando em
conta os elementos intermediários que trazem informações relevantes sobre a distribuição dos números.
Assim, devido a essa desvantagem, a amplitude não é utilizada com frequência para estimar a dispersão
dos dados, principalmente quando há outliers presentes na distribuição.
EXERCÍCIO RESOLVIDO
64 Os dados do quadro representam a idade em anos de 10 pessoas que fazem um curso de inglês básico
numa escola de idiomas. Calcule a amplitude nas idades e comente se ela é confiável para representar a
variabilidade dos dados.
8 30 31 31 32 34 34 35 35 78
A = 78 – 8 = 70 anos
Repare que a amplitude resultou em 70 anos, ou seja, a distância da pessoa mais velha para a pessoa mais
nova no curso é de 70 anos. No entanto, observa-se que essa amplitude não representa bem a variabilida-
de dos dados, visto que fora o maior e menor valor, as idades dos alunos se concentram em torno dos 33
anos, sendo então essa medida de dispersão não confiável para essa situação.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
Variância
A variância é uma importantíssima medida de dispersão, que tem a função de estimar a variabilidade dos
dados em torno de sua média e pode ser definida em dois tipos distintos: a variância para uma população
(representada por σ2, lê-se "sigma dois") e para uma amostra (representada por S2):
Pela fórmula
Variância Populacional ( 2 ) Variância Amostral (S2) da variância,
nN nn observa-se que
∑( xx −X X)
∑(xx −XX)
2 2 2 2
ii ii
ela nunca
2 poderá assumir
2σ = i 1
i =1
S 2 S =i i1=1
2
N valores negativos.
N nn −11
SAIBA MAIS
Observando o cálculo da variância, analisa-se que ela nunca poderá assumir valor negativo, vista
que o numerador é a soma dos desvios em torno da média elevados ao quadrado, resultado
sempre positivo. Quanto ao denominador, temos que n sempre será no mínimo 2; logo, o deno-
minador do quociente da variância dará sempre positivo.
E como temos uma divisão de dois elementos positivos, o resultado sempre será um número po-
sitivo. Logo, a variância sempre será estritamente positiva. O menor valor que ela pode assumir
será zero (situação na qual não existe variação e todos os números são iguais à média). Não há
valor máximo que a variância possa assumir.
Em tese, quanto mais distintos e afastados forem os números, maior será a variância.
65
É importante salientar que a variância amostral é um procedimento matemático que calcula a distância ao
quadrado dos números em relação à sua média, dividida por n-1. Devido aos desvios em torno da média
estarem ao quadrado, o valor da variância eleva a unidade de medida ao quadrado. Por exemplo, dados em
anos, o resultado da variância amostral será dado em anos quadrados (caso fosse a variância populacional,
teríamos também um resultado dado em anos quadrados). Se tivessemos dados em metros, o resultado da
variância amostral será dado em metros quadrados.
EXERCÍCIO RESOLVIDO
Calcule a variância amostral da altura em metros de cinco jogadores de basquete:
∑( X )
2
i −X
S2 = =
n −1
(1,92 − 1,82 )2 + (1, 72 − 1,82 )2 + (1,82 − 1,82 )2 + (1,80 − 1,82 )2 + (1,84 − 1,82 )2
=
5 −1
2 2 2 2 2
( 0,1) + ( −0,1) + ( 0 ) + ( −0, 02 ) + ( 0, 02 )
= =
4
0, 01 + 0, 01 + 0 + 0,0004 + 0,0004 0,0208
= = = 0,0052 metros 2 .
4 4
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
Perceba que os dados estão em metros. No entanto, como no cálculo da variância elevamos ao quadrado a
diferença, a unidade de medida da variável fica também elevada ao quadrado. Logo, os dados que estáva-
mos trabalhando ficaram ao quadrado; a variância amostral dos dados em metros foi dada, portanto, em
metros quadrados. No entanto, veremos a seguir que termos uma unidade de medida ao quadrado muitas
vezes é desvantajoso.
Como no cálculo da variância calculamos os desvios em torno da média ao quadrado, a unidade de medida
também ficou ao quadrado.
Portanto, a variância é dada sempre no quadrado da unidade de medida da série. Se os dados forem ex-
pressos em metros, a variância será expressa em metros quadrados. Se os dados forem expressos em cen-
tímetros, a variância será dada em centímetros quadrados. No entanto, em algumas situações, a unidade
de medida da variância nem faz sentido. É o caso, por exemplo, em que os dados são expressos em litros. A
variância será expressa em litros quadrados? mas esta unidade de medida não existe.
Logo, o valor da variância não pode ser comparado diretamente aos dados da série, ou seja: variância não
tem interpretação para situações nas quais a variável mensurada não possui unidade de medias ao qua-
drado. Mas o que podemos fazer neste caso?
A solução é utilizar o desvio padrão como medida para a dispersão dos dados.
Desvio padrão
66 O desvio padrão é a medida de dispersão que apresenta as propriedades da variância e apresenta a mesma
unidade de medida dos dados, ou seja, ela conserva a unidade de medida. Por exemplo, se tivermos dados
em miligramas, o desvio padrão será dado também em miligramas. Logo, para o cálculo do desvio padrão,
basta aplicar a raiz quadrada na variância.
O desvio padrão para uma população (representada por σ, lê-se "sigma") e para uma amostra (represen-
tada por S) é dado a seguir:
EXERCÍCIO RESOLVIDO
1. Foi verificada a pulsação, em batimentos por minuto, de uma amostra de 11 funcionários que estavam
na enfermaria da Empresa X, segundo o sexo. Os dados estão abaixo:
Homens 80 91 84 86 88 80
Mulheres 80 89 85 86 104 -
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
X Homems
x i 80 91+84+86+88+80
84,83 bpm
n 6
X Mulheres
x i 80 89+85+86+104
88,8 bpm
n 5
b) Qual grupo apresenta maior variação? Utilize a medida de dispersão adequada para tal comparação e
justifique seu uso.
Como ambos os grupos foram medidos na mesma unidade, ou seja, batimentos por minuto (bpm),
para tal comparação, a medida de dispersão mais indicada é o desvio padrão ou variância. Aqui,
iremos comparar por meio do desvio padrão, de vez que não existe a unidade batimentos por minuto
ao quadrado.
∑ ( X i − X )
2
S Homens
X X2 i
S Homens = n 1 =
n −1
(8080− 84,83 )2 + ( 91
−91 − 84,83
84 )84,83
2 2 2
84,83 84,83
)2 + (84 2
=
84,83
6 − 16 1
+ 67
86− 84,83 )2 + (88
−88 − 84,83
80 )84,83
2 2 2
(86 84,83 84,83
84,83 )2 + (80 2
+ = 4, 4 bpm 4, 4 bpm
6 − 16 1
Coeficiente de Variação
Dissemos antes que, por serem as unidades do desvio padrão as mesmas dos dados originais, é mais fácil
entender o desvio padrão do que a variância. No entanto, aquela mesma propriedade torna difícil compa-
rar a variação para valores originados de diferentes populações, ou seja, quando as medidas de duas ou
mais variáveis são expressas em unidades diferentes, como peso/altura, capacidade/comprimento, etc.
Desta forma, quando queremos comparar variabilidade entre grupos cujas unidades de medida são dife-
rentes para cada grupo (exemplo, um grupo medido em kg e outro medido em metros), utiliza-se o Coefi-
ciente de Variação (CV), medida relativa que expressa o desvio padrão como uma porcentagem da média
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
aritmética, não possui unidade específica e é dado em percentual. Quanto mais próximo o Coeficiente de
Variação de zero, mais homogênea (ou menor a variabilidade) é a distribuição. Quanto mais distante, mais
dispersa (e maior será a variabilidade dos dados).
Da mesma forma que o desvio-padrão e a variância, o CV mede a dispersão dos dados em relação à sua mé-
dia. Essa medida de dispersão é calculada pela razão entre o desvio padrão e a média, na qual o resultado
obtido dessa operação é multiplicado por 100, para que o coeficiente de variação seja dado em porcenta-
gem. Assim, o CV pode ser calculado por:
s
CV= ⋅100
X
Obs.: Um CV alto indica que a dispersão dos dados em torno da média é muito grande.
EXERCÍCIO RESOLVIDO
1. Em um grupo de pacientes, foram tomadas as pulsações (batidas por minuto) e dosadas as taxas de
ácido úrico (mg/100ml). Abaixo são informadas a média e o desvio padrão de cada grupo:
Compare a dispersão da pulsação às taxas de ácido úrico. Utilize a medida de dispersão adequada para tal
comparação e justifique seu uso.
68 Como as unidades de medidas são diferentes entre os grupos (um grupo medido em bpm e outro me-
dido em mg/100 ml), iremos utilizar o coeficiente de variação para tal comparação.
Perceba que se comparássemos apenas pelo desvio padrão, chegaríamos à conclusão de que o grupo
Ácido Úrico apresenta menor variabilidade. Mas será realmente verdade? Para sabermos, só calculan-
do o CV.
Como já foram dados o desvio padrão e a média, podemos calcular diretamente o CV. Logo, temos a
seguir:
8, 7
CVPulsação = ⋅100 = 12, 66%
68, 7
1, 03
CVÁcido = ⋅100 = 18,86%
5, 46
Assim, chegamos à conclusão de que o grupo Ácido Úrico apresenta maior variabilidade. Caso tivés-
semos apenas comparado a dispersão apenas por meio do desvio padrão, seríamos induzidos ao erro,
pois o que ocorreu foi o contrário: o grupo de menor desvio padrão apresentou maior variação.
Logo, chama-se a atenção para ter sempre o cuidado de analisar se os grupos têm unidades de me-
didas iguais. Caso isso ocorra, pode-se utilizar para tal comparação tanto a variância como o desvio
padrão (lembre-se apenas de que a variância dará seu valor em uma unidade de medida ao quadrado
e o desvio padrão conservará a unidade de medida). Caso os grupos sejam medidos em unidades di-
ferentes, utilize o CV..
EXERCÍCIO RESOLVIDO
1. A Tabela 18 abaixo apresenta informações de cinco empresas de certo setor. É mensurado o fatura-
mento anual (em milhões de reais) e o tamanho do quadro funcional de cada empresa. Compare a
variabilidade do faturamento anual à variabilidade do quadro funcional. Utilize a medida de dispersão
adequada para tal comparação e justifique sua escolha.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
Para verificar a variabilidade entre o faturamento mensal e o quadro funcional, deve-se utilizar
como medida de dispersão o coeficiente de variação (CV), visto que os grupos estão em unidades
de medida diferentes (uma em “milhões de reais” e outra em “quant. de funcionários”). No entanto,
para calcular o CV, deve-se antes calcular a média e o desvio padrão de cada, assim temos:
X =
xi =x4+3+2,6+3,7+3,9
∑ 4+3+2,6+3,7+3,9
=3,44=mil
3, 44reais
i
XFaturamento
Faturamento =n = 5 5 mil reais
n
xi = 105+105+95+90+112
XQ.funcional =
X Q. funcional n=
∑xi 105 + 105 + 95=101,4funcionários
= 5
+ 90 + 112
= 101, 4 funcionários
n 5
X -X(X i − X )
2
∑
2
i
SQS.Q.funcional
funcional = = = =
n-1 n − 1
105-101,4
(105 − 101, 4+)2105-101,4 + 95-101,4
4 ) + ( 95 − 101, 4 )
2 2 2
2 2
= + (105 − 101, +
= 5-1 +
5 −1
90-101,4 + 2112-101,4
2 2
2
+ ( 90 − 101, 5-1
4 ) + (112 − 101, 4)
=8,792funcioários
+ = 8, 792 funcionários
5 −1
s 0, 6107
CV
CVFaturamento = s ⋅100 = 0, 6107 ⋅100 = 17, 75%
Faturamento X 100 3, 44 100 17, 75%
X 3, 44
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
2. Os dados da Tabela 19 representam informações referentes a uma amostra de quatro gestantes que
estão de licença maternidade. Foram mensurados o peso ao nascer do bebê, a duração da gestação
e a idade da mãe. Logo, compare a variabilidade das informações dos três grupos de dados disponi-
bilizados. Utilize a medida de dispersão adequada para tal comparação e justifique sua escolha. Os
dados estão a seguir:
Tabela
Tabela19
1. - Informações de uma amostra de gestantes da Maternidade Januário Cicco em 2009.
co/RN, 2009.
Mãe 3 3,20 296 32
Mãe 4 4,20 283 17
Para verificar a variabilidade entre os grupos, deve-se utilizar como medida de dispersão o coeficiente de
variação (CV), uma vez que os grupos estão em unidades de medidas diferentes.
X=
∑
=
x i 3,45+4,09+3,2+4,2
= 3, 75 kg
Peso
n 4
X Duração
=
∑
=
x i 296 + 279 + 296 + 283
= 288,5 dias
n 4
70 X=
∑
=
x i 23 + 22 + 32 + 17
= 23,5 anos
Idade
n 4
X=
∑
=
x i 3,45+4,09+3,2+4,2
= 3, 75 kg
Peso
n 4
X Duração
=
∑
=
x i 296 + 279 + 296 + 283
= 288,5 dias
n 4
X=
∑
=
x i 23 + 22 + 32 + 17
= 23,5 anos
Idade
n 4
∑( X - X )
2
i
=S Duração =
n -1
( 296 - 288,5) + ( 279 - 288,5 )
2 2
= +
4 -1
( 296 - 288,5) + ( 279 - 288,5 )
2 2
+ 8,8128 dias
=
4 -1
∑( X - X )
2
i
=S Idade =
n -1
( 23 - 23,5) + ( 22 - 23,5)
2 2
= +
4 -1
( 32 - 23,5) + (17 - 23,5)
2 2
+ 6, 2449 anos
=
4 -1
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA
s 6, 2449
CVIdade = ⋅100 = ⋅100 =26,57%
X 23,5
Assim, o grupo com maior variação (ou variabilidade) é o da idade das mães e o grupo de menor variabi-
lidade é o da duração da gestação.
EXERCÍCIO PROPOSTO
1. Os dados abaixo apresentam o número de reclamações em três lojas de calçados em 5 semanas se-
guidas. Informe qual loja apresenta maior variabilidade com relação ao número de reclamações nas 5
semanas. Utilize a medida de dispersão adequada para tal comparação e justifique sua escolha.
Número de reclamações (dados brutos)
2. Após a realização de uma prova, foi sorteado um aluno que representará cada uma das 4 turmas do 2º
ano (2A, 2B, 2C, 2D) e foi analisado as notas dos 4 bimestres de cada representante. 71
Notas do aluno (dados brutos)
Turma Bimestre 1 Bimestre 2 Bimestre 3 Bimestre 4
2A 1,5 5,8 7,4 6,1
2B 6,4 7,0 7,1 8,8
2C 10 9,5 8,4 9,1
2D 8,0 8,0 8,0 8,0
a) Qual aluno apresenta a maior nota média? E qual apresenta a menor nota média?.
b) Informe qual aluno apresenta menor variabilidade em suas notas e qual apresenta maior variabilida
de em suas notas. Utilize a medida de dispersão adequada para tal comparação e justifique sua escolha.
3. Os dados da tabela informam a idade (dias) e o peso (gramas) de quatro rãs utilizadas em um experi-
mento em laboratório. Compare a variabilidade da idade com a variabilidade do peso das rãs. Utilize
a medida de dispersão adequada para tal comparação e justifique sua escolha.
Idade e peso das rãs
Idade Peso
30 43
34 74
38 81
42 115
4. Em hospitais, o número de suturas realizadas em pequenos procedimentos cirúrgicos é anotado ao
término do expediente. Dois hospitais foram analisados durante uma semana.
Número de suturas (dados brutos)
Número de suturas por dia
Hospital
Dia 1 Dia 2 Dia 3 Dia 4 Dia 5 Dia 6 Dia 7
I 10 9 24 59 60 17 27
II 42 37 49 30 33 45 50
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA
a) Qual hospital apresentou maior número médio de suturas nos 7 dias pesquisados?
b) Qual hospital apresenta maior variabilidade em relação ao número de suturas realizadas na semana
da pesquisa. Utilize a medida de dispersão adequada para tal comparação e justifique sua escolha.
5. Um levantamento dos preços à vista do litro de gasolina e de álcool, em alguns postos da cidade, está
mostrado na tabela abaixo (R$).
Preço do combustível
b) Utilize o coeficiente de variação e informe qual é o combustível que tem seus preços mais homogêne-
os.
6. Os dados abaixo apresentam a espessura do fio de cobre e o peso de uma peça deste fio com 30 me-
tros. Compare a variabilidade da espessura com a do peso, informando qual apresenta maior variação.
Utilize a medida de dispersão adequada para tal comparação e justifique sua escolha.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II PROBABILIDADE
Objetivos:
Introdução à probabilidade
UN 02
Desta forma, trabalhamos com a chance de um determinado evento ocorrer, sendo essa chance denomi-
nada de “probabilidade”. Por exemplo: quando queremos saber se a empresa X cumprirá suas metas de
expansão de mercado em 2014.
Neste caso, não há como obter um valor exato. No entanto, podemos calcular a probabilidade de cumprir
a meta, utilizando a frequência relativa dos últimos anos. Portanto, para calcularmos uma probabilidade,
é necessário que tenhamos um experimento aleatório.
Experimentos aleatórios
Você já percebeu que antes do começo de uma partida de futebol, o juiz joga uma moeda para cima a fim
de saber qual time irá escolher o lado do campo e qual ficará com a posse de bola? Suponha que o juiz re-
alizou tal lançamento e o resultado foi “cara”. Caso ele jogasse novamente essa moeda, será que resultaria
novamente na face “cara”? Não podemos afirmar tal resultado, mesmo sendo a mesma pessoa (o juiz) que
irá jogar a moeda. Esse tipo de experimento é chamado de experimento aleatório.
75
FIQUE DE OLHO
Experimento Aleatório: São experimentos que, mesmo executados mais de uma vez em condi-
ções semelhantes, não necessariamente produzem o mesmo resultado.
d) Número de alunos de uma turma com 30 estudantes que fazem aniversário no último mês do ano.
Em (a), ao lançarmos uma moeda mais de uma vez em condições semelhantes, não necessariamente tere-
mos o mesmo resultado.
O mesmo ocorre em (b): caso se lance um dado duas vezes, o número resultante do 1º lançamento não
necessariamente será o mesmo do 2º lançamento.
Isso também ocorre em (c): suponha que foram comprados dois aparelhos de Blu-ray oriundos do mesmo
processo de fabricação e mesmo lote, utilizando-se ambos em condições semelhantes, quando um deixar
de funcionar isso não necessariamente ocorrerá com o outro no mesmo momento.
Já em (d), caso sorteássemos duas salas com 30 alunos, cada um de uma escola qualquer, não necessaria-
mente teríamos a mesma quantidade de alunos fazendo aniversário no mês de dezembro.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
Banco de imagens/NEaD
eu não posso prever o resultado, mesmo
realizando os experimentos em
condições semelhantes?
SAIBA MAIS
Vimos nesta seção que um experimento aleatório é um experimento imprevisível, pois mesmo
executando-o mais de uma vez nas mesmas condições, não necessariamente dará o mesmo
resultado. Dizemos que esse é um dos fenômenos que ocorrem na natureza, sendo ele o “fenô-
meno aleatório”.
76
Espaço amostral
Denotado pela letra grega Ω (lê-se: Ômega), o espaço amostral é definido como o conjunto de todos os
resultados possíveis de um experimento aleatório.
No caso do Exemplo anterior, vamos listar o espaço amostral para cada uma das situações:
Exemplo
a) Ω = {Cara, Coroa}
b) Ω = {1, 2, 3, 4, 5, 6}
Ω = {t ≥ 0}
Ω = {0 ≤ n ≤ 30}
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
Eventos
São constituídos por todo subconjunto do espaço amostral, ou seja, o evento pode representar um resulta-
do particular ou um subconjunto de resultados. Normalmente são representados pelas letras maiúsculas
do nosso alfabeto. Vejamos possíveis eventos para o Exemplo anterior:
Exemplo
a) A = {Cara}
SAIBA MAIS
Também são eventos o próprio Ω (chamado de evento certo, ou seja, sempre ocorre), o conjunto
vazio Ø (chamado de evento impossível, ou seja, nunca ocorre), ou qualquer resultado individual
de Ω.
Banco de imagens/NEaD
Banco de imagens/NEaD
A B
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
A B
C
c) COMPLEMENTAR: O complementar de um evento A (representado por: A ou por A ) é o contrário
do evento A, ou seja, são todos os elementos que não estão em A. Pode-se observar que A ∪ A = Ω .
Complementar do conjunto A
78 A
Banco de imagens/NEaD
Veremos a seguir que não.
SAIBA MAIS
Eventos mutuamente exclusivos: dois eventos são mutuamente exclusivos (ou mutuamente ex-
cludentes ou disjuntos), se e somente se, não existe intersecção entre os dois. Logo, podemos
afirmar que a ocorrência de um evento exclui a ocorrência do outro.
Temos por exemplo, a ocorrência de chuva. Seja o evento A = {Chove hoje} e seja o evento B
= {Não chove hoje}. Não estamos falando da intensidade da chuva, e sim se irá chover ou não.
Logo, não existe intersecção entre esses dois eventos, assim, a ocorrência de um exclui a ocor-
rência do outro.
A B
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
EXERCÍCIO RESOLVIDO
Banco de imagens/NEaD
1. Suponha o lançamento de um dado de seis faces. Sejam os eventos:
C = {Nº par}
O experimento aleatório é o lançamento do dado. Já o espaço amostral será constituído por todos os
resultados possíveis deste lançamento, ou seja: Ω = {1, 2,3, 4,5, 6} . Assim, podemos listar cada um dos
eventos anteriormente definidos:
A = { 1, 2 } B = { 4,5, 6 } C = { 2, 4, 6 }
Daí podem ser feitas as seguintes operações:
Exemplo
Suponha que uma indústria siderúrgica esteja realizando um teste com seus três tipos de máquinas de
corte: Ferro (F), Aço (A) e Alumínio (L). Foi medido o número de peças cortadas em cada uma dessas má- 79
quinas suficiente para que a temperatura interna da máquina chegasse a 60 oC. Foi realizado esse teste 5
vezes em cada máquina, na qual o número de cortes em cada uma das 5 tentativas de cada tipo de máquina
é fornecido abaixo:
F = {3, 4, 4, 5, 5}
A = {1, 1, 2, 3, 4}
Apresente:
a) F ∪ A e F ∩ A
F ∪ A = { 1,2,3,4,5} F ∩ A = { 3,4}
b) F ∪ L e F ∩ L
F ∪ L = { 3,4,5,6,8,12} F ∩ L = {5 }
c) A ∪ L e A ∩ L
A ∪ L = { 1,2,3,4,5,6,8,12} A ∩ L = { ∅ } , eventos disjuntos
EXERCÍCIO PROPOSTO
1. Suponha o lançamento de um dado de seis faces. Sejam os eventos:
C = {Nº ímpar}
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
Apresente:
a) A ∪ B
b) A ∪ C
c) B ∪ C
d) A ∩ B
e) A ∩ C
f) B∩C
g) A
h) B
i) C
2. Considere um experimento feito para avaliar a durabilidade de uma lâmpada. O espaço amostral as-
sociado é Ω={t; t ≥ 0}. Sejam A, B e C os eventos::
B = {t; 50 ≤ t ≤ 200}
Apresente:
a) A ∪ B
b) A ∪ C
c) B ∪ C
80 d) A ∩ B
e) A ∩ C
f) B∩C
g) A
h) B
i) C
Definição de probabilidade
c) Se é o complementar de A, então P ( A ) = 1 − P ( A ) ;
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
P ( A ∪ B ∪ C ) = P ( A )+ P ( B )+ P ( C )− P ( A ∩ B) − P ( A ∩ C ) − P ( B ∩ C ) + P ( A ∩ B ∩ C )
SAIBA MAIS
Quer saber a probabilidade de ganhar na mega sena?
http://www.youtube.com/watch?v=xy0H76ZBUCo
Quer saber a probabilidade de você nascer?
http://www.youtube.com/watch?v=tgm-fIrI9zU
EXERCÍCIO RESOLVIDO
1. Suponha o lançamento de um dado honesto de seis faces. Seja o evento A = {O número resultante do
lançamento é par}, qual é a probabilidade de A ocorrer?
A 2,4,6 3possibilidades
#A
nº de casos favoráveis de A #A 3 1
P A 0,5
nº total de casos # 6 2
2. Suponha um grupo com 250 condutores de automóveis da faixa etária entre 20 a 25 anos, no qual uma
parte deles têm o hábito de dirigir sob efeito de bebida alcoólica. Foi perguntado se já sofreram algum
acidente de trânsito enquanto dirigiam. O quadro a seguir ilustra o resultado desse estudo.
Pesquisa sobre a ocorrência de acidentes de trânsito e a incidência de dirigir sob efeito de álcool
Dirige sob efeito de álcool Não dirige sob efeito de álcool Total
Já se acidentou 40 65 105
Nunca se acidentou 15 130 145
Total 55 195 250
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
Sejam os eventos:
Aqui é pedida a probabilidade de dirigir sob efeito de álcool ou ter se acidentado. Assim, devemos levar em
conta a ocorrência de cada um desses eventos, bem como a ocorrência dos dois eventos ao mesmo tempo,
logo, será necessário calcular a probabilidade da união. Logo:
P ( A ∪ B=
) P ( A) + P ( B ) - P ( A ∩ B )
55 105 40
= + - = 0, 22 + 0, 42 - 0,16 = 0, 48 = 48%
250 250 250
P ( A ∪ B=
) P ( A) + P ( B ) - P ( A ∩ B )
195 145 130
= + - = 0, 78 + 0,58 - 0,52 = 0,84 = 84%
250 250 250
g) Não dirigir sob o efeito de álcool ou ter se acidentado.
P ( A ∪ B=
) P ( A) + P ( B) - P ( A ∩ B)
195 105 65
= + - = 0, 78 + 0, 42 - 0, 26 = 0,94 = 94%
250 250 250
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
EXERCÍCIO PROPOSTO
1. Considere A e B dois eventos quaisquer de um experimento aleatório. Se P(A)=0,4; e P(B)=x. Qual é
o valor de x para que A e B sejam mutuamente exclusivos?
2. Suponha que a probabilidade de uma pessoa ser do tipo sanguíneo A é de 30%, do tipo B é de 30% e
de ser AB é de 10%. Suponha ainda que a probabilidade de Rh+ é de 87% e que o Rh independe do tipo
sanguíneo. Nessas condições, qual é a probabilidade de uma pessoa tomada ao acaso da população
ser:
3. Suponha que foram entrevistadas as 50 pessoas que passaram para o curso de Medicina de uma Uni-
versidade Federal do País. Foi perguntado se foi o 1º ano de ENEM ou se já tinham realizado o Exame
Nacional. O quadro abaixo apresenta esses resultados segundo o sexo:
a) Ser homem
b) Ser Mulher 83
c) Ter passado no 1º ENEM
Resultados equiprováveis
Seja ξ um experimento aleatório qualquer, e seja Ω o espaço amostral deste experimento com n possibili-
dades. Quando todas as possibilidades de Ω têm igual probabilidade de ocorrência, dizemos que os resul-
tados são equiprováveis (probabilidades iguais) e que cada ponto no espaço amostral terá probabilidade
de ocorrência igual a 1n .
EXERCÍCIO RESOLVIDO
1. Suponha que um professor irá sortear uma caixa de chocolates para um entre os 50 alunos de sua
sala. Para tanto, ele anota os nomes completos de cada um dos alunos e os coloca em uma urna para
seleção. Qual seria a probabilidade de um aluno ganhar a caixa?
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
Cada um dos alunos tem apenas um papel com seu nome que constará na urna, sendo depositados 50
papéis com todos os nomes. Assim, definindo o evento:
OBS.: O Exercicio também ilustra o caso de resultados equiprováveis, pois, sendo o dado honesto,
cada face terá a mesma probabilidade de ocorrência. Logo, a probabilidade de ocorrência de cada
número do dado é 1 . Outro exemplo seria uma moeda: quando afirmamos que ela é honesta ou não
6
viciada, significa que o lado “cara” tem a mesma probabilidade de ocorrência que o lado “coroa”, ou
seja, cada face tem probabilidade 1 de ocorrência.
2
EXERCÍCIO PROPOSTO
1. Suponha que foi lançado um dado honesto de seis faces, calcule a probabilidade de ocorrência de cada
um dos seguintes eventos:
Probabilidade condicional
No exercício resolvido 2 da página 81, abordamos um estudo sobre condutores que dirigem com ou sem
efeito de álcool e que já sofreram ou não algum acidente enquanto dirigiam. Calculamos na letra (c) a pro-
babilidade de uma pessoa ter se acidentado enquanto conduzia o veículo. Mas e se já soubéssemos que a
pessoa dirigia sob efeito de álcool? A probabilidade de ela se acidentar mudaria?
Sim! Pois antes, para calcularmos a probabilidade de ela se acidentar, nosso espaço amostral era definido
com as pessoas que estavam ou não sob efeito de álcool. No entanto, agora que sabemos que ela dirige
sob efeito deste tipo de bebida, haverá uma restrição de Ω apenas para elas. Logo, a probabilidade de uma
pessoa se acidentar dado que estava sob o efeito de álcool é:
40
P ( pessoa se acidentar dado que estava alcoolizada ) = = 0,7273
55
De modo geral, quando temos a informação de que um evento ocorreu, esta informação pode ser útil para
calcular a probabilidade da ocorrência de outro evento associado ao mesmo espaço amostral. Isto se cha-
ma Probabilidade Condicional.
DEFINIÇÃO
Sejam A e B, eventos quaisquer, associados a um espaço amostral Ω. Quando se tem a informação de que
B ocorreu (logo, P(B) > 0), a probabilidade de ocorrência de A será calculada considerando-se a condição
de que B já ocorreu. Esta nova informação (de que B ocorreu) equivale a restringir o espaço amostral, que
agora será considerado como o conjunto dos pontos amostrais que formam o evento B. A probabilidade
condicional de A dado que B ocorreu (representada por P(A | B) ) é definida por:
P (A ∩ B )
P ( A |B ) =
P (B )
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
EXERCÍCIO RESOLVIDO
1. Seja um experimento aleatório como o lançamento de dois dados honestos. Qual a probabilidade de
a soma dos dois dados ser igual a seis, sabendo que já se tem a informação de que ao menos um dos
dados resultou no número dois?
Sejam os eventos:
Banco de imagens/NEaD
DADO 1 DADO 2
1
2
1 3 85
4
5
6
1
2
2 3
4
5
6
1
2
3 3
4
5
6
1
2
4 3
4
5
6
1
2
5 3
4
5
6
1
2
6 3
4
5
6
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
Daí, temos cinco possibilidades no evento A (#A = 5) e 11 possibilidades no evento B (#B = 11) e ape-
nas duas possibilidades em que A e B ocorrem ao mesmo tempo (# A ∩ B = 2) . Portanto:
#(A ∩ B ) 2
P( A ∩ B ) #Ω 2
36 =
P (A | B )= = =
P( B ) #B 11 11
#Ω 36
EXERCÍCIO RESOLVIDO
1. Foi realizada uma pesquisa com 150 lutadores de UFC de dois Países (EUA, Brasil). No estudo, foram
levantados quantos lutadores quebraram ou fraturaram algum membro durante uma competição ofi-
86 cial. O quadro a seguir representa as informações:
PAÍS DE ORIGEM
EUA Brasil Total
Não fraturou ou não quebrou membro 23 17 40
Fraturou ou quebrou membro 68 42 110
Total 91 59 150
a) Ser dos EUA e já tenha quebrado ou fraturado algum membro em competição oficial;
Sejam os eventos:
A probabilidade pedida é:
P (A∩ B)
P ( A |B ) = =
P (B)
Repare que a intersecção desses eventos se dá pelo número de lutadores dos Estados Unidos que
fraturaram ou quebraram algum membro durante uma competição oficial. Logo, a probabilidade da
intersecção é obtida pelo consciente entre o número de lutadores nessas condições (68) pelo número
total de lutadores (150).
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
Já a probabilidade de um lutador ser dos Estados Unidos se dá pelo número de lutadores dessa nacio-
nalidade (91) dividido pelo número total de lutadores (150). Assim, podemos calcular a probabilidade
condicional como:
68
150 68 150 68
P ( A |B ) = = = = 0, 6182= 61,82%
110 150 110 110
150
b) Não ter quebrado ou fraturado membro em competição oficial dado que é do Brasil;
Sejam os eventos:
C = {O lutador é do Brasil}
D = {O lutador não quebrou ou fraturou algum membro durante uma competição oficial}
17
P ( D ∩ C ) 150 17 150 17
P ( D | C) = = = = = 0, 2881 = 28,81%
P (C ) 59 150 59 59
150
REGRA DO PRODUTO
A regra do produto nos dá uma opção de escrever a probabilidade da intersecção de eventos. O Exercicio
ilustra uma aplicação.
Sejam os eventos:
A1 = {a 1ª bola é amarela}
B2 = {a 2ª bola é branca}
Repare que é solicitada informação sobre a probabilidade de ocorrência simultânea dos dois eventos;
logo, faremos a probabilidade da intersecção de A1 e B2.
8 4
P ( A1 ∩ B2 ) = P ( A1)⋅ P (B 2 | A 1) = ⋅ = 0, 2424 = 24, 24%
12 11
Seja o evento:
A2 = {a 2ª bola é amarela}
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
8 7
P ( A1 ∩ A2 ) = P ( A1)⋅ P (A2 | A1) = ⋅ = 0, 4242 = 42, 42%
12 11
c) De a 1ª e 2ª bolas serem amarelas
Seja o evento:
B1 = {a 1ª bola é branca}
4 3
P ( B1 ∩ B 2 ) = P ( B 1) ⋅ P (B 2 |B 1) = ⋅ = 0, 0909 = 9, 09%
12 11
4 8
P (B1 ∩ A2 ) = P (B 1)⋅ P (A 2 |B 1) = ⋅ = 0, 2424 = 24, 24%
12 11
EXERCÍCIO PROPOSTO
1. Seja o experimento aleatório do Exercício Resolvido 2 da página 81 e sejam os eventos:
88 Calcule as probabilidades:
a) P(A1 | B1)
b) P(A1 | B2)
c) P(A2 | B1)
d) P(B1 | A2)
e) P(B2 | A1)
f) P(B2 | A2)
2. Suponha que são colocadas em uma urna 20 bolas, sendo 12 azuis, 3 brancas e 5 vermelhas. Três bolas
são retiradas sem reposição. Calcule a probabilidade de:
a) As três bolas serem azuis;
b) As três bolas serem brancas;
c) As três bolas serem vermelhas;
d) A 1º bola ser vermelha e as demais serem brancas;
e) A 1º bola ser branca e as demais serem azuis;
Independência estatística
P ( A ∩ B ) = P ( A) ⋅ P ( B | A) ⇒ P ( A ∩ B ) = P ( A) ⋅ P ( B )
sob
independência
P ( A ∩ B) = P ( B) ⋅ P ( A | B) ⇒ P ( A ∩ B ) = P ( A) ⋅ P ( B )
sob
independência
OBS.: Esta regra pode ser estendida para n eventos. Por exemplo, sejam cinco eventos quaisquer do mes-
mo espaço amostral (A, B, C, D, E). A probabilidade da intersecção desses eventos, sob a hipótese de inde-
pendência, é dada por:
P( A∩ B ∩C ∩ D ∩ E) = P ( A) ⋅ P ( B ) ⋅ P (C ) ⋅ P ( D ) ⋅ P ( E )
sob
independência
SAIBA MAIS
A independência estatística pode ser gerada da forma como se é retirada uma amostra. Se anali-
sarmos o processo de amostragem como um evento, eles podem ocorrer um após o outro ou ao
mesmo tempo. Veremos a definição desses tipos de eventos:
EVENTOS SUCESSIVOS: São os que ocorrem um após o outro. Por exemplo, para o 2º evento
ocorrer, é necessário que o 1º já tenha ocorrido.
A 1º maneira seria retirar uma bola, depois a 2º e por fim, retirar a 3º bola. Se caracterizando um
exemplo de Eventos Sucessivos.
A 2º maneira seria retirar as três bolas ao mesmo tempo, ou simultaneamente. Já esse exemplo
se caracteriza de Eventos simultâneos.
EXERCÍCIO RESOLVIDO
1. Considere A e B dois eventos quaisquer de um experimento aleatório. Se P(A)=0,2; P ( A ∪ B ) = 0,8
e P(B)=x. Qual é o valor de x para que A e B sejam:
a) Mutuamente exclusivos?
Sabemos que P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B )
P ( A ∪ B ) = P ( A ) + P (B ) − P (A ∩ B )
0,8 = 0, 2 + x − 0
x = 0,8 − 0, 2
x = 0, 6 ⇒ P ( B ) = 0, 6
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
b) Independentes?
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B)
sob independência
= P ( A ) + P ( B ) − P (A ) P ( B )
Substituindo a probabilidade da união e a probabilidade do evento A, temos:
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ) P (B )
0,8 = 0, 2 + x − 0, 2x
x − 0, 2 x = 0,8 − 0, 2
0,8x = 0, 6
0, 6
x= = 0, 75 ⇒ P ( B ) = 0, 75
0,8
2. No Exercício resolvido da página 87, retiramos duas bolas de uma urna com 8 bolas amarelas e 4 bolas
brancas, sem reposição. No entanto, o que ocorreria se o sorteio fosse agora com reposição, em outras
palavras, com a 1ª bola voltando à urna antes de a 2ª bola ser retirada, de modo que seria possível a
mesma bola ser selecionada duas vezes? Sendo assim, calcule a probabilidade:
4
P ( B1 ) = = 0,3333= 33,33%
12
90 b) De a 2ª bola ser amarela dado que a 1ª é branca. Os eventos são independentes? Justifique.
Repare que pelo fato de a seleção ser com reposição, não importa qual bola foi selecionada no 1º sor-
teio, tendo em vista que ela voltará para a urna antes da 2ª seleção. Assim, a probabilidade de a 2ª bola
ser amarela independe do resultado da 1ª bola. Logo:
8
P ( A2 | B1 ) = P ( A 2 ) = = 0, 6667 = 66, 67%
12
Podemos afirmar que os eventos são independentes, de vez que P ( A 2 |B1 ) = P ( A 2 ) e que P ( B1 | A2 ) = P ( B 1)
8 4
P ( A1 ∩ B2 ) =
sob
P ( A1) ⋅ P ( B 2 ) = ⋅ = 0, 2222 = 22, 22%
independência
12 12
4 4
P ( B1 ∩ B 2 ) =
sob
P ( B 1 ) ⋅ P (B 2 ) = ⋅ = 0,1111 = 11,11%
independência 12 12
8 8
P ( A1 ∩ A2 ) = P ( A1)⋅ P (A 2 ) = ⋅ = 0, 4444 = 44, 44%
sob
independência
12 12
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
3. A probabilidade de um atleta de ginástica olímpica ter alguma contusão ou sofrer algum acidente du-
rante o treinamento é de 0,1. Já a probabilidade de este atleta ser do sexo masculino é 0,7. Um atleta
é sorteado. Suponha que a chance de contusão durante o treinamento independe do sexo. Calcule a
probabilidade de o atleta:
Sejam os eventos:
P ( B ) = 1− P ( B ) = 1− 0, 7 = 0,3
P ( A ∩ B) =sob
P ( A) ⋅ P ( B ) = 0,1 ⋅0,3 = 0, 03 = 3%
independência
P ( A ) = 1− P ( A ) = 1− 0,1 = 0,9
P ( A ∩ B) = P ( A) ⋅ P ( B ) = 0,9 ⋅ 0, 7 = 0, 63 = 63%
sob
independência
EXERCÍCIO PROPOSTO 91
1. Se a probabilidade de um indivíduo ter sangue Rh- é de 0,15. Calcule a possibilidade de cinco indi-
víduos que se apresentaram para o exame de sangue terem sangue Rh+. Suponha independência.
2. A probabilidade de um aluno da UFERSA estar com mais de 30 anos de idade é de 0,27. A probabi-
lidade de ele estar cursando Engenharia é de 0,63. Supondo que o curso que o aluno faz independe
de sua idade, sorteando um aluno da instituição, calcule a probabilidade de ele:
Ao descrever um espaço amostral de um experimento aleatório, não especificamos que um resultado indi-
vidual necessariamente seja um número. Por exemplo, ao descrever o resultado de inspeção de um produ-
to eletrônico, podemos classificá-lo como “produto defeituoso” ou “produto não defeituoso”. No entanto,
em muitas situações experimentais, estamos interessados na mensuração numérica e, consequentemente,
não trabalhando com eventos. Como no exemplo do produto eletrônico, poderemos atribuir um número a
cada resultado (não numérico) do experimento, sendo o número 1 (um) para as peças perfeitas e o núme-
ro 0 (zero) para as com defeito. Será definida uma variável X que vai assumir um número real. Esta variável
é chamada variável aleatória (v.a.), e a denotamos sempre por letra maiúscula (X, Y, Z, etc...).
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
Seja Ω o espaço amostral de um experimento aleatório ξ. Uma variável aleatória (v.a.) é uma função X que
associa cada elemento ω ∈ Ω um número real X ( ω ) , ou seja, seu domínio é Ω e o contradomínio é Rx .
Ω Rx
ω X
v.a X (ω)
Perceba que uma variável aleatória é uma função que associa valores reais aos eventos de um espaço
amostral, e que pode ser discreta ou contínua. Assim, uma v.a. é tida como discreta quando o número
de valores possíveis de X (contradomínio) for enumerável (finito ou infinito), ou seja, só assume valores
inteiros. Já uma v.a. é tida como contínua quando seu contradomínio é um intervalo ou uma coleção de
intervalos pertencentes aos números reais.
• Quilometragem percorrida com 1 litro de gasolina de 40 carros com motor 1.6 de 16 válvulas e 130
cavalos;
• Quantidade (ml) de água suficiente para encher 500 caixas d’água de um bairro que está com falta de
água.
É muito importante definir com exatidão a variável aleatória, de vez que será a partir dela que calculare-
mos probabilidades, bem como os modelos probabilísticos que veremos adiante são descritos de acordo
com o tipo de v.a. trabalhada, ou seja, se a v.a. for discreta (modelos da página 101 a 110), utilizaremos um
modelo probabilístico discreto; em caso contrário, utilizaremos um modelo contínuo (modelos da página
111 a 126). A seguir, veremos os tipos de distribuição que serão utilizados de acordo com a natureza da v.a.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
Função de probabilidades
A função de probabilidades é utilizada apenas para uma v.a. discreta, e é representada por P(X = xi) ou
simplesmente f(xi).
Utilizamos a função de probabilidades para representar, por exemplo, a probabilidade do número de caras
ou coroas em n lançamentos, número de alunos em uma escola em certo horário, número de arranhões na
porta de um automóvel, número de crianças com sarampo em um hospital, número de questões que foram
respondidas de forma correta numa prova de concurso, etc.
É uma função (também representada por uma tabela) que associa uma probabilidade P(X = xi) a cada va-
lor que uma v.a. X assume, devendo satisfazer as seguintes condições:
1. f ( x) ≥ 0
2. ∑ f ( x)=1
x
Isto significa que vemos que em (1) cada probabilidade associada a cada valor da v.a. X deve ser maior ou
igual a zero. Temos também que em (2) a soma de todas as probabilidades de X deve ser igual a um, res-
peitando, assim, os axiomas de probabilidade. Vejamos um exemplo.
EXERCÍCIO RESOLVIDO
Ou seja, nos dois lançamentos não haverá nenhuma coroa (consequentemente, duas caras) ou ape-
nas uma (consequentemente, uma cara) ou em ambos os arremessos resultaram em coroa (nenhuma
cara).
A função de probabilidade será atribuir uma probabilidade para cada valor de X (0, 1 e 2). O quadro a
seguir ilustra as respectivas probabilidades para cada valor de X:
Função de probabilidades
x 0 1 2
f(x) 1/4 2/4 1/4
Total 20 50
Assim, repare que dos quatro resultados possíveis do espaço amostral ( Ω ={CC, KK , CK, KC }), somen-
te em um deles (dentre as quatro possibilidades) consta nenhuma coroa (CC). Logo, a probabilidade
deste evento é ¼, analogamente ao caso de duas coroas (KK), no qual também só consta um resultado
em Ω e, por isso, também ¼. Todavia, para o caso em que consta apenas uma coroa, há duas possibili-
dades dentre as quatro (CK, KC). Logo, a probabilidade de este evento ocorrer é 2 4 .
1) É possível observar que cada uma das probabilidades (f(x)) é maior do que zero, logo:
f (x i ) ≥ 0, ∀ xi∈ Rx .
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
Banco de imagens/NEaD
utilizar uma função de probabilidades?
Banco de imagens/NEaD
A função densidade de probabilidade (f.d.p.) é utilizada apenas para uma variável aleatória contínua, de
vez que não faz sentido atribuirmos uma probabilidade para cada valor de X, pois a variável em questão
não apresenta valores discretos, mas um intervalo ou uma coleção de intervalos de números reais. Logo, a
probabilidade de X assumir um determinado valor é zero (exclusivamente quando X é contínua).
Utilizamos a função densidade de probabilidade para representar probabilidades do caso contínuo, como
o peso de pessoas em um elevador, o comprimento em centímetros de vigas utilizadas na construção civil,
a pressão sistólica de pessoas com mais de 50 anos, o peso (kg) de bebês ao nascer, o tempo (anos) até
94 uma lâmpada falhar, o tempo (horas) que o gerador de energia suporta o fornecimento de luz para uma
fábrica, etc.
Para o caso contínuo, vamos trabalhar com a definição de X estar entre dois valores, ou seja, de X estar em
determinado intervalo pertencente aos números reais. Assim, a função densidade de probabilidade de X
estar entre dois valores a e b (sendo a < b e a, b ∈ Rx ) é definida por:
b
P (a < X < b )= ∫ f (x )dx
a
Como estamos calculando a probabilidade de X estar entre dois pontos, precisamos encontrar a probabi-
lidade da área deste intervalo, como é representado na figura 1:
a b
Assim, para ser uma função densidade de probabilidade, como no caso discreto, ela deve satisfazer duas
condições:
1. f ( x) ≥ 0 ∀ x ∈ Rx
+∞
2. ∫ f ( x)dx = 1
−∞
3. ∫ f ( x)dx = P ( a ≤ x ≤ b) , b >a
a
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
Vemos que em (1) é tratado o fato de que cada probabilidade de X está em um dado intervalo, por isso deve
ser maior ou igual a zero e que em (2), a integral de toda a área do espaço amostral deve ser igual a um.
SAIBA MAIS
No caso de a v.a. ser contínua, a probabilidade de X assumir um valor “a” é zero, pois:
a
P ( X = a ) = ∫ f (x ) dx = 0
a
Assim, as probabilidades abaixo serão todas iguais, se X for uma v.a. contínua:
P ( a < X < b ) = P (a ≤ X ≤ b) = P ( a ≤ X < b) = P ( a < X ≤ b)
EXERCÍCIO RESOLVIDO
1. Seja X uma v.a. contínua com a seguinte função densidade de probabilidade:
x ,∀ 0 ≤ x ≤ 1
f ( x) = 2 − x ,∀ 1 < x ≤ 2
0 , caso contrário
Devemos constatar que a integral de toda a área é igual a um. Logo, integrando de -∞ a +∞, temos:
+∞
∫ f (x) dx =
−∞ 95
Particionando a integral em três partes, separando a integral da parte negativa, de 0 a 2, e a integral
com x > 2, repare que pela função densidade, 1º e 3º integrais são iguais a zero:
0 2 +∞
∫ f(x)
−∞
dx +∫ f (x) dx +∫
0
f (x)
dx =
2
zero zero
+∞ 1 2
Logo, a 2ª condição foi satisfeita. No caso da 1º condição, é possível constatar que para qualquer valor
de X, f (x) ≥0 .
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
F ( x) = P ( X ≤ x ) , ∀ x ∈ Rx
É uma função de probabilidade que irá acumular as probabilidades em ordem crescente (no caso discreto)
e a área de -∞ até o ponto a (no caso contínuo).
F (x ) = ∑ P (X = x ) , ∀ x ∈ Rx
xi ≤ x
EXERCÍCIO RESOLVIDO
1. Seja X uma v.a. discreta que tenha a seguinte distribuição de probabilidades:
Função de probabildiades
x 0 1 2 3 4 5
p(Xi) 0,05 0,10 0,20 0,35 0,20 0,10
F ( 0) = P ( X ≤ 0) = P (X = 0) = 0, 05
F ( 2) = P ( X ≤ 2) = P ( X = 0) + P ( X =1 ) + P (X = 2 ) =
= 0,15 + 0, 2 = 0,35
F ( 3) = P ( X ≤ 3) =
= P ( X = 0 ) + P ( X = 1) + P (X = 2) + P (X = 3) =
= 0,35 + 0,35 = 0, 7
F ( 4) = P ( X ≤ 4) =
= P ( X = 0 ) + P ( X = 1) + P ( X = 2) + P (X = 3) + P ( X = 4) =
= 0, 7+ 0, 2 = 0,9
F ( 5) = P ( X ≤ 5) =
= P ( X = 0) + P ( X = 1) + P (X = 2) + P ( X = 3) + P ( X = 4) + P ( X = 5) =
= 0,9 + 0,1 = 1
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
EXERCÍCIO RESOLVIDO
1. Calcule a função de probabilidade acumulada para o exercício resolvido da página 93. Sendo X uma v.a.
discreta representando o número de coroas em dois lançamentos de uma moeda honesta.
Função de probabilidades
Total 50
x 0 1 2
f(x) 1/4 2/4 1/4
1
F (0) = P (X ≤ 0) = P (X = 0) =
4
97
1 2 3
F (1) = P ( X ≤ 1) = P (X = 0) + P (X = 1)= + =
4 4 4
3 1 4
F ( 2) = P (X ≤ 2) = P (X = 0 )+P ( X = 1)+ P ( X = 2)= + = =1
4 4 4
Podemos observar que F(0) representa o resultado "no máximo zero coroas”, ou seja, todos os lança-
mentos resultaram em cara. Já F(1) representa "até uma coroa", ou seja, podemos ter como resultado
nenhuma coroa (duas caras) ou uma coroa (e a outra seria cara ou vice-versa). F(2) significa o resulta-
do de "no máximo duas coroas", sendo admitidos os resultados: zero coroa, uma coroa e duas coroas.
Assim, podemos escrever estes resultados como:
0 ,se X < 0
1 ,se 0 ≤ X <1
4
(
F X ) = 3
4 ,se 1 ≤ X < 2
1 ,se X ≥ 2
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
Para encontrarmos a função acumulada a partir da função densidade, vamos definir o valor “k” como
o limite superior que a v.a. x pode assumir. Logo, temos:
k
F ( X ) = P ( X ≤ k) = ∫ f ( x) dx =
−∞
0 k
= ∫ f ( x)dx + ∫ f ( x) dx =
−∞
0
zero
Particionando a integral em parte negativa e parte positiva, temos que a parte negativa é zero (pois
pela função densidade, f(x)=0 se x<0). Logo, resolvendo a integral de x com o limite inferior zero e o
superior k, temos:
2(2 − x)
k k
∫ f ( x ) dx =∫
0 0
3
dx =
k
2 x2 2 k2 4k k2
= 2 x − = 2k − = −
3 2 0 3 2 3 3
Substituindo “k” por “x”, temos que a função de distribuição acumulada para X é dada por:
0 , x<0
4x x 2
F ( x) = − , se 0 ≤ x ≤ 1
3 3
1 , x >1
98
SAIBA MAIS
Seja X uma v.a. contínua e sejam a e b valores pertencentes aos reais, tal que a < b, temos
que:
ESPERANÇA E VARIÂNCIA
Da mesma forma que estudamos medidas de posição e dispersão no Capítulo I, veremos também uma
medida de posição (esperança) e dispersão (variância) de uma variável aleatória para estudar seu com-
portamento, tanto para o caso discreto quanto para o caso contínuo.
ESPERANÇA MATEMÁTICA
A esperança (também conhecida como Valor esperado, média ou expectância, sendo representada por μ)
de uma variável aleatória é usada para a caracterização do seu centro de distribuição. Caso realizássemos
mais de um experimento aleatório, a esperança seria o valor da média aritmética resultante destes expe-
rimentos. A esperança matemática de uma v.a. X é dada por:
a) Se X for discreta:
µ = E( X ) = ∑x iP (x i )
i
b) Se X for contínua:
+∞
µ = E( X ) = ∫ x ⋅ f ( x)dx
−∞
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
VARIÂNCIA
De modo semelhante ao capítulo I, podemos mensurar a variabilidade de uma variável aleatória por meio
da variância (representada por σ2), que é dada por:
+∞
∫(x − µ ) ⋅ f (x ) dx
2
b) Se X for contínua: Var( X ) = i
−∞
SAIBA MAIS
A definição da variância pode ser reescrita de outra forma, sendo ela:
Var ( X ) = E ( X 2 ) − [ E ( X ) ]
2
+∞
onde E(X2) é calculada por ∑ xi P (x i), se X for discreta. E ∫x
2
⋅ f ( x) dx , se X for contínua.
2
i
−∞
EXERCÍCIO RESOLVIDO
1. Seja o experimento aleatório do exercício resolvido da página 96 o lançamento de dois dados hones-
tos. E seja X definido como a diferença em módulo dos resultados. Assim, a função de probabilidades
de X é dada por:
Função de probabilidades 99
X 0 1 2 3 4 5
P(Xi) 6/36 10/36 8/36 6/36 4/36 2/36
Vemos nesse exemplo que estamos trabalhando com uma v.a. discreta, de vez que X assume o resul-
tado da diferença das faces dos dados em módulo. Sendo o menor resultado 0 e 5 o maior resultado.
Logo, calculando a esperança de X, temos:
µ = E( X ) = ∑ xi P (xi )
i
6 10 8 6 4 2
= 0 +1 + 2 + 3 + 4 + 5
36 36 36 36 36 36
0 + 10 +16 + 18 +16 + 10 70
= = ≈1,94
36 36
Para calcular a variância de X, precisamos calcular E2. Logo:
E( X 2) = ∑ xi2P (xi )
i
6 10 8 6 4 2
= 0 2 +12 + 22 + 32 + 42 + 52
33 36 36 36 36 36
0 +10 + 32+ 54 + 64 + 50 210
= = ≈ 5,83
36 36
2 2 2
Var ( X) = E( X) − [ E( X ) ] = 5,83 − (1,94) = 2,0664
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
EXERCÍCIO RESOLVIDO
1. Seja X uma v.a. contínua com função densidade de probabilidade definida por:
0 , x < 0
x
, 0≤ x≤2
2
0 , x > 2
+∞
µ = E( X ) = ∫ x ⋅ f ( x) dx =
−∞
Iremos particionar a integral nas áreas apresentadas pela função densidade de probabilidade:
0 2 +∞
= ∫ x ⋅ f ( x) dx + ∫0 x ⋅ f ( x) dx + ∫2 x ⋅ f ( x) dx
−∞
zero zero
Repare que o 1º e o 3º termo são iguais a zero, pois pela função densidade, x assume zero quando ele
é negativo e quando é maior que dois. Logo, basta resolver a integral do centro, logo:
2 2
x x3 23 03 8 8
100 = 0+ ∫ x⋅
0
2
dx + 0 =
6 0
= − = −0 =
6 6 6 6
2
Var ( X ) = E( X ) − [ E( X )]
2
Temos que E(X) = 8/6. No entanto, precisamos calcular o termo E2. Logo, temos:
+∞
∫x
2
E( X ) = ⋅ f ( x) dx =
−∞
Particionar a integral nas três áreas apresentadas pela função densidade de probabilidade:
0 2 +∞
∫ x ⋅ f ( x) dx + ∫0 x ⋅ f ( x) dx + ∫2 x ⋅ f ( x) dx
2 2 2
=
−∞
zero zero
Repare que o 1º e o 3º termo é igual a zero, pois pela função densidade, x assume zero quando ele é
negativo e quando é maior que dois. Logo, basta resolver a integral do centro, logo:
2 2
x x4 24 04 16 16
= 0 + ∫x2 ⋅ dx + 0 = = − = − 0 = = 2
0
2 8 0
8
8 8 8
Agora que sabemos quanto é E(X) e E(X2), podemos calcular a variância da v.a., assim, temos que:
Var ( X) = E( X 2) − [ E ( X )] 2
2
8 64 16 2 2
= 2 − ⇒ 2− = 2− ⇒ Var( X )=
6 36 9 9 9
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
Em muitos problemas teóricos e aplicados, surgem determinadas funções de probabilidade com tamanha
frequência que merecem ser estudadas. Neste tópico, estudaremos os principais modelos de probabilida-
de discretos, ou seja, a variável aleatória de cada um desses modelos é enumerável.
Ensaios de Bernoulli
Um ensaio de Bernoulli é um experimento aleatório cujo resultado é classificado em duas categorias, cha-
madas de “sucesso” e “fracasso”, ou seja, o espaço amostral só apresenta duas possibilidades.
No entanto, precisamos definir uma variável aleatória de forma que assuma um resultado numérico, e
não os eventos "sucesso" e "fracasso". Sendo assim, em um ensaio de Bernoulli, associamos o valor 1 (com
probabilidade P ) à ocorrência de sucesso e o valor 0 (com probabilidade 1 – P ) à ocorrência de fracasso.
A soma das probabilidades de sucesso e fracasso resulta no valor um:
P (Sucesso) + P (Fracasso) = (p) + (1 - p) = 1
É importante salientar que quem irá definir o sucesso será o pesquisador ou a pessoa interessada em
estimar a probabilidade de um resultado particular desse tipo de experimento. Sucesso não necessaria-
mente deve ser algo bom, mas aquilo cuja probabilidade de ocorrência o pesquisador está interessado em
estimar.
Veja, por exemplo, um engenheiro químico que definiu uma nova substância utilizada em injeções letais
101
aplicadas em pena de morte no estado de Arizona (EUA). Para o engenheiro testar esta substância, deve
aplicar em animais e aguardar se a substância vai fazer efeito (no caso, o óbito do animal). Assim, o sucesso
para este ensaio de Bernoulli (considerando que o experimento aleatório apresenta apenas dois resulta-
dos: animal morre ou não morre) é o óbito do animal, o que não é algo bom, mas é o resultado de interesse
do pesquisador. Veremos a seguir os exemplos, ilustrando ensaios de Bernoulli.
EXEMPLOS
1. Um pesquisador está desenvolvendo uma nova vacina contra um novo tipo de doença. Seu ensaio de
Bernoulli é testar esta droga em animais e aguardar se fará efeito. Para este caso, o sucesso será a
vacina fazer efeito (com probabilidade p), já o fracasso será não fazer efeito (com probabilidade 1-p).
2. Em um programa de calouros, o apresentador dá a opção para o candidato escolher uma entre duas
portas fechadas. Apenas uma delas contém um prêmio em dinheiro. O ensaio de Bernoulli será o can-
didato escolher a porta e, após o resultado, conferir se escolheu a correta (sucesso com probabilidade
p) ou a errada (fracasso com probabilidade 1-p).
3. Um fiscal irá inspecionar uma caixa de mouses para computadores. Para tanto, ele sorteia um mouse e
analisa se seu funcionamento é correto (sucesso) ou apresenta algum defeito (fracasso).
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
Distribuição Binomial
Quando realizamos mais de um ensaio de Bernoulli com um independente do outro, temos uma nova dis-
tribuição de probabilidade. Esta distribuição será a Distribuição Binomial.
Consideremos n ensaios de Bernoulli independentes. Cada tentativa admite apenas dois resultados: Su-
cesso (p) e fracasso (1-p). Como a soma das probabilidades (sucesso e fracasso) é igual a 1 e se admitirmos
que tais probabilidades (sucesso e fracasso) são as mesmas para cada tentativa, ou seja, p é constante para
todo ensaio de Bernoulli.
Seja X a v.a. que representa a probabilidade de k sucessos nas n tentativas independentes. A função de
probabilidade da variável X, isto é: P(X = k), é definida por:
n n−k
P ( X = k ) = p k (1 − p ) , k = 0,1, 2, L, n
k
onde:
n n!
= (
k n − k ) ! k!
k = Número de sucessos (variando de 0 até n);
SAIBA MAIS
n
Repare que a combinação representa o número de subgrupos de tamanho k que podem ser
k
formados de um grupo de tamanho n. Por exemplo, suponha um grupo definido pelas letras A, B,
C, D, E. Quantos subgrupos de tamanho 3 podemos formar? Os trios são formados logo abaixo
Grupo 10 = CDE
Assim, vemos que para um grupo de 10 elementos distintos, podemos formar 10 subgrupos com
3 elementos distintos. Agora, sempre precisaremos listar os subgrupos? Não, esse número pode-
O símbolo ~ significa rá ser encontrado calculando a cominação de n em k. Vamos ver como será o cálculo?
“tem distribuição”. n!
n 5 5! 5! 5 ⋅4 ⋅ 3! 5 ⋅ 4 20
Assim, quando = ⇒ = = = = = = 10
escrevemos X ~ k ( n − k ) ! k ! 3 (5 − 3)!3! 2!3! 2! 3! 2⋅1 2
Binomial (n, p),
significa: X tem
distribuição binomial A v.a. X tem distribuição Binomial, com parâmetros n e p. Indicaremos os parâmetros e a distribuição da
com parâmetros v.a. pela notação:
“n” e “p” X ~ Binomial (n, p).
Por exemplo, suponha o ensaio de Bernoulli em que consiste em coletar uma amostra de água de certa
região. Será analisado se a água é própria para o consumo humano. Caso sejam coletadas 20 amostras de
água em diferentes regiões e que a probabilidade de uma amostra não ser própria para o consumo huma-
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
no é de 15%, podemos definir a v.a. X como o número de amostras impróprias para consumo humano nas
20 coletas analisadas. Logo, podemos dizer que:
ESPERANÇA E VARIÂNCIA
Estudamos na página 98 sobre a esperança matemática e variância de uma variável aleatória. Da mesma
forma, veremos essa medida de posição e dispersão para os modelos probabilísticos apresentados.
Seja X uma v.a. com distribuição binominal de parâmetros n e p, a esperança e a variância deste modelo
são respectivamente:
E (X ) = n ⋅ p Var( X ) = n ⋅ p ⋅ (1 − p )
a) Se lançarmos uma moeda honesta 100 vezes, qual o número esperado de caras?
b) Se lançarmos um dado honesto 600 vezes, qual o número esperado de faces “3”?
Solução:
Assim, se lançarmos uma moeda 100 vezes, esperamos que ocorram 50 caras.
Assim, se lançarmos um dado 600 vezes, esperamos que o número “3” ocorra 100 vezes.
103
EXERCÍCIO RESOLVIDO
1. Suponha que a probabilidade de qualquer chip de celular ser produzido com defeito
é 0,2. Se 10 chips produzidos são selecionados ao acaso (por sorteio), supondo que a
chance de um chip ser defeituoso independe de outro ter defeito, calcule a probabili-
dade:
Seja a v.a. X definida como o número de chips com defeito dentre os 10 analisados. Temos que X ~
Binomial (10; 0,2). Logo:
n k n −k
P ( X = 0 ) = p ( 1 − p)
k
10 0 10 − 0
= ( 0, 2 ) ( 1 − 0, 2 )
0
10
=(1)(1)(0,8) = 0,1074 = 10, 74%
Neste caso teremos uma probabilidade acumulada ( X ≤ 2). Logo, o que a questão solicita é P( X ≤ 2) .
Assim, temos que:
P ( X ≤ 2) = P( X= 0) ∪ P( X = 1) ∪ P ( X= 2)
Como não existe intersecção entre os eventos, então:
P ( X ≤ 2) = P( X = 0) + P ( X = 1) + P ( X = 2)
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
1
= (10)(0, 2)(0,8)9 = 0, 2684 = 26,84%
Lembre-se
de que: 10 2 10− 2
P (X =2) = ( 0, 2) ( 1− 0,2)
1! = 1
2
0! = 1 2 8
=(45)(0, 2) (0,8) = 0,3019 =30,19%
Logo, P ( X ≤ 2 ) = P ( X = 0)+ P ( X = 1) + P ( X = 2)
= 0,1074 + 0, 2684 + 0,3019 = 0, 6777 = 67, 77%
A questão afirma que 25 a cada 100 motoristas apresentam hérnia de disco. Logo, para estimarmos a
probabilidade de um motorista apresentar a doença teremos 25/100.
Logo, seja a v.a. X definida como o número de motoristas com hérnia de disco dentre os 30 analisados.
Temos que: X ~ Binomial (30; 0,25). Logo,
30 6 30− 6
P ( X = 6 ) = (0, 25) (1− 0,25 )
6
6 24
= (597.775) (0, 25 ) (0, 75) = 0,1455 = 14,55%
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
30 0 30− 0
P ( X = 0 ) = (0, 25) (1− 0, 25)
0
30
= (1) (1) (0, 75) =0, 0002 = 0, 02%
A questão (c) pede a probabilidade de haver de dois até o número total de motoristas, que são 30, com
a doença. Logo, é pedido:
P (X > 1) = 1− P ( X ≤ 1) = 1− [ P (X = 0) ∪ P ( X = 1) ]
30
P ( X =1) = (0, 25) ( 1− 0, 25)
1 30− 1
1
29
=(30) (0, 25 ) (0, 75) = 0, 0018 = 0,18%
3. Um produto eletrônico é composto por 40 circuitos. O fabricante informou que 1 a cada 10 circuitos
apresenta algum defeito; no entanto, ele também informou que o produto eletrônico funciona se tiver
até três circuitos defeituosos. Supondo que a ocorrência de defeito em um circuito independa da ocor-
rência de defeito em outro circuito, calcule a probabilidade de:
A questão afirma que 1 a cada 10 circuitos apresenta algum defeito. Logo, para estimarmos a proba-
bilidade de um circuito ter defeito teremos 1/10.
Logo, seja a v.a. X definida como o número de circuitos com defeito dentre os 40 analisados. Temos
que: X ~ Binomial (40; 0,1). Logo, a probabilidade de o produto operar será a probabilidade de ele
operar com três dos circuitos defeituosos. Assim, temos:
P ( X ≤ 2) = P ( X = 0) ∪ P (X = 1) ∪ P (X = 2) ∪ P( X = 3)
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
P ( X ≤ 3 ) = P( X = 0) + P( X = 1) + P( X = 2) + P ( X = 3)
40 0 40− 0
P (X = 0) = (0,1) (1 −0,1)
0
= (1)(1)(0,9)40 = 0, 0148 = 1, 48%
40 40! 40!
de vez que: = = =1
0 ( 40 − 0 ) !0! 40!
40 1 40 −1
P (X =1) = ( 0,1) (1 − 0,1)
1
= (40)(0,1)(0,9)39= 0, 0657 = 6,57%
40 2 40 − 2
P (X = 2) = (0,1 ) (1 − 0,1)
2
= (780)(0,1)2 (0,9)38 = 0,1423 = 14, 23%
10
106 de vez que: =
2
( 40
40!
− 2) !2!
=
40!
38!
⋅ 2!
=
40 ⋅39 ⋅38! 1.560
38! ⋅ 2
=
2
= 780
40 3 40− 3
P( X = 3) = ( 0,1) (1 − 0,1)
3
= (9.880)(0,1) 3(0,9)37= 0, 2003 = 20, 03%
A probabilidade de que o produto eletrônico não funcione existe quando ele tiver quatro ou mais circui-
tos defeituosos. Logo, podemos calcular como:
P(nãofuncionar) = P(X > 3) = P(X ≥ 4) = P(X = 4) ∪ L ∪ P(X = 40)
Este cálculo é muito extenso. Todavia, é possível chegar ao mesmo valor por meio da probabilidade
complementar. Repare bem que a letra (b) é o complemento da letra (a), pois na letra (a) existe a pro-
babilidade de o produto funcionar, o contrário da letra (b) que é a probabilidade do produto não fun-
cionar. Logo:
P(nãofuncionar) = 1 − P(funcionar) → P(X > 3)= 1− P(X ≤ 3)
= 1 − 0,4231 =
= 0,5769=57,69%
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
EXERCÍCIO PROPOSTO
3. Foi desenvolvida uma vacina contra certa doença que ataca animais. Sabe-se de acordo com os testes
realizados que três a cada quatro animais são curados. Caso fossem trazidos 5 animais infectados com
a doença, calcule a probabilidade de todos se curarem.
Distribuição de Poisson
Muitas vezes estamos interessados em fazer uma contagem em um determinado intervalo de tempo ou 107
em certa área. Como, por exemplo, quantas pessoas entram em um Shopping em determinado horário da
noite ou quantos arranhões um automóvel apresenta em suas portas.
A distribuição de Poisson (lê-se poasson) é representada por uma v.a. X que representa uma contagem
discreta do número de ocorrências de um evento por certo período de tempo ou por certo volume ou área.
Podemos utilizar uma distribuição de Poisson nas seguintes situações:
Repare que em todas as situações, temos uma contagem de uma variável discreta, seja em um certo in-
tervalo de tempo, volume ou local. Logo, considerando a probabilidade de ocorrência de sucessos em um
determinado intervalo, sendo X o número de sucessos em um intervalo, a função de probabilidade da
variável X, isto é: P(X = k), é definida por:
e−λ .λ k
P(X = k) = ,k = 0,1,2,
k!
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
Onde:
k = Resultado particular de X;
A v.a. X tem distribuição de Poisson, com parâmetro λ. Indicaremos o parâmetro e a distribuição da v.a.
pela notação:
X ~ Poisson (λ).
O símbolo Por exemplo, podemos calcular a probabilidade de haver certo número de alunos na biblio-
~ significa “tem teca da UFERSA em determinado dia (sendo o número de alunos a v.a. X). Para calcularmos a
distribuição”. Assim, probabilidade de haver, por exemplo, 100 alunos (este seria k, um resultado particular de X)
quando escrevemos X ~ na biblioteca da Ufersa em determinado dia, precisamos saber o número médio de alunos que
Binomial (n, p), significa: comparecem à respectiva biblioteca por dia (sendo esse número o valor de λ).
X tem distribuição
Podemos também, por exemplo, calcular a probabilidade de haver um certo número de arra-
binominal com
nhões em um carro recentemente fabricado (v.a. X). Logo, se quisermos calcular a probabili-
parâmetros
dade de haver dois arranhões (k=2) em um carro recentemente fabricado, é necessário saber
n e p.
o número médio de arranhões por carro fabricado (sendo esse valor o parâmetro λ).
Seja X uma v.a. com distribuição de Poisson de parâmetro λ, a esperança e variância desse modelo são
dadas por:
E(X) = λ Var(X) = λ
EXERCÍCIO RESOLVIDO
1. Uma empresa de telemarketing realiza em média 5 chamadas por minuto. Suponha que as chamadas
sigam uma distribuição de Poisson. Calcule a probabilidade de:
λ = 5t = 5 ( 1 ) = 5 chamadas
Perceba que o valor de λ é a esperança e variância de X. Logo, mesmo antes de ocorrer alguma cha-
mada, nós já esperamos que ocorram 5 chamadas a cada minuto. Como este é um valor médio, pode
ser um pouco mais ou menos que isso; no entanto, em média são 5.
0
e−5 ( 5)
P( X = 0) = = e −5 = 0,0067 = 0,67%
0!
λ = 5t = 5⋅ 2 = 10 chamadas
P ( 7 ≤ X ≤ 9 ) = P(X = 7) ∪ P(X = 8)∪ P(X = 9)
e−10 (10 )
7
P( X = 7) = = 0,0901 = 9,01%
7!
e−10 (10 )
8
P( X = 8) = = 0,1126 = 11,26%
8!
e−10 (10 )
9
P( X = 9) = = 0,1251 = 12,51%
9!
2. Em um shopping, entram em média 25 pessoas a cada 10 minutos. Suponha que o número de pessoas
pelo shopping siga uma distribuição de Poisson. Calcule a probabilidade de 35 pessoas passarem pelo
109
shopping em 12 minutos.
Seja a v.a. X definida como o número de pessoas que passam pelo shopping em “t” minutos, então X ~
Poisson (25). Para calcular o valor de λ, podemos fazer uma regra de 3 simples, ou seja:
PESSOAS TEMPO (min)
25 − 10
λ − 12
⋅
12.25
λ= = 30 pessoas
10
e −25 ( 25 )
35
P ( X = 35 ) = = 0, 0114 = 1,14%
35!
A probabilidade de 35 pessoas passarem pelo shopping em 12 minutos é de 1,14%.
3. No painel de certo modelo de avião, há em média uma falha por meio me-
tro quadrado (uma falha por 0,5 m2). Considere que o painel apresente 2m2 e
que o número de falhas no painel pode ser modelado por uma distribuição de
Poisson. Calcule a probabilidade de este modelo de avião apresentar ao menos
três falhas em seu painel.
Esta questão pede a probabilidade de o avião apresentar três ou mais falhas em seu painel. No entan-
to, não há um número máximo de falhas que um painel deste tipo de avião pode apresentar. Assim, a
única forma de resolvermos será pela probabilidade complementar. Logo, temos:
Seja a v.a. X definida como o número de falhas no painel de certo modelo de avião, então X ~ Poisson
(1). Para calcular o valor de λ, podemos fazer uma regra de três simples, ou seja:
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
2 ⋅1 2 2 2
λ= = = ⋅ = 4 falhas
0,5 1 1 1
2
P ( X ≥ 3) = 1 − P(X < 3) = 1 − P(X ≤ 2)
−4 0
e ( 4)
P (X = 0) = = 0,0183 = 1,83%
0!
1
e−4 ( 4 )
P (X = 1) = = 0,0733 = 7,33%
1!
2
e−4 ( 4 )
P ( X = 2) = = 0,1465 = 14,65%
2!
Observe que essa não é a resposta da questão, foi pedido a probabilidade de haver ao menos 3 falhas
no painel do avião, encontramos a probabilidade de haver no máximo 2 (o complementar de ao menos
3 falhas). Sendo assim, iremos diminuir de um para encontrarmos a probabilidade desejada.
EXERCÍCIO PROPOSTO
1. Suponha que em uma indústria de automóvel são fabricados em média 12 carros por dia. Suponha que
o número de carros produzidos é modelado por uma distribuição de Poisson. Calcule a probabilidade
de em dois dias serem produzidos 20 carros.
2. Em uma universidade federal, o número de cadeiras quebradas por semestre pode ser modelado por
uma distribuição de Poisson. Sabendo que em média há 45 cadeiras quebradas por semestre, calcule
a probabilidade de no próximo semestre haver 40 cadeiras com algum defeito.
3. Na Biblioteca Orlando Teixeira, da Ufersa, há em média cinco empréstimos por hora. Supondo que o
número de empréstimos pode ser modelada por uma distribuição de Poisson, calcule a probabilidade
de em 7 horas e meia haver 40 empréstimos.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
Vimos situações nas quais é possível calcular probabilidades quando mensuramos uma v.a. discreta. Mas
se quisermos, por exemplo, mensurar a probabilidade de uma lâmpada durar mais de 800 horas? E se
quisermos calcular a probabilidade de um saco de leite de 1 litro apresentar mais de 1.200 ml? Estes tipos
de probabilidade retratam situações nas quais se faz uso de uma v.a. contínua (tempo em horas e volume
em mililitros). Nesta seção, veremos os dois principais modelos probabilísticos contínuos.
Distribuição Exponencial
f(x)
111
0 x
Utilizamos a distribuição exponencial, por exemplo, como modelo do tempo entre falhas de equipamentos
elétricos, tempo entre a chegada de clientes a um shopping ou outro local, tempo entre chamadas telefô-
nicas, tempo de funcionamento de um produto eletrônico, etc.
Assim, uma variável aleatória X tem distribuição exponencial de probabilidade se sua função densidade
de probabilidade é dada por:
λ e−λ k se k > 0
f(x) =
0 se k ≤ 0
Onde:
No entanto, por ser um modelo probabilístico contínuo, iremos calcular a probabilidade de X estar entre
dois pontos. Veremos a seguir a função de distribuição acumulada da distribuição exponencial de parâ-
metro λ.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
f(x) = λ e −λ k ,∀ k ≥ 0
k
k 0 k k
1 −λ x
∫ f(x)dx = ∫ f(x)dx + ∫ f(x)dx = 0 + ∫f(x)dx = − λ e
−∞ −∞ 0 0 λ 0
k
λ k k
= − e −λ x = ( −1 )e−λ x = −e −λ x = ( −e −λ k ) − ( −e −λ 0 )
λ 0
0 0
−λ k
= ( −e ) − ( −e 0 ) = ( −e −λ k ) − ( −1 ) = ( −e −λ k ) + 1
k
P(X ≤ k) = F(X) = ∫ f(x)dx = 1 − e −λ k
0
Logo, utilizaremos este resultado, ou seja, a função de distribuição acumulada de "0" a "k" de uma variável
aleatória X exponencialmente distribuída é dada por 1 - e-λk.
Vale salientar que a função densidade de probabilidade de toda a área da v.a. X será igual a um, ou seja:
+∞ −λ k −λ k ∞
∫ 0 λ e dx = (− e )|
=1
0
A v.a. X tem distribuição exponencial com parâmetro λ. Indicaremos o parâmetro e a distribuição da v.a.
pela notação:
X ~ Exponencial (λ).
ESPERANÇA E VARIÂNCIA
112 Seja X uma v.a. com distribuição exponencial de parâmetro λ, a esperança e variância desse modelo são
respectivamente:
1
E(X)= 1
λ Var(X) =
λ2
Repare que a distribuição exponencial é definida apenas por um parâmetro (λ), o qual representa a mé-
dia aritmética do número de chegadas por unidade de tempo. Já o valor de (1/l) que representa o tempo
médio entre chegadas, que é o valor esperado desta distribuição. Por exemplo, se ocorrem em média seis
chamadas telefônicas a cada hora (l = 6), o tempo médio entre as chamadas será de 1/6 de hora, ou seja,
10 minutos.
SAIBA MAIS
Apesar da semelhança, existe uma forte diferença entre as distribuições de Poisson e Expo-
nencial. Sabemos que a Poisson é uma distribuição de probabilidade discreta e a exponencial,
contínua.
A distribuição de Poisson modela o número de chegadas por unidade de tempo, ao passo que
a Exponencial modela o tempo entre chegadas, motivo pelo qual a Poisson e a Exponencial uti-
lizam o parâmetro λ em sua modelagem. No entanto, o valor esperado da distribuição discreta é
λ , já o da distribuição contínua é 1 λ .
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
EXERCÍCIO RESOLVIDO
1. Uma fábrica de tubos de TV determinou que a vida média dos tubos de sua fabri-
cação é de 800 horas de uso contínuo e segue uma distribuição exponencial. Qual
a probabilidade de que a fábrica tenha que substituir um tubo gratuitamente, se
oferece uma garantia de 300 horas de uso?
Como foi informado que a vida média dos tubos é de 800 h, o valor esperado desta distribuição é E(X)
= 800. Assim, temos:
1 1 1
Como E ( X ) = ⇒ = 800⇒ λ =
λ λ 800
Para que um tubo seja substituído gratuitamente, ele deve apresentar um problema antes do término
da garantia, ou seja, X < 300. Logo, a probabilidade solicitada é:
1 3
− 300 −
P(X < 300) = 1 − e−λ x = 1 − e 800 =1 −e 8
= 1 − 0,6873 =
= 0,3267 = 32,67%
2. Certo material eletrônico tem duração de vida que segue uma distribuição exponencial com vida mé-
dia de 150 horas como garantia desde que o produto seja usado em condições normais. Caso o pro-
duto funcione menos do que o previsto, ele é trocado com direito a garantia, caso contrário, o cliente
terá de trocar, no entanto, pagará pelo conserto (sem direito a garantia). Supondo que um cliente
comprou esse produto eletrônico e o utilizou nas condições recomendadas pelo fabricante, calcule a
probabilidade de o produto eletrônico ser trocado:
Como foi informado que a vida média do material eletrônico era de 150 horas, perceba que não foi
informando o valor de λ, não informando o valor esperado da v.a. X, ou seja, a esperança matemática.
Como a média da distribuição é inversa de λ, então:
A probabilidade de o material ser trocado com direito a garantia é o complementar da letra (a). Por-
tanto, temos:
P(X < 150) = 1 − P(X > 150) = 1 − 0,3678 = 0,6322 = 63,22%
3. Um Engenheiro Elétrico deseja averiguar o tempo (horas) de duração de uma bateria de carro do tipo
SUV, modelo 4x4, motor 2.8 a diesel. Sabendo que o fabricante da bateria informou que o tempo mé-
dio de funcionamento é de aproximadamente 3000 horas e que segue uma distribuição exponencial,
defina a variável aleatória e calcule a probabilidade de uma bateria deste mesmo modelo durar:
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
a) No máximo 2.250 h.
Seja X o tempo de duração de em horas uma bateria de carro do tipo SUV, modelo 4x4, motoro 2.8 a
diesel. Assim, temos que X ~ Exponencial (1/3000).
Como foi informado que a vida média da bateria é de 3.000 horas, então E(X) = (1/λ) = 3.000. Logo, é
possível determinar o valor de λ como:
1 1 1
E ( X ) = ⇒ = 3.000⇒ λ =
λ λ 3.000
P(2.250 < X < 3.575) = P(X < 3.575) − P(X < 2.250) =
= F(3.575) − F(2.250) =
114 = 1 − e−3.575/3.000 − 1 − e−2.250/3.000 =
= 0,6963 − 0,5276 = 0,1687 = 16,87%
EXERCÍCIO PROPOSTO
1. Um tipo de calculadora tem tempo médio de funcionamento de 100 horas e segue uma distribuição
exponencial. Calcule a probabilidade de uma calculadora deste tipo durar mais de 150 horas?
2. O tempo de vida (em horas) de um transistor é uma variável aleatória com distribuição exponencial.
O tempo médio de vida do transistor é de 400 horas. Qual a probabilidade de o transistor durar entre
500 a 600 horas?
3. Suponha que o tempo em horas de falha de ventiladores em um computador pessoal possa ser mo-
delado por uma distribuição exponencial com tempo médio de funcionamento de 333 horas. Defina a
variável aleatória e calcule a probabilidade:
Distribuição Normal
A distribuição normal, também conhecida como distribuição gaussiana, é a mais importante das distribui-
ções de probabilidade, uma vez que muitas variáveis de situações práticas podem ser modeladas por uma
distribuição normal e com isso, existe um importante resultado chamado Teorema do Limite Central, que
apresenta, em condições gerais, uma v.a. resultante da soma de n v.a.’s independentes. No limite, quando n
tende a infinito, há convergência para uma distribuição normal.
Uma consequência deste teorema é que podemos aproximar várias distribuições de probabilidade para
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
Assim, dizemos que a v.a. X tem distribuição normal com parâmetros e , −∞ < µ < +∞ e 0 < σ 2 < +∞
2
m x
Repare que os parâmetros da distribuição são na verdade a esperança e variância do modelo. Eles repre-
sentam a média (E(X)= ) e variância (Var(X)= 2 ) do modelo normal. Perceba também que a integral de
toda a área do gráfico, ou seja, a função densidade de probabilidade de -∞ a +∞ é um. Logo: 115
(x −µ )2
+∞ +∞ 1 −
∫ f(x)dx = ∫ e 2σ2
dx = 1
−∞ −∞ σ 2π
f(x)
0,5 0,5
m x
O gráfico da função densidade é dividido pela média da distribuição, na qual cada lado é igual (apresenta
a mesma probabilidade). E como a soma dos lados deve resultar no valor um, cada face tem probabilidade
0,5 ou 50%, que utilizaremos como notação na qual o lado à esquerda da média é representado por
P ( −∞ < Z < µ) = 0,5, já o lado à direita da média é representado por P ( µ < Z < +∞) = 0,5
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
Logo, pela propriedade da simetria, temos também que P ( Z > a ) = P ( Z < −a ) , ou seja:
-a m +a
b) f(x) 0 quando x ±∞
Na medida em que os valores de X vão se aproximando dos extremos, sua probabilidade vai diminuindo
e tendendo a zero. Repare pela figura 2.3 que a área do gráfico vai se aproximando de zero tanto para -∞
quanto para +∞.
f(x)
116
m x
Para o cálculo das probabilidades da função densidade f(x), devemos resolver a integral no intervalo:
( x −µ )2
−
b 1 2 σ2
P (a < X < b ) = ∫ e dx
a σ 2π
No entanto, a integral acima só pode ser resolvida por aproximações e por métodos numéricos, conside-
rando que não se pode aplicar o teorema fundamental do cálculo, pois não podemos achar uma função
cuja derivada seja igual a e− x 2 . Além do mais, teríamos que elaborar uma tabela de probabilidades para
2
cada valor diferente de e , o que acarretaria grande trabalho para tabelar estas probabilidades em face
2
Os problemas foram solucionados por meio de uma mudança de variável, fixando-se a média ea
variância 2=1.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
FIQUE DE OLHO
Distribuição Normal Padrão: É uma distribuição normal com os parâmetros (média e variância)
específicos, ou seja, é uma distribuição normal com média igual a zero e variância igual a um.
Representamos essa distribuição pela letra maiúscula “Z”.
O que difere a normal padrão de uma distribuição normal qualquer são os parâmetros (μ e σ2 ).
Quando uma distribuição normal tem pelo menos um dos dois parâmetros diferentes de μ = 0
e/ou σ2 = 1, essa distribuição é normal, mas não é uma normal padrão.
A distribuição normal padrão foi criada para facilitar o cálculo de probabilidades, já que pela
função densidade de uma distribuição normal (não padrão) ser bem mais complexo.
Assim, quando temos uma distribuição normal com média zero e variância um, dizemos que ela é uma
distribuição normal padrão ou normal reduzida. A mudança de variável fixando =0 e 2 = 1 é uma trans-
formação da v.a. X ~ Normal para uma nova v.a. Z ~ Normal (0,1) é dada por:
X −µ
Z=
σ
Quando realizamos a transformação, dizemos que estamos padronizando a v.a. X para uma v.a. Z. A proba-
bilidade de X estar entre dois valores a e b é dada por:
a − µ X − µ b− µ a− µ b− µ
P (a < X < b ) = P
σ
= P
σ
< < <Z <
σ σ σ
Onde: X ~ Normal
117
σ é o desvio-padrão da v.a. X. Se for fornecido σ2, use σ 2
a e b ∈ R , a< b
Z ~ Normal (0, 1)
Para realizar estes cálculos, foi construída uma tabela z (ANEXO A) que traz o resultado de probabilidades
como esta, desde que seja uma distribuição normal de média zero e variância um (normal padrão).
Por exemplo, seja X ~ Normal (3, 27). A probabilidade de X estar entre 3 e 11,25 é dada por:
3 − 3 X − 3 11,25 − 3
P ( 3 < X < 11,25) = P < < = P ( 0 < Z < 1,25)
27 27 27
Para encontrar esta probabilidade, faremos uso da tabela z do Anexo A. A Figura 2.5 ilustra a região soli-
citada.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
Figura 5 – Probabilidade da v.a. Z estar entre 0 e 1,25, ou seja, P(0 < Z < 1,25).
0 1,25
A probabilidade da ocorrência do valor entre zero e z = 1,25 corresponde à área tracejada na figura 2.5.
Para usar a tabela z, devemos:
d) No cruzamento da linha 1,2 com a coluna 0,05 está o número 0,3944. Esta é a probabilidade de
P ( 0 < Z < 1,25) . A figura 4 ilustra o número encontrado.
Observamos que neste exemplo padronizamos a variável aleatória X para uma Z e depois procuramos o
valor padronizado na tabela. No entanto, a tabela z dá uma área de zero a um valor real qualquer, ou seja,
, a qual é ilustrada na figura 5.
Figura 5 – Área fornecida na tabela Z.
f (x)
0 a x
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
Logo, pela propriedade da simetria de Z, P(-3 < Z < 3) = 2 (0,4987) = 0,9974, ou seja, o intervalo -3 a +3
representa 99,74% do gráfico de uma distribuição normal padrão.
Assim, quando temos uma probabilidade igual à área da Figura 2.7, basta procurarmos o valor diretamen-
te na tabela. Todavia, quando temos uma probabilidade diferente de , precisamos fazer a dife-
rença ou soma das áreas; dependerá da área pedida. A questão 1 do exercício resolvido a seguir, apresenta
o cálculo de diversas probabilidades nas quais serão realizados estes procedimentos. Já as questões 2, 3 e
4 apresentam aplicações do modelo normal nas quais é necessário o cálculo de áreas.
EXERCÍCIO RESOLVIDO
1. Seja Z uma variável aleatória normal padrão, determine:
0 0,87
b) P(Z < 0) = 0,5.
119
0
c) P(-1,52 < Z < 1,52) = 2 P(0 < Z < 1,52) = 2 (0,4357) = 0,8714.
-1,52 0 1,52
-0,89 0 0 0,89
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
-a m +a
= P(0 < Z < +∞) – P(0 < Z < 0,68) = 0,5 – 0,2517 = 0,2483.
– =
0 +∞ 0 0,68 0 0,68
f) P( Z > 1,18) =
120
0 1,18
= P(0 < Z < +∞) – P(0 < Z < 1,18) = 0,5 – 0,3810 = 0,1109.
– =
0 +∞ 0 1,18 0 1,18
= P(0 < Z < +∞) – P(0 < Z < 1,18) = 0,5 – 0,3810 = 0,1109.
-2,29 0
Temos que P(-2,29 < Z < 0) = P(0 < Z < 2,29), então:
P(Z > -2,29) = P(0 < Z < 2,29) + P(< Z < +∞) = 0,4890 + 0,5 = 0,9890.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
h) P(Z < 1,69) = P(-∞ < Z < 0) + P(0 < Z < 1,69) = 0,5 + 0,4545 = 0,9545.
0 1,69
0 0,31 2
P(0 < Z < 2) - P(0 < Z < 0,31) = 0,4772 - 0,1217 = 0,3555
– =
0 2 0 0,31 0 0,31 2 121
j) P(-2,74 < Z < -1,88) = P(1,88 < Z < 2,74)
=
-2,74 -1,88 0 0 1,88 2,74
P(0 < Z < 2,74) - P(0 < Z < 1,88) = 0, 4969 - 0,4693 = 0,0276
– =
0 2,74 0 1,88 0 1,88 2,74
k) P(-0,64 < Z < 1,51) = P(0 < Z < 0,64) + P(0 < Z < 1,51) = 0,2389 + 0,4345 = 0,6734
-0,64 0 1,51
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
EXERCÍCIO RESOLVIDO
1. Suponha que a estatura de recém-nascidos do sexo masculino é uma variável aleatória com distribui-
ção aproximadamente normal com média 50 cm e desvio-padrão de 2,50 cm. Calcule a probabilidade
de um recém-nascido do sexo masculino ter estatura:
a) Entre 50 cm e 57 cm.
Seja X a estatura de recém-nascidos do sexo masculino. Temos que X ~ Normal (50; 2,52).
50 − 50 X − 50 57 − 50
P ( 50 < X < 57 ) = P < < = P ( 0 < Z < 2,8 ) = 0,4974
2,5 2,5 2,5
Essa probabilidade é encontrada de forma similar ao Exercício resolvido da página 119, letra (a). No
entanto, ilustramos esse valor na Tabela da Normal (Anexo A) abaixo:
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517
122 0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
b) Inferior a 52 cm.
X − 50 48 − 52
P ( X < 52) = P = P ( Z < 0,8 ) = P( −∞ <Z <0) + P(0 <Z < 0,8) = 0,5 + 0,2881 = 0,7881
2,5
<
2,5
Essa probabilidade é encontrada de forma similar ao Exercício resolvido da página 119, letra (h). No
entanto, ilustramos esse valor na Tabela da Normal (Anexo A) abaixo:
2. O volume de enchimento de uma caixa de leite de um litro normalmente é distribuído com média de
a)
1000 ml e variância igual a 2.025 ml2. Calcule a probabilidade de uma caixa de leite de um litro conter:
Mais de 1.026,10 ml.
LEITE
123
Seja X o volume de enchimento de uma caixa de leite de um litro. Temos que X ~ Normal (1.000; 2.025).
Essa probabilidade é encontrada de forma similar ao Exercício resolvido da página 119, letra (f). No en-
tanto, ilustramos esse valor na Tabela da Normal (Anexo A) abaixo:
ANEXO A - Tabela da Normal (versão reduzida)
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517
Essa probabilidade é encontrada de forma similar ao Exercício resolvido da página 119, letra (k). No en-
tanto, ilustramos esse valor na Tabela da Normal (Anexo A) abaixo, todavia, como já foi ilustrada a proba-
bilidade P(0<Z<0,58), será apresentada apenas a probabilidade P(0<Z<1,12):
3. Suponha que a pressão sanguínea sistólica em indivíduos com idade entre 20 e 25 anos tenha distri-
buição aproximadamente normal com média 130 mm/Hg e variância igual a 81 (mm/Hg)2. Nestas
condições, calcule a probabilidade de um indivíduo desta faixa etária apresentar pressão:
Seja X a pressão sanguínea sistólica em indivíduos com idade entre 20 a 25 anos. Temos que X ~ Normal
(130; 81).
X − 130 111,28 − 130
P ( X < 111,28 ) = P < =
81 81
= P ( Z < −2,08 ) = P(Z > 2,08) =
= P(0 < Z < +∞) −P(0 <Z <2,08) =
= 0,5 − 0,4812 = 0,0188
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE
Essa probabilidade é encontrada de forma similar ao Exercício resolvido da página 119, letra (e). No en-
tanto, ilustramos esse valor na Tabela da Normal (Anexo A) abaixo:
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517
0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 125
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE
Essa probabilidade é encontrada de forma similar ao Exercício resolvido da página 119, letra (c). No en-
tanto, ilustramos esse valor na Tabela da Normal (Anexo A) abaixo:
EXERCÍCIO PROPOSTO
1. As notas de alunos de uma turma de Estatística é distribuída normalmente com média 7,5 e variância
4. Calcule a probabilidade de um aluno ter nota:
2. Em uma academia, as mulheres levantam em média 120 kg no leg press, com desvio-padrão igual a 30
kg. Supondo que o peso (kg) levantado nesta máquina pelas mulheres seja normalmente distribuído,
calcule a probabilidade de uma mulher levantar no leg press:
a) Mais de 99 kg
b) Mais de 192 kg
c) Entre 111 a 203,70 kg
3. A taxa de glicose no sangue de pessoas com faixa etária de 30 a 40 anos pode ser modelado por uma
distribuição normal com média 120 mg por 100 ml de sangue e variância 56,25 mg2 por 100 ml de
sangue. Calcule a probabilidade de um indivíduo apresentar taxa:
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III INTRODUÇÃO À INFERÊNCIA
ESTATÍSTICA, CORRELAÇÃO E
REGRESSÃO LINEAR SIMPLES
Na Unidade I, vimos como realizar uma análise inicial dos dados fazendo
uso de estatística descritiva. Já na Unidade II, estudamos a teoria das pro-
babilidades e os principais modelos probabilísticos para descrição de alguns
fenômenos de nosso interesse. Nessa terceira e última unidade, vamos abor-
dar dois principais conceitos: Inferência Estatística e Correlação e Regressão
Linear Simples.
Primeiro, por meio da Inferência Estatística, como fazer afirmações sobre
características de uma população baseando-se em resultados de uma amostra
previamente selecionada; procedimento muito utilizado em pesquisa de opi-
nião durante o período eleitoral, por exemplo.
Segundo, por meio da Análise de Regressão Linear Simples e Correlação,
estudando a influência que uma variável pode exercer na outra. Iremos, por
exemplo, mostrar matematicamente que a variável “altura em metros” de uma
pessoa está linearmente relacionada com a variável “peso em kg”, ou que a
variável “velocidade em km/h” está relacionada com a variável “Tempo de
viagem em horas”.
Objetivos:
A maior parte das pesquisas e estudos em todas as áreas do conhecimento é realizada com amostras. No
entanto, o pesquisador almeja generalizar os resultados obtidos na amostra para a população, ou seja,
saber se o que obteve com amostras é válido para toda a população. Esta é, sem dúvida, a essência da in-
ferência estatística.
FIQUE DE OLHO
INFERÊNCIA ESTATÍSTICA: É o ramo da Estatística que se refere ao processo de obtenção de
informações sobre o parâmetro de uma população a partir de resultados observados na amostra.
AMOSTRA ALEATÓRIA: Processo de seleção de uma amostra na qual todos os elementos da população
tem a mesma probabilidade de compor (fazer parte) da amostra.
PARÂMETRO: Medida usada para descrever uma característica da população estudada. Normalmente é
um valor desconhecido e, por isso, procuramos entendê-lo através de um estudo realizado numa amostra.
São muito utilizados como parâmetros a média (μ), a variância (σ2), o desvio-padrão (σ), a proporção (ρ),
dentre outros.
ESTIMADOR: Medida usada para descrever uma característica da amostra. É uma função (fórmula) que
permite, através de uma estimativa, descrever como se comporta o parâmetro da população; baseando-se
nas observações de uma amostra. Temos como exemplos de estimadores a média ( X ), variância (S2), des- 129
vio- padrão (S), a proporção ( p̂), dentre outros.
Suponha por exemplo, que estamos interessados em estimar a média de um simulado aplicado numa
turma de cursinho de 150 alunos. O parâmetro estudado é a nota média dessa turma. Foi retratada uma
amostra das notas de 50 alunos. O estimador nesse caso será a média amostral definido por:
n
X = ∑xi
i=1
Supondo que após o cálculo da média das notas dos 50 alunos, obtivemos uma média amostral igual a 8,5.
Então esse valor (resultado numérico do estimador) é denominado de estimativa.
Distribuição amostral
Sabemos que a inferência estatística visa o conhecimento de certo parâmetro de uma população por meio
do estudo de estimativas de uma amostra desta população. Vimos anteriormente que a estimativa é obtida
através de um estimador, na qual, para se fazer inferência, é necessário conhecer determinadas caracte-
rísticas do estimador utilizado. Assim, iremos estudar a distribuição de dois dos principais estimadores
(média e proporção), ou seja, a distribuição amostral deles.
FIQUE DE OLHO
DISTRIBUIÇÃO AMOSTRAL: É uma distribuição de probabilidade baseada numa amostra alea-
tória, que retrata o comportamento de uma medida estatística (por exemplo, média, proporção,
entre outras). A distribuição amostral de uma medida estatística retrata como essa medida se
comportaria caso retirássemos todas as amostras possíveis de tamanho “n”. As distribuições
amostrais são muito utilizadas na inferência estatística, visto que é um ramo que estuda popula-
ções com base em amostras aleatórias.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Seja X uma variável aleatória com média populacional µ e variância populacional σ2. Seja X a média de
uma amostra aleatória de tamanho n da v.a. X. Temos que o valor esperado e a variância de X são, respec-
tivamente:
σ2
E( X) = µ Var ( X )=
n
Pelo Teorema do Limite Central, vemos que quando o tamanho da amostra (n) é suficientemente grande,
a distribuição da média amostral ( X ) aproxima-se de uma distribuição normal com média das médias
amostrais igual à média populacional µ e variância das médias amostrais igual à variância da população
dividida pelo tamanho da amostra (σ2/n).
a) Como regra prática, para amostras com mais de 30 elementos, pode-se assumir na maioria dos casos
que a distribuição da média amostral converge para a distribuição normal com os parâmetros citados
anteriormente.
b) Se a distribuição da v.a. X é normal com média µ e a variância σ2, a média amostral de X tem distribuição
normal com valor esperado µ e variância σ2/n, independentemente do tamanho da amostra.
Assim, poderemos transformar a v.a. X com distribuição normal em uma distribuição Normal Padrão Z,
utilizando o mesmo procedimento da seção “fique de olho” da página 117. Logo, temos que:
X −µ
Z=
σ2
n
onde:
X é a média amostral;
μ é a média populacional;
130 n tamanho da amostra;
Z Distribuição Normal Padrão (Média zero e variância um).
EXERCÍCIO RESOLVIDO
1. Suponha que a quantidade média de certa bebida em garrafa seja de 1.000 ml, com desvio-padrão de
70 ml. Se for retirada uma amostra de 35 garrafas dessa bebida, calcule a probabilidade da quantidade
média de bebida das garrafas ser acima de 1.350 ml.
Temos pelo Teorema do Limite Central que a distribuição da quantidade média (ml) de bebida nas
garrafas tem distribuição normal, com média 1.000 e variância 702/35, ou seja:
Seja X a quantidade (ml) de certa bebida em garrafa de 1.000 com média 1.000 ml e variância 4.900
ml2, para uma amostra de 35 garrafas, temos que:
σ2
X ~ Normal µ ;
n
Logo, temos que:
4.900
X ~ Normal 1.000 ;
35
Assim, é solicitada a seguinte probabilidade:
P ( X > 1.350 ) = P
X − µ 1.020 − µ
> =
2 2
σ σ
n n
X − 70 1.020 − 1.000 1.020 − 70
= P > = P Z > =
4.900 4.900 140
35 35
1.020 − 1.000
= P Z > = P ( Z > 1,6903) ≈ P ( Z > 1,69)
ESTATÍSTICA
140
E Autor: André Luiz Sena da Rocha
n n
70
= P
X − 70 1.020 − 1.000III - INTRODUÇÃO1.020À− INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
> = P Z > =
4.900 4.900 140
35 35
1.020 − 1.000
= P Z > = P ( Z > 1,6903) ≈ P ( Z > 1,69)
140
Daí temos, de forma similar a (f) do exercício resolvido da página 119:
P ( Z > 1,69) = P ( 0 < Z < +∞) − P (0 < Z < 1,69) = 0,5 − 0, 4545 = 0,0455
Temos que a probabilidade da quantidade média de bebida das garrafas ser acima de 1.350 ml é igual a
4,55%
2. Sabendo que certo tipo de elevador fabricado em uma empresa suporta em média 800 kg com vari-
ância de 361 kg2. Se for retirada uma amostra de 30 elevadores deste tipo da empresa em questão,
calcule a probabilidade de o peso médio que os elevadores suportam estar abaixo de 810 kg.
Vimos no Teorema do Limite Central que a distribuição do peso médio (kg) dos elevadores da marca e
empresa em questão, têm distribuição normal, com média 800 kg e variância σ2/n = 361/30, ou seja:
A probabilidade do peso médio que os elevadores suportam estar abaixo de 810 kg é de 99,81%.
EXERCÍCIO PROPOSTO
1. Suponha que todo semestre as notas das turmas de 3ª série do ensino médio de um colégio apresen-
tam média igual a 8,0 com desvio-padrão igual a 4. Como iniciou as aulas agora, calcule a probabilida-
de de uma nova turma de 60 alunos da 3ª série apresentar uma média semestral acima de 7.
2. Suponha que na corrida de São Silvestre o tempo médio de percurso dos 15 km é de 65 minutos com
variância 36 minutos2. Calcule a probabilidade de, em uma próxima versão da corrida com o mesmo
percurso e com 30 participantes, haver um tempo médio abaixo de 62 minutos.
3. O fabricante declarou que seu tipo de bateria utilizada em carros apresenta vida média de 48 meses
com desvio-padrão de 5 meses. Calcule a probabilidade de numa amostra de 36 baterias, ser obtido
uma vida média acima de 50 meses.
4. O número médio de livros emprestados por dia na Biblioteca Orlando Teixeira da, UFERSA, é de 60
com desvio-padrão de 20 livros. Calcule a probabilidade de em 40 dias, haver uma média de livros
emprestados por dia acima de 55 livros.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Considere p̂ como a proporção de portadores de certa característica de interesse de uma amostra de tama-
nho n da população. E que seu cálculo é representado abaixo:
Para cada indivíduo (ou para cada Xi), observamos que ele apresenta a característica de interesse ou não
apresenta. Logo, este experimento aleatório se caracteriza como um ensaio de Bernoulli, no qual a proba-
bilidade de sucesso (apresentar a característica) é p. No entanto, assumindo que a existência de um indiví-
duo independe de ter a característica de interesse de outro, realizando esse experimento mais de uma vez
(n vezes), temos uma distribuição binomial com valor esperado np e variância np(1-p).
Vimos na página 114 quando estudamos a distribuição Normal, que uma consequência do Teorema Cen-
tral do Limite é que podemos aproximar a distribuição Binomial para uma distribuição normal. Com base
nesse teorema, observamos que a distribuição amostral da proporção ( ), quando n é maior ou igual a 30,
tem distribuição aproximadamente normal, com os seguintes parâmetros:p̂
p(1 − p)
pˆ ~ Normal µ = p ; σ 2 =
n
onde:
p é a proporção de indivíduos que apresentam a característica de interesse na população;
132 n tamanho da amostra;
Assim, poderemos transformar a v.a. p̂ com distribuição normal em uma distribuição Normal Padrão Z,
utilizando o mesmo procedimento da pagina
p̂ 115. Logo, temos:
pˆ − p
Z=
p(1− p)
n
em que:
é a proporção de portadores de certa característica de interesse de uma amostra de tamanho n da
p̂ população.
Z Distribuição Normal Padrão (Média zero e variância um).
EXERCÍCIO RESOLVIDO
1. Em uma universidade federal, 25% dos alunos concluintes não apresentam nenhuma reprovação ou
trancamento. Em uma amostra de 50 alunos concluintes, qual a probabilidade de no máximo 30%
deles não apresentarem nenhuma reprovação ou trancamento?
Seja p̂ a proporção de alunos concluintes que não apresentam nenhuma reprovação ou trancamento
em disciplinas na amostra de 50.
0, 25(1− 0, 25)
Então: pˆ ~ Normal 0, 25 ; , logo: pˆ ~ Normal (0, 25 ; 0, 00375) .
50
Daí temos, de forma similar a (h) do Exercício resolvido da página 119:
pˆ − 0, 25 0,30 − 0, 25
P ( p < 0,30 ) = P
ˆ > =
0, 00375 0, 00375
= P (Z < 0,8165)≈ P (Z < 0,82)=
= P (−∞ < Z < 0) + P (0 < Z < 0,82) = 0,5 + 0, 2939 = 0, 7939
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
2. Segundo o Instituto Nacional de Câncer José Alencar Gomes da Silva, o câncer de mama é o segundo
tipo de câncer mais frequente no mundo e o mais comum entre as mulheres, respondendo por 22% dos
casos novos de câncer a cada ano. Suponha que foi retirada uma amostra de 40 casos novos de câncer
no ano. Qual a probabilidade de que entre 30% a 40% desses casos sejam de câncer de mama em mu-
lheres?
0, 22(1− 0, 22)
Seja pˆ ~a Normal 0, 22
proporção ;
de casos de câncer de
mama em mulheres na amostra dos 40 casos.
40
0, 22(1− 0, 22)
ˆ
Então: p ~ Normal 0, 22 ; logo: pˆ ~ Normal ( 0, 22 ; 0, 00429)
40
daí temos, de forma similar a (i) do exercício resolvido da página 119:
0,30 − 0, 22 pˆ − 0, 22 0, 40 − 0, 22
P (0,30 < pˆ < 0, 40) = P > =
0, 00429 0, 00429 0, 00429
= P (1, 2214 < Z < 2, 7481)≈ P ( 1, 22< Z < 2, 75 ) =
= P (0 < Z < 2, 75)−P (0< Z < 1, 22)=
= 0, 4970 − 0,3888 = 0,1082
A probabilidade de que entre 30% a 40% desses casos sejam de câncer de mama em mulheres é de
10,82%.
133
EXERCÍCIO PROPOSTO
1. Em uma pequena cidade, o percentual de habitantes com idade acima de 60 anos é de aproximada-
mente 28%. Foi extraída uma amostra aleatória de 80 habitantes. Calcule a probabilidade de haver
menos do que 25% dos moradores com idade acima de 60 anos.
2. Em uma concessionária, todo mês, há uma demanda de 5% de carros que retornam para conserto com
direito à garantia. Suponha que foi realizado um sorteio aleatório de 80 automóveis ainda na garan-
tia. Calcule a probabilidade de que ao menos 10% deles compareçam à concessionária para realizar
algum tipo de conserto.
3. Em certa empresa, a proporção de funcionários com nível superior que exercem função num cargo de
nível médio é de 0,8. Suponha que foi realizado um sorteio de 32 funcionários com cargo na empresa
de nível médio, calcule a probabilidade da proporção de funcionários com formação superior estar
entre 0,75 e 0,85.
4. Numa Universidade Federal, o percentual de professores doutores que têm Pós-doutorado é de 18%.
Foi selecionada uma amostra de 300 professores doutores. Logo, calcule a probabilidade de haver ao
menos 16% professores com pós-doutorado.
Agora que conhecemos a distribuição da média e a proporção amostral, vamos estudar um procedimento
muito importante na Estatística. Esse procedimento é muito utilizado para averiguar como se comporta
uma população baseado em informações de uma amostra.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Teste de hipóteses
Suponha que em um estudo realizado recentemente foi declarado que a altura média de crianças com 10
anos de idade é de 1,38 m. Um pesquisador médico decide averiguar se isto ocorre em sua cidade. Assim,
ele retira uma amostra aleatória simples de 80 crianças de 10 anos e obtêm uma altura média amostral
de 1,43 m.
Então, as crianças da cidade do pesquisador apresentam altura média acima do que foi descrito no estu-
do? O médico pode então dizer que as crianças de sua região são em média mais altas do que ocorre nas
demais regiões?
Para o pesquisador chegar a uma conclusão e tomar uma decisão, é mais seguro se esses dados fossem
submetidos a um teste estatístico. Esse teste é conhecido como teste de hipóteses, ferramenta essencial da
Estatística para se fazer inferência.
FIQUE DE OLHO
TESTE DE HIPÓTESES: Procedimento bastante utilizado na estatística, na qual utiliza da teoria
das probabilidades e toma como base resultados obtidos numa amostra para avaliar determina-
dos parâmetros que são desconhecidos numa população.
A Hipótese Nula é aquela que será testada, sendo sempre contrário ao resultado obtido na amostra, ou
sempre o contrário do que o pesquisador quer provar em seu estudo ou análise. Refere-se a um parâmetro
específico da população (por exemplo, μ ou r). Quando declaramos a hipótese nula, deve haver um sinal
de igualdade com relação ao parâmetro específico da população (por exemplo, H0: μ = 1,38 m).
A Hipótese Alternativa é qualquer hipótese diferente da hipótese nula. H1 será sempre o que o pesqui-
sador quer provar em seu experimento realizado na amostra. É sempre a nova alternativa. Assim como
sempre declaramos igualdade na hipótese nula, na hipótese alternativa declaramos o sinal de “maior” (>),
“menor” (<) ou “diferente” (≠), como, por exemplo, em H1: μ ≠ 1,38 m.
Para o exemplo da altura média das crianças de 10 anos, temos que a hipótese nula é descrita como altura
média de 1,38 m (valor obtido no estudo anterior ou tido como padrão ou verdadeiro). Tendo em vista que
o pesquisador encontrou uma altura média superior a este valor, ele definirá a hipótese alternativa como
as crianças apresentam altura média superior ao considerado padrão. Logo, as hipóteses são:
H 0 : µ = 1,38 m
H 1 : µ > 1,38 m
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
A distribuição amostral para o teste é divida em duas regiões. Uma região de rejeição RR (rejeitar H0) e
outra de não rejeição RA (aceitar H0). O tamanho da região de rejeição é expresso por uma probabilidade
α (lê-se alfa), e está localizada nas extremidades da distribuição amostral (logo, RR + RR = α). Consequen-
temente, o tamanho da região de não rejeição é de tamanho 1-α.
RA
(1 - a)
RR RR
(a/2) (a/2)
m x
Veja a figura acima. As duas regiões são divididas igualmente por um valor crítico que veremos adiante
(exemplo de um teste para média). Este valor será de acordo com o tipo de teste e distribuição a ser utilizada. 135
No entanto, em um teste de hipóteses, nem sempre teremos duas regiões de rejeição: dependendo de
como definimos a hipótese alternativa, poderemos ter apenas uma região. Veremos isto nos tipos de testes
de hipóteses.
RA
RR 1-a RR
a/2 a/2
Já quando H1 é definida como menor (H1: μ < μ0) ou maior (H1: μ > μ0), teremos um teste unilateral (unicau-
dal), havendo apenas uma região de rejeição (sendo o valor da região igual a α).
RA RA
RR 1-a 1-a RR
a a
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Observe que as duas regiões diferem entre si em localização, mas não em tamanho.
Banco de imagens/NEaD
rejeito a hipótese nula?
Quais critérios eu uso?
Banco de imagens/NEaD
REGRA DE DECISÃO
Para qualquer tipo de teste, teremos dois valores a ser comparados. Uma estatística de teste (valor calcu-
lado que, de acordo com os tipos de testes que serão vistos nessa Unidade, chamaremos de ZCalc ou TCalc) e
um valor crítico (valor de uma tabela estatística que, de acordo com o tipo do teste, chamaremos de ZTab ou
TTab). Este último é definido com base no valor de e no tamanho da amostra (n).
Para tomarmos a decisão acerca da rejeição da hipótese nula, veremos os critérios de acordo com cada um
dos três tipos de testes possíveis. Tomaremos como exemplo o teste de hipóteses para média (veremos na
página 139):
136
RR
a
0
Valor Crítico
Ztab
a) Se a estatística de teste for menor ou igual ao valor crítico (estará assim na região de não rejeição de
H0), a hipótese nula não é rejeitada, ou seja, se ZCalc ≤ ZTab.
b) Se a estatística de teste acusar um valor na região de rejeição de H (estará acima do valor crítico), a
0
hipótese nula é rejeitada. Em outras palavras, se ZCalc > ZTab. Tal valor observado é chamado "significa-
tivo". H0 é rejeitada sempre que ocorrer um valor "significativo".
RA
1-a
RR
a
0
Valor Crítico
Ztab
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
a) Se a estatística de teste for maior ou igual ao valor crítico (estará assim na região de não rejeição de
H0), a hipótese nula não é rejeitada, ou seja, se ZCalc ≥ -ZTab.
b) Se a estatística de teste acusar um valor na região de rejeição de H0 ( estará abaixo do valor crítico), a
hipótese nula é rejeitada, ou seja, se ZCalc < -ZTab.
a) Se a estatística de teste estiver entre o valor crítico negativo e positivo (estará assim na região de não
rejeição de H0), a hipótese nula não é rejeitada, ou seja, se -ZTab ≤ ZCalc ≤ ZTab.
b) Se a estatística de teste acusar um valor na região de rejeição de H0 (estará acima do valor crítico ou
abaixo do valor crítico negativo), a hipótese nula é rejeitada, ou seja, se ZCalc > ZTab ou se ZCalc < - ZTab.
RA
(1 - a)
RR RR
(a/2) (a/2)
0
- Valor Crítico Valor Crítico
-ZTab ZTab 137
Tudo bem. Até agora eu
Banco de imagens/NEaD
entendi. Sabemos quais
são os critérios para
rejeitar H0. No entanto,
e se eu tomar a
decisão errada?
Banco de imagens/NEaD
Imagine um tribunal no qual uma pessoa está sendo acusada de cometer um crime. Quais seriam as hipó-
teses declaradas?
Banco de imagens/NEaD
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Sabendo que a hipótese alternativa é sempre a hipótese contrária a hipótese nula, temos:
Imagine que o julgamento será realizado por um teste de hipóteses. Podemos cometer dois tipos de erro
neste julgamento, sendo eles:
a) ERRO DO TIPO I (a): Declarar o réu inocente quando ele é culpado, ou seja, não rejeitamos H0 quando
deveríamos fazê-lo.
b) ERRO DO TIPO II (b): Declarar o réu culpado quando ele é inocente, ou seja, rejeitamos H0 quando não
deveríamos fazê-lo.
Esses dois tipos de erros são muito conhecidos na inferência estatística. O Erro do tipo I é o mais impor-
tante a ser evitado, sendo conhecido como o Nível de Significância do teste (α), no qual normalmente é
previamente definido (os valores mais utilizados são: 1%, 5% ou 10%). Já para o caso da decisão correta
de não rejeitar H0 quando ela é verdadeira, definimos como (1–α) e a chamamos de Nível de Confiança
do teste. Naturalmente procura-se obter baixo nível de significância e, consequentemente, alto nível de
confiança.
Em um teste de hipóteses, deve-se ter todo o cuidado em não cometer um destes erros. Assim, trabalhare-
mos com a probabilidade de ocorrência do Erro do Tipo I e II. Logo, podemos defini-los como:
SAIBA MAIS
Quando se toma uma decisão em um teste de hipóteses, não basta informar se rejeitou a hipóte-
se nula ou não. Deve-se informar o nível de significância (α) ou o nível de confiança (1-α) em sua
conclusão, pois vemos que há uma probabilidade de termos cometido o Erro do Tipo I.
1. Definir o tipo de teste a ser realizado (teste para média, proporção, variância, etc.);
Obs: Lembre-se de que se o teste for bilateral deve fazer α/2. Se for unilateral, use α.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
7. Tomar uma decisão: Se a estatística de teste estiver na região de rejeição, rejeita-se H0; se estiver na
região de não rejeição, não se rejeita H0;
O Teste de Hipóteses para a média é realizado de duas formas distintas, dependendo do conhecimento do
pesquisador sobre a variância da população. A seguir, veremos os dois tipos:
Quando queremos realizar um teste de hipóteses para a média populacional, se conhecemos o valor do
desvio-padrão ou variância da população, utilizamos a distribuição normal para definir a estatística do
teste e seu valor crítico. No entanto, se a população não for aproximadamente normal, mas o tamanho da
amostra for suficientemente grande (n ≥ 30), o Teorema Central do Limite garante que esta distribuição
convirja para uma distribuição normal e este teste poderá ser aplicado.
H0 : µ = µ0
µ ≠ µ0 Teste Bilateral (α / 2)
H1 : µ > µ0 Teste Unilateral (α )
µ < µ
0 Teste Unilateral (α ) 139
Sabendo que a média amostral é normalmente distribuída com média μ e variância σ 2 / n , vemos que a
estatística de teste segue uma distribuição normal padrão e é definida como:
X −µ
ZCalc =
σ2
n
O valor crítico (ZTab) será definido com base em α, e a regra de decisão será:
EXERCÍCIO RESOLVIDO
1. Suponha que em um estudo realizado recentemente, foi declarado que a altura média de crianças com
10 anos de idade é de 1,38 m com variância 0,04 m2. Um pesquisador médico decide averiguar se isto
ocorre em sua cidade. Assim, ele retira uma amostra aleatória simples de 80 crianças de 10 anos e
obtém uma altura média amostral de 1,43 m. Teste com 2,5% de significância se as crianças da cidade
do pesquisador apresentam altura superior àquela encontrada no estudo.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Definindo as hipóteses:
H0: μ = 1,38 m
H1: μ > 1,38 m
O valor crítico será determinado com base em α = 2,5%. Como o teste é unilateral à direita, haverá
apenas uma região de rejeição. Deste modo, qual será o valor de Z que deixará como resto uma área
de 2,5% da distribuição?
RA
1- a = 97,5%
RR
a = 2,5%
0
ZTab
Utilizando a Tabela da Normal Padrão (ANEXO A), precisamos saber o coeficiente que deixa uma área
de 0,025 à direita. Repare que metade do gráfico é equivalente a 0,5 (50%). No entanto, precisamos
140 retirar desta área o valor de α (2,5% ou 0,025). Assim, diminuímos o valor de α de 50%. Achando o
valor de 0,475. A pergunta é: qual o valor de zTab tal que nos dê uma probabilidade de 0,475?
P ( 0 < Z < zTab ) = 0,5 − 0,025 = 0,4750
Olhando na Tabela da Normal Padrão, devemos procurar de forma contrária a que utilizávamos. Antes,
procurávamos por meio do coeficiente z e achávamos uma probabilidade. Agora que já sabemos a pro-
babilidade (0,4750), precisamos saber o valor de zTab que nos dá esta probabilidade.
Ao analisar a tabela abaixo, percebemos que ela é parte da Tabela da Distribuição Normal Padrão que
se encontra no Anexo A. Devemos procurar na tabela a probabilidade exata 0,4750. Se não houver este
valor, devemos procurar o mais aproximado.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Note que o coeficiente zTab que nos dá uma probabilidade de 0,4750 é 1,96. Logo, temos que:
RR
a = 2,5%
0
ZTab ZCal
1,96 2,24
Assim, com 97,5% de confiança, como ZCalc > ZTab, rejeitamos a hipótese nula, ou seja, a altura média das
crianças com 10 anos de idade da cidade na qual o pesquisador realizou o estudo é acima de 1,38m.
2. A fábrica Cigar anuncia que o índice de nicotina dos seus cigarros é em média 27 mg por cigarro e
apresenta um desvio-padrão de 12,25 mg por cigarro. Uma fábrica concorrente analisou uma amos-
tra de 50 cigarros daquela e constatou uma média amostral de 22 mg por cigarro. Teste com 1% de
significância se os cigarros da fábrica Cigar apresentam uma quantidade de miligramas de nicotina
por cigarro menor do que o anunciado.
Definindo as hipóteses:
H0: μ = 27 mg
H1: μ < 27 mg
141
A estatística de teste será:
X −µ 22 − 27
ZCalc = = = −2,8861 ≈ −2,89
σ 2
12,252
n 50
O valor crítico será determinado com base em α = 1%. Como o teste é unilateral à esquerda, haverá
apenas uma região de rejeição. Qual valor de ZTab deixará como resto uma área de 1% da distribuição?
RA
1- a = 99%
RR
a = 1%
0
-ZTab
Utilizando a Tabela da Normal Padrão (ANEXO A), precisamos saber o coeficiente que deixa uma área de
0,01 à direita (considerando que pela propriedade de simetria da normal, a área à direita é a mesma à
esquerda). Note que metade do gráfico é equivalente a 0,5 (50%). No entanto, precisamos retirar desta
área o valor de α (1% ou 0,01). Assim, diminuímos o valor de α de 50%, encontrando o valor de 0,49.
A pergunta é: qual o valor de zTab tal que nos dê uma probabilidade de 0,49?
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
142 1,5
1,6
0,4332
0,4452
0,4345
0,4463
0,4357
0,4474
0,4370
0,4484
0,4382
0,4495
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
1,9 0,4713 0,4719 0,4726 0,4732 0,4738
RR
a = 1%
0
-ZTab
ZCal
-2,325
-2,89
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Dessa forma, com 1% de significância, como ZCalc < -ZTab, rejeitamos a hipótese nula, ou seja, os cigarros da
fábrica Cigar apresentam uma quantidade de miligramas de nicotina por cigarro menor do que o anuncia-
do (27 mg).
EXERCÍCIO PROPOSTO
1. Por questão de segurança, a profundidade média de um mergulhador raso, profissional, utilizando
ar comprimido, é de aproximadamente 50 metros, com desvio-padrão de 10 metros. Foi seleciona-
da uma equipe de 42 mergulhadores e aferida a profundidade em que estes conseguiam mergulhar,
obtendo média de 52 m. Teste com 90% de confiança se esta equipe alcança a profundidade média
orientada pelo padrão de segurança.
2. Mediu-se o comprimento (em mm) da cauda de uma amostra de 35 ratos de determinada espécie, es-
colhidos aleatoriamente. Foi obtida uma média de 54 mm e variância 4 mm2. Para o rato estar dentro
da normalidade da sua espécie, deve apresentar 55 mm de comprimento médio de cauda. Teste com
97,5% de confiança se o rato está abaixo da normalidade para sua espécie.
3. Estudo recente informou que o salário médio de arquitetos com mais de 5 anos de profissão em certo
País é de 6,5 salários mínimos com desvio-padrão de 1 salário mínimo. Foi selecionada uma amostra
de 36 arquitetos com mais de 5 anos de profissão desse País e constatou-se um salário médio amostral
de 6 salários mínimos. Teste com 98% de confiança se o salário mínimo de arquitetos com esse tempo
de profissão desse País é realmente o que está descrito no estudo.
4. Um estudo comprovou que o peso médio (kg) excedente nas mochilas escolares para crianças com 10
anos de idade é de 5 kg com variância de 16 kg2. Foi retirada uma amostra de 41 crianças com essa
faixa etária e constatou-se um peso médio excedente em suas mochilas de 6 kg. Teste com 0,5% de
significância se o peso médio das mochilas excedente é acima que o descrito no estudo.
143
Então, ao realizarmos um teste
de hipóteses quando a variância é
conhecida, utilizamos a distribuição
Banco de imagens/NEaD
normal. Mas e se a variância
for desconhecida?
Banco de imagens/NEaD
DISTRIBUIÇÃO T DE STUDENT
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Distribuição Normal
Distribuição t-Student
-3 -2 -1 0 1 2 3
Utilizamos com maior frequência a distribuição t de Student quando se tem amostras inferiores a 30 ou
quando não conhecemos o desvio-padrão ou variância populacional. Diferentemente da distribuição Nor-
mal, que necessita apenas do nível de significância α, a distribuição t, além deste valor, possui um parâ-
metro adicional chamado “graus de liberdade”, diretamente relacionado ao tamanho da amostra (n). E de
forma similar à distribuição Normal, consultaremos uma nova tabela: a tabela da distribuição t.
A tabela da t relaciona valores da distribuição t de Student a áreas denotadas por α. Os valores de t são
obtidos localizando o número adequado de graus de liberdade, obtido por meio do tamanho da amostra
menos um, ou seja, n-1.
Na Tabela t, precisamos de dois parâmetros: o valor de e o número de graus de liberdade (sendo este
número obtido pelo tamanho da amostra menos um, ou seja, n-1). Logo, qual seria o valor da t para um
experimento realizado com uma amostra de tamanho 14 e 5% de significância (α = 0,05)?
Iremos representar a partir de agora pela seguinte notação:
144 t (α %; g .l .)
= t (α %; n−1)
No caso do nosso exemplo, temos t (α =5%; n−1=13) = t (5%; 13) . Analisando a tabela abaixo (versão completa no
Anexo B), vemos que o valor procurado de t é:
t (5%; 13)
= 1,7709
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Exemplo:
Quando queremos realizar um teste de hipóteses para a média populacional, se conhecemos o valor do
desvio-padrão ou variância da população, temos como base para a estatística do teste, a distribuição nor-
mal. No entanto, quando desconhecemos o desvio-padrão ou variância populacional (situação mais co-
mum na prática) tomamos como base uma nova distribuição de probabilidade, a distribuição t de Student.
Como a variância é desconhecida, vamos utilizar a variância amostral S2 como estimador. Assim, a estatís-
tica de teste segue uma distribuição t de Student, sendo definida como:
X −µ
TCalc =
S2
n
Onde o valor crítico (TTab) será definido com base em α e nos graus de liberdade (n-1).
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
EXERCÍCIO RESOLVIDO
1. Segundo informações de um servidor, o tempo para transmitir certa quantidade em megabytes em de-
terminada rede de computadores é de em média 7,4 s. Depois de algumas mudanças na rede, um enge-
nheiro de computação acredita que houve uma mudança no tempo de transmissão de dados. A fim de
verificar, ele realizou um teste com uma amostra de 10 tentativas de transmissão da mesma quantidade
de megabytes, obtendo um tempo médio de transmissão de 7,95 s e um desvio-padrão de 1,08 s. Teste
com 10% de significância se o tempo médio de transmissão continuar sendo o informado pelo servidor.
Definindo as hipóteses:
H0: μ = 7,4 s
H1: μ ≠ 7,4 s
X −µ 7,95 − 7,4
A estatística de teste será: TCalc = = = 1,61
S2
1,082
n 10
O valor crítico será determinado com base em α = 10%. No entanto, perceba que difere do Exercício
resolvido 1 da página 139, como também o Exercício resolvido 2 da página 141. Repare que além de
utilizar a distribuição t de Student, o teste agora é bilateral (pois há o sinal da diferença em H1); logo, o
valor de α deverá ser dividido por 2 (considerando que há duas regiões de rejeição). Assim, utilizando
a tabela do Anexo B (versão resumida), temos:
t (α /2=5%; 10−1=9) = t (5%; 9) = 1,8331
Distribuição T-Student (versão reduzida)
A
10% 5% 2,5% 1% 0,5%
g.l.
1 3,0777 6,3138 12,7062 31,8207 63,6574
146 2 1,8856 2,9200 4,3027 6,9646 9,9248
3 1,6377 2,3534 3,1824 4,5407 5,8409
4 1,5332 2,1318 2,7764 3,7469 4,6041
5 1,4759 2,0150 2,5706 3,3649 4,0322
RA
(1- a) = 90%
RR RR
a/2 = 5% a/2 = 5%
0
-TTab TCal TTab
1,611
-1,8331 1,8331
Como –TTab ≤ TCalc ≤ TTab, conclui-se com 10% de significância que não se rejeita a hipótese nula, ou seja,
o tempo médio de transmissão de certa quantidade de megabytes em determinada rede de computa-
dores é de 7,4 s.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
2. Certa marca de automóveis está vendendo um novo modelo e afirma que o carro faz em média 17
km com um litro (km/l) de gasolina na estrada. Para constatar se isto realmente ocorre, uma revista
nacional de carros alugou oito automóveis do mesmo modelo e realizou um teste na estrada. Obtendo,
assim, média de 14,2 km/l e variância igual a 7,84 (km/l)2. Teste com 2,5% de significância se o carro
fizer uma quilometragem por litro menor do que é descrito pelo fabricante.
Definindo as hipóteses:
H0: μ = 17 km/l
H1: μ < 17 km/l
O valor crítico será determinado com base em α = 2,5%. Diferentemente do Exercício resolvido da
página 146, este teste é unilateral à esquerda. Logo, haverá apenas uma região de rejeição. Assim,
utilizando a tabela do Anexo B (versão resumida), temos:
t (α =2,5%; 8−1=7 )
= t (2,5%; 7)
= 2,3646
A
10% 5% 2,5% 1% 0,5%
g.l.
1 3,0777 6,3138 12,7062 31,8207 63,6574
2 1,8856 2,9200 4,3027 6,9646 9,9248
3
4
1,6377
1,5332
2,3534
2,1318
3,1824
2,7764
4,5407
3,7469
5,8409
4,6041
147
5 1,4759 2,0150 2,5706 3,3649 4,0322
RA
1- a = 97,5%
RR
a = 2,5%
0
-TTab
-2,3643
TCal
-2,83
Como TCalc < -TTab, conclui-se com 2,5% de significância que se rejeita a hipótese nula, ou seja, o carro
em questão faz uma quilometragem por litro inferior ao descrito pelo fabricante.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
EXERCÍCIO PROPOSTO
1. Biólogos de um laboratório acreditam que o diâmetro pupilar médio de coelhos adultos sadios di-
minuiu. Foi tirada uma amostra de 12 animais, obtendo média igual a 5,2 mm de diâmetro pupilar
e variância de 1,44 mm2. Sabendo que em um estudo anterior, o diâmetro pupilar médio de coelhos
adultos sadios foi de 5,48 mm, teste com 0,5% de significância se a crença dos biólogos estiver correta.
3. Um fabricante de raquetes de tênis afirmou que o comprimento médio de suas raquetes é de 71 cm.
Foi comprado um lote com 20 raquetes desse fabricante e foi obtido uma média de 69 cm e desvio-
-padrão de 3 cm. Teste com 90% de confiança se o comprimento médio da raquete é o que o fabricante
afirmou.
4. Uma pesquisa realizada pela Fundação Instituto de Pesquisas Econômicas (FIPE) divulgou que o preço
médio da cesta básica em São Paulo em novembro de 2013 é de R$ 346,59. Assim, foram pesquisados
15 supermercados em São Paulo nesse mesmo período e foi obtido nessa amostra um preço médio
da cesta básica de R$ 340,00 com desvio-padrão de R$ 30. Teste com 97,5% de confiança se o preço
médio da cesta básica em São Paulo nesse período está abaixo do que o que foi descrito pelo FIPE.
148 Da mesma forma que poderemos estar interessados em testar a média, podemos testar também a propor-
ção. Por exemplo, suponha que um candidato a prefeito de certa cidade afirma que tem 52% dos votos dos
eleitores. Já o resultado de uma pesquisa de opinião realizada na cidade com 400 eleitores indicou que
há 47% dos votos favoráveis a ele. Mas e aí? O candidato A está certo ou errado? Se tivéssemos aplicado a
pesquisa com todos os eleitores, obteríamos o percentual afirmado pelo candidato A?
Uma questão como esta é facilmente resolvida com um teste de hipóteses para a proporção. Assim, defi-
nindo a proporção populacional "p" como a proporção de indivíduos que apresentam certa característica
de interesse na população e a proporção amostral como “ ”, teremos para o teste as seguintes hipóteses:
H0 : p = pˆ
p ≠ pˆ Teste Bilateral (α / 2)
H1 : p > pˆ Teste Unilateral à direta (α )
p < pˆ Teste Unilateral à esquerda (α )
Vimos quando estudamos a distribuição amostral da proporção que sua distribuição é aproximadamente
normal, com média p e variância p(1-p)/n. Logo, a estatística de teste será descrita por:
pˆ − p
ZCalc =
p (1 − p )
n
em que:
p: proporção de indivíduos que apresentam certa característica de interesse na população
p̂: proporção de indivíduos que apresentam certa característica de interesse na amostra
n: tamanho da amostra.
O valor crítico (ZTab) será definido com base em um valor previamente fixado de α, e a regra de decisão
será:
a) Se o teste for bilateral:
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
EXERCÍCIO RESOLVIDO
1. Suponha que um candidato a prefeito de certa cidade (candidato A) afirma que tem 52% dos votos
dos eleitores. Já o resultado de uma pesquisa de opinião realizada na cidade com 400 eleitores indicou
que há 47% dos votos favoráveis a ele. Teste com 10% de significância se a afirmação do candidato
estiver correta.
Definindo as hipóteses:
H0 : p = 0,52
H1 : p ≠ 0,52
O valor crítico será determinado com base em α = 10%. No entanto, como o teste é bilateral, haverá
duas regiões de rejeição, nas quais a soma das duas regiões deverá ser igual a α (logo, cada região será
149
α/2 = 5%). Assim, temos como região de rejeição e não rejeição de H0:
RA
(1- a) = 90%
RR RR
a/2 = 5% a/2 = 5%
0
-ZTab ZTab
Sabemos que a distribuição amostral da proporção é normal, e por isso, vamos utilizar tal distribuição
que se encontra no Anexo A. Precisamos saber qual é o coeficiente que deixa uma área de 0,05 à direita
(consequentemente deixará também à esquerda). Repare que metade do gráfico é equivalente a 0,5
(50%). No entanto, precisamos retirar dela o valor de α (5% ou 0,05). Assim, diminuímos o valor de
α de 50%, encontrando o valor de 0,45. A pergunta é: qual o valor de zTab tal que nos dê uma proba-
bilidade de 0,45?
P ( 0 < Z < zTab ) = 0,5 − 0,05 = 0,45
Ao analisar a tabela abaixo, percebemos que ela é na verdade parte da Tabela da Distribuição Normal
Padrão que se encontra no Anexo A. Devemos procurar dentro da tabela a probabilidade exata 0,45. Se
não houver esse valor, devemos procurar o mais aproximado.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Repare que há dois valores mais próximos de ZTab (0,4495, dado pelo coeficiente 1,64, e 0,4505, dado
pelo coeficiente 1,65). A fim de obter melhor aproximação, faremos a média dos dois coeficientes, ou
seja, a média de 1,64 com 1,65, cujo resultado é 1,645. Sendo assim, temos:
RR RR
a/2 = 5% a/2 = 5%
0
ZCal -ZTab ZTab
-2
-1,645 1,645
Como ZCalc < -ZTab, com 90% de confiança rejeita-se a hipótese nula, ou seja, a afirmação do candida-
to A não é correta, pois ele apresenta um percentual de votos favoráveis diferente de 52%.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
2. Dados dos meses anteriores informam que 95% da produção de um tipo de calçado em certa máquina
não apresentam defeitos. No entanto, os 5% restantes apresentam algum defeito na sola de borracha.
Foi comprada uma nova máquina de produção, que produziu 300 calçados, com 288 em perfeito es-
tado, tendo os demais algum defeito na sola de borracha. Teste com 0,5% de significância se a nova
máquina produzir mais itens em perfeito estado do que a antiga máquina.
Definindo as hipóteses:
H0 : p = 0,95
H1 : p > 0,95
Primeiro, devemos calcular a proporção amostral. Sabemos que foram construídos 300 calçados e
que 288 estavam em perfeito estado. Logo, temos:
O valor crítico será determinado com base em α = 0,05%. Uma vez que o teste é unilateral, haverá
apenas uma região de rejeição. Assim, temos como região de rejeição e não rejeição de H0:
151
RA
1- a = 99,5%
RR
a = 0,05%
0
ZTab
Utilizando a Tabela da Normal Padrão (Anexo A), precisamos saber o coeficiente que deixa uma área
de 0,005. Note que metade do gráfico é equivalente a 0,5 (50%). No entanto, precisamos retirar desta
área o valor de α (0,5% ou 0,005). Assim, diminuímos o valor de α de 50%, encontrando o valor de
0,4950. A pergunta é: qual o valor de zTab tal que nos dê uma probabilidade de 0,4950?
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Ao analisar a tabela abaixo, percebemos que ela é parte da Tabela da Distribuição Normal Pa-
drão que se encontra no Anexo A. Devemos procurar dentro da tabela a probabilidade exata
0,4950. Se não houver este valor, devemos procurar o mais aproximado.
Observe que há dois valores mais próximos de ZTab (0,4949, dado pelo coeficiente 2,57, e 0,4951,
dado pelo coeficiente 2,58). A fim de obter melhor aproximação, faremos a média dos dois coeficien-
tes, ou seja, a média de 2,57 com 2,58, cujo resultado é 2,575. Logo, temos:
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Então, para o nosso Exercício resolvido, temos ZTab = 2,575. Logo, a conclusão do teste é:
RA
1- a = 99,5%
RR
a = 0,05%
0
ZCal ZTab
0,79 2,575
Como ZCalc ≤ ZTab, com 99,5% de confiança não se rejeita a hipótese nula, ou seja, a máquina nova pro-
duz a mesma quantidade de calçados em perfeito estado.
EXERCÍCIO PROPOSTO
1. O governo declarou em um estudo que o percentual de crianças adotadas no País por ano com idade
acima de 12 anos é igual a 20%. Em um orfanato, só no ano passado, 25% das 150 adoções foram
crianças nesta faixa etária. Teste com 8% de significância se este orfanato apresenta um percentual 153
acima do declarado pelo Governo.
2. Um fabricante de cartuchos de tinta para impressora está qualificando uma nova máquina de pro-
dução. Ele qualificará se a percentagem de cartuchos produzidos com defeito for no máximo 2% (ou
igual a 2%). Uma amostra aleatória de 250 cartuchos contém oito defeituosas. Teste ao nível de signi-
ficância de 0,5% se a máquina não pode ser qualificada (obtendo percentual de cartuchos com defeito
acima de 2%).
3. Um estudo realizado indicou que 80% das crianças com idade entre 8 a 10 anos apresentam fortes do-
res nas costas devido ao excesso de peso da mochila escolar. Uma amostra de 400 crianças dessa faixa
etária apresentou 336 com excesso de peso em sua mochila. Teste ao nível de significância de 3% de
significância se o percentual de crianças com peso acima do permitido é o mesmo descrito no estudo.
4. O fabricante de uma marca de capacetes de motociclistas informa que 1% de seus produtos apresenta
algum defeito. Uma amostra aleatória de 50 capacetes foi submetida a um teste de impacto para ava-
liar sua resistência em caso de acidentes. Foi observado algum dano em 2 destes capacetes. Teste ao
nível de significância de 3% se o percentual dos capacetes produzidos com defeito está abaixo do que
o fabricante afirmou.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Banco de imagens/NEaD
Banco de imagens/NEaD
Para uma análise de duas variáveis, estamos interessados em saber se cada unidade observada de uma va-
riável Y (conhecida como variável dependente ou resposta) sofre influência de cada unidade observada de
uma variável X (conhecida como variável independente ou explanatória), ou seja, se elas estão relacionadas.
Suponha, por exemplo, o peso de uma pessoa. Será que a altura exerce influência em seu peso? Será que
O termo
quanto mais alta essa pessoa for, mais pesada ela também será?
“correlação”
O comportamento conjunto dessas duas variáveis (Peso Vs. Altura) pode ser observado graficamente por
significa até que
meio do Diagrama de Dispersão e numericamente por meio do Coeficiente de Correlação.
ponto duas
variáveis estão
Diagrama de Dispersão
relacionadas
Gráfico bastante utilizado para verificar o grau de associação, correlação linear ou dependência entre duas va-
entre si.
riáveis estudadas. Para sua construção, basta colocar uma variável em função de outra em um plano cartesiano.
Para interpretar um diagrama de dispersão, basta observar a direção e a dispersão dos pontos. Se há
correlação linear, os pontos estarão alinhados como uma reta (de forma ascendente ou descendente). A
seguir, veremos os tipos de diagramas de dispersão.
a) Correlação linear positiva: Se X e Y crescem no mesmo sentido (são diretamente proporcionais);
Correção linear positiva
20
r = 0,8996
15
y
10
5
2 4 6 8 10 12
x
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
b) Correlação linear positiva perfeita: Se X cresce na mesma proporção de Y (Exemplo: Se X aumenta 50%
Y aumenta 50%);
Correção linear positiva perfeita
120
r=+1
100
80
y
60
40
20
2 4 6 8 10 12
x
c) Correlação linear negativa: Se X e Y variam em sentidos contrários (são inversamente proporcionais);
155
15
y
10
5
2 4 6 8 10 12
x
d) Correlação linear negativa perfeita: Se X cresce, Y diminui na mesma proporção (Exemplo: Se X aumen-
ta 50%, Y diminui 50%);
r=-1
100
80
y
60
40
20
2 4 6 8 10 12
x
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
e) Correlação linear nula: Se X cresce e Y varia ao acaso (não há padrão de reta). Não existe correlação li-
near;
Correção linear nula
r = 0,0051
80
60
y
40
20
0
0 10 20 30 40
x
f) Correlação não linear: Se existe uma relação entre X e Y, no entanto, não se trata de relação linear.
Correção não-linear
25
20
156
15
y
10
5
0 10 20 30 40 50
x
EXERCÍCIO RESOLVIDO
1. Logo abaixo temos uma tabela com o peso (kg) e altura (m) de 12 alunos de uma turma de matemáti-
ca. Construa o diagrama de dispersão.
Peso (Y) 82,4 55,4 92,4 75,8 70,1 58,0 88,5 77,9 64,3 67,9 57,8 60,5
Altura (X) 1,85 1,51 1,92 1,77 1,72 1,60 1,90 1,80 1,64 1,70 1,54 1,65
Sabemos que a variável Peso é a variável dependente, pois pode sofrer influência da variável Altura,
sendo esta a variável independente. No entanto, a fim de constatar, vamos construir o Diagrama de
Dispersão e calcular a correlação entre ambos:
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
1.9
1.8
y - Altura (m)
1.7
1.6
1.5
60 70 80 90
x - Peso (kg)
Observe na figura 6 que X e Y crescem no mesmo sentido. Quando constatamos isto no diagrama de
dispersão, dizemos que existe correlação linear positiva entre as variáveis.
Banco de imagens/NEaD
ela é alta ou baixa?
É uma medida do grau de dependência linear entre duas variáveis. Este coeficiente, representado por r
(correlação amostral) ou ρ (correlação populacional), é dado pela fórmula:
n n
Correlação n ∑ X i ∑Yi
i =1 i =1
positiva entre duas ∑ X Y
i i −
n
variáveis mostra apenas r= i =1
que essas n
2
n
2
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
em que:
n tamanho da amostra (quantidade de elementos de X ou Y);
n
∑X
i =1
i soma de todos os elementos de X;
n
∑Y
i =1
i soma de todos os elementos de Y;
∑X Y
i =1
i i
soma do produto de X com Y;
n
∑X
i =1
2
i soma de todos os elementos de X (cada um ao quadrado);
n
∑Y
i =1
i
2
soma de todos os elementos de Y (cada um ao quadrado);
OBSERVAÇÕES:
• O valor de r varia de (–1) a (+1), ou seja, -1 ≤ r ≤ +1;
• Valores de r iguais a (–1) e (+1) indicam que os pontos estão exatamente sobre a reta, isto é, a correla-
ção é perfeita e o diagrama de dispersão mostrará pontos que formam uma reta perfeita;
• Valores próximos de (–1) e (+1) indicam correlação forte;
• Valores próximos de zero indicam correlação fraca;
• Quanto mais próxima de zero for a correlação, maior será o indício de que não há correlação;
• O sinal de r indica se a correlação é positiva (+) ou negativa (-).
Além de uma correlação ser positiva ou negativa, podemos classificá-la com relação à intensidade da asso-
ciação entre as duas variáveis estudadas. O quadro 4 ilustra os tipos de classificação:
http://fr.wikipedia.org/wiki/Karl_Pe-
arson #mediaviewer/Fichier:Karl_Pe-
SAIBA MAIS
Karl Pearson (1857-1936) foi um renomado estatístico britânico que contri-
buiu para o desenvolvimento da Estatística como uma área científica. Foi o
fundador do Departamento de Estatística Aplicada na University College
London em 1911, sendo o primeiro departamento universitário dedicado à
disciplina no mundo. Suas inúmeras contribuições à área destacam-se nas
arson.jpg
EXERCÍCIO RESOLVIDO
1. Logo abaixo temos uma tabela que mostra o peso (kg) e a altura (m) dos alunos de uma turma de ma-
temática. Calcule o Coeficiente de Correlação Linear.
Peso e altura dos alunos (dados brutos)
Peso (Y) 82,4 55,4 92,4 75,8 70,1 58,0 88,5 77,9 64,3 67,9 57,8 60,5
Altura (X) 1,85 1,51 1,92 1,77 1,72 1,60 1,90 1,80 1,64 1,70 1,54 1,65
Para o cálculo da correlação de X com Y, devemos obter a soma de X e de Y, a soma do produto de X com
Y e a soma do quadrado de X e Y. Apesar de inicialmente as contas parecerem grandes, organizando-as
em um quadro, temos um procedimento de mais fácil compreensão. O quadro 3.2 ilustra os procedi-
mentos, com os valores ao final representando a soma de cada coluna.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
n n n
∑X Y i i = 1.479,13 ∑X 2
i = 35,56 ∑Y
i =1
i
2
= 62.066,98
i =1 i =1
n
2
n
2
n ∑ X i n ∑ Y i
X 2 − i =1 ⋅ Y 2 − i =1
∑ i n ∑ i n
i =1 i =1
(20,6)(851)
1.479,13 −
= 12 =
( 20,6 ) ( 851)
2 2
35,56 − ⋅ 62.066,98 −
12 12
1.479,13 − 1.460,88
= =
(35,56 − 35,36 ) ⋅ ( 62.066,98 − 60.350,08)
18,25 18,25 18,25
= = = = 0,9849
(0,2) ⋅ (1.716,9) 343,38 18,53
Logo, r = 0,9849, ou seja, há uma fortíssima correlação positiva entre o peso e a altura destes alunos.
Assim, na medida em que aumenta a altura, o peso também aumenta. No entanto, para constatar que
haveria uma alta correlação caso retirássemos novas amostras, iremos aprender na próxima seção
um teste da existência de correlação linear.
E para a situação em que
haverá uma correlação
linear negativa?
Banco de imagens/NEaD
Banco de imagens/NEaD
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
2. Seja o tempo (horas) e a velocidade média (km/h) de 11 pessoas que fizeram uma viagem de 400 km
em seus automóveis. Construa um diagrama de dispersão e calcule a correlação linear.
Tempo e velocidade das pessoas (dados brutos)
Sabemos que a variável Tempo de viagem (variável dependente) provavelmente sofre influência da
variável Velocidade média (variável independente). No entanto, para constatar, vamos construir o Dia-
grama de Dispersão e calcular a correlação entre eles:
160
80
∑ X i = 1.209,00 ∑Y
i =1
i = 44,90
i =1
n n
n
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
n n
n ∑ X i ∑Yi
∑ X iYi − i =1 i =1
n
r= i =1
n
2
n
2
n ∑ X i n ∑ Y i
X 2 − i =1 ⋅ Y 2 − i =1
∑ i n ∑ i n
i =1 i =1
(1.209)(44,9)
4.756 −
= 11 =
( 1.209 ) ( 44,9)
2 2
139.719 − ⋅ 188,79 −
11 11
4.756 − 4.934,92
= =
(139.719 − 132.880,09) ⋅ (188,79 − 183,27)
-178,92 -178,92 -178,92
= = = = −0,9209
(6.838,91) ⋅ (5,52) 37.750,78 194,29
Logo, r = -0,9209, ou seja, há uma fortíssima correlação linear negativa entre a velocidade média e o
tempo de viagem. Assim, na medida em que aumenta a velocidade média, o tempo de viagem diminui.
3. Os dados abaixo apresentam o número de cafezinhos tomados num shopping (Y) em 10 dias e o nú-
mero de pessoas que passaram pelo Shopping no mesmo período. Construa um diagrama de disper-
são e calcule a correlação linear.
161
Número de cafés e de pessoas (dados brutos)
Vamos averiguar se o número de cafezinhos é influenciado pelo número de pessoas que passam pelo
Shopping em que o café é vendido. Para averiguar, vamos construir o Diagrama de Dispersão:
n Xi Yi Xi · Yi X2 Y2
1 749 49 36.701 561.001 2.401
2 650 51 33.150 422.500 2.601
3 249 62 15.438 62.001 3.844
4 830 65 53.950 688.900 4.225
5 497 74 36.778 247.009 5.476
6 574 89 51.086 329.476 7.921
7 749 95 71.155 561.001 9.025
8 946 111 105.006 894.916 12.321
9 251 120 30.120 63.001 14.400
10 642 145 93.090 412.164 21.025
11 501 157 78.657 251.001 24.649
Total 6.638 1.018 605.131 4.492.970 107.888
∑X
i =1
i = 6.638 ∑Y i = 1.018
i =1
n
∑X Y
n n
= 605.131
i =1
i i
∑X
i =1
2
i = 4.492.970 ∑Y i
2
= 107.888
i =1
n
2
n
2
n ∑ i X n ∑ i
Y
X 2 − i =1 ⋅ Y 2 − i =1
∑ i n ∑ i n
i =1 i =1
(6.638)(1.018)
605.131 −
= 11 =
( 6.638 ) ( 1.018 )
2 2
4.492.970 − ⋅ 107.888 −
11 11
605.131 − 614.316,73
= =
( 4.492.970 − 4.005.731,27 ) ⋅ (107.888 − 94.211,27)
SAIBA MAIS
É possível que exista uma relação entre duas variáveis, mas na verdade não exista nenhuma re-
lação de causa-efeito. Essa indicação de relação linear pode ocorrer por mera coincidência ou
devido a influência de uma terceira variável. Chamamos o estudo desse fenômeno de Regressão
Espúria.
Por exemplo, pode ser que encontremos uma relação entre chuvas na cidade de Fortaleza e nas-
cimento de crianças prematuras. Ou seja, há necessidade de certa teoria por trás de uma relação.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Banco de imagens/NEaD
que a correlação será alta sempre
para essas duas varáveis?
SAIBA MAIS
O link abaixo mostra como se calcula o coeficiente de correlação linear
no Microsoft Excel.
http://www.youtube.com/watch?v=TIdz-szSN08
Depois de ter calculado a correlação entre duas variáveis, faz-se necessário averiguar se a correlação re-
almente existe entre elas. Apesar de muitas vezes o pesquisador encontrar uma forte correlação em duas 163
variáveis, ainda há possibilidade dessa correlação ter sido forte apenas na amostra encontrada, podendo
ser diferente caso o pesquisador faça um novo experimento.
Portanto, veremos a seguir um teste de hipóteses para averiguar se realmente existe correlação linear. O
resultado do teste terá nível de confiança (1-α) e nível de significância α. Logo, as hipóteses a ser testadas
são:
H0 : ρ = 0
H1 : ρ ≠ 0
A hipótese nula será o veredicto de não haver correlação linear entre as variáveis. Consequentemente, a
hipótese alternativa descreve a situação na qual haverá correlação linear entre as variáveis.
A estatística do teste é baseada no tamanho de amostra (n) e no valor da correlação linear de Pearson (r).
Terá distribuição t de Student e pode ser calculada por:
r
TCalc =
1 − r2
n−2
O valor crítico (TTab) será encontrado com base na tabela t do Anexo B. No entanto, devemos utilizar na
tabela o valor de α/2 e o número de graus de liberdade (n-2). Observe neste último que teremos n-2 graus
de liberdade, pois temos duas variáveis em questão (ao invés de apenas uma, como visto no teste de hipó-
teses para média quando σ2 é desconhecido). Logo, teremos como TTab:
TTab = t (α /2 ; n−2)
Observação: Uma vez constatado em teste de hipóteses que há correlação linear entre as variáveis, o pró-
ximo passo será definir um modelo matemático que descreva a relação linear entre X e Y.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
EXERCÍCIO RESOLVIDO
1. Seja o peso e a altura dos 12 alunos do Exercício resolvido 1 da página 158. Realize o teste de hipóte-
ses da correlação linear com 95% de confiança.
Vemos no Exercício resolvido da página 158 que r = 0,9849 e n = 12. Vamos definir as hipóteses a
serem testadas:
H0 : ρ = 0
H1 : ρ ≠ 0
Se H0 for rejeitada, então, com (1-α)% de confiança, afirmaremos que existe correlação linear entre as
variáveis. Caso contrário (H0 não é rejeitada), assumiremos que não existe correlação linear.
Logo, a estatística de teste será:
r 0,9849 0,9849 0,9849
TCalc = = = = = 17,99
1−r 2
1 − 0,98492
0,002997199 0,05474668
n−2 12 − 2
Assim, como TCalc > TTab (17,99 > 2,2281), rejeita-se H0 com 95% de confiança, ou seja, existe correlação
linear entre X e Y.
2. Seja o tempo e a velocidade média das 11 pessoas do Exercício resolvido 2 da página 160. Realize o
teste de hipóteses da correlação linear com 1% de significância.
164
Vimos no Exercício resolvido a página 160 que r = -0,9209 e n = 11. Vamos definir as hipóteses a serem
testadas:
H0 : ρ = 0
H1 : ρ ≠ 0
Se H0 for rejeitada, então, com (1-α)% de confiança, afirmaremos que existe correlação linear entre as
variáveis. Caso contrário (H0 não é rejeitada), assumiremos que não existe correlação linear.
Assim, como TCalc < -TTab (-7,0875 < 3,2498), rejeita-se H0 com 99% de confiança, ou seja, existe corre-
lação linear entre X e Y.
3. Seja o número de cafezinhos e o número de pessoas que passam pelo Shopping do Exercício resolvi-
do 3 da página 161, realize o teste de hipóteses da correlação linear com 1% de significância.
Como r = -0,1125, a correlação entre o número de cafezinhos e o número de pessoas que passaram no
Shopping é fraca ou inexistente. Vamos definir as hipóteses a serem testadas:
H0 : ρ = 0
H1 : ρ ≠ 0
Se H0 for rejeitada, então, com (1-α)% de confiança, afirmaremos que existe correlação linear entre as
variáveis. Caso contrário (H0 não é rejeitada), assumiremos que não existe correlação linear.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Assim, como -TTab ≤ TCalc ≤ TTab (-3,2498 ≤ -0,3397 ≤ 3,2498), não se rejeita-se H0 com 99% de confian-
ça, ou seja, não existe correlação linear entre X e Y. Assim sendo, o número de cafezinhos tomados no
Shopping não é influenciado pelo número de pessoas que passam pelo mesmo local.
Vimos na seção anterior que é possível analisar se há relação linear entre duas variáveis, assim como se
pode quantificar tal relação e testar sua existência. No entanto, surge o problema de determinar uma fun-
ção que exprima este relacionamento. A seguir, veremos um modelo matemático que poderá descrever a
relação entre duas variáveis.
SAIBA MAIS
Como surgiu a expressão: “Análise de Regressão”?
http://pt.wikipedia.org/wiki/Francis_
Galton#mediaviewer/Ficheiro:Francis_
A expressão “análise de regressão” foi utilizada pela primeira vez por Sir
Francis Galton, antropólogo, meteorologista, matemático e estatístico in-
glês, nascido em Haslemere (Surrey), em 1822, e falecido aos 88 anos, em
1911. Francis Galton realizou inicialmente um estudo das alturas de pais
165
(X) e filhos (Y). Observe que a variável dependente é a altura dos filhos. E
Galton estava interessado em saber se existia relação linear sobre a altura
Galton_1850s.jpg
do pai com o filho, ou seja, se a altura do pai iria influir na altura do filho.
Para realizar a regressão, o pesquisador ajustou uma li-
nha de mínimos quadrados e usou-a para prever a altura
dos filhos a partir da altura dos pais. Ele percebeu que se
a altura dos pais fosse acima da média, o mesmo ocorria
com a altura dos filhos. No entanto, a altura média dos filhos era inferior à
altura média dos pais. Com isso, Galton observou que a altura dos filhos
regrediu em relação à média. E daí, ele se referiu à linha dos mínimos qua-
drados como uma linha de regressão.
A análise de regressão visa à descrição, por meio de um modelo matemático, da relação existente entre
duas variáveis. O modelo de regressão linear simples segue o mesmo modelo de uma função do 1ª grau
(Y = aX +b), na qual sua equação da reta pode ser representada por:
Yi = β0 + β1 X i + ε i
em que:
Y variável dependente
X variável independente
β0 intercepto da reta ou coeficiente linear da reta
β1 inclinação da reta ou coeficiente angular da reta
ε i erro aleatório de Y para a observação i. Isolando εi da reta de regressão, temos: ε i = Yi − ( β0 + β1 X i ) .
Ele representa a omissão de todas as variáveis que afetam a variável dependente e foram omitidas
no modelo, ou por erro de especificação ou por falta de dados
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
OBSERVAÇÕES:
• A inclinação representa a mudança esperada de Y por unidade de X, isto é, representa a mudança
de Y (tanto positiva quanto negativa) para uma particular unidade X;
• O intercepto representa o valor de Y quando X = 0;
• O erro representa uma variável aleatória com distribuição normal de média 0 e variância σ2 e que
descreve o erro de Y para cada observação i.
Banco de imagens/NEaD
Veremos um exemplo a seguir para
ilustrar este procedimento. No
entanto, precisamos antes conhecer
os coeficientes da reta, ou seja, as
Banco de imagens/NEaD
Acabamos de conhecer o modelo matemático para a reta de regressão. No entanto, precisamos conhecer
os coeficientes da reta. Assim, veremos o exemplo a seguir:
Considere duas variáveis. Uma é a renda mensal bruta em reais (X) e a outra é o gasto mensal em reais (Y)
166 de 5 funcionários de uma concessionária de automóveis. Os dados seguem abaixo:
Analisando o Diagrama de Dispersão (Figura 3.4), observamos uma possível relação linear. No entanto,
perceba que podemos traçar inúmeras retas, dentre as quais nenhuma consegue contemplar todos os
pontos. Assim, qual seria a melhor reta que contém a menor distância entre todos os pontos do diagrama?
Qual o critério para identificarmos o melhor modelo?
Para selecionar a melhor reta que dará um melhor ajuste para os dados, utiliza-se o método dos mínimos
quadrados, ou seja, traçaremos uma reta que minimize a distância entre todos os pontos, como pode ser
observado na figura 9:
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
ε5
ε2
ε1 ε1
1600 1800 2000 2200 2400 2600 2800
x - Renda mensal bruta
Na figura 10, é possível observar a distância entre a reta e o ponto, representada pela reta vermelha e com
n
valor quantificado por εi. Supondo que S = ∑ ε i2 , o método de mínimos quadrados irá estabelecer a me-
i =1
lhor reta na qual o valor de S será o menor possível.
n n
n
∂S
∂β1 i =1
∑
= −2 X i Yi − β0 − β1 X i
Para que S seja mínimo, ambas as equações devem ser igualadas a zero. Usando b0 e b1 como estimadores
de mínimos quadrados de β0 e β1, temos:
n
−2 ∑ Y − b
i =1
i 0 − b1 X i = 0
n
−2 ∑ X Y − b
i =1
i i 0 − b1 X i = 0
∑
i =1
Yi − nb0 − b1 ∑Xi =1
i =0
n n n
∑
i =1
X iYi − b0 ∑i =1
X i − b1 ∑Xi =1
2
i =0
n n
∑
Yi − nb0 − b1
i =1 i =1
Xi = 0 ∑
n n n
∑
i =1
X Y
i i − b0
i =1
X i −∑b1
i =1
X i2 = 0 ∑
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
∑
Yi = nb0 + b1 X i
i =1 i =1
∑ (I )
n n n
∑
i =1
X i Yi = b0
i =1
X i +∑b1
i =1
X i2 ∑ ( II )
Estas duas equações são conhecidas como equações normais para a determinação de b0 e b1. Vamos resol-
ver o sistema para encontrar a equação que representará os dois valores.
Assim, a partir de (I) vamos dividir todos os elementos por n. Lembrando que
n
n
X = ∑ x i / n e que Y = ∑ yi / n , temos:
i =1 i =1
n n
∑Y
i =1
i
nb
b1 ∑X
i =1
i
= 0+ ⇒ Y = b0 + b1 X ⇒ b0 = Y − b1 X
n n n
∑
i =1
X iYi = b0 ∑
i =1
X i + b1 ∑Xi =1
2
i
n n n
∑ (
X iYi = Y − b1 X ) ∑ X i + b1 ∑ X i2
168 i =1 i =1 i =1
Desenvolvendo os parênteses:
n n n n
∑
i =1
X iYi = Y ∑
i =1
X i − b1 X ∑ i =1
X i + b1 ∑X
i =1
2
i
n n n
2
n
Yi
∑ Xi
∑
n
Xi
∑
∑
i =1
X iYi − i =1
n
i =1 = b1
i =1
Xi −
2 i =1
n
∑
Isolando b1, temos:
n n
n ∑
Yi
Xi
∑
∑
i =1
X iYi −
i =1 i =1
n
b1 = 2
n
n
∑
Xi
∑
i =1
X i2 −
i =1
n
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Assim, podemos reescrever a equação da reta de regressão em função dos estimadores de mínimos qua-
drados b0 e b1 da seguinte forma:
yˆ = bo + b1 x
onde ŷ é o valor estimado a partir de dado valor de x e com os coeficientes da reta b0 e b1.
EXERCÍCIO RESOLVIDO
1. Utilizando os dados do Peso (kg) e altura (m) de 12 alunos de uma turma de matemática fornecidos
pelo Exercício resolvido 1 da página 158, forneça a equação da reta de regressão.
n n n
∑X Y
i =1
i i = 1.479,13 ∑X 2
i = 35,56 ∑Y i
2
= 62.066,98
i =1 i =1
n n
169
n
∑X i Yi
∑
∑
i =1
X iYi −
i =1 i =1
n
b1 = 2
n
n
∑ Xi
∑
i =1
X i2 −
i =1
n
1.479,13 −
(20,6 )( 851)
12 1.479,13 − 1460,88 18,25
= = = = 91,25
35,56 −
(20,6 )2 35,56 − 35,36 0,2
12
Uma vez encontrado o valor de b1, podemos facilmente encontrar o valor de b0.
b0 = Y − b1 X
n n
∑
i =1
yi ∑x
i =1
i
= − b1
n n
851 20,6
= − ( 91,25) = 70,92 − 156,65=-85,73
12 12
yˆ = −85,73 + 91,25x
Analisando o modelo de regressão, observamos que o peso dos alunos será dado por 91,25 kg para
cada metro de altura que o aluno tiver, menos 85,73 kg.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
2. Utilizando os dados do tempo (horas) e a velocidade média (km/h) de 11 pessoas que fizeram uma
viagem de 400 km em seus automóveis, fornecidos pelo Exercício resolvido 2 da página 160, demons-
tre a equação da reta de regressão.
n = 11 ∑X i = 1.209,00 ∑Y i =1
i = 44,90
i =1
n n
∑Y
n
= 188,79
∑ X iYi = 4.756,00 ∑ X i = 139.719,00
2 2
i
i =1 i =1
i =1
yˆ = bo + b1 x
n n
n
∑ X i Yi
∑
∑
i =1
X iYi −
i =1 i =1
n
b1 = 2
n
n
∑Xi
∑i =1
X i2 −
i =1
n
(1.209)( 44,9)
170 =
4.756 −
11 =
4.756 − 4.934,92
=
-178,92
= −0,0262
139.719 −
(1.209)2 139.719 − 132.880,09 6.838,91
11
Uma vez encontrado o valor de b1, podemos facilmente encontrar o valor de b0.
b0 = Y − b1 X
n n
∑y
i =1
i ∑x
i =1
i
= − b1
n n
44,9 1.209
= − ( −0,0262) = 4,08+2,88=6,96
11 11
Logo, a equação da reta de regressão pode ser escrita como:
yˆ = 6,96 − 0,0262x
Analisando o modelo de regressão, observamos que o tempo de viajem será de 6,96 hs menos 0,0262
hs para cada aumento na velocidade média ( km/h ).
As equações do modelo de regressão também podem ser utilizadas para realizar previsões de uma variá-
vel (dado o valor da outra variável).
No entanto, só é recomendado fazer previsão quando o modelo se ajusta bem aos dados, ou seja, quando
após o teste de hipóteses de correlação a hipótese nula foi rejeitada.
Observação: Utilizamos a notação " ŷ ” para indicar uma previsão a partir de um dado valor de x e dos
coeficientes da reta.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
EXERCÍCIO RESOLVIDO
1. Utilizando os dados do Peso (kg) e altura (m) de 12 alunos da turma de matemática do Exercício re-
solvido 1 da página 158, realize as seguintes previsões:
b) Qual seria a velocidade média que o condutor deveria seguir se pretendesse chegar a seu destino em
seis horas de viagem?
O que a questão solicita é similar ao requisitado pela primeira, mas ao contrário. Foi dado um valor de
Y, precisamos saber o valor de X.
6 = 6,96 − 0,0262x
0,0262x = 6,96 − 6
0,0262x = 0,96
0,96
x= = 36,6 ⇒ x = 37 km / h
0,0262
O Coeficiente de Determinação (r2) é o valor que mede o efeito da variável independente X na variação de
Y, ou seja, o quanto X exerce influência em Y. O valor de r2 pode ser obtido por:
n
∑( )
2
Y −Y
variação explicada do modelo
r2 = = i =1
2
variação total do modelo n
n ∑ Yi
∑ i =1
2 i =1
Yi −
n
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Ele indicará o percentual que, X explica Y e pode ser calculado elevando ao quadrado o coeficiente de cor-
relação linear de Pearson (outra forma de calculá-lo seria a descrita acima). Como o valor de r varia entre
-1 e +1, e como o coeficiente de determinação estará elevado a um expoente par, r2 varia apenas entre zero
e um, ou seja:
0 ≤ r2 ≤ 1
Observações:
• Se todas as observações seguem uma reta perfeita (r = ±1), então r2 = 1. Neste caso, a variável X explica
toda variação nas observações Y;
• Se b1 = 0, então Ŷ = Y e r2 = 0. Isso significa que X não exerce influência nenhuma na variação de Y.
• À medida que são incluídas mais variáveis independentes no modelo de regressão (daí teríamos uma
regressão linear múltipla), maior será o coeficiente de determinação. No entanto, nem sempre um alto
valor de r2 significa que a reta de regressão está corretamente especificada, ou que o modelo esteja
bem ajustado aos dados. Uma vez que r2 é alto, ainda há a possibilidade de haver variáveis indepen-
dentes que quase não influenciam a variável dependente. Em situações como essa, existe a necessida-
de de testes mais complexos que não será abordado aqui.
SAIBA MAIS
Os links abaixo mostram como fazer regressão linear simples na calculadora CASIO fx-82MS.
172 http://www.youtube.com/watch?v=DGau_1at2Oc
http://www.youtube.com/watch?v=frzSEUrA5to
EXERCÍCIO RESOLVIDO
1. Utilizando os dados do tempo (horas) e a velocidade média (km/h) de 11 pessoas que fizeram uma
viagem de 400 km em seus automóveis, conforme o Exercício resolvido 1 da página 158, informe o
quanto a variável X explica a variável Y.
Vimos no Exercício resolvido 1 da página 158 que a correlação linear foi igual a 0,9849. Logo, r2 =
0,98492 = 0,9700, ou seja, 97% da variação de Y são explicados por X.
2. Utilizando os dados do tempo (horas) e a velocidade média (km/h) de 11 pessoas que fizeram uma
viagem de 400 km em seus automóveis, conforme o Exercício resolvido 2 da página 160, informe o
quanto a variável X explica a variável Y.
Vimos no Exercício resolvido 2 da página 160 que a correlação linear foi igual a 0,9849. Logo, r2 =
-0,92022 = 0,8468, ou seja, 84,68% da variação de Y são explicados por X.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
3. Seja o preço (R$) de revenda de um determinado carro [Y] e a quilometragem desse carro [X]. Foram
realizadas 14 medições durante o uso do carro e consultado seu preço de revenda de acordo com cada
medição da quilometragem rodada. Os dados são ilustrados abaixo:
X Y
Observa-se que uma forte correlação negativa entre as variáveis X e Y. Ou seja, há fortes indícios de
que quanto maior será a quilometragem do carro, menor será o preço de revenda.
Construímos o Diagrama de Dispersão (figura 3.6) e constatamos que há fortes indícios de uma corre-
lação linear negativa. No entanto, precisamos averiguar quantitativamente quanto será essa possível
correlação. Assim, o Quadro 3.5 ilustra os valores para os cálculos a serem realizados.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
n Xi Yi Xi · Yi X2 Y2
1 5.000 42.000 210.000.000 25.000.000 1.764.000.000
2 10.000 40.000 400.000.000 100.000.000 1.600.000.000
3 15.000 37.000 555.000.000 225.000.000 1.369.000.000
4 20.000 34.000 680.000.000 400.000.000 1.156.000.000
5 25.000 31.000 775.000.000 625.000.000 961.000.000
6 30.000 30.000 900.000.000 900.000.000 900.000.000
7 35.000 28.500 997.500.000 1.225.000.000 812.250.000
8 40.000 27.000 1.080.000.000 1.600.000.000 729.000.000
9 45.000 25.200 1.134.000.000 2.025.000.000 635.040.000
10 50.000 24.700 1.235.000.000 2.500.000.000 610.090.000
11 55.000 24.000 1.320.000.000 3.025.000.000 576.000.000
12 60.000 22.500 1.350.000.000 3.600.000.000 506.250.000
13 65.000 22.000 1.430.000.000 4.225.000.000 484.000.000
14 70.000 21.000 1.470.000.000 4.900.000.000 441.000.000
Total 525.000 408.900 13.536.500.000 25.375.000.000 12.543.630.000
n
n
∑Y
n
= 12.543.630.000
∑ X iYi = 13.536.500.000 ∑ X i2 = 25.375.000.000
2
i
i =1
i =1 i =1
n n
n ∑ X i ∑Yi
∑ X iYi − i =1 i =1
n
r= i =1
n
2
n
2
n ∑ i X n ∑ i
Y
X 2 − i =1 ⋅ Y 2 − i =1
∑ i n ∑ i n
i =1 i =1
(525.000)(408.900)
13.536.500.000 −
= 14 =
( 525.000) ( 408.900)
2 2
13.536.500.000 − ⋅ 25.375.000.000 −
14 14
13.536.500.000 − 15.333.750.000
= =
(25.375.000.000 − 19.687.500.000) ⋅ ( 12.543.630.000 − 11.942.800.714,29)
-1.797.250.000 -1.797.250.000
= = =
(5.687.500.000) ⋅ ( 600.829.285,71) 3.417.216.562.475.625.000
-1.797.250.000
= = −0,9722
1.848.571.492
Logo, r = -0,9722, ou seja, há uma forte correlação negativa entre as duas variáveis. Logo, quanto maior
a quilometragem rodada pelo carro, menor será o preço de revenda.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Vimos na letra (b) de que a correlação entre as variáveis foi negativa. Logo, precisamos testar, caso
fôssemos retirar novas amostras, se a correlação ainda seria negativa. Sendo assim, vamos definir as
hipóteses a serem testadas:
H0 : ρ = 0
H1 : ρ ≠ 0
Se H0 for rejeitada, então, com (1-α)% de confiança, afirmaremos que existe correlação linear entre
as variáveis. Caso contrário (H0 não é rejeitada), assumiremos que não existe correlação linear. Logo,
a estatística de teste será:
r −0,9722 −0,9209 −0,9209
TCalc = = = = = −7,0875
1−r 1 − ( −0,9722) 0,129933
2 2
0,00456893
n−2 14 − 2
Assim, como TCalc < -TTab (-7,0875 < 2,1788), rejeita-se H0 com 95% de confiança, ou seja, existe corre-
lação linear entre X e Y.
n
∑
X i Yi
∑
∑
i =1
X iYi −
i =1 i =1
n
b1 = 2
n
n
∑ Xi
∑ i =1
X i2 −
i =1
n
(525.000)(408.900)
13.536.500.000 −
= 14 =
13.536.500.000 −
( 525.000)
2
14
13.536.500.000 − 15.333.750.000
= =
25.375.000.000 − 19.687.500.000
-1.797.250.000
= = −0,316
5.687.500.000
b1 = −0,316
Uma vez encontrado o valor de b1, podemos facilmente encontrar o valor de b0.
b0 = Y − b1 X
n n
∑
i =1
yi ∑x
i =1
i
= − b1
n n
408.900 525.000
= − ( −0,316 ) = 29.207,14+11.850=41.057,14
14 14
b0 = 41.057,14
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
O que a questão solicita é uma previsão da variável dependente Y, dado o valor 80.000 da variável in-
dependente X. Resolvemos esse problema através da equação da reta de regressão encontrada em (d).
yˆ = 41.057,14 − 0,316 x
Logo, podemos dizer que x = 80.000. Assim, temos:
yˆ = 41.057,14 − 0,316 ( 80.000) = 15.777,14 ⇒ yˆ = R$ 15.777,14
Um carro que tenha rodado 80.000 km será vendido por aproximadamente R$ 15.777,14.
O que a questão solicita é uma previsão da variável independente X, dado o valor 35.500 da variável
dependente Y. Resolvemos esse problema através da equação da reta de regressão encontrada em (d).
yˆ = 41.057,14 − 0,316 x
Logo, podemos dizer que y = 35.500. No entanto, precisamos isolar o valor de X primeiro, logo:
yˆ = 41.057,14 − 0,316 x =
0,316 x = 41.057,14 − yˆ
176 x=
41.057,14 − yˆ
0,316
=
41.057,14 − 35.500
x= = 17.585,89
0,316
x = 17.585,89 km
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
EXERCÍCIO RESOLVIDO
1. Foi realizado um experimento numa fazenda. Para tanto, um engenheiro agrônomo aplicou um suple-
mento (mg/l) na ração bovina [X] e mediu o ganho de peso (kg) do animal [X]. Foram utilizados 15
animais nesse teste. Os dados são ilustrados abaixo:
X Y
Veremos como se comporta uma variável em função da outra através do Diagrama de Dispersão.
Logo, pela figura 12 temos:
10 20 30 40 50 60 70 80
x - Quantidade do suplemento aplicado na ração (mg/l)
Observa-se que uma forte correlação positiva entre as variáveis X e Y. Ou seja, há fortes indícios de que
quanto maior a quantidade aplicada de suplemento na ração dos bois, maior será o ganho de peso.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
n Xi Yi Xi · Yi X2 Y2
1 10 7,50 75 100 56,25
2 40 14,00 560 1600 196,00
3 65 22,00 1.430 4225 484,00
4 45 15,70 706,5 2025 246,49
5 60 21,50 1290 3600 462,25
6 75 23,50 1.762,5 5625 552,25
. . . . . .
. . . . . .
. . . . . .
12 30 12,50 375 900 156,25
13 20 9,50 190 400 90,25
14 35 13,80 483 1225 190,44
15 15 8,40 126 225 70,56
Total 675,00 245,70 12.891,50 37.375,00 4.513,89
178 n = 54
n
∑X i = 675
n
∑Y i = 245,70
i =1 i =1
n n n
∑ X iYi = 12.891,50 ∑X 2
i = 37.375 ∑Y
i =1
i
2
= 4.513,89
i =1 i =1
n n
n ∑ X i ∑Yi
∑ X iYi − i =1 i =1
n
r= i =1
n
2
n
2
n ∑ i X n ∑ i
Y
X 2 − i =1 ⋅ Y 2 − i =1
∑ i n ∑ i n
i =1 i =1
(675)(245,70)
12.891,50 −
= 15 =
(675) ⋅ 4.513,89 − (245,70)
2 2
37.375 −
15 15
12.891,50 − 11.056,50
= =
(37.375 − 30.375) ⋅ ( 4.513,89 − 4.024,57)
1.835 1.835 1.835
= = = = 0,9915
(7.000) ⋅ ( 489,32) 3.425.240 1.850,74
Logo, r = 0,9915, ou seja, há uma forte correlação positiva entre as duas variáveis. Logo, quanto maior a
quantidade de suplemento na ração, maior será a engorda dos animais.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Vimos na letra (b) de que a correlação entre as variáveis foi positiva. Logo, precisamos testar, caso
fôssemos retirar novas amostras, se a correlação ainda seria negativa. Sendo assim, vamos definir as
hipóteses a serem testadas:
H0 : ρ = 0
H1 : ρ ≠ 0
Se H0 for rejeitada, então, com (1-α)% de confiança, afirmaremos que existe correlação linear entre as
variáveis. Caso contrário (H0 não é rejeitada), assumiremos que não existe correlação linear.
Logo, a estatística de teste será:
r 0,9915 0,9915 0,9915
TCalc = = = = = 27,47
1−r 1 − ( 0,9915) 0,0361
2 2
0,0013
n−2 15 − 2
Assim, como TCalc > TTab (27,47 > 2,1604), rejeita-se H0 com 95% de confiança, ou seja, existe correla-
ção linear entre X e Y.
yˆ = bo + b1 x
n n
n
∑ ∑
X i Yi
∑
i =1
X iYi −
i =1 i =1
n
b1 = 2
n
n
∑ Xi
∑i =1
X i2 −
i =1
n
(675)(245,70)
12.891,50 −
= 15 =
( )
2
675
37.375 −
15
12.891,50 − 11.056,50
= =
37.375 − 30.375
1.835
= = 0,2621
7.000
b1 = 0,2621
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Uma vez encontrado o valor de b1, podemos facilmente encontrar o valor de b0.
b0 = Y − b1 X
n n
∑
i =1
yi ∑x
i =1
i
= − b1
n n
245,70 675
= − ( 0,2621 ) = 16,38-11,79=4,59
15 15
b0 = 4,59
yˆ = 4,59 + 0,2621x
De acordo com o modelo de regressão, observamos que o ganho de peso esperado do animal será de
4,59 kg mais 0,2621 kg para cada mg/l de suplemento incluído na ração. Já para o animal que não re-
cebeu o suplemento (X=0), espera-se apenas comendo a ração, um ganho médio de 4,59 kg.
e) Caso o engenheiro agrônomo aplicasse 100 mg/l na ração do animal, qual seria o ganho de peso?
O que a questão solicita é uma previsão da variável dependente Y, dado o valor 100 da variável inde-
180 pendente X. Resolvemos esse problema através da equação da reta de regressão encontrada em (d).
yˆ = 4,59 + 0,2621x
Logo, podemos dizer que x = 100. Assim, temos:
Caso fosse aplicado 100 mg/l na ração do animal, esperasse um ganho de aproximadamente 30,8 kg.
f) Para um animal que ganhou 45 kg, qual a quantidade de suplemento aplicada na ração dele?
O que a questão solicita é uma previsão da variável independente X, dado o valor 45 da variável depen-
dente Y. Resolvemos esse problema através da equação da reta de regressão encontrada em (d).
yˆ = 4,59 + 0,2621x
Logo, podemos dizer que y = 45. No entanto, precisamos isolar o valor de X primeiro, logo:
yˆ = 4,59 + 0,2621x
0,2621x = yˆ − 4,59
yˆ − 4,59
x= =
0,2621
45 − 4,59
x= = 154,18
0,2621
x = 154,18 mg/l
Um animal que ganhou 45 kg, recebeu aproximadamente 154,18 mg/l em sua ração.
Vimos em (b) que a correlação linear foi igual a 0,9915. Logo, r2=0,99152 = 0,9831, ou seja, 98,31% da
variação da engorda dos animais (Y) é explicado pela quantidade de suplemento colocado na ração (X).
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
EXERCÍCIO PROPOSTO
1. Os dados abaixo apresentam as alturas (m) de 10 pais e 10 filhos.
Alturas dos pais e filhos (dados brutos)
[X]
Altura do 1,91 1,70 1,78 1,84 1,90 1,75 1,80 1,62 1,65 1,60
Pai (m)
[Y]
Altura do 1,90 1,68 1,80 1,79 1,94 1,77 1,80 1,59 1,63 1,57
Filho (m)
2. Um empresário vai realizar uma reforma em sua pousada. O mestre de obras forneceu uma tabela
referente ao número de funcionários contratados (X) e em quantos dias a obra estará completa (Y).
Como o dono da pousada tem pressa, ele pede ao seu filho, formado em Turismo, que analise a exis- 181
tência de correlação entre os dados do mestre de obras.
X 4 5 6 7 8 9 10 11 12 13
Y 30 27 24 22 17 13 10 8 6 4
e) São necessários quantos dias para fazer a reforma com dois funcionários?
3. Os principais hotéis frequentemente oferecem taxas especiais para hóspedes que viajam a negócios.
A tabela a seguir representa as taxas cobradas em reais (Y) e o número de dias de antecedência para
reserva (X).
e) Se um hóspede faz uma reserva com 10 dias de antecedência, qual será a taxa paga?
f) Se um hóspede paga uma taxa de R$ 100,00, com quantos dias de antecedência ele fez a reserva?
4. Os dados abaixo apresentam o número de horas extras trabalhadas por 13 trabalhadores (X) em um
mês e o adicional de salário, em reais, pelas horas trabalhadas (Y) no mesmo período.
X 69 10 50 33 60 57 40 44 17 28 30 20 5
Y 700 140 602 425 690 680 515 570 215 345 400 250 75
e) Se um funcionário trabalha 100 horas a mais, quanto ele deverá receber a mais no salário?
182
f) Se um funcionário recebeu R$ 1.500,00 a mais no seu salário no fim do mês, significa que ele trabalhou
quantas horas extras durante esse período?
5. Um dono de uma academia de musculação recebe um orçamento de uma possível compra de anilhas
(pesos de academia). São apresentados abaixo a quantidade de peso (kg) a ser comprada (X) e o or-
çamento (R$) para essa quantidade (Y) para 10 situações diferentes.
X 100 130 150 170 190 200 220 250 280 300
Y 650 780 800 980 1050 1100 1200 1400 1550 1600
e) Se o dono da academia deseja fazer uma compra de 400 kg, qual seria o orçamento para esse valor?
f) Se o dono da academia estivesse disposto a investir R$ 3.000,00. Qual seria a quantidade de peso (kg)
que iria adquirir?
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
REFERÊNCIAS
AKANIME, C. T. & YAMAMOTO, R. K. Estudo Dirigido de Estatística Descritiva. 2. ed. São Paulo: Érica,
2009.
BUSSAB, W. O. & MORETTIN, P. A. Estatística Básica. 6. ed. São Paulo: Saraiva, 2010.
FONSECA, J. S. & MARTINS, G. A. Curso de Estatística. 6. ed. São Paulo: Atlas, 2011.
LEVINE, D. M.; STEPHAN, D. F.; KREHBIEL, T. C.; BERENSON, M. L. Estatística: teoria e aplicações. Rio de
Janeiro: LTC, 2011.
MAGALHÃES, M. N.; LIMA, A. C. P. Noções de probabilidade e Estatística. São Paulo: EdUSP, 2010.
MAGALHÃES, M. N. & LIMA, A. C. P. Noções de probabilidade e estatística. 7. ed. São Paulo: EDUSP, 2013.
MARTINS, G. A. & DOMINGUES, O. Estatística Geral e Aplicada. 4. ed. São Paulo: Atlas, 2011.
183
MARTINS, G. A. & DONAIRE, D. Princípios de Estatística. 4. ed. São Paulo: Atlas, 2010.
MORETTIN, P. A. & BUSSAB, W. de O. Estatística Básica. 5. Ed. São Paulo: SARAIVA, 2002.
TOLEDO, G. L. MARTINS, G. A. FONSECA, J. S. Estatística Aplicada. 2. ed. São Paulo: Atlas, 1985
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
fonte: Tabela retira de Azevedo (2005).
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,0 ou + 0,4999
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
α α
10% 5% 2,5% 1% 0,5% 10% 5% 2,5% 1% 0,5%
g.l. g.l.
1 3,0777 6,3138 12,7062 31,8207 63,6574 53 1,2977 1,6741 2,0057 2,3988 2,6718
2 1,8856 2,9200 4,3027 6,9646 9,9248 54 1,2974 1,6736 2,0049 2,3974 2,6700
3 1,6377 2,3534 3,1824 4,5407 5,8409 55 1,2971 1,6730 2,0040 2,3961 2,6682
4 1,5332 2,1318 2,7764 3,7469 4,6041 56 1,2969 1,6725 2,0032 2,3948 2,6665
5 1,4759 2,0150 2,5706 3,3649 4,0322 57 1,2966 1,6720 2,0025 2,3936 2,6649
6 1,4398 1,9432 2,4469 3,1427 3,7074 58 1,2963 1,6716 2,0017 2,3924 2,6633
7 1,4149 1,8946 2,3646 2,9980 3,4995 59 1,2961 1,6711 2,0010 2,3912 2,6618
8 1,3968 1,8595 2,3060 2,8965 3,3554 60 1,2958 1,6706 2,0003 2,3901 2,6603
9 1,3830 1,8331 2,2622 2,8214 3,2498 61 1,2956 1,6702 1,9996 2,3890 2,6589
10 1,3722 1,8125 2,2281 2,7638 3,1693 62 1,2954 1,6698 1,9990 2,3880 2,6575
11 1,3634 1,7959 2,2010 2,7181 3,1058 63 1,2951 1,6694 1,9983 2,3870 2,6561
12 1,3562 1,7823 2,1788 2,6810 3,0545 64 1,2949 1,6690 1,9977 2,3860 2,6549
13 1,3502 1,7709 2,1604 2,6503 3,0123 65 1,2947 1,6686 1,9971 2,3851 2,6536
14 1,3450 1,7613 2,1448 2,6245 2,9768 66 1,2945 1,6683 1,9966 2,3842 2,6524
15 1,3406 1,7531 2,1315 2,6025 2,9467 67 1,2943 1,6679 1,9960 2,3833 2,6512
16 1,3368 1,7459 2,1199 2,5835 2,9208 68 1,2941 1,6676 1,9955 2,3824 2,6501
17 1,3334 1,7396 2,1098 2,5669 2,8982 69 1,2939 1,6672 1,9949 2,3816 2,6490
18 1,3304 1,7341 2,1009 2,5524 2,8784 70 1,2938 1,6669 1,9944 2,3808 2,6479
19 1,3277 1,7291 2,0930 2,5395 2,8609 71 1,2936 1,6666 1,9939 2,3800 2,6469
20 1,3253 1,7247 2,0860 2,5280 2,8453 72 1,2934 1,6663 1,9935 2,3793 2,6459
21 1,3232 1,7207 2,0796 2,5177 2,8314 73 1,2933 1,6660 1,9930 2,3785 2,6449
22 1,3212 1,7171 2,0739 2,5083 2,8188 74 1,2931 1,6657 1,9925 2,3778 2,6439
23
24
1,3195
1,3178
1,7139 2,0687 2,4999 2,8073
1,7109 2,0639 2,4922 2,7969
75
76
1,2929
1,2928
1,6654
1,6652
1,9921
1,9917
2,3771
2,3764
2,6430
2,6421
185
25 1,3163 1,7081 2,0595 2,4851 2,7874 77 1,2926 1,6649 1,9913 2,3758 2,6412
26 1,3150 1,7056 2,0555 2,4786 2,7787 78 1,2925 1,6646 1,9908 2,3751 2,6403
27 1,3137 1,7033 2,0518 2,4727 2,7707 79 1,2924 1,6644 1,9905 2,3745 2,6395
28 1,3125 1,7011 2,0484 2,4671 2,7633 80 1,2922 1,6641 1,9901 2,3739 2,6387
29 1,3114 1,6991 2,0452 2,4620 2,7564 81 1,2921 1,6639 1,9897 2,3733 2,6379
30 1,3104 1,6973 2,0423 2,4573 2,7500 82 1,2920 1,6636 1,9893 2,3727 2,6371
31 1,3095 1,6955 2,0395 2,4528 2,7440 83 1,2918 1,6634 1,9890 2,3721 2,6364
32 1,3086 1,6939 2,0369 2,4487 2,7385 84 1,2917 1,6632 1,9886 2,3716 2,6356
33 1,3077 1,6924 2,0345 2,4448 2,7333 85 1,2916 1,6630 1,9883 2,3710 2,6349
34 1,3070 1,6909 2,0322 2,4411 2,7284 86 1,2915 1,6628 1,9879 2,3705 2,6342
35 1,3062 1,6896 2,0301 2,4377 2,7238 87 1,2914 1,6626 1,9876 2,3700 2,6335
36 1,3055 1,6883 2,0281 2,4345 2,7195 88 1,2912 1,6624 1,9873 2,3695 2,6329
37 1,3049 1,6871 2,0262 2,4314 2,7154 89 1,2911 1,6622 1,9870 2,3690 2,6322
38 1,3042 1,6860 2,0244 2,4286 2,7116 90 1,2910 1,6620 1,9867 2,3685 2,6316
39 1,3036 1,6849 2,0227 2,4258 2,7079 91 1,2909 1,6618 1,9864 2,3680 2,6309
40 1,3031 1,6839 2,0211 2,4233 2,7045 92 1,2908 1,6616 1,9861 2,3676 2,6309
41 1,3025 1,6829 2,0195 2,4208 2,7012 93 1,2907 1,6614 1,9858 2,3671 2,6297
42 1,3020 1,6820 2,0181 2,4185 2,6981 94 1,2906 1,6612 1,9855 2,3667 2,6291
Tabela retira de Levine et al. (2011) com adaptações.
43 1,3016 1,6811 2,0167 2,4163 2,6951 95 1,2905 1,6611 1,9853 2,6362 2,6286
44 1,3011 1,6802 2,0154 2,4141 2,6923 96 1,2904 1,6609 1,9850 2,3658 2,6280
45 1,3006 1,6794 2,0141 2,4121 2,6896 97 1,2903 1,6607 1,9847 2,6354 2,6275
46 1,3002 1,6787 2,0129 2,4102 2,6870 98 1,2902 1,6606 1,9845 2,3650 2,6269
47 1,2998 1,6779 2,0117 2,4083 2,6846 99 1,2902 1,6604 1,9842 2,3646 2,6264
48 1,2994 1,6772 2,0106 2,4066 2,6822 100 1,2900 1,6600 1,9840 2,3640 2,6260
49 1,2991 1,6766 2,0096 2,4049 2,6800 110 1,2893 1,6588 1,9818 2,3607 2,6213
50 1,2987 1,6759 2,0086 2,4033 2,6778 120 1,2890 1,6580 1,9800 2,3580 2,6170
51 1,2984 1,6753 2,0076 2,4017 2,6757 ∞ 1,2820 1,6450 1,9600 2,3260 2,5760
52 1,2980 1,6747 2,0066 2,4002 2,6737
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
ANOTAÇÕES
ANOTAÇÕES
ANOTAÇÕES
ANOTAÇÕES
EDITORA
EDUFERSA - Editora da Universidade Federal Rural do Semi-Árido
Campus Leste da UFERSA
Av. Francisco Mota, 572 - Bairro Costa e Silva
Mossoró-RN | CEP: 59.625-900
edufersa@ufersa.edu.br
IMPRESSÃO
Imprima Soluções Gráfica Ltda/ME
Rua Capitão Lima, 170 - Santo Amaro
Recife-PE | CEP: 50040-080
Telefone: (91) 3061 6411
COMPOSIÇÃO
Formato: 21cm x 29,7cm
Capa: Couchê, plastificada, alceado e grampeado
Papel: Couchê liso
Número de páginas: 192
Tiragem: 400