Beruflich Dokumente
Kultur Dokumente
Probabilidade e
Estatística
UnisulVirtual
Palhoça, 2016
Créditos
Probabilidade e
Estatística
Livro didático
3a Edição
Designer instrucional
Karla Leonora Dahse Nunes
Sabrina Bleicher
Eliete de Oliveira Costa
UnisulVirtual
Palhoça, 2016
Copyright © Nenhuma parte desta publicação pode ser reproduzida por
UnisulVirtual 2016 qualquer meio sem a prévia autorização desta instituição.
Livro Digital
Diagramador(a)
Caroline Casassola
D75
Dornelles Júnior, Luiz Arthur
Probabilidade e estatística : livro didático / Luiz Arthur Dornelles Júnior ;
revisão e atualização de conteúdo Joseane Borges de Miranda, [ Gabriel Oscar
Cremona Parma] ; design instrucional [Karla Leonora Dahse Nunes], [Sabrina
Bleicher], Eliete de Oliveira Costa. – 3. ed. – Palhoça : UnisulVirtual, 2016.
217 p. : il. ; 28 cm.
Inclui bibliografia.
ISBN 978-85-506-0036-9
e-ISBN 978-85-506-0037-6
Introdução | 7
Capítulo 1
Estatística descritiva | 9
Capítulo 2
Medidas de posição e dispersão | 51
Capítulo 3
Probabilidade | 91
Capítulo 4
Amostragem e cálculo de estimativa | 131
Capítulo 5
Regressão Linear simples | 163
Considerações Finais | 177
Referências | 179
Anexos | 216
Introdução
Sinta-se, agora, convidado a estudar para obter todas as “ferramentas” que lhe
serão apresentadas nesta unidade de aprendizagem, e cuide para ordenar as
ferramentas na “caixa”, de modo a poder fazer uso delas quando for necessário.
Bons estudos!
Estatística descritiva
Seção 1
Introdução à Estatística
A cada dia, nossa sociedade torna-se mais complexa. Convivemos com os
indicadores econômicos, com a inflação, com a reforma da previdência, com o
controle de qualidade, enfim, deparamo-nos constantemente com situações e
informações sempre mais complexas.
9
Capítulo 1
Em termos gerais, convém destacar que a Estatística está dividida em duas partes:
Para a obtenção de resultados confiáveis, que reflitam a realidade dos fatos, é necessário
realizar uma pesquisa, cuidadosamente planejada, com métodos adequados.
10
Probabilidade e Estatística
Alguns passos precisam ser seguidos para que seja aplicado o método estatístico
e, assim, realizada uma boa pesquisa. Para você entender quais são esses
passos, acompanhe, a seguir, as principais fases.
11
Capítulo 1
População Amostra
Produção de
dados
12
Probabilidade e Estatística
População e amostra
Quando você prepara um alimento, pode provar (observar) uma pequena porção.
Nesse procedimento, você está fazendo o processo de amostragem, ou seja,
extraindo do todo (população) uma parte (amostra), com o propósito de inferir
(avaliar) a qualidade de todo o alimento. A partir do exemplo, podemos distinguir
dois importantes conceitos da Estatística descritiva: população e amostra.
13
Capítulo 1
1 - O censo era considerado uma pesquisa desatualizada pela demora da publicação dos dados, mas a
tecnologia veio para diminuir em muito esse tempo de publicação. No ano de 2010, constatamos que os dados
foram publicados com mais rapidez do que nas décadas anteriores. Acesse o site do Instituto Brasileiro de
Geografia e Estatística (IBGE) e consulte informações da sua cidade e do seu estado: <www.ibge.gov.br>.
14
Probabilidade e Estatística
Amostragem
Como exposto neste capítulo, as pesquisas são realizadas por meio de estudo
dos elementos que compõem uma amostra extraída da população que se
pretende analisar.
Exemplo
O candidato A está com 48% da preferência dos votos, e o candidato B está com
52% da preferência dos votos. O candidato A tem 48%; diminuindo os 2% = 46;
com 48% mais 2% = 50%. Ou seja, varia de 46% a 50%. Já, o candidato B tem
52% menos 2% = 50%; com 52% mais 2% = 54%. Logo, considerando-se o erro
amostral, os candidatos estão empatados tecnicamente, com 50% cada.
15
Capítulo 1
Variáveis
Variáveis são conjuntos de características que podem ser observados e/ou medidos
em cada elemento da população ou amostra, sob as mesmas condições.
Essas características variam de elemento para elemento, por isso são chamadas
de variáveis.
Exemplo:
Estado civil: casado, solteiro, viúvo, divorciado.
Sexo: masculino e feminino.
Escolaridade: 1º grau, 2º grau, 3º grau.
16
Probabilidade e Estatística
Exemplo:
Idade: 19 anos, 20 anos, 35 anos.
Número de nascidos vivos: 10, 15, 22, 12, 14.
Peso: 55 kg, 66 kg, 71 kg.
17
Capítulo 1
Dados
Dados estatísticos são medidas da presença de um determinado conjunto de
valores de uma variável em uma população ou amostra. Os tipos de dados
estatísticos são:
Além dessa classificação, os dados também pode ser absolutos e relativos. Nesta
seção, vamos aprender a transformar dados absolutos em dados relativos, mas,
antes disso, vamos conhecer suas definições.
18
Probabilidade e Estatística
Seção 2
Distribuição de frequência
Com a posse dos dados de forma desorganizada, um primeiro passo seria
organizá-los em tabelas para que possibilitem uma primeira análise, além de
servirem para uma série de interpretações. Você poderá aprender como se
organizam dados brutos e como pode ser analisada a distribuição de frequências.
Antes de qualquer coisa, você precisa saber o que são dados brutos e dados agrupados.
Dados brutos
Dados brutos são sequências de valores numéricos ou não, os quais não sofreram
qualquer tratamento estatístico, nem foram organizados, obtidos diretamente da
observação de um fenômeno.
Mais precisamente, dados brutos são os dados apresentados da forma como foram
coletados na pesquisa ou no levantamento, desorganizados, sem ordenação.
Quadro 1.1 − Levantamento sobre o tipo de investimento que os clientes do banco mais confiavam
I M R P I I P R
P R I P P I R I
P P P M I P P P
M P I I I M P R
Legenda do quadro:
M R R P M M P R I – Investimentos imobiliários;
M – Investimento em mercado de ações;
I R M P P I R P P – Investimento em poupança;
R – Investimento em fundos de renda fixa.
M P I P P M P I
19
Capítulo 1
Quadro 1.2 − Levantamento sobre o número de defeitos por peça de uma fábrica de rolamentos
1 1 4 1 0 0 1 6
5 0 0 0 0 0 0 0
0 1 0 0 1 0 3 2
4 2 0 0 2 0 1 0
0 0 3 3 0 0 4 0
0 1 0 2 0 0 1 0
3 0 0 0 3 0 0 0
20
Probabilidade e Estatística
Quadro 1.3 − Levantamento sobre o volume de vendas mensal de 56 representantes de uma empresa
que fabrica remédios
Dados agrupados
Dados agrupados são sequências de valores numéricos, ou não, os quais se
encontram já organizados, ou por semelhança (qualitativas), ou por ordenação
numérica (quantitativas), em tabelas.
Para começar, você deve organizar os dados por semelhança. Conforme o quadro abaixo.
Quadro 1.4 − Levantamento sobre o tipo de investimento que os clientes do banco mais confiavam
I I I I I I I I
I I I I I I M M
M M M M M M M M
P P P P P P P P
P P P P P P P P
P P P P P P R R
R R R R R R R R
21
Capítulo 1
Agora, você vai escrever, em uma coluna, cada uma das opções verificadas. Contar
o número de vezes em que cada tipo aparece e marcar com traços, ao lado, para
representar as aparições. Em seguida, conte o número de traços para obter o número
de vezes que cada opção aparece. Observe o quadro da contagem dos dados.
I = 14
M = 10
P = 22
R = 10
Imobiliário 14
Mercado de ações 10
Poupança 22
Total 56
Observe que a opção de montar uma tabela sem intervalos deve-se ao fato de
esta série ter um número de elementos distintos pequeno.
22
Probabilidade e Estatística
Quadro 1.5 − Levantamento sobre o número de defeitos por peça de uma fábrica de rolamentos
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
0 1 1 1 1 1 1 1
1 1 2 2 2 2 3 3
3 3 3 4 4 4 5 6
Fonte: Elaboração do autor (2010).
Repare que foram organizados conforme uma ordem numérica crescente (de
0 a 6). A organização dos dados na forma de lista em ordem – crescente ou
decrescente – é chamada de Rol.
Depois de criar o Rol de dados, escreva, em uma coluna, cada um dos valores
observados. Conte o número de vezes em que cada tipo aparece e marque com
traços, ao lado, para representar as aparições. Após terminar, conte o número
de traços para obter o número de vezes em que cada valor aparece. Observe o
quadro da contagem dos dados.
0 33
1 9
2 4
3 5
4 3
5 1
6 1
23
Capítulo 1
0 33
1 9 Frequência
simples
Valores que a
variável pode 2 4
assumir
3 5
4 3
5 1
6 1
Frequência
Total (∑fi) 56 total
2 - Para a variável quantitativa contínua, utilizam-se intervalos na tabela para representar a série de dados.
Esses intervalos denominam-se intervalos de classes.
24
Probabilidade e Estatística
Para começar, novamente, você deve organizar os dados em ordem crescente (Rol).
Quadro 1.7 − Levantamento sobre o volume de vendas mensal de 56 representantes de uma empresa
que fabrica remédios
Note que, como os dados são de uma variável contínua e são bastante variados,
temos que reduzir os dados calculando intervalos de classes das variáveis X, para
tanto, você deve calcular o número e o tamanho dos intervalos.
•• critério da raiz k= n;
•• fórmula de Sturges k = 1 + 3,3.log n;
•• n = tamanho da amostra (poderá ser usado N, quando for com a
população, log, logarítimo).
Observe que:
25
Capítulo 1
Nesta etapa, é conveniente que o resultado seja arredondado para cima, a fim de que
não haja perda de informação, sempre, em qualquer caso, arredondar para cima.
AT
h=
k
No exemplo: .
Ou seja, ao somar 19,60 ao menor valor observado, resulta 35,50, que é maior do
que o valor da maior observação, 35,13. Note que, dessa forma, o valor real do
Rol de dados estará dentro de um último intervalo de classe:
26
Probabilidade e Estatística
Caso não seja satisfeita essa condição, será necessário fazer um ajuste,
aumentando o tamanho do intervalo.
•• sete intervalos;
•• cada um com o tamanho de 2,80.
Usando este procedimento para as outras classes, você terá os 27,10 |--- 29,90
seguintes intervalos a seguir, até a sétima classe: 29,90 |--- 32,70
Observe que os intervalos são escritos dessa forma: 15,90 |--- 18,70. O que
isso significa?
27
Capítulo 1
Tabela 1.5 − Volume de vendas mensal, em milhares de reais, dos representantes de uma empresa que
fabrica remédios – outubro/2010
28
Probabilidade e Estatística
Tabela 1.6 − Volume de vendas mensal, em milhares de reais, dos representantes de uma empresa que
fabrica remédios – outubro/2010
Volume de vendas No de
Classe Contagem
(em mil reais) representantes (fi)
Total (∑fi) 56
Tabela 1.7 − Volume de vendas mensal, em milhares de reais, dos representantes de uma empresa que
fabrica remédios – outubro/2010
Frequência
Total (∑fi) 56 total
29
Capítulo 1
Tipos de frequência
A Estatística tem como uma de suas finalidades facilitar a análise e a leitura dos
dados, e, justamente, para isso, um dos métodos utilizados é trabalhar com tipos
de frequência. O número de vezes que o X aparece no Rol de dados representa
a fi, frequência simples, e, a partir dessa frequência simples, podemos calcular a
fa (frequência acumulada), a fr (frequência relativa) e a fp (frequência percentual).
Esses tipos de frequência serão apresentados a seguir.
Frequência acumulada
Na tabela, na coluna da frequência acumulada, você deverá escrever o valor
acumulado das frequências, ou seja, para começar, repita a frequência simples
da primeira linha e, nas linhas seguintes, some a frequência simples à frequência
acumulada anterior.
fa = fa(ant) + fi
Sendo:
30
Probabilidade e Estatística
Total (∑fi) 56
31
Capítulo 1
fi
fr =
n
Sendo:
Neste caso, deve-se calcular a frequência com quatro casas decimais visando ao
próximo passo.
Lembre-se: use sempre quatro casas decimais para arredondar a frequência relativa.
32
Probabilidade e Estatística
fp = fr . 100
Sendo:
Volume de vendas No de
fr fp (%)
(em mil reais) representantes (fi)
0,2143.100 = 21,43
15,9 |--- 18,7 12 0,2143 21,43
0,1429.100 = 14,29
18,7 |--- 21,5 8 0,1429 14,29
33
Capítulo 1
Para calcular o ponto médio, usa-se a média aritmética simples dos limites de
cada intervalo.
Ls + Li
PM =
2
Sendo:
A tabela, a seguir, indica o cálculo do ponto médio para o exemplo que estamos
estudando.
Total (∑fi) 56
34
Probabilidade e Estatística
Lembre-se deste conceito, o ponto médio será usado para outros cálculos que
você irá realizar mais adiante, tais como média e desvio padrão.
Seção 3
Representação gráfica
O gráfico constitui outra maneira de se apresentarem os dados estatísticos. Eles
têm a finalidade de mostrar com clareza, veracidade e rapidez os dados que
estão sendo estudados. Além disso, os gráficos propiciam uma noção muito boa
de como algum fenômeno comporta-se.
120
100
80
60
40
20
0
1890
1900
1920
1940
1950
1960
1970
1980
1990
2000
Anos
35
Capítulo 1
120
100
80
60
40
20
0
1890 1900 1920 1940 1950 1960 1970 1980 1990 2000
Anos
36
Probabilidade e Estatística
Para a construção de gráficos, você deverá observar alguns itens que se fazem
necessários neles:
•• todo gráfico deve ter título e fonte (no rodapé), para que o leitor não
tenha a necessidade de voltar ao texto para saber do que se trata;
•• a escala do eixo horizontal deve ser escrita abaixo deste e deverá
crescer da esquerda para a direita;
•• a escala do eixo vertical deve ser escrita à esquerda deste e crescer
de baixo para cima;
•• cada eixo deve ser identificado com o que está sendo medido ou
representado;
•• não é necessário colocar linhas de grade (que saem das marcas das
escalas horizontais e verticais), pois estas são opcionais.
180
Eixo vertical
160
140
População (em milhões)
120
100
80
60
Aqui, a escala Linha de grade
40
fica a esquerda
20
0
1890 1900 1920 1940 1950 1960 1970 1980 1990 2000
Anos
Eixo horizontal
Gráfico 3.3 - Censo demográfico - Brasil - 1890 - 2000 Aqui, a escala
Título e
Fonte Fonte: IBGE (2007) fica abaixo
37
Capítulo 1
Diagramas
Os diagramas são gráficos geométricos de, no máximo, duas dimensões; para
sua construção, em geral, fazemos uso do sistema cartesiano (eixo X e Y). Os
principais diagramas são os gráficos de linhas, colunas, barras, setores ou pizza e
o gráfico polar. Veja cada um desses tipos.
•• Gráfico de colunas
É usado para apresentar séries temporais, geográficas e específicas. Formado
por retângulos dispostos verticalmente, de mesma largura (arbitrária), com altura
proporcional às grandezas (variáveis) do fenômeno a ser representado.
SC 17,2
RS 14,3
PR 20,0
SP 16,5
RJ 20,9
ES 20,1
MG 21,8
38
Probabilidade e Estatística
25
20
Por mil nascimentos
15
10
0
SC RS PR SP RJ ES MG
Gráfico 1.5 − Porcentagem de mulheres, com filhos antes dos 20 anos, 2000
50 47
45
40
35
35
29
30
Percentual (%)
25
20 19
15
10
0
África América do Norte América Latina Ásia
39
Capítulo 1
•• Gráfico de barras
Segue as mesmas normas do gráfico de colunas, porém os retângulos ocupam
posição horizontal e, por isso, terão base comum no eixo y. É também mais
indicado para séries geográficas e específicas.
•• Gráfico de linhas
É comum, para quem trabalha na área de administração e negócios, observar o
comportamento de uma variável ao longo do tempo. Por exemplo, um executivo
que acompanha a cotação diária das ações da sua empresa, um gerente que
acompanha o volume semanal de vendas de sua loja ou um engenheiro de
produção que acompanha características de qualidade do produto que fabrica.
Tabela 1.13 − Balança Comercial brasileira (Valores em US$ Milhões), 2005 a 2009
40
Probabilidade e Estatística
Gráfico 1.6 − Balança comercial brasileira (Valores em US$ milhões), 2005 a 2009
200.000
180.000
160.000
140.000
120.000
Valores
100.000
Exportação
80.000
60.000 Importação
40.000
20.000
0
.2005 .2006 .2007 .2008 .2009 Ano
Fonte: Base de dados do Portal Brasil, Banco Central do Brasil,
Ministério do Desenvolvimento, Siscomex e Fundação
•• Gráfico polar
É o gráfico mais indicado quando temos necessidade de representar variações
cíclicas, ou seja, que se repetem em períodos predeterminados. O gráfico polar é
mais utilizado em estudos climáticos (para séries temporais).
Cartograma
Pictogramas
41
Capítulo 1
•• Histograma
Este gráfico é muito semelhante ao de colunas, ou seja, é formado por um
conjunto de retângulos justapostos, de maneira que a altura de cada retângulo
seja proporcional à frequência simples da classe por ele representada.
42
Probabilidade e Estatística
Total 70
Gráfico 1.7 − Emissão de óxido de enxofre nos últimos 70 meses (em toneladas)
25
20
20
15 13
No meses
11
10
10
7
5
5
3
0
6,2 |--- 9,9 9,9 |--- 13,6 13,6 |--- 17,3 17,3 |--- 21,0 21,0 |--- 24,7 24,7 |--- 28,4 28,4 |--- 32,1
43
Capítulo 1
•• Polígono de frequências
Unindo por linhas retas os pontos médios das bases superiores dos retângulos
do histograma, obtém-se outra representação dos dados, denominada
polígono de frequências.
Você pode observar que a área do histograma é igual à área abaixo do polígono
de frequências, ou seja, os retângulos que ficam fora são compensados pelos
triângulos que estão adicionados por dentro.
25
20
20
15 13
No meses
11
10
10
7
5
5
3
0
6,2 |--- 9,9 9,9 |--- 13,6 13,6 |--- 17,3 17,3 |--- 21,0 21,0 |--- 24,7 24,7 |--- 28,4 28,4 |---32,1
44
Probabilidade e Estatística
Atividades de autoavaliação
Ao final de cada unidade, você realizará atividades de autoavaliação. O gabarito
está disponível no final do livro didático, mas se esforce para resolver as
atividades sem a ajuda do gabarito, pois, assim, você estará promovendo (e
estimulando) a sua aprendizagem.
Variável Exemplo
Qualitativa nominal
Qualitativa ordinal
Quantitativa discreta
Quantitativa contínua
45
Capítulo 1
• Idade do cliente:
• Sexo do cliente:
• Classe econômica:
• Estado civil:
• Número de filhos:
• Comprimento da peça:
46
Probabilidade e Estatística
MP MC DO DG MF
DM MF MP DG MC
MC MF MF MC MC
MF MC MP DO MP
MP MP DM MP DO
MP DM DG DM MC
MF MF MF MF MF
Legenda: tipos de fobias
DO MP DG MP DG MF: Morte de um filho;
MC: Morte do cônjuge;
MF MC MF MP DO MP: Morte dos pais ou irmãos;
DO DO DM MF MC DO: Divórcio;
DG: Doença grave;
MF DM MC MC DG
DM: Demissão.
DO MF DG MF MC
4 8 6 6 4 5
6 5 8 5 6 5
8 5 7 6 8 7
3 3 4 4 3 3
5 5 4 6 5 5
7 7 6 8 8 7
47
Capítulo 1
3 4
4 5
5 9
6 7
7 5
8 6
Total (Σfi) 36
48
Probabilidade e Estatística
7 |--- 12 2
12 |--- 17 6
17 |--- 22 17
22 |--- 27 9
27|--- 32 5
32 |--- 37 2
49
Capítulo 2
Seção 1
Medidas de posição
Neste capítulo, você vai obter mais ferramentas de estatística descritiva para auxiliá-
lo a compreender e a utilizar a Estatística no seu dia a dia profissional. O objetivo
aqui é estudar medidas importantes e bastante utilizadas nos métodos estatísticos.
Muitas vezes você irá deparar-se com uma massa de dados grande o bastante
para que a leitura e a análise tornem-se muito difíceis. Então, como fazer para
tirar informações relevantes e resumir os dados de forma eficaz nesses casos?
Usando medidas estatísticas. Neste capítulo, vamos ver algumas delas.
As medidas de posição, assim chamadas pela posição que elas ocupam na série
estatística, quando bem utilizadas e interpretadas, podem ser úteis, não só por
elas mesmas, mas também auxiliando o cálculo de outras medidas.
51
Capítulo 2
a. Média
A média é uma das medidas mais importantes dentro da Estatística. Ela é o
ponto de equilíbrio de uma série de dados. Veja a figura a seguir, extraída do livro
Introdução à Estatística, Triola (1999).
Vários tipos de médias podem ser calculados para uma massa de dados. A mais
importante é a média aritmética, que você irá estudar nesta seção.
52
Probabilidade e Estatística
Notação:
= média dos dados de uma amostra.
μ = média dos dados de uma população (em que μ = 12° letra do alfabeto grego,
“μ” lê-se como “mi”).
Em que:
Um exemplo bem típico é calcular a média das notas das provas. Digamos que as
notas de uma disciplina cursada por você sejam: 7; 7,8; 6 e 8, então a média será:
Para os dados agrupados (em tabela), sem intervalos, utiliza-se a fórmula descrita
a seguir, em que cada frequência simples pode ser considerada como peso. Por
isso que se chama, também, de média aritmética ponderada (pesos).
53
Capítulo 2
Em que:
Passo 1: some a coluna das frequências simples (fi) para obter Σfi (frequência total).
Σfi = 56
Passo 2: multiplique cada xi por sua correspondente fi e escreva o resultado na
coluna xi.fi.
54
Probabilidade e Estatística
Σxi.fi = 92
Passo 4: divida o resultado do passo 3 (Σxi.fi) pelo resultado do passo 1 (Σfi).
Como interpretar esses dados? O valor médio da série é 1,64, ou seja, a média
de filhos por família é de 1,64 filhos. Analisando dessa maneira, pode parecer um
absurdo, mas você pode concluir que a média de filhos por família é de 1 a 2 filhos.
Ou de, aproximadamente, dois filhos, arredondando para cima.
Para os dados agrupados em tabela, com intervalos, você deve utilizar a fórmula
descrita a seguir, semelhante àquela utilizada para dados sem intervalos, entretanto,
por estarmos usando intervalos, usamos os pontos médios para representar xi.
Em que:
55
Capítulo 2
Tabela 2.2 – Quantidade emitida de óxido de enxofre (SO), em toneladas, pelas fábricas do distrito
industrial de Florianópolis
Passo 1: some a coluna das frequências simples (fi) para obter Σfi (frequência total).
Σfi = 56
Passo 2: calcule o ponto médio de cada intervalo.
ΣPMi.fi = 1386
= 1386/56=24,75
56
Probabilidade e Estatística
b. Mediana
A mediana é um valor que divide a série de dados em duas partes iguais, ou seja,
é o valor observado que está no meio da série.
Notação:
Me = Mediana (também é usado md).
Veja, passo a passo, como calcular a mediana para dados brutos quando o
(n) é ímpar.
• Calcular a mediana da série X: 5, 30, 27, 9, 15, 19, 24, 20, 31.
Passo 1: ordene os valores de forma crescente 5, 9, 15, 19, 20, 24, 27, 30, 31.
57
Capítulo 2
Passo 4: a mediana é o 5º elemento, volte para rol de dados e conte até o quinto x.
1º 2º 3º 4º 5º 6º 7º 8º 9º
5 9 15 19 20 24 27 30 31
Como interpretar esses dados? 50% dos valores da série são menores ou iguais
a 20, e 50% dos valores da série são maiores ou iguais a 20.
Veja, passo a passo, como calcular a mediana para dados brutos quando o
(n) é par.
Para você encontrar a mediana, é preciso calcular o ponto médio dos dois valores
que ocupam as posições calculadas.
Passo 1: ordene os números de forma crescente 5, 9, 15, 19, 20, 24, 27, 30.
1º 2º 3º 4º 5º 6º 7º 8º
5 9 15 19 19,5 20 24 27 30
Como interpretar esses dados? 50% dos valores da série são menores do que
19,5, e 50% dos valores da série são valores maiores do que 19,5.
58
Probabilidade e Estatística
Você viu como se encontra a mediana para dados brutos? Assim como você
estudou na média, aqui, também para efeito de cálculo, você usará diferente
tratamento quando se tratar de dados agrupados com intervalos (variável
contínua) e dados agrupados sem intervalos (variável discreta).
Número de fac
Idade (anos) alunos
1a a 3a posição
17 3 3
18 18 21 4a a 21a posição
Logo:
O resultado indica que a mediana está na 250 e 260 posição, então precisamos
verificar os valores na terceira coluna da frequência acumulada. Temos 3 alunos
com 17 anos e 21 alunos com 18 anos. Até aqui, já estamos na 240 posição, logo
a posição seguinte é a que procuramos. Por isso, na soma 38, estão inclusos os
valores da 250 posição até a 3800.
59
Capítulo 2
Assim:
Mediana = 19 anos.
Interpretação
Neste caso, vamos localizar uma classe onde se encontra a mediana, utilizando
a fórmula:
Em que:
Todas as medidas calculadas para uma variável contínua serão valores aproximados
para essas medidas, uma vez que, ao agruparmos os dados segundo uma variável
contínua, há perda de informações referentes à identidade dos dados. (SILVA, 1999).
60
Probabilidade e Estatística
Logo:
Observando a coluna com a fa, verificamos que a posição 960 vai até 200 kWh,
assim a 125a e 126a é a posição seguinte, que vai até a posição 146a. Essa é a
classe da mediana que vai de 200 até 250 kWh.
61
Capítulo 2
Interpretação
c) Moda
A moda é um valor que mais se repete em uma série de dados, ou seja, é o valor
com maior frequência.
Notação:
Mo = Moda.
62
Probabilidade e Estatística
Veja os exemplos.
•• Exemplo 1: X: 15, 16, 19, 20, 20, 22, 22, 22, 25, 26, 28.
O elemento que mais se repete é o 22, então, Mo = 22. Observe que o número
20 repete-se, mas não mais do que o 22. Para esse caso, no qual a Mo = 22,
afirma-se que a série é unimodal.
•• Exemplo 2: X: 15, 16, 20, 20, 20, 22, 22, 22, 25, 26, 28.
Os elementos que mais se repetem são o 20 e o 22, então Mo1 = 20 e Mo2 =
22. Para esse caso, no qual temos duas modas na série, afirma-se que a série é
bimodal. Acima de duas modas, é mais comum chamarmos a série de polimodal.
Você viu como se encontra a moda para dados brutos. Assim como você estudou
na média, aqui, também para efeito de cálculo, você usará diferente tratamento
quando se tratar de dados agrupados com intervalos (variável contínua) e dados
agrupados sem intervalos (variável discreta).
17 3
18 18
19 17
20 8
21 4
Total 50
63
Capítulo 2
Em que,
64
Probabilidade e Estatística
65
Capítulo 2
Interpretação
Entre média, mediana ou moda, qual utilizar? Não há uma resposta simples e objetiva
para determinar a medida que seja mais representativa. A seguir, você encontrará um
resumo das vantagens e desvantagens de cada medida de tendência central.
Quadro 2.1 – Resumo das vantagens e desvantagens de cada medida de tendência central
Afetada
Leva em
pelos Vantagens e
Medida Definição Frequência Existência conta todos
valores desvantagens
os valores?
extremos?
Soma de Usada em toda
todos os Estatística;
valores Existe funciona bem
Média Mais usada. Sim. Sim.
divididos pelo sempre. com muitos
número de métodos
valores. estatísticos.
Costuma
Valor que ser uma boa
Usada Existe
Mediana divide a série Não. Não. escolha se há
comumente. sempre.
na metade. alguns valores
extremos.
Pode não
Valor que
existir ou, Apropriada para
mais se Usada às
Moda ainda, pode Não. Não. dados ao nível
repete (maior vezes.
haver mais nominal.
frequência).
de uma.
Separatrizes
Na maioria dos casos, o pesquisador tem interesse em conhecer outros aspectos
relativos ao conjunto de valores, além de um valor central ou valor típico. Algumas
informações relevantes podem ser obtidas por meio do conjunto de medidas:
média, extremos, quartís, decís, percentís etc. Veja, a seguir, mais detalhes e
exemplos de como calcular as separatrizes.
66
Probabilidade e Estatística
Note que a mediana também é uma separatriz. Você saberia dizer com quais
separatrizes podemos compará-la? Veja:
Q2 = D5 = P50 = Me
Calcular Q1 para a série de dados X: 22, 15, 20, 22, 28, 20, 20, 22, 25, 26, 16.
Passo 1: ordene de forma crescente (rol) 15, 16, 20, 20, 20, 22, 22, 22, 25, 26, 28.
67
Capítulo 2
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º 11º
15 16 20 20 20 22 22 22 25 26 28
Interpretação para Q2 = 22: 50% dos valores da série são menores ou iguais
a 22, e 50% dos valores da série são maiores ou iguais a 22. Antes do Q2, está
formado um novo conjunto de dados, mostrado a seguir.
1º 2º 3º 4º 5º
15 16 20 20 20
Nesse caso, a mediana (dessa nova série de dados) será o primeiro quartil. É só
repetir o mesmo processo feito nos passos 2 e 3.
1º 2º 3º 4º 5º
15 16 20 20 20
Observe que o elemento que ocupa a terceira posição é o 20, então Q1 = 20.
Como interpretar esses dados? 25% dos dados observados são menores ou
iguais a 20. Já 75% dos valores observados, são maiores ou iguais a 20.
68
Probabilidade e Estatística
Observe que podem ser usadas, também, para calcular a posição do primeiro quartil
e do terceiro, respectivamente, as seguintes fórmulas:
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º 11º
15 16 20 20 20 22 22 22 25 26 28
Observe que o elemento que ocupa a nona posição é o 25, então Q3 = 25.
•• Percentis
Observação: para calcular a posição dos percentis use a seguinte fórmula.
•• = posição da separatriz;
•• N ou n = tamanho da população (ou amostra);
•• i = número da separatriz (ex.: P60 = i = 60).
69
Capítulo 2
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º 11º
15 16 20 20 20 22 22 22 25 26 28
Passo 3: para calcular o sexagésimo percentil, você deve encontrar o valor que fica
entre os valores que ocupam a 7ª e a 8ª posições.
Então, = 22.
Como interpretar esses dados? 60% dos dados observados são menores ou
iguais a 22. Já 40% dos valores observados, são maiores ou iguais a 22.
•• Decís
Se você notar, poderá comparar os decís com alguns percentis.
Decís 1º 2º 3º 4º 5º 6º 7º 8º 9º
Percentis 10º 20º 30º 40º 50º 60º 70º 80º 90º
70
Probabilidade e Estatística
Continuando com o mesmo exemplo, calcule o terceiro decil. Note que ele é igual
ao trigésimo percentil (D3 = P30)! Será a mesma coisa que calcular P30.
15 16 20 D3 20 20 22 22 22 25 26 28
Passo 3: para calcular o terceiro decil, você deve encontrar o valor que fica entre os
valores que ocupam a 3ª e a 4ª posições.
Então, D3 = 20.
Como interpretar esses dados? 30% dos dados observados são menores ou
iguais a 20. E 70% dos valores observados são maiores ou iguais a 20.
Assim como você estudou na média, aqui, também para efeito de cálculo, você
usará diferente tratamento quando se tratar de dados agrupados com intervalos
(variável contínua) e dados agrupados sem intervalos (variável discreta). No
entanto, para a finalidade deste estudo, não será incluído.
71
Capítulo 2
Seção 2
Medidas de dispersão
Para compreender melhor o que são as medidas de dispersão, acompanhe o
exemplo a seguir.
Tabela 2.8 − Escores (em pontos) obtidos por pessoa (10 pessoas) e divididos em grupos
Grupos Escores (em pontos) obtidos por pessoa (10 pessoas) Total
Grupo 1: 6 6 6 6 6 6 6 6 6 6 60
Grupo 2: 1 8 9 2 6 10 5 8 7 4 60
Grupo 3: 5 6 7 7 6 5 6 7 5 6 60
Se você calcular a média dos escores para cada grupo, obterá os seguintes resultados.
Para o grupo 1:
Para o grupo 2:
Para o grupo 3:
Observe que os escores médios dos três grupos são iguais. E agora, como
diferenciar um grupo do outro? Olhando somente para os dados, você pode tirar
algumas conclusões: no grupo 1, as pessoas têm o mesmo escore; no grupo 2,
os escores são diversificados; e, no grupo 3, existe uma pequena diversificação,
ou seja, os escores estão bem próximos da média.
72
Probabilidade e Estatística
O desvio médio simples, não menos importante, não será visto neste estudo,
pois, para o objetivo que se pretende alcançar, a variância e o desvio padrão são
mais adequados.
A variância é a média dos quadrados dos desvios de cada valor da série com relação à
média. Ficou complicado? Não se preocupe, a seguir você vai aprender como calcular!
O desvio padrão é a raiz quadrada da variância, pois assim fica mais fácil analisar e
comparar com a média; se usássemos a variância, as unidades seriam ao quadrado,
enquanto que o desvio padrão apresentaria a mesma unidade de medida que a média.
73
Capítulo 2
População Amostra
Quadro 2.3 − Fórmulas para o cálculo de medidas de dispersão com dados brutos
Variância
Desvio padrão
74
Probabilidade e Estatística
Passo 3: calcular a média dos quadrados dos desvios, ou seja, a variância. Aqui,
você vai calcular para a população e para a amostra.
Então:
Então:
75
Capítulo 2
Observe as fórmulas que são utilizadas para calcular esse tipo de dados, a
variância e o desvio padrão.
Quadro 2.4 − Fórmulas para o cálculo de medidas de dispersão com dados agrupados sem intervalos
Variância
Desvio padrão
76
Probabilidade e Estatística
2 28 56 49,5292
3 20 60 2,1780
4 18 72 8,0820
5 16 80 44,4560
6 15 90 106,9335
7 9 63 121,1607
∑ fi ∑ xi.fi S (x − i
)2.fi
Passo 1: inicie por somar a coluna das frequências simples (fi) para obter ∑fi
(frequência total); ∑fi = 135.
Passo 3: calcule a soma dos quadrados dos desvios e multiplique por fi, esta
coluna vai ser utilizada na parte de cima da fórmula da variância, - 2 . fi:
77
Capítulo 2
Some os valores: (∑ - 2
. fi = 489,7757
Neste passo, usa-se quatro casas decimais, deixando para arredondar para duas
casas somente o resultado.
Na variância, serão usadas quatro casas decimais, pois ainda será necessário extrair
a raiz quadrada para chegar ao desvio padrão.
78
Probabilidade e Estatística
Observe as fórmulas que são utilizadas para calcular esse tipo de dados.
Quadro 2.5 − Fórmulas para o cálculo de medidas de dispersão com dados agrupados com intervalos
Variância
Desvio padrão
Tabela 2.10 − Volume de vendas mensal, em milhares de reais, dos representantes de uma empresa que
fabrica remédios – outubro/2010
Nº de vendas Nº de
PM PM.fi (PMi − )2.fi
(em mil reais) representantes (fi)
(17,3 - 24,75)2.12 = 666,0300
15,9 |-- 18,7 12 17,3 207,6 666,0300
79
Capítulo 2
Passo 1: primeiro, some a coluna das frequências simples (fi) para obter ∑fi
(frequência total); ∑fi = 56.
Passo 2: calcule a média; nesse caso, calcule o ponto médio de cada intervalo,
multiplique cada PM por sua correspondente fi e escreva na coluna PM.fi; e some
os valores e divida o resultado pelo resultado do passo 1 (∑fi). Assim, você obterá:
Passo 3: calcule a soma dos quadrados dos desvios e multiplique por fi, esta
coluna vai ser utilizada na parte de cima da fórmula da variância, - . fi .
Some os valores :
∑ - . fi .= 2.058,4200.
80
Probabilidade e Estatística
Figura 2.2 − Quanto mais distantes da média, mais dispersos os dados estão
S=0
7
6
S=0,8 S=1,2
5
f=3,0
4
3
2
1
1 2 3 4 5 6 7 1 2 3 4 5 6 7 1 2 3 4 5 6 7 1 2 3 4 5 6 7
81
Capítulo 2
Muitas séries, quando representadas por seu polígono de frequências, com certo
ajuste nas curvas, apresentam um formato semelhante a um sino, uma curva
simétrica (observando que a média, a moda e a mediana estão posicionadas ao
centro), como mostra o gráfico a seguir.
x
Fonte: Elaboração do autor (2006).
34,13% 34,13%
13,59% 13,59%
2,15% 2,15%
σ σ σ μ σ σ σ
82
Probabilidade e Estatística
Coeficiente de variação
•• Séries de dados com médias iguais
Acompanhe o exemplo: considere dois grupos de pessoas, nos quais foram
feitos levantamentos de suas rendas. Os resultados desse levantamento foram
os seguintes:
Grupo 1 Grupo 2
Desvio padrão: σ(x) = 4,5 pontos Desvio padrão: σ(x) = 7,5 pontos
83
Capítulo 2
Exemplo: considere dois grupos de pessoas, nos quais foram feitos levantamentos
de suas rendas. Os resultados desse levantamento foram os seguintes.
Grupo 1 Grupo 2
Desvio padrão: σ(x) = 9,8 reais Desvio padrão: σ(x) = 7,5 reais
84
Probabilidade e Estatística
· Para o grupo 2:
Para comparar a dispersão dos dados de duas séries de médias diferentes, usamos
o coeficiente de variação. Ele compara o desvio padrão com a média (proporção)
entre o desvio padrão e a média da série, sendo, assim, considerado uma forma
mais eficaz de comparação e, portanto, prevalecendo sobre a absoluta.
85
Capítulo 2
Atividades de autoavaliação
Ao final de cada unidade, você realizará atividades de autoavaliação. O gabarito
está disponível no final do livro didático, mas se esforce para resolver as
atividades sem a ajuda do gabarito, pois, assim, você estará promovendo (e
estimulando) a sua aprendizagem.
0 10
1 16
2 14
3 8
4 5
5 4
6 4
7 3
Total (∑fi) 64
86
Probabilidade e Estatística
3. Nos itens a seguir, estão dois conjuntos de dados. Calcule a mediana para
cada um deles e interprete seus resultados.
a. Conjunto 1
15 19 13 21 16 17 15 12 13
b. Conjunto 2
17 18 14 14 15 15 16 16 13
4. Nas opções a seguir, estão três conjuntos de dados. Encontre a moda para
cada um deles e interprete seus resultados.
a. Conjunto 01
7 6 5 8 2 1 3 2 1
1 7 6 8 5 1 2 2 7
b. Conjunto 02
5 6 8 2 3 5 3 3
2 6 5 8 3 2 5 6
c. Conjunto 03
5 6 3 7 5 3 2 1
1 6 7 2 8 4 8 4
87
Capítulo 2
4 6 8 2 5 9 4 3 8 9 5 4
88
Probabilidade e Estatística
Nº de xi . fi
Nº de dias (xi) (x − )2.fi
funcionários (fi)
0 10
1 16
2 14
3 8
4 5
5 4
6 4
7 3
∑ 64
∑ 63
89
Capítulo 2
Total (∑fi) 36
Fonte: Elaboração do autor, 2016.
11. Analise cada caso, comparando quanto à dispersão dos dados, e responda
as perguntas:
Série A Série B
11.2
Série A Série B
90
Capítulo 3
Probabilidade
Seção 1
Principais conceitos
A partir de agora, você iniciará o estudo da Estatística Indutiva, que tem como
base o estudo de probabilidades.
Muitas vezes, não podemos prever acontecimentos como esses, ou seja, podem
acontecer ou não. Você até poderia associar isso tudo à sorte ou ao azar, enfim,
ao acaso. E é aqui que o estudo de probabilidade entra. Tentar formular e calcular
modelos matemáticos que definam essas situações e possibilitem a você tomar
suas decisões e, assim, conduzir sua vida, suas experiências e seus caminhos;
esse é um dos principais objetivos desta unidade.
91
Capítulo 3
Exemplo: para ilustrar, considere dois dados diferentes. O dado 1 tem as faces
com o mesmo número de pontos em cada face, e o dado 2 é um dado normal,
tem as faces com números de pontos diferentes.
92
Probabilidade e Estatística
Espaço amostral
Observe que quando se trabalha com experimentos que admitem mais de um
resultado, torna-se interessante definir o conjunto de todos esses resultados;
nesse caso, você pode chamar esse conjunto de espaço amostral. O símbolo
para representar o conjunto do espaço amostral é S (letra maiúscula).
Exemplo 1: você pode usar o dado 2, citado no exemplo anterior, e estudar todas
as possibilidades. Pode-se construir o seguinte conjunto.
Exemplo:
S = {C1, C2, P1, P2, P3}: observe que são todas as possibilidades entre as
pessoas do grupo.
93
Capítulo 3
Exemplo:
S = {D1, D2, D3, D4, D5, P1, P2}: observe que são todas as possibilidades entre
as pessoas do grupo.
Sabendo que, nesse grupo, tem três pessoas com cabelos pretos, duas com
cabelos louros, três com cabelos castanhos e uma com cabelos ruivos, como fica
o conjunto do espaço amostral? Pense e anote, a seguir, como você acha que
fica o conjunto do espaço amostral do exemplo.
S = {______________________________________}
S = {P1, P2, P3, L1, L2, C1, C2, C3, R1}: observe que são todas as possibilidades
entre as pessoas do grupo.
No exemplo 1: n(S) = 6;
No exemplo 2: n(S) = 5;
No exemplo 3: n(S) = 7;
No exemplo 4: n(S) = 9.
94
Probabilidade e Estatística
Eventos
Quando você tiver que estudar algum experimento aleatório, deverá identificar
as diferentes variações de resultados possíveis dentro do espaço amostral.
Você pode chamar de evento cada uma dessas variações, ou seja, cada uma
dessas partes (subconjuntos) do espaço amostral é um evento. O símbolo para
representar o subconjunto de um evento é A (letra maiúscula).
Exemplo 1: você pode usar o dado 2, citado no exemplo anterior, e estudar todas
as possibilidades.
A = {2, 4, 6}: observe que são todas as possibilidades de pontos pares de dado normal.
95
Capítulo 3
Sabendo que nesse grupo você tem três pessoas com cabelos pretos, duas com
cabelos louros, três com cabelos castanhos e uma com cabelos ruivos, como fica
o subconjunto do evento pessoas com cabelos ruivos?
No exemplo 1: n(A) = 3;
No exemplo 2: n(B) = 3;
No exemplo 3: n(C) = 5;
No exemplo 4: n(D) = 1.
Tipos de eventos
Existem três tipos de eventos, os quais são:
96
Probabilidade e Estatística
•• União de eventos
Se existem os eventos A e B de um espaço amostral S, a união desses eventos
existe se pode ocorrer A ou B.
S
A B
97
Capítulo 3
•• Interseção de eventos
Se existem os eventos A e B de um espaço amostral S, a intersecção desses
eventos existe se pode ocorrer A e B, simultaneamente.
S
A B
•• Complemento de um evento
É um evento formado por todos os elementos pertencentes a S, mas que não
pertencem a A.
S
A
A'
98
Probabilidade e Estatística
•• Subtração de eventos
Você pode dizer que A menos B é se, e somente se, ocorre A e não ocorre B.
S
A B
•• Eventos excludentes
Dois ou mais eventos são ditos excludentes (mutuamente exclusivos) se a
realização de um dos eventos excluir a realização do outro, ou de outros eventos.
S
A
B
C
Se, quando A ocorrer, exclui ocorrerem os outros, isso quer dizer que não há
intersecção entre eles! A e B são mutuamente exclusivos, e B e C não são
mutuamente exclusivos.
99
Capítulo 3
Seção 2
Cálculo de probabilidade
Nesta seção, vamos estudar os conceitos de probabilidade e a forma de fazer
seus cálculos! Acompanhe as duas definições mais importantes dentro do
estudo de probabilidades. São elas: a definição clássica de probabilidade e a
frequência relativa.
•• Probabilidade clássica
Antes de conhecer como calcular a probabilidade clássica, saiba como ela é possível.
= p = sucesso.
= q = fracasso.
100
Probabilidade e Estatística
Legenda
Estado civil:
C – Casado (dois moradores) C1, C2;
S – Solteiro (dois moradores) S1, S2;
D – Divorciado (três moradores) D1, D2, D3;
V – Viúvo (um morador) V1.
S: moradores do condomínio S = {C1, C2, S1, S2, D1, D2, D3, V1};
A: moradores casados A = {C1, C2};
B: moradores divorciados B = {D1, D2, D3}.
n(S) = 8;
n(A) = 2;
n(B) = 3.
101
Capítulo 3
n(S) = 118;
n(A) = 29;
n(B) = 17;
n(C) = 11.
102
Probabilidade e Estatística
Obs: após efetuar a divisão, é só multiplicar o resultado por 100 para obter a
probabilidade na forma percentual.
n(S) = 118;
n(D) = 24;
n(E) = 20;
n(F) = 17.
Obs: após efetuar a divisão, é só multiplicar o resultado por 100 para obter a
probabilidade na forma percentual.
103
Capítulo 3
Tabela 3.1 – Levantamento com 90 chefes de famílias sobre os diferentes vínculos de trabalho
Frequência Relativa
A frequência relativa de um evento A é calculada dividindo o número de vezes
que ocorre o evento A pelo total de observação do experimento. É chamada,
também, de probabilidade avaliada ou probabilidade estimada.
104
Probabilidade e Estatística
É importante que você saiba que essa aproximação para o cálculo de probabilidade
só será considerável caso haja um número bastante grande de tentativas de
execução do experimento. Como fazer isso? Veja os exemplos a seguir.
Obs: após efetuar a divisão, é só multiplicar o resultado por 100 para obter a
probabilidade na forma percentual.
105
Capítulo 3
•• Algumas considerações.
Consideremos S um espaço amostral, e A, B, C são eventos contidos em S, então:
b. P(S) = 1 ↔ ;
Seção 3
Distribuição de probabilidades
A variável aleatória é uma ferramenta na análise estatística que possibilita a
atribuição de números para resultados de experimentos, adequando, assim, o
problema para um melhor tratamento matemático. Dentro da Estatística, ela é
considerada uma função que associa os números aos eventos de um espaço
amostral. Você poderá entender melhor se começar analisando um exemplo.
106
Probabilidade e Estatística
K K KK 2
K C KC 1
C K CK 1
C C CC 0
Fonte: Elaboração do autor (2006).
Você pode observar que existe apenas uma possibilidade para cada situação e o total
de possibilidades é 4; então, o cálculo da probabilidade dá-se da seguinte forma.
Resultados possíveis
Valor VA Probabilidade
nos dois lançamentos
KK 2 1
/4
KC 1 1
/4
Duas possibilidades
CK 1 1
/4
de sair uma cara
CC 0 1
/4
Note que o valor 1 repete-se, não é? Então, você pode agrupar e montar uma
nova tabela sem as repetições. É claro que se agrupam os valores repetidos. Você
deve somar as probabilidades, não se esqueça disso. Observe a seguir.
107
Capítulo 3
Ao agrupar os
No de caras (Valor v.a) Probabilidade
resultados da variável
2 1
/4 aleatória (uma cara -1),
1 1
/2 você deve somar as
probabilidade:
0 1
/4
Exemplo: peso, altura, temperatura, tempo de transporte, custo de uma operação etc.
Baseado nesses dois conceitos, você pode atribuir a cada um dos tipos de
variáveis aleatórias uma distribuição de probabilidades de acordo com o tipo de
variável, veja a figura a seguir.
108
Probabilidade e Estatística
Como você pôde observar, cada tipo de variável gera um tipo de distribuição de
probabilidade. Em resumo, os tipos de distribuição de probabilidades são:
Como elas são diferentes, os métodos de cálculos das probabilidades também são.
1. Para o bom andamento de seu estudo, é importante que você entenda bem a diferença entre as duas
variáveis, a discreta e a contínua!
109
Capítulo 3
A: errar a questão;
S: todas as opções (a, b, c, d, e).
110
Probabilidade e Estatística
B: acertar a questão;
S: todas as opções (a, b, c, d, e).
Observe:
Em que:
111
Capítulo 3
Sendo:
Notação: n! (fatorial)
Exemplo 1: uma prova com quatro questões, cada uma apresenta cinco
alternativas (a, b, c, d, e) e somente uma está correta. Qual a probabilidade de
errar duas questões?
Passo 1: calcular a probabilidade de errar (no caso, sucesso) para cada questão.
A: errar a questão;
S: todas as opções (a, b, c, d, e);
Passo 2: calcular a probabilidade de acertar (no caso, fracasso) para cada questão.
112
Probabilidade e Estatística
113
Capítulo 3
A distribuição normal.
Como você estudou anteriormente, quando se utiliza uma variável aleatória
contínua, pode-se atribuir probabilidade a essa variável. Conforme a seção anterior,
os processos definidos a partir de contagens conduzem aos modelos que envolvem
variáveis aleatórias discretas, enquanto que os processos definidos a partir de
medidas conduzem aos modelos que envolvem variáveis aleatórias contínuas.
Variável aleatória
Medidas
contínua
114
Probabilidade e Estatística
Total (∑fi) 50
Histograma
16
14
12
No de entregas
10
15,9 |-- 18,7 18,7 |-- 21,5 21,5 |-- 24,3 24,3 |-- 27,1 27,1 |-- 29,9 29,9 |-- 32,7 32,7 |-- 35,5
Tempo em minutos
Fonte: Elaboração do autor (2011).
115
Capítulo 3
16
0
,3
,5
,7
,5
,1
,9
,7
24
35
18
21
27
29
32
|--
|--
|--
|--
|--
|--
|--
,5
,7
,9
,7
,3
,1
,9
21
32
15
18
24
27
29
Tempo em minutos
Você pôde observar que a área do histograma é igual à área abaixo do polígono
de frequências, ou seja, os triângulos que ficam fora são compensados por
aqueles que estão adicionados por dentro.
O gráfico expressa os tempos que a empresa levou para realizar 100% das
entregas de um determinado período.
Você observou que o polígono de frequências tem um formato especial? Sim, ele tem
o formato de um sino. Essa curva é chamada de curva normal ou curva de Gauss-
Laplace e tem algumas características bem especiais. Conheça-a no tópico a seguir.
116
Probabilidade e Estatística
X = Me = Mo X
117
Capítulo 3
3 4 ,1 3 %
1 3 ,5 9 % 0 ,5 o u 5 0 %
2 ,1 5 %
X
Fonte: Adaptado de Triola (1999, p.43).
118
Probabilidade e Estatística
9 9 ,7 4 %
9 5 ,4 4 %
6 8 ,2 6 %
3 4 ,1 3 % 3 4 ,1 3 %
1 3 ,5 9 % 1 3 ,5 9 %
2 ,1 5 % 2 ,1 5 %
71 74 77 =80 83 86 89
119
Capítulo 3
f
P (a < x < b )
a b x
Fonte: Adaptado de Silva (1997, p.71).
120
Probabilidade e Estatística
Em que:
Exemplo 1: a área a ser calculada está no intervalo que vai da média até x1.
Nesse caso, só é necessário o cálculo de um limite do intervalo.
x1 x
0 z1 z
Fonte: Adaptado de Silva (1997, p.71).
Exemplo 2: a área a ser calculada está no intervalo que vai de x1 até x2. Nesse
caso, é necessário o cálculo de dois limites do intervalo (Z1 e Z2).
121
Capítulo 3
Em que:
x1 x2 x
P(z1< Z < z2)
z1 0 z2 z
Fonte: Adaptado de Silva (1997, p.71).
Até aqui, você conheceu como padronizar os valores da variável aleatória X. Agora,
você irá aprender como usar a tabela 2 de áreas da distribuição padronizada.
Área
0 z
Fonte: Triola (1999, Anexos).
2. Com o valor de Z calculado, basta encontrar o valor na tabela (ver tabela no final deste livro didático).
122
Probabilidade e Estatística
•• média: μ = 21;
•• desvio padrão: σ(x) = 7;
•• os limites do intervalo: como um dos limites é a própria média, você
só terá que calcular um Z, o outro limite é 28 ⇒ X = 28.
⇒Z=1
Área
μ=21 x=28
Área
0 z=1
Fonte: Elaboração do autor (2011).
123
Capítulo 3
•• a média: μ = 24;
•• desvio padrão: σ(x) = 6;
•• os limites do intervalo: como os limites são diferentes da média,
você deve calcular Z para os dois valores (x1 = 17,52 e x2 = 29,7).
124
Probabilidade e Estatística
Note que obrigatoriamente você deve utilizar o valor de Z com duas casas
decimais, por conta da formatação da tabela Z.
Área
x2=17,52 μ=24 x1=29,7
Área
z=-1,08 0 z=0,95
Não se preocupe com o sinal negativo de Z1. Esse sinal serve apenas para indicar
que a área está à esquerda da média (zero), por isso o negativo. Como a curva é
simétrica, a área tanto à esquerda como à direita é calculada da mesma maneira,
e o uso da tabela também é o mesmo.
Procurando o Z1:
125
Capítulo 3
Cruzando a
linha com a
coluna.
Procurar 1,0
126
Probabilidade e Estatística
Como você tem duas áreas, o próximo passo é somar. Veja o gráfico a seguir.
•• a média: μ = 24;
•• o desvio padrão: σ(x) = 6;
•• os limites do intervalo: o intervalo é limitado abaixo por x = 29,7 e não
tem limite acima. Então, você deve calcular Z somente pelo valor de x.
127
Capítulo 3
Área
μ=24 x1=29,7
Área
0 z=0,95
Cruzando a
Tabela 3.9 − Parte da tabela normal Z
linha com a
coluna.
Procurar 0,9
128
Probabilidade e Estatística
Como a área dada pela tabela é sempre entre zero e Z, como calcular a área de
Z para cima?
Você lembra que a curva normal é simétrica e que, de cada lado, tem 50% da
área total. Então, se a metade tem 50%, ou 0,5, e você diminuir dessa área a área
encontrada, restará a área que você quer encontrar. Veja o gráfico a seguir.
Gráfico 3.20 − Determinar a área limitada abaixo pelo valor padronizado e sem limite acima
0,3289
0,5-0,3289
0 z=0,95
Fonte: Elaboração do autor (2011).
Além dos casos que você estudou nos exemplos, ainda há outros. Um deles
pode ser ilustrado a seguir.
Gráfico 3.21 − Determinar a área limitada abaixo pelo valor padronizado e sem limite acima
0,3413 0,5
ou
34,13% ou
50%
X
129
Capítulo 3
Atividades de autoavaliação
Ao final de cada unidade, você realizará atividades de autoavaliação. O gabarito
está disponível no final do livro didático, mas se esforce para resolver as
atividades sem a ajuda do gabarito, pois, assim, você estará promovendo (e
estimulando) a sua aprendizagem.
Desquitado(a)
Casado(a) ou separado(a) Divorciado(a) Viúvo(a) Solteiro(a) Total
judicialmente
130
Capítulo 4
Seção 1
Principais conceitos
Neste capítulo, você conhecerá com mais detalhes o que é amostra e poderá
aumentar seus conhecimentos sobre como escolher, calcular e para que usar
amostras em pesquisas e levantamentos de dados. Você terá a oportunidade de
verificar como é importante o estudo da amostragem, uma vez que é uma das
ferramentas essenciais que pode apoiar suas decisões.
Você também conhecerá como proceder para calcular o erro padrão de uma estimativa.
Você já deve ter visto, nos jornais ou na televisão, quando anunciam resultados
de uma pesquisa eleitoral, informarem que os resultados têm uma margem de
erro. Isto ocorre devido ao fato do uso da amostragem, ou seja, quando uma
pesquisa baseia-se apenas em uma parcela da população.
Serão usados alguns termos que são fundamentais no entendimento dos cálculos
e da interpretação. Sendo assim, antes de saber como se calcula o erro de uma
estimativa, é muito importante que você aprenda alguns conceitos importantes.
131
Capítulo 4
Amostragem
Como é feita essa relação entre os três? Com o estudo deste capítulo, você vai
poder compreender melhor. Conheça, a seguir, alguns conceitos importantes
para o estudo da amostragem.
População
População é o conjunto total de elementos com, pelo menos, uma característica
em comum, cujo comportamento interessa estudar.
Notação:
Amostra
Amostra é o conjunto de elementos ou observações, recolhidos a partir de um
subconjunto da população, que se estuda com o objetivo de tirar conclusões
para a população de onde foi recolhida.
Notação:
132
Probabilidade e Estatística
1
Tamanho da amostra: n0 = .
E2
Em que:
N .n0
Tamanho da amostra: n= .
N + n0
Em que:
133
Capítulo 4
1 1 1
n0 = 2
= 2
= = 625 n0 = 625 estudantes.
(E) (0,04) 0,0016
1 1 1
n0 = = = = 625 n0 = 625 estudantes.
( E ) 2 (0,04) 2 0,0016
134
Probabilidade e Estatística
( (
2 2
Z .σ(x) Z . pq
ˆˆ
n= e n=
e2
Z2. σ2 (x)N ˆ ˆN
Z2 . pq
n= n=
e (N-1)+Z2.σ2 (x)
2 e (N-1)+Z2. pq
2
ˆˆ
Onde: Onde:
Quando você está cozinhando, após temperar a comida, costuma mexer com
uma colher, não é? Por que você mexe? Para que o tempero fique bem misturado
com a comida. Correto? Qual é o passo seguinte? Provar! Claro, você pega
apenas um pouco da comida para saber como está o gosto. Para tanto, não é
necessário comer tudo!
135
Capítulo 4
De certa forma, sim! Você não terá informações exatas da população usando uma
amostra, mas, sim, uma aproximação bastante precisa. É importante salientar
que, por não haver pesquisado a totalidade dos elementos, você é levado a
concluir que os dados nunca representarão um reflexo exato da população.
39%
37%
35%
10% 11%
7%
136
Probabilidade e Estatística
De fato, existe uma margem de erro. Esse erro, relatado na notícia, gera um
intervalo, ou seja, as intenções de votos para o candidato A podem variar de 37%
a 41%. Por se tratar de uma pesquisa feita por amostragem, você não pode dizer
que o candidato terá realmente 39% das intenções de votos.
Como você já viu em Estatística, esses intervalos são divididos em dois tipos, de
acordo com a variável estudada. Vale relembrar.
Figura 4.2 − Variável aleatória discreta e intervalo de produção; variável aleatória contínua e intervalo da média
Nível de confiança
O nível de confiança é a probabilidade de o intervalo conter o parâmetro
estimado, ou seja, pode-se entender que o valor ou percentual da população
que você está tentando estimar tem a probabilidade de estar em um intervalo
que seria o definido pelo erro.
Intervalo de confiança
Intervalo de confiança é aquele que contém o parâmetro estudado com
determinada probabilidade (nível de confiança), ou seja, citando o exemplo da
pesquisa eleitoral, é o intervalo calculado com o erro. Veja os valores no exemplo
citado nesta seção: “... as intenções de voto para o candidato A podem variar de
37% a 41%”. Esse é o intervalo de confiança.
137
Capítulo 4
Curva normal
Você poderia perguntar-se, a partir do que foi apresentado, qual relação pode
estabelecer-se entre o nível de confiança e o intervalo de confiança. Como o nível
de confiança é a probabilidade de a estimativa estar correta e essa probabilidade
determina um intervalo (o intervalo de confiança), é possível usar a curva normal
para identificar a ambos. Veja a figura a seguir
Nível de
confiança
%
Intervalo de confiança
Fonte: Elaborado pelo autor (2006).
Exemplo 1
Passo 1: dividir o NC por dois. Antes disso, não se esqueça de usar o valor do
nível de confiança na forma decimal, ou seja, dividido por 100.
95 0,95
NC = = 0,95 = 0,475
100 2
138
Probabilidade e Estatística
Localizada a área, é só seguir a coluna onde está o valor até a primeira linha,
encontrando o número 0,06. Na horizontal, basta traçar a linha até a primeira
coluna, encontrando o valor correspondente a 1,9. Juntando, ou somando os dois
valores, você encontra o valor 1,96 para z, ou seja, z = 1,96.
Exemplo 2
Passo 1: dividir o NC por dois. Para tanto, sempre usar o valor do nível de
confiança na forma decimal, ou seja, dividido por 100.
90 0,90
NC = = 0,90 = 0,45
100 2
139
Capítulo 4
140
Probabilidade e Estatística
Seção 2
Estimativas para a proporção populacional
Antes de começar a calcular o erro da estimativa, conheça algumas notações:
População Amostra
Depois, multiplique por 100 para encontrar Depois, multiplique por 100 para encontrar
novamente o percentual: novamente o percentual:
q = 0,67. 100 = 67% qˆ = 0,70.100 = 70%
(percentual de fracasso da população). (percentual de fracasso da amostra).
141
Capítulo 4
População Amostra
990 60
p= = 0,33 pˆ = = 0,30
3000 200
Percentual de eleitores que não votam em Théo: Percentual de eleitores que não votam em Théo:
calcule o percentual de fracasso sempre na forma calcule o percentual de fracasso sempre na forma
decimal, ou seja, dividindo o percentual por 100. decimal, ou seja, dividindo o percentual por 100.
p = 0,33 pˆ = 0,30
q = 1 – p = 1 – 0,33 = 0,67 qˆ = 1 − pˆ = 1 − 0,30 = 0,70
No final, multiplique por 100 para encontrar No final, multiplique por 100 para encontrar
novamente o percentual: novamente o percentual:
142
Probabilidade e Estatística
pˆ qˆ
e = Ζ.
n
Em que:
e = erro da estimativa;
z = limite do intervalo definido pelo nível de confiança;
p̂ = proporção da mostra (percentual) – probabilidade de sucesso (ex.: percentual
de votantes em relação a um determinado candidato);
q̂ = proporção da mostra (percentual) – probabilidade de fracasso (ex.:
percentual dos eleitores que não votam em determinado candidato);
n = tamanho da amostra.
P( pˆ − e < p < pˆ + e) = NC
Em que:
NC = nível de confiança.
Exemplo 1: uma pesquisa recente, efetuada com uma amostra de 300 eleitores
de uma pequena cidade, indicou que 35% deles votariam no candidato Arthur.
Faça uma estimativa para a totalidade dos eleitores (população) dessa cidade que
votarão no referido candidato. Use um nível de confiança de 95%.
143
Capítulo 4
95 0,95
NC = = 0,95 = 0,475
100 2
Como vimos anteriormente, o z para o nível de confiança de 95% sempre será 1,96.
pˆ qˆ
e = Ζ.
n
Em que:
e = erro da estimativa;
z = 1,96 (para o NC de 95%);
35
p̂ = 35% ou = 0,35 (percentual da amostra de eleitores que votam no candidato);
100
qˆ = 1 − 0,35 = 0,65 (percentual da amostra dos eleitores que não votam no candidato);
n = 300 (tamanho da amostra).
Cálculo do erro
pˆ qˆ 0,35.0,65 0,2275
e = Ζ. = 1,96. = 1,96. =
n 300 300
Ao final do cálculo, deve-se multiplicar o resultado por 100, para que ele fique em
porcentagem. Os meios de comunicação (TV, rádio, jornais, etc.), ao informarem os
resultados de uma pesquisa citam “... com um erro de 5,40% a mais ou a menos”.
144
Probabilidade e Estatística
Passo 4: calcular o intervalo da estimativa. Neste passo, o cálculo pode ser efetuado
na forma percentual ou decimal. Interpretando os resultados obtidos, tem-se que as
intenções de votos para o candidato referido devem ficar entre 29,60% e 40,40%.
Segundo as notações da Estatística, esse intervalo escreve-se da seguinte forma.
P(0,2960 < p < 0,4040) = 0,95 ou P(29,60% < p < 40,40%) = 95%.
145
Capítulo 4
Passo 1: como não foi indicado o percentual de alunos da amostra que foram
reprovados, você deve, em primeiro lugar, calcular esse percentual.
Cálculo do percentual
1500
pˆ = = 0,60
2500
pˆ = 1 − 0,60 = 0,40
Você pode manter o resultado na forma decimal, pois o cálculo do erro também
é feito assim.
pˆ qˆ
e = Ζ.
n
Em que:
z = 1,645;
60
p̂ = 60% ou = 0,60 (percentual da amostra de alunos reprovados);
100
146
Probabilidade e Estatística
Cálculo do erro
pˆ qˆ 0,60.0,40 0,24
e = Ζ. = 1,645. = 1,645. = 1,645. 0,000096
n 2500 2500
P(0,5840 < p < 0,6160) = 0,90 ou P(58,40% < p < 61,60%) = 90%.
147
Capítulo 4
Seção 3
Estimativas para média populacional
Ao realizar uma pesquisa por amostragem, além de calcular percentuais, você
pode obter algumas médias como, por exemplo, a média das alturas, das idades,
dos pesos etc. O processo é semelhante, ou seja, calcula-se o erro e o intervalo.
O que muda é a forma de cálculo do erro. Isso vale para as séries de dados
amostrais que podem ser aproximados por uma distribuição normal.
Para calcular o erro de uma estimativa da média populacional, você vai precisar
da média de uma amostra e do desvio padrão. Este pode ser obtido com base na
própria população, se for possível, ou na amostra. O desvio padrão da amostra
pode ser usado como uma aproximação.
S ( x)
e = Ζ.
n
Em que:
e = erro da estimativa;
z = limite do intervalo definido pelo nível de confiança;
S(x) = desvio padrão da amostra (ou da população, se possível);
n = tamanho da amostra.
P ( x − e < μ < x + e) = NC
Em que:
148
Probabilidade e Estatística
S ( x)
e = Ζ.
n
Em que:
e = o que se quer calcular (erro da estimativa);
z = 1,96;
S(x) = 1,2 (desvio padrão da amostra);
n = 35 (tamanho da amostra).
Cálculo do erro
S ( x) 1,2 1,2
e = Ζ. = 1,96. = 1,96. = 1,96.0,20284 = 0,3976 ou 0,40.
n 35 5,91607978
Não é necessário multiplicar por 100, pois esse resultado não indica um
percentual, mas, sim, pontos (a nota).
Neste passo, como na estimativa para o percentual, você deve subtrair e somar o
erro à média.
x − e = 6,70 − 0,40 = 6,30
x + e = 6,70 + 0,40 = 7,10
149
Capítulo 4
O intervalo da estimativa para a média das notas da totalidade dos alunos está
compreendido entre 6,30 e 7,10 pontos, aproximadamente, com um nível de
confiança de 95%.
S ( x)
e = Ζ.
n
Em que:
e = o que se quer calcular (erro da estimativa);
z =1,645;
S(x) = 18 (desvio padrão da amostra);
n = 100 (tamanho da amostra).
150
Probabilidade e Estatística
Cálculo do erro
S ( x) 18 18
e = Ζ. = 1,645. = 1,645. = 1,645.1,8 = 2,961 ou 2,96.
n 100 10
Não é necessário multiplicar por 100, pois esse resultado não indica um
percentual, mas, sim, minutos.
x − e = 39 − 2,96 = 36,04
x + e = 39 + 2,96 = 41,96
151
Capítulo 4
Seção 4
Análise de variância − ANOVA
Exemplos
Em muitos casos, uma análise descritiva dos dados indica que modelos
gaussianos ou normais são compatíveis com suas distribuições. Em outras
palavras, sob o ponto de vista estatístico, podemos considerar as k amostras
disponíveis como provenientes de populações normais com médias µ1, µ2, ..., µk.
Se não existirem razões contrárias, podemos também supor que as amostras são
independentes. Adicionalmente, a análise descritiva muitas vezes sugere que as k
populações têm a mesma variância σ2 (desconhecida).
152
Probabilidade e Estatística
xi (médias amostrais) x1 = 49 x2 = 56 x3 = 51 x = 52
153
Capítulo 4
A média da fábrica 1 é dada pela soma das semanas e dividida por 5, ou seja,
145/5= 49. Para a fábrica 2,280/5 = 56 e para a fábrica 255/5 = 51, note que a
média das médias das três fábricas é a soma das média (última linha da tabela)
dividida por 3.
Assim, o que o Sr. Fernando Fernandes pretende saber é se as médias dos três níveis,
ou populações, são iguais, isto é, pretende-se saber se a hipótese é certa ou não.
H: µ1 = µ2 = µ3
H: µ1 = µ2 = µ3
Ou, em outras palavras, a hipótese está afirmando que não há diferença entre o
volume médio de fabricação das três fábricas.
•• A hipótese H é verdadeira
As diferenças observadas entre as médias amostrais são devidas a flutuações
amostrais. Ou seja, nesse caso, teremos que µ1 = µ2 = µ3: todas as amostras
provêm de populações com médias iguais.
154
Probabilidade e Estatística
Como se supôs que todas as populações são normais e têm variâncias iguais,
isto é, o mesmo que extrair todas as amostras de uma única população (de
uma única fábrica).
•• A hipótese H é falsa
As diferenças observadas entre as médias amostrais são demasiado grandes para
serem devidas unicamente a flutuações amostrais.
Aqui, as médias das populações não são iguais, ou seja, pelo menos duas
fábricas têm volumes de produção média diferentes. As amostras recolhidas
provêm de populações diferentes.
µ3 µ1 µ2
Fonte: Elaboração do autor (2011).
Teste ANOVA
Para testar a hipótese, devemos trabalhar com o valor da Estatística de teste F
(Anexo 2), que é outro valor que surge de outra distribuição de probabilidade, que
a semelhança da distribuição normal tem uma tabela para calcular seu valor, no
qual devemos entrar com os graus de liberdades (número de dados da amostra
diminuído um) para obter o valor correspondendo a certo nível de confiança, por
exemplo, NC = 95%, que equivale a um nível de significância de 5% ou α = 5%.
155
Capítulo 4
Por exemplo, para n = 3 (três grupos) e m = 5 (cinco amostras por grupo), resultam em:
Devemos aclarar que existem diversas tabelas de F, cada uma delas calculada
para um grau de significância diferente, a tabela de nosso trabalho é a tabela para
um grau de significância de 5%.
156
Probabilidade e Estatística
Dessa forma, para calcular nosso valor de F amostral, devemos utilizar uma
tabela de layout para organizar nossos cálculos.
157
Capítulo 4
e, também, que
(K − 1) + (N – K) = N – 1.
Então, para nosso exemplo da compra das fábricas por parte do Sr. Fernando
Fernandes, vamos ver o que podemos concluir ao nível de significância de 0.05,
ou seja, a um nível de confiança NC = 95%.
Cálculo de SSE
SSE=30+50+14=94
Cálculo de SSA
O SSa é a diferença entre a média de cada fábrica menos a média das médias
elevada ao quadrado e multiplicada pelo n, no caso 5 de cinco semanas.
158
Probabilidade e Estatística
Assim, a tabela ANOVA resulta, numericamente, para o exemplo, nos seguintes valores.
Então, o F calculado para o nosso exemplo é 65/7,83, que resulta em 8,30. Note
que é um F 2/12, ou seja, vamos procurar na Tabela F, coluna2 e linha 12.
E, como resultando que 8,3 > 3,89, então a hipótese (H: µ1 = µ2 = µ3) é rejeitada
ao nível de significância de 0,05, ou nível de confiança de 95%; isto é, existem
diferenças significativas entre as médias amostrais das vendas, e há, portanto,
evidência de que existem pelo menos duas lojas com volumes médios de
produção diferentes entre elas.
Em outras palavras, o fator fábrica exerce uma influência significativa sobre o volume
médio da produção de parafusos: tem, ao menos, uma fábrica que está produzindo
bem menos ou bem mais do que as outras, desequilibrando o suprimento constante
de parafusos de que a indústria de Fernando Fernandes precisa.
159
Capítulo 4
Atividades de Autoavaliação
1. Estão listadas, a seguir, uma série de estudos e a margem de erro que o
pesquisador irá adotar como tolerável, bem como o tamanho da população-alvo
desse estudo. Calcule o tamanho da amostra necessária para realizar as pesquisas,
considerando que o pesquisador não tem acesso ao tamanho da população e que
o pesquisador tem acesso ao tamanho da população (calcular para os dois casos).
Sem contar com o apoio do governador, da prefeita Ângela Amin (PP) e de caciques
da política catarinense, Dário Berger, candidato da coligação PSDB-PMN, é a
grande surpresa até o momento nas eleições em Florianópolis. Concorrendo pela
primeira vez a um cargo público de expressão, Berger vem liderando com folga a
corrida eleitoral em Floripa. Pela pesquisa ISTOÉ/Databrain – feita entre os dias 26 e
27 de julho, com 700 entrevistados, margem de erro de 2,74 pontos porcentuais e
coeficiente de confiança de 90% – Berger apresenta tranquilos 26,4% das intenções
de voto. O levantamento foi registrado no TRE-SC com o número 559/2004. (Dados
adaptados de ISTOÉ ON-LINE, 2004).
160
Probabilidade e Estatística
Com os dados da matéria, mostre os cálculos que foram feitos para se chegar ao
erro de 2,74 pontos percentuais, e encontre o intervalo da estimativa.
3. Uma amostragem com 250 alunos foi feita em escolas, e, entre outras
perguntas, questionou-se sobre o peso dos alunos da quinta-série. O peso
médio dos alunos entrevistados foi de 29,3 Kg, e apresentou um desvio padrão
de 3,4 Kg. Usando um nível de confiança de 95%, calcule uma estimativa para a
totalidade (população) de alunos da quinta-série.
8 10 7
6 8 5
5 12 8
6 7 6
7 9 7
10 5
11
Soma 32 67 38
161
Capítulo 4
Assim, para resolver o problema, calcule o ponto crítico pelo médio do estatístico
F da tabela da distribuição para um nível de significância de 5%. Verifique se
aceita ou rejeita a hipótese de trabalho e crie a tabela ANOVA.
162
Capítulo 5
Seção 1
Correlação linear simples
Os métodos que você estudou até o momento são eficazes para analisar e interpretar
somente uma variável de cada vez. Se eles servem para a análise de uma variável,
como analisar e comparar duas variáveis simultaneamente? Para compreender como
solucionar tal situação, você irá conhecer a correlação linear simples.
Para você estudar como usar a correlação linear simples, é importante que você
conheça o que é diagrama de dispersão e o coeficiente de correlação linear de
Pearson. Conheça melhor esses assuntos a seguir.
Diagrama de dispersão
O diagrama de dispersão ajuda a definir a correlação entre duas variáveis
quantitativas de modo gráfico. Em outras palavras, a relação entre duas variáveis,
X e Y, pode ser vista em um diagrama, no qual são marcados os pontos
correspondentes aos pares ordenados gerados pela relação X→Y, e (x,y) são
esses pares ordenados. Dessa forma, constrói-se um diagrama de dispersão.
Quanto mais esses pontos estão próximos à reta imaginária gerada pela nuvem
de pontos, mais forte será a correlação. Observe o gráfico a seguir e acompanhe
os exemplos apresentados.
No gráfico abaixo, os pares ordenados são gerados pela relação entre a altura
das pessoas em centímetros e o peso em quilos.
163
Capítulo 5
n. ∑ x. y − [(∑ x )(
. ∑ y )]
rxy =
[n ∑ x 2 2
][ 2
− (∑ x ) . n ∑ y 2 − (∑ y ) ]
Em que:
164
Probabilidade e Estatística
Tipos de correlações
Segundo os resultados de r, as correlações podem assumir diferentes tipos, os
quais você pode acompanhar detalhadamente a seguir.
165
Capítulo 5
166
Probabilidade e Estatística
7 8 9 10 11 12 13 14 15 16
167
Capítulo 5
Passo 1: acrescente, na tabela, mais três colunas para auxiliar nos cálculos.
Some os elementos da coluna x (altura) e escreva o total na última linha,
obtendo, assim, a Some os elementos da coluna y (peso) e escreva o total
na última linha, obtendo, assim, a (veja tabela).
(160).(61) = 9760
(155).(56) = 8680
(152).(55) = 8360
......
(177).(77) = 13629
Em seguida, some todos eles e escreva o total na última linha, obtendo, assim, a
168
Probabilidade e Estatística
(160)2 = 25600
(155)2 = 24025
(152)2 = 23104
....
(177)2=31329
Em seguida, some todos eles e escreva o total na última linha, para obter, assim, a
(61)2 = 3721
(56)2 = 3136
(55)2 = 3025
....
(77)2 = 5929
Em seguida, some todos eles e escreva o total na última linha, para obter, assim, o
1. ≠
169
Capítulo 5
2. ≠
Neste caso, a diferença consiste no elevar ao quadrado, no primeiro caso, você
eleva ao quadrado cada variável x, depois soma. No segundo caso, você soma
primeiro o x e depois eleva a soma ao quadrado.
170
Probabilidade e Estatística
Seção 2
Análise de regressão linear
Para fazer a análise da regressão, nos casos em que é possível estabelecer uma
correlação entre duas variáveis, você terá que usar essa relação para prever
valores para uma delas (sempre a variável que for adotada como Y), mas isso só
será possível quando for conhecido o valor da outra variável, no caso, a variável
X. E essa previsão só tem significado caso a força da correlação seja significativa
ou perfeita (quando r está próximo ou igual a +1 ou −1). Essa força dá-se pela
proximidade dos pontos do diagrama de dispersão à reta de regressão.
Reta de regressão:
Sendo:
171
Capítulo 5
Em que:
172
Probabilidade e Estatística
•• Para o item a:
Considerando que a tabela é a mesma do exemplo da Seção 1 (cálculo do coeficiente
de correlação), não será necessário calcular as colunas nem os totais (veja a tabela).
Passo 1: sendo assim, você pode começar calculando a inclinação da reta (a).
;
;
;
.
173
Capítulo 5
;
;
.
a = 0,72;
b = − 53,76;
•• Para o item b:
Fazer a previsão para um aluno que mede 175 cm. Você deve usar 175 como X = 175.
Substituir o valor de X na equação de regressão.
Como interpretar? A previsão para o peso deste aluno que mede 175 cm é de 72,24 Kg.
174
Probabilidade e Estatística
Atividades de autoavaliação
Ao final de cada unidade, você realizará atividades de autoavaliação. O gabarito
está disponível no final do livro didático, mas se esforce para resolver as
atividades sem a ajuda do gabarito, pois, assim, você estará promovendo (e
estimulando) a sua aprendizagem.
175
Considerações Finais
Muitas vezes deparamos-nos com situações em que temos que lidar com
muitos dados e não sabemos como vamos lidar com eles. O conteúdo e as
atividades apresentados nesta unidade de aprendizagem têm como objetivo
desenvolver habilidades e proporcionar ferramentas para os profissionais que
lidam com esse tipo de situação.
177
Referências
LARSON, Ron; FARBER, Elizabeth. Estatística aplicada. 2. ed. São Paulo: Pearson
Prentice Hall, 2004. 476 p. ISBN 8587918591. Disponível em: <https://aplicacoes.
unisul.br/pergamum/biblioteca_s/php/login_usu.php?flag=minhabib lioteca_redirect.
php>. Acesso em: 11 fev. 2015. Acesso restrito via Minha Biblioteca.
179
LEVIN, Jack. Estatística aplicada às ciências humanas. São Paulo: Habra, 1987.
MORETTIN, Luiz Gonzaga. Estatística básica. São Paulo: Makron Books, 1999
PINHEIRO, João Ismael D. Estatística básica: a arte de trabalhar com dados. Rio
de Janeiro: Elsevier, 2009. 288 p. ISBN 9788535230307. Disponível em: <https://
aplicacoes.unisul.br/pergamum/biblioteca_s/php/login_usu.php?flag=minhabib
lioteca_redirect.php>. Acesso em: 11 fev. 2015. Acesso restrito via Minha
Biblioteca. SARAIVA. Segurança e medicina do trabalho. 8. ed. atual. São Paulo,
2011. 1044 p. ISBN 9788502134294.
SILVA, Ermes Medeiros da. Estatística. São Paulo: Atlas, 1996. v.1.
180
Sobre os Professores Conteudistas
181
182
Respostas e comentários das
atividades de autoavaliação
Capítulo 1
1. O censo é uma coleção de dados sobre uma população, enquanto que a
estimação usa dados de uma amostra para avaliar um parâmetro (característica
descritiva dos elementos da população).
3. Nesta questão, você deve citar exemplos do seu dia a dia, por exemplo, as
listadas na tabela a seguir.
Variável Exemplos
183
5. Observe, no quadro a seguir, a resposta para esta questão.
6. Montagem da tabela.
Morte de um filho 16
Morte do cônjuge 12
Divórcio 8
Doença grave 7
Demissão 6
Total 60
184
7. Montagem da tabela.
Acidentes de trabalho nos últimos 36 meses
Nº de acidentes Nº de meses
3 4
4 5
5 9
6 7
7 5
8 6
Total 36
8. Montagem da tabela.
Renda das famílias de um bairro de classe baixa de Florianópolis
Total 36
185
9. Completando a tabela.
Número de operários acidentados em cada mês
Nº de Nº de meses fa Fr fp (%)
acidentados
3 4 4 0,1111 11,11
4 5 9 0,1389 13,89
5 9 18 0,2500 25,00
6 7 25 0,1944 19,44
7 5 30 0,1389 13,89
8 6 36 0,1667 16,67
Total (Σfi) 36 1,0000 100,0
a. 18 meses (9+5+4);
b. 27 meses (9+7+5+6);
c. 25% dos meses;
d. 13,89% dos meses.
186
Capítulo 2
1. Em primeiro lugar, construa a tabela.
Em segundo lugar, calcule a média, dividindo a soma da coluna xi.fi pela soma da
coluna fi. O resultado é a média.
187
Renda de famílias de um bairro de classe baixa de Florianópolis
Em segundo lugar, divida o resultado da soma (ΣPM.fi) pela soma dos números
da coluna fi.
3. a) Conjunto 1
12 13 13 15 15 16 17 19 21
1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª
188
Terceiro passo: encontrar, na tabela p, o elemento que ocupa a 5ª posição.
12 13 13 15 15 16 17 19 21
1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª 9ª
Interpretação: 50% dos valores observados são menores ou iguais a 15, e 50%
dos valores observados são maiores ou iguais a 15.
b) Conjunto 2
14 14 15 15 16 16 17 18
1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª
14 14 15 15 Me 16 16 17 18
1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª
189
Quarto passo: calcular a média.
Me = (15+16)/2 = 15,5.
4. a) Conjunto 1
•• Organizando os dados.
1 1 1 1 2 2 2 2 3
5 5 6 6 7 7 7 8 8
b) Conjunto 2
•• Organizando os dados.
2 2 2 3 3 3 3 5
5 5 5 6 6 6 8 8
c) Conjunto 3
•• Organizando os dados.
1 1 2 2 3 3 4 4
5 5 6 6 7 7 8 8
A série não tem moda, pois não tem nenhum dado que se repita mais do que os outros.
Interpretação moda: é uma série amodal, ou seja, não tem valor(es) mais frequente(s).
190
Nome da disciplina
2 3 4 4 4 5 5 6 8 8 9 9
191
Quinto passo: calcular o nono decil.
192
6. Nesta questão, você pode seguir os seguintes passos.
Obs.: não se esqueça de que, na média, usamos a letra grega μ para a população.
Passo 3: calcular a média dos quadrados dos desvios. Aqui, você vai calcular
para a população (variância).
Variância
193
Passo 4: calcular o desvio padrão calculando a raiz da variância.
Desvio padrão
Passo 3: calcular a média dos quadrados dos desvios. Aqui, você vai calcular
para a amostra (variância).
Variância
194
Passo 4: calcular o desvio padrão calculando a raiz da variância.
Desvio padrão
= 9,3166
Nº de xi.fi
Nº de dias (xi) funcionários (fi) (xi – ) 2.fi
0 10 0 57,10
1 16 16 30,88
2 14 28 2,10
3 8 24 2,96
4 5 20 12,95
5 4 20 27,24
6 4 24 52,12
7 3 21 63,75
∑ 64 153 249,10
Passo 1: devemos somar a coluna das frequências simples (fi) para obter Σfi
(frequência total).
Σfi = 64
195
Passo 3: calcular os quadrados dos desvios, (xi – )2.fi
9. Mais uma vez, vamos calcular passo a passo. Comparando com a anterior,
a diferença está em que aquela era para amostra, enquanto que esta é para a
população. Sugestão: use as colunas para facilitar os cálculos.
196
Idade dos estudantes da disciplina Estatística
17 5 85 17,4845
18 20 360 15,1380
19 22 418 0,3718
20 10 200 12,769
21 6 126 27,2214
∑ 63 1189 72,9847
Passo 1: devemos somar a coluna das frequências simples (fi) para obter Σfi
(frequência total).
Σfi = 63
197
Passo 4: calcular a variância para a amostra.
10. Quando você tiver que calcular o desvio padrão para uma tabela com
intervalos, use o mesmo processo, apenas substituindo o xi pelo ponto médio.
Nº de famílias PM PM.fi
Renda (R$) (fi) (PMi − )2.fi
119,5
118 |-- 121 4 478 36
122,5
Passo 1: somar a coluna das frequências simples (fi) para obter Σfi (frequência total).
Σfi = 36
198
Passo 2: cálculo da média, calcular o ponto médio de cada intervalo (112+115)/2
= 113,5 primeiro PM, e multiplicar cada PM por sua correspondente fi e escrever
na coluna PM.fi, somar os valores calculados nessa coluna e escrever o total.
Dividir o resultado pelo resultado do Passo 1 (Σfi).
199
11.
11.1
•• Para a série A.
•• Para a série B.
11.2
•• Para a série A.
•• Para a série B.
200
Capítulo 3
1.
S: adolescentes.
n(A) = 675;
n(S) = 1500.
0,45 ou 45%.
2.
A: casado(a);
B: solteiro(a);
C: divorciado(a);
S: total pesquisado.
n(A) = 267.867;
n(B) = 333.974;
n(C) = 16.779;
n(S) = 665.541.
201
Passo 3: calcular usando a fórmula apresentada a seguir.
0,4025 ou 40,25%
0,5018 ou 50,18%.
0,0252 ou 2,52%.
3.
a média: μ = 126;
•• Para X = 116.
Z = −1
•• Para X = 136.
Z=1
202
•• Para X = 131.
Z = 0,5
•• Para X = 141.
Z = 1,5
Passo 1: identificar, no gráfico, o intervalo e a área que você deve calcular (usar o
z calculado no item anterior, para x = 136, o z = 1).
Z = 1 → Área = 0,3413.
203
c) Qual a probabilidade de se escolher uma pessoa com escore entre 126 e 131
pontos? Note que 126 é a média. Esse fica mais fácil.
Passo 1: identificar, no gráfico, o intervalo e a área que você deve calcular (usar o
z calculado no item anterior, para x = 131, o z = 0,5)
204
d) Qual a probabilidade de se escolher uma pessoa com escore entre 116 e
141 pontos?
Passo 1: identificar, no gráfico, o intervalo e a área que você deve calcular (usar
os valores de z calculados no item anterior, para x = 116, o z = −1 e para x = 141, o
z = 1,5).
205
Capítulo 4
1.
206
Passo 2: usar a fórmula.
n0 = 625 crianças.
n0 = 278;
n = 277.
n0 = 123;
n = 83.
n0 = 400;
n = 364.
n0 = 2500;
n = 2500.
207
2.
Você pode deixar na forma decimal, pois, para calcular o erro, é usado dessa forma.
Em que:
e = erro da estimativa;
z = 1,645.
Cálculo do erro
=1,645.
ou 2,74%.
208
Passo 4: calcular o intervalo da estimativa.
ou
3.
Em que:
z = 1,96;
Cálculo do erro
209
Passo 3: calcular o intervalo da estimativa.
4.
Passo 1:
Cálculo do SSE
Máquina 1
(8-6,40)^2+(6-6,40)^2+(5-6,40)^2+(6-6,40)^2+(7-6,40)^2 = 5,20
210
Máquina 2
(10-9,57)^2+(8-9,57)^2+(12-9,57)^2+(7-9,57)^2+(9-9,57)^2+(10-9,57)^2+(11-9,57)^2=17,68
Máquina 3
(7-6,33)^2+(5-6,33)^2+(8-6,33)^2+(6-6,33)^2+(7-6,33)^2+(5-6,33)^2=7,34
SSE = 30,22
Cálculo do SSA
Cálculo do MSE
Cálculo do MSA
Há, portanto, evidência estatística de que as três máquinas não são iguais
relativamente ao volume médio de produção.
211
A tabela ANOVA resulta nos seguintes valores.
Graus de
Fonte de variação Soma de quadrados Variância Razão F
liberdade
Capítulo 5
1. a)
∑x = 73;
∑y = 65,3;
∑x.y = 456,9;
∑x2 = 561;
∑y2 = 456,9.
212
Passo 3: analisando o resultado, você pode classificar e interpretar
contextualizando-o na situação descrita.
Como interpretar?
b)
Passo 1: para a equação da reta, conforme mostrada abaixo, você pode começar
calculando a inclinação da reta (a).
n = 10 (número de alunos);
∑x = 73;
∑y = 65,3;
∑x.y = 456,9;
∑x2 = 561;
213
Se você escrever na fórmula, terá:
n = 10 (número de alunos);
∑x = 73;
∑y = 65,3;
214
Passo 3: construa a equação da reta de regressão.
b+a.X;
11,671171-0,70427.X.
c)
Para calcular a estimativa, você necessita de um valor para X, que é dado no item
c), ou seja, X = 6,5. Para estimar a nota de Biologia, você precisa de uma nota de
Matemática. Observe o seguinte procedimento:
X = 6,5;
11,671171 − 0,70427.X;
11,671171 − 0,70427.(6,5);
11,671171 − 4,577755;
7,09.
215
Anexos
216
217