Sie sind auf Seite 1von 72

UNIDADE 1

FUNDAMENTOS EM ESTATÍSTICA

OBJETIVOS DE APRENDIZAGEM

Caro acadêmico, o objetivo desta unidade é:

 compreender fundamentos básicos em estatística e sua


importância nas ciências biológicas;

 compreender e usar o teste de hipóteses na resolução de questões


biológicas;

 planejar delineamentos amostrais que forneçam dados adequados


para resolução de questões biológicas;

 fazer uso da estatística descritiva, gráficos e tabelas para resumir


e apresentar dados adequadamente.

PLANO DE ESTUDOS

Esta unidade está dividida em três tópicos. Em cada um


E
deles você encontrará atividades visando à compreensão dos S
conteúdos apresentados. T
A
T
Í
S
T
I
C
A
TÓPICO 1 – INTRODUÇÃO À ESTATÍSTICA
A
P
L
TÓPICO 2 – DISTRIBUIÇÃO DE PROBABILIDADES I
C
A
TÓPICO 3 – TESTE DE HIPÓTESES D
A
À

B
I
O
L
O
G
I
A
E
S
T
A
T
Í
S
T
I
C
A

A
P
L
I
C
A
D
A

B
I
O
L
O
G
I
A
UNIDADE 1

TÓPICO 1

INTRODUÇÃO À ESTATÍSTICA

1 INTRODUÇÃO

Assim como toda ciência, as ciências biológicas são movidas por perguntas. Podemos
nos perguntar, por exemplo: que fatores influenciam na diferença do número de espécies de
mamíferos entre duas regiões? O barramento de um rio para construção de uma hidrelétrica
altera a densidade populacional dos peixes desse rio? Quais serão os efeitos das alterações na
temperatura e precipitação decorrentes das mudanças climáticas sobre a vegetação? A infecção
de mulheres gestantes pelo vírus Zika está associada à prevalência de microcefalia em seus
bebês? Qual a didática mais eficiente para o ensino de doenças sexualmente transmissíveis
aos educandos do Ensino Fundamental?

Para responder perguntas como as citadas acima, a estatística é essencial. Com o E


S
auxílio do conhecimento estatístico podemos planejar corretamente a coleta de dados, bem T
como analisar e apresentar os dados coletados adequadamente, e assim, obter evidências A
T
sólidas para responder nossas perguntas (CALLEGARI-JACQUES, 2003). Na elaboração Í
S
de conclusões, a estatística permite fazer generalização a partir de um conjunto limitado de T
I
dados. Apesar de não existir certeza sobre determinada conclusão, por meio da estatística é C
A
possível estabelecer um erro associado à conclusão, a partir do conhecimento da variabilidade
observada nos dados (CALLEGARI-JACQUES, 2003). A
P
L
I
Assim, a estatística é definida como a ciência que tem por objetivo orientar a coleta, a C
A
organização, a análise e a interpretação de dados (CALLEGARI-JACQUES, 2003; PAGANO; D
A
GAUVREAU, 2013). Essa ciência pode ser dividida em duas grandes áreas: i) a estatística
À
descritiva, que se preocupa com o resumo e a apresentação de dados; ii) a estatística inferencial,
B
que é usada para obter conclusões sobre um conjunto amplo de dados a partir do estudo de I
O
apenas parte desses dados (CALLEGARI-JACQUES, 2003). Quando a estatística é usada nas L
O
ciências biológicas e na saúde, ela também pode ser chamada de Bioestatística. G
I
A
4 TÓPICO 1 UNIDADE 1

Breve histórico: O início da estatística remonta ao surgimento das primeiras cidades e


a necessidade de realizar censos por interesse do Estado, principalmente para fins militares
e tributários (CALLEGARI-JACQUES, 2003). Um exemplo foi o censo dos judeus, ordenado
pelo imperador romano Cesar Augusto, que aconteceu por volta do ano zero da era cristã
(CALLEGARI-JACQUES, 2003).

Por um longo período o foco da estatística foi somente descritivo. Mas, a partir do século
XVII, com as primeiras interpretações de dados, a estatística começou a mudar (CALLEGARI-
JACQUES, 2003). Em 1662, quando os primeiros registros de séries temporais de nascimentos
e mortes estavam disponíveis, John Graunt (1620-1674) publicou um livro descrevendo
proporções de nascimentos e mortes por idade e sexo de Londres (MEMÓRIA, 2004). Em
1693, Edmond Halley (1656-1742), um astrônomo, construiu a primeira tábua de sobrevivência
(MEMÓRIA, 2004). Ainda no mesmo século, dois matemáticos, Blaise Pascal (1623-1662) e
Pierre de Fermat (1601-1665), iniciaram o estudo formal da teoria de probabilidades, o que foi
um grande marco no desenvolvimento da estatística (CALLEGARI-JACQUES, 2003).

Já nos séculos XIX e XX, a estatística passou por grandes avanços graças a Karl
Pearson (1857-1936), William Sealy Gosset (1876-1937) e, em especial, a Ronald Aylmer Fisher
(1890-1962) (CALLEGARI-JACQUES, 2003; MEMÓRIA, 2004). Pearson se interessou pela
aplicação dos métodos estatísticos na biologia, principalmente em estudos de seleção natural.
Ele também foi muito importante no desenvolvimento teórico do coeficiente de correlação e do
teste qui-quadrado (CALLEGARI-JACQUES, 2003). Gosset, que foi acadêmico de Pearson,
se dedicou a solucionar problemas práticos com amostras pequenas e, com seus estudos,
desenvolveu o teste t (CALLEGARI-JACQUES, 2003). Fisher, além de ter revolucionado a
estatística, também foi essencial para o desenvolvimento da genética. Ele apresentou as bases
E
S do planejamento de experimentos, desenvolveu a análise da variância e introduziu o conceito
T
A de aleatorização. O trabalho de Fisher influenciou o uso da estatística em inúmeras áreas do
T
conhecimento, sobretudo na agronomia, biologia e genética (CALLEGARI-JACQUES, 2003).
Í
S
T
I
C
A

A 2 CONCEITOS BÁSICOS EM ESTATÍSTICA


P
L
I
C Agora que você sabe o que é a estatística e conheceu um pouco da sua história, é
A
D importante entender alguns conceitos básicos dessa ciência, que serão essenciais ao longo
A
do desenvolvimento da disciplina.
À

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 5

2.1 POPULAÇÃO, AMOSTRA E UNIDADE AMOSTRAL

População, também denominada universo, é o conjunto de todas as unidades em estudo


(VIEIRA, 2011). A Figura 1 representa, hipoteticamente, um reflorestamento de araucárias
(Araucaria angustifolia (Bertol.) Kuntze). Vamos imaginar que queremos descobrir quantas
pinhas são produzidas em média por cada araucária. Nesse caso, nossa população são todas
as araucárias do reflorestamento.

Amostra é um subconjunto de unidades da população, que de fato são observadas ou


manipuladas (CALLEGARI-JACQUES, 2003). Geralmente é impossível observar ou manipular
todas as unidades da população, por isso selecionamos algumas unidades que representem a
população, as quais compõem a amostra. A estratégia de selecionar unidades da população para
compor a amostra é chamada de amostragem. No exemplo do reflorestamento de araucárias
(Figura 1), considerando que é impossível contar o número de pinhas de cada araucária do
reflorestamento, podemos selecionar um determinado número de araucárias para contar as
pinhas. Essas araucárias selecionadas serão nossa amostra.

Unidade amostral é uma unidade, que pertence à população, sob a qual são feitas as
observações ou manipulações para obtenção dos dados. No exemplo do reflorestamento de
araucárias (Figura 1), cada araucária, que terá suas pinhas contadas, representa uma unidade
amostral.

Em raríssimos casos, quando todas as unidades da população são observadas ou


E
manipuladas, obtemos um censo. S
T
A
T
Í


S
A! T
NOT
I
C
A

A
Caro acadêmico, você sabia que o censo demográfico P
realizado pelo IBGE, em que uma porção representativa da L
população brasileira é entrevistada, é apenas uma amostra? I
C
O “Censo do IBGE” não é de fato um censo, pois nem todos A
os indivíduos que compõem a população brasileira são D
entrevistados. A
À

B
I
O
L
O
G
I
A
6 TÓPICO 1 UNIDADE 1

Na figura a seguir temos a representação de um reflorestamento de araucárias (Araucaria


angustifolia (Bertol.) Kuntze) para ilustrar o que é população, amostra e unidade amostral. Nesse
exemplo, gostaríamos de saber qual é o número médio de pinhas produzidas por cada araucária.
Lembrando que a araucária é uma espécie dioica, hipoteticamente todo o reflorestamento é
composto por plantas pistiladas (“femininas”) e que produzem pinhas.

FIGURA 1 – REFLORESTAMENTO DE ARAUCÁRIAS

E
S FONTE: A autora
T
A
T
Í
S
T
I 2.2 ESTIMATIVA E PARÂMETRO
C
A

A
P
A estimativa é um valor que resume uma característica da amostra (CALLEGARI-
L JACQUES, 2003). No exemplo do reflorestamento de araucárias (Figura 1), ao amostrarmos
I
C dez araucárias, o número médio de pinhas produzidas pelas dez araucárias é uma estimativa.
A
D
A
Já o parâmetro é um valor que resume uma característica da população (CALLEGARI-
À
JACQUES, 2003). Conseguimos alcançar o parâmetro apenas quando realizamos um censo,
B
I
ou seja, observamos todas as unidades da população. No exemplo do reflorestamento de
O araucárias (Figura 1), se contamos as pinhas de todas as araucárias, chegamos ao número
L
O médio de pinhas por araucária. Esse número é o parâmetro.
G
I
A
UNIDADE 1 TÓPICO 1 7

2.3 INFERÊNCIA ESTATÍSTICA

A inferência estatística é a obtenção de conclusões a respeito da população (do todo)


com base na amostra (um subconjunto do todo). No exemplo do reflorestamento de araucárias
(Figura 1), queremos estimar o número médio de pinhas por araucária no reflorestamento (a
população), a partir da observação do número de pinhas de apenas algumas araucárias (a
amostra).

3 TIPOS DE DADOS

O dado é a menor unidade de informação obtida de cada unidade amostral (CALLEGARI-


JACQUES, 2003). Os dados podem ser valores numéricos (por exemplo, alguma característica
medida em metros ou tempo), ou categorias (por exemplo, grande, médio ou pequeno). No
exemplo do reflorestamento de araucárias (Figura 1), em que queremos descobrir o número
médio de pinhas produzidas por araucária, o dado é o valor numérico que representa a
quantidade de pinhas produzida por cada araucária amostrada.

Os dados fazem referência a variáveis. Variável é qualquer característica observada


na unidade amostral e que pode variar entre as unidades amostrais (CALLEGARI-JACQUES,
2003). No exemplo do reflorestamento de araucárias (Figura 1), a variável é “número de pinhas
E
por araucária”. S
T
A
As variáveis podem ser classificadas de acordo com suas características. A seguir T
Í
estudaremos os principais tipos de variáveis. S
T
I
C
A

3.1 VARIÁVEIS QUANTITATIVAS A


P
L
I
C
Os dados de variáveis quantitativas são valores numéricos e expressam quantidades. A
D
As variáveis quantitativas podem ser divididas em duas categorias:
A
À
i) Variáveis quantitativas contínuas: os dados podem apresentar infinitos valores B
dentro de um intervalo determinado (VIEIRA, 2011). Um exemplo é a altura das araucárias I
O
adultas do reflorestamento, que hipoteticamente pode variar entre 10 e 25 metros. A observação L
O
de uma araucária com 15,5 metros de altura é possível, assim como uma araucária com 15,6 G
I
metros. Medições geralmente são variáveis quantitativas contínuas, como é o caso da altura, A
8 TÓPICO 1 UNIDADE 1

peso, comprimento e tempo.

ii) Variáveis quantitativas discretas: os dados podem apresentar somente determinados


valores numéricos, geralmente são números inteiros (VIEIRA, 2011). Contagens são exemplos
desse tipo de variável. Uma araucária pode produzir de uma a 60 pinhas, mas nunca poderá
produzir 5,5 pinhas. Isso também se aplica, por exemplo, ao número de filhotes por ninhada
de uma espécie de roedor, ou o número de espécies de anfíbios em determinada área.

3.2 VARIÁVEIS QUALITATIVAS

Variáveis qualitativas, também denominadas categóricas, fornecem dados de natureza


não numérica. Elas também se dividem em duas categorias:

i) Variáveis qualitativas nominais: os dados são classificados em categorias não


ordenadas (VIEIRA, 2011). Quando os dados são organizados em apenas duas categorias,
dizemos que a variável qualitativa nominal é binária ou dicotômica. Um exemplo é o gênero de
determinada espécie de primata, que pode ser masculino ou feminino. Quando existem mais
de duas categorias, as variáveis são chamadas de polinomiais ou politômicas. Isso acontece
com a síndrome de dispersão de plantas, por exemplo, que pode ser zoocórica, hidrocórica,
anemocórica ou autocórica; ou os grupos sanguíneos do sistema ABO, que podem ser A, B,
AB ou O.

E
S ii) Variáveis qualitativas ordinais: além de classificar os dados em categorias, também
T
A é possível identificar níveis de intensidade entre as categorias, o que permite ordená-las
T
Í
(CALLEGARI-JACQUES, 2003). Por exemplo, o estágio ontogenético de uma espécie de
S borboleta, que pode ser ovo, larva, pupa ou adulto; ou lesões, que podem ser classificadas
T
I em pequena, moderada, severa ou fatal, conforme sua gravidade.
C
A

A
P
L
I
C 3.3 VARIÁVEIS DERIVADAS
A
D
A
As variáveis derivadas são variáveis criadas a partir de operações lógicas ou matemáticas
À
de outras variáveis. Alguns casos de variáveis derivadas são:
B
I
O i) Razão é uma variável que expressa relação entre duas variáveis a partir de um único
L
O valor. Um exemplo é a razão entre comprimento e largura da asa de aves, que é usada para
G
I relacionar características da asa ao voo das aves.
A
UNIDADE 1 TÓPICO 1 9

ii) Taxa é uma variável que expressa determinado valor, geralmente uma contagem,
dentro de um intervalo de tempo ou espaço. Um exemplo é a densidade de palmiteiros
(Euterpe edulis Mart.) em um fragmento florestal, que é expressa pelo número de palmiteiros
por quilômetro quadrado.

iii) Índice é uma variável obtida a partir da aplicação de fórmulas matemáticas definidas.
Um exemplo é o índice de massa corporal (IMC), calculado a partir da divisão da massa do
indivíduo (em quilogramas) pelo quadrado de sua altura (em metros).

4 INTRODUÇÃO À AMOSTRAGEM

Você já estudou que um dos objetivos da estatística é fazer inferências a respeito


da população com base em um conjunto reduzido de informações, a amostra. Para que as
conclusões sobre a população sejam válidas, é preciso garantir que a amostra represente a
população. Neste tópico você estudará por que precisamos amostrar e quais são os principais
tipos de amostragem. Esses conhecimentos são fundamentais para definir qual é a melhor
estratégia de amostragem.

4.1 POR QUE AMOSTRAR? E


S
T
A
Geralmente estamos interessados em responder uma pergunta científica cuja população T
Í
é muito grande e é composta de muitas unidades amostrais (CALLEGARI-JACQUES, 2003; S
T
VIEIRA, 2011). A amostragem de todas as unidades da população é inviável. Desta forma, I
precisamos selecionar parte das unidades amostrais – uma amostra – que represente a C
A
população. Imagine que um pesquisador quer saber qual é a riqueza de espécies herbáceas
A
da Mata Atlântica. Nesse estudo, a população compreende todas as espécies herbáceas da P
L
Mata Atlântica. Considerando a extensão do bioma e a alta diversidade de espécies, é inviável I
C
amostrar todas as espécies herbáceas. Assim, esse pesquisador terá que obter uma amostra A
D
que represente a riqueza de espécies herbáceas da Mata Atlântica. A
À
Em alguns casos, a população não é tão grande quanto o exemplo das espécies B
herbáceas da Mata Atlântica. No entanto, um censo – a amostragem de todas as unidades da I
O
população – continua inviável, pois os gastos com mão de obra e tempo seriam muito altos L
O
(PAGANO; GAUVREAU, 2013; VIEIRA, 2011). No exemplo hipotético do reflorestamento de G
I
araucárias, em que estamos interessados em descobrir qual o número médio de pinhas por A
10 TÓPICO 1 UNIDADE 1

árvore, a amostragem de todas as pinhas de todas as araucárias exigiria muito tempo e mão
de obra. Assim, a contagem de pinhas em parte das araucárias – uma amostra – é suficiente
para responder à pergunta.

Uma amostragem bem delineada é essencial para obtermos dados de qualidade, que
forneçam boas estimativas dos parâmetros populacionais e inferências confiáveis. A seguir
são apresentados quatro tipos de amostragem e suas aplicações.

4.1.1 Amostragem aleatória simples

Em uma amostra aleatória simples, todas as unidades amostrais que compõem a


população têm igual chance de serem amostradas. As unidades amostrais são selecionadas
independentemente, por meio de sorteio, até que o tamanho desejado da amostra seja
alcançado (PAGANO; GAUVREAU, 2013). É necessário que as unidades amostrais estejam
enumeradas para que se possa realizar o sorteio. Vamos imaginar que o reflorestamento de
araucárias seja composto por 50 árvores. Nosso objetivo é quantificar o número médio de
pinhas produzidas por árvore com base em uma amostra de 10 araucárias. Para isso, podemos
atribuir um número para cada araucária, e dentre as 50 árvores, sorteamos 10 para contar o
número de pinhas (Figura 2A).

A amostragem aleatória simples representa a estratégia de seleção das unidades


amostrais mais simples e mais eficientes para garantir que todas as unidades amostrais
E tenham igual chance de serem amostradas. Nesse tipo de amostragem não é necessário ter
S
T conhecimento prévio sobre possíveis variações ao longo das unidades amostrais, pois todas as
A
T unidades amostrais e suas respectivas proporções de variação serão representadas em uma
Í
S amostragem aleatória simples. Por exemplo, vamos imaginar que as araucárias localizadas nas
T
I
bordas do reflorestamento recebem mais sol que as araucárias do interior do reflorestamento,
C e a quantidade de luz solar influencia o número de pinhas produzidas. A amostragem aleatória
A
simples permite que araucárias tanto da borda, quanto do interior do reflorestamento possam
A
P ser amostradas, se o tamanho amostral for grande o suficiente. Assim, a variação no número
L
I de pinhas associada à quantidade de luz solar que ocorre na população será representada
C
A na amostra.
D
A

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 11


!
ROS
OS FUTU
ESTUD

Caro acadêmico, você verá adiante que garantir uma


amostra aleatória, ou seja, assegurar que todas as
unidades amostrais tiveram a mesma chance de terem
sido amostradas é um dos pressupostos para todos os
testes estatísticos que vamos aprender.

4.1.2 Amostragem sistemática

Na amostragem sistemática, as unidades amostrais não são escolhidas ao acaso, mas


por um sistema predefinido (Figura 2B) (VIEIRA, 2011). É necessário que as unidades amostrais
da população estejam ordenadas de alguma forma, como, por exemplo, em listas ou em filas.
Também é necessário estabelecer um critério de intervalo em que as unidades amostrais serão
selecionadas para compor a amostra. A primeira unidade amostral, a partir da qual o critério
de seleção das unidades será aplicado, pode ser sorteada. No exemplo do reflorestamento de
araucária, imagine que é necessário amostrar 10 árvores dentre as 50 araucárias que compõem
o reflorestamento. Para isso, podemos amostrar sempre a quinta araucária a partir da última
araucária amostrada, até que se completem 10 árvores. A primeira araucária a ser incluída na
amostra pode ser sorteada entre as cinco primeiras araucárias.

E
Na amostragem sistemática é importante que as unidades amostrais sejam homogêneas S
T
entre si (PAGANO; GAUVREAU, 2013). Caso as unidades amostrais não sejam homogêneas A
T
e apenas parte da variação seja contemplada pela amostragem sistemática, teremos uma Í
S
amostra que não representa adequadamente a população. Por exemplo, se as araucárias da T
I
borda do reflorestamento recebem mais luz e isso influencia a produção de pinhas, enquanto C
as araucárias do interior do reflorestamento recebem menos luz, as unidades amostrais não A

são homogêneas entre si e a amostragem sistemática não seria a melhor estratégia. A


P
L
I
C
A
D
A
À

B
I
O
L
O
G
I
A
12 TÓPICO 1 UNIDADE 1

4.1.3 Amostragem estratificada

Uma amostragem estratificada pode ser utilizada quando se sabe, previamente, que
a população é composta por subpopulações ou estratos e se presume que esses estratos
influenciam a variável em estudo (Figura 2C) (CALLEGARI-JACQUES, 2003). Nesses casos,
primeiramente se verifica quais são os estratos que compõem a população e que proporções
eles representam da população. Na sequência, são selecionadas as unidades amostrais dentro
de cada estrato, respeitando as proporções dos estratos em relação à população. A seleção
das unidades amostrais dentro de cada estrato pode ser por sorteio, como no caso de uma
amostragem aleatória simples, ou por algum critério preestabelecido, como na amostragem
sistemática.

Imagine que no exemplo do reflorestamento de araucária existem dois tipos de solos


(Figura 2C). Metade do reflorestamento apresenta um tipo de solo e a outra metade, outro tipo
de solo. O tipo de solo pode influenciar a produtividade das araucárias, portanto, é importante
considerar essa variação do ambiente no momento do delineamento amostral. Podemos
separar o reflorestamento em dois estratos de acordo com o tipo de solo. Em cada estrato
podemos sortear cinco árvores, de modo que sejam amostradas 10 árvores das 50 araucárias
que compõem o reflorestamento.

Na figura a seguir temos a representação da amostragem aleatória simples (A),


sistemática (B) e estratificada (C). Nos três casos foram selecionadas 10 araucárias (plantas

E
destacadas com um círculo) para compor a amostra dentre as 50 araucárias do reflorestamento.
S
T
A FIGURA 2 – REPRESENTAÇÃO DAS AMOSTRAGENS
T
Í
S
T
I
C
A

A
P
L
I
C
A
D
A

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 13

FONTE: A autora

E
S
4.1.4 Amostragem de conveniência T
A
T
Í
S
Na amostragem de conveniência o pesquisador reúne unidades amostrais simplesmente T
porque dispõe delas ou porque são unidades de fácil acesso (VIEIRA, 2011). Esse tipo de I
C
amostragem tem maior propensão de ser tendenciosa, já que nem todas as unidades amostrais A

tiveram a mesma chance de serem amostradas (PAGANO; GAUVREAU, 2013). No entanto, A


P
a amostragem de conveniência é muito utilizada na área da saúde, em que geralmente o L
I
pesquisador trabalha com as unidades amostrais a que tem acesso, como, por exemplo, C
A
determinada linhagem de ratos de laboratório, ou pacientes do ambulatório da universidade sob D
um tratamento específico (VIEIRA, 2011). As conclusões a partir de amostras provenientes de A
À
amostragem de conveniência devem ser feitas com cuidado, geralmente são válidas apenas
B
para as unidades amostrais avaliadas, e não permitem generalizações para a população como I
um todo. O
L
O
G
I
A
14 TÓPICO 1 UNIDADE 1

4.2 TAMANHO AMOSTRAL E LEI DOS GRANDES NÚMEROS

Outra questão importante no planejamento da amostragem é o tamanho amostral,


ou seja, o número de unidades amostrais que irá compor a amostra. No entanto, não existe
um número fixo para definir o tamanho amostral do estudo (CALLEGARI-JACQUES, 2003).
Esse número pode variar de acordo com diferentes fatores, como: i) o tipo de pergunta que
se quer responder; ii) o tipo de variável (quantitativa, qualitativa ou derivada); iii) a incerteza
em relação à inferência estatística que o pesquisador está disposto a assumir, uma vez que
a incerteza sempre diminui com o aumento do tamanho amostral; iv) e a disponibilidade de
recursos financeiros e tempo para coleta de dados (CALLEGARI-JACQUES, 2003). No entanto,
existe um teorema da probabilidade, chamado de Lei dos Grandes Números, que estabelece
que quanto maior o tamanho amostral, mais próxima uma estimativa estará do parâmetro
populacional (GOTELLI; ELLISON, 2011). Esse teorema foi demonstrado pelo matemático
russo Andrei Kolmogorov (1903-1987).

Vamos pensar em um exemplo hipotético. Voltando ao reflorestamento de araucárias,


vamos imaginar que a quantidade de luz influencia a produção de pinhas. As araucárias
localizadas na borda do reflorestamento, que recebem mais luz, apresentam um número maior
de pinhas por árvore, em comparação às árvores do interior do reflorestamento. Para responder
à pergunta de quantas pinhas cada araucária produz em média, um pesquisador decidiu
amostrar apenas duas árvores dentre as 50 araucárias do reflorestamento. Esse pesquisador
não sabia da relação entre a produção de pinhas e a quantidade de luz solar.

E
S Em um sorteio, as duas araucárias selecionadas localizaram-se na borda do
T
A reflorestamento. Neste caso, a amostra é representativa da população? Não, pois a amostra
T
Í não incluiu árvores do interior do reflorestamento, que em média produzem menos pinhas.
S
T Com essa amostragem, o pesquisador deve concluir que as araucárias produzem um número
I
C de pinhas maior que o valor real. À medida que o tamanho amostral aumenta, a chance de
A amostrar apenas araucárias localizadas na borda ou no interior do reflorestamento diminui.
A Amostrando mais araucárias, a estimativa da média de pinhas produzidas por araucária fica
P
L mais próxima do parâmetro populacional, que é o valor real.
I
C
A
D
A

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 15

5 ESTATÍSTICA DESCRITIVA

Você acabou de aprender que um estudo científico sempre busca obter conclusão a
respeito da população, no entanto, na maioria dos trabalhos não é possível amostrar todas as
unidades amostrais da população para suportar as conclusões. Assim, é necessário trabalhar
com uma amostra, ou seja, parte das unidades amostrais que compõem a população. A partir
da amostra se estima os parâmetros populacionais e, com base nessas informações, inferências
em relação à população são feitas. Você também estudou quais são os tipos de variáveis que
podem ser coletadas nas unidades amostrais (variáveis quantitativas, qualitativas ou derivadas).
Por fim, você estudou os principais métodos de amostragem das unidades amostrais. Portanto,
até agora, você deve ter uma ideia por que coletamos dados de apenas algumas unidades
amostrais da população; de que tipos podem ser os dados coletados; e como esses dados
podem ser coletados por meio de um delineamento amostral. Um exemplo de conjunto de
dados é apresentado na Tabela 1.

Na Tabela 1 estão representadas as notas da primeira e segunda avaliação da disciplina


de estatística de 10 acadêmicos de Ciências Biológicas da UNIASSELVI. Uma amostragem
aleatória simples foi utilizada para selecionar 10 acadêmicos dentre todos os acadêmicos da
turma de Ciências Biológicas. As variáveis amostradas foram as notas que cada acadêmico
obteve nas duas avaliações da disciplina e, portanto, são variáveis quantitativas contínuas. A
Tabela 1 é importante porque mostra os dados que foram coletados. No entanto, não é fácil
tirar conclusões a partir dos números observados nessa tabela. Por exemplo, você diria que
os acadêmicos tiveram um desempenho melhor na primeira ou na segunda avaliação? Não é
E
muito fácil responder isso, certo? S
T
A
T
TABELA 1 - NOTAS DAS AVALIAÇÕES DE ESTATÍSTICA DE 10 ALUNOS DE
Í
CIÊNCIAS BIOLÓGICAS DA UNIASSELVI S
T
Unidade I
1° Avaliação de 2° Avaliação de C
amostral A
Estatística (Notas) Estatística (Notas)
(Acadêmico) A
1 2 4 P
L
2 6 7 I
3 7 7 C
A
4 5 6 D
5 8 5 A

6 4 6 À

7 6 8 B
8 7 5 I
O
9 3 6 L
O
10 9 10 G
I
FONTE: A autora
A
16 TÓPICO 1 UNIDADE 1

Para facilitar a interpretação e apresentação de dados, podemos resumi-los em alguns


números que descrevem todo o conjunto. Isso pode ser feito por meio da Estatística Descritiva. A
partir de agora estudaremos como representar dados por meio de medidas de tendência central
e medidas de dispersão, que são as duas formas de resumir dados pela Estatística Descritiva.

5.1 MEDIDAS DE TENDÊNCIA CENTRAL

Uma medida de tendência central, também chamada de medida de posição, representa


um valor central dentre a variabilidade de valores que uma variável pode apresentar na
população. A seguir estudaremos três diferentes medidas de tendência central: média, mediana
e moda.

5.1.1 Média

A média é a medida de tendência central mais utilizada, pois é facilmente calculada e


interpretada (CALLEGARI-JACQUES, 2003). Você mesmo já deve ter calculado alguma média
antes! Além disso, a média tem propriedades estatísticas que permitem que ela seja usada em
vários testes estatísticos e na inferência estatística (CALLEGARI-JACQUES, 2003), conforme
veremos nas próximas unidades desse caderno.
E
S
T
A A média de uma amostra é representada pela mesma letra que identifica a variável,
T
Í
a partir da qual a média foi calculada, acrescida de um traço na parte superior. Se a variável
S é identificada pela letra x, a média é representada por (lê-se “x barra”). Já a média de
T
I uma população é representada por (letra “m” do alfabeto grego). A média de uma amostra
C
A representa uma estimativa, enquanto a média de uma população é um parâmetro.
A
P
L Para calcular uma média basta somar o valor de todas as unidades amostrais e dividir
I
C
pelo número total de unidades amostrais da amostra. A equação matemática da média é:
A
D
A

À Essa é a primeira equação matemática apresentada neste caderno de estatística! Você


B ficou assustado? Calma, vamos por partes para entender o que esta equação quer dizer. O
I
O
termo representa uma unidade amostral da amostra, e o subscrito i indica qual das unidades
L amostrais estamos falando. Assim, representa a primeira unidade amostral da amostra, é
O
G a segunda unidade da amostra e assim por diante até a última unidade amostral da amostra,
I
A que é representada por . O n representa o número total de unidades amostrais da amostra. O
UNIDADE 1 TÓPICO 1 17

símbolo ∑ é a letra grega maiúscula sigma e indica que devemos somar tudo o que está à direita
dele. O intervalo de valores que devemos somar é indicado pelos termos que se encontram
subscrito e sobrescrito no ∑, ou seja, o subscrito do ∑, , indica que o somatório deve iniciar
na unidade amostral . O sobrescrito do ∑, , indica que o somatório deve terminar na última
unidade amostral da amostra, que é . Portanto, diz que devemos somar da primeira
unidade amostral ( ) até a última unidade amostral ( ) da amostra, ou seja, devemos somar
todas as unidades amostrais da amostra. Finalmente, indica que o resultado do somatório
deve ser dividido pelo número de unidades amostrais da amostra ( ).

Agora que você já sabe o que cada termo da equação significa, vamos calcular a média
das notas da primeira avaliação de estatística da turma de Ciências Biológicas da UNIASSELVI.
Os dados estão na Tabela 1. Essa amostra é composta de 10 unidades amostrais ( ).
Cada acadêmico representa uma unidade amostral ( ). Precisamos somar a nota de todos os
acadêmicos, ou seja, a nota do primeiro acadêmico que é , a nota do segundo acadêmico
que é , a nota do terceiro acadêmico que é e assim até o último acadêmico
. O somatório das notas de todos os acadêmicos deve ser dividido pelo número total
de acadêmicos da amostra, ou seja, .

E
A média de notas da primeira avaliação de estatística foi de 5,7. S
T
A
T
Foi difícil fazer esse cálculo? Vamos praticar um pouco mais? Tente calcular a média Í
para as notas da segunda avaliação de estatística. Os dados estão na Tabela 1. No final dos S
T
cálculos você deve chegar ao resultado . I
C
A

A média pode ser calculada apenas para variáveis quantitativas, como variáveis discretas A
P
e contínuas. A média não pode ser aplicada para variáveis categóricas, como as nominais ou L
I
ordinais (PAGANO; GAUVREAU, 2013). Além disso, a média é sensível a valores extremos. C
Por exemplo, a média dos números 3, 4 e 5 é . Caso o número 5 seja substituído por 55, A
D
a média passa a ser 20,7. A
À

B
I
O
L
O
G
I
A
18 TÓPICO 1 UNIDADE 1


!
ROS
SFUTU
EST UDO

Caro acadêmico, você entendeu como calcular uma média?


Se não, leia novamente para tentar entender. É muito
importante que você tenha entendido isso, pois utilizaremos
a média em outros momentos ao longo do caderno.

5.1.2 Mediana

Para achar o valor que representa a mediana, primeiramente precisamos fazer uma
ordenação crescente de todos os valores das unidades amostrais da amostra (VIEIRA, 2011).
A mediana é o valor que ocupa a posição central na ordenação. Assim, metade dos valores
da amostra é igual ou menor que a mediana, enquanto metade dos valores é igual ou maior
que a mediana.

Quando o número de unidades da amostra é ímpar, existe um único valor que ocupa a
posição central, e esse valor é a mediana. Por exemplo, para a sequência de três números (1,
5 e 7), a mediana é o valor que ocupa a 2ª posição, ou seja, a mediana é igual a 5. Já quando
o número de unidades da amostra é par, dois números ocupam a posição central e é preciso

E
fazer uma média dos dois valores para encontrar a mediana. Por exemplo, para a sequência de
S quatro números (1, 5, 6 e 7), precisamos calcular a média dos valores que estão nas posições
T
A 2 e 3, ou seja, a média de 5 e 6, o que resulta em uma mediana de 5,5.
T
Í
S
T Vamos encontrar a mediana para as notas da primeira avaliação de estatística. Primeiro
I
C precisamos fazer uma ordenação crescente de todos os valores das notas, conforme está
A
apresentado na Tabela 2. Como são 10 unidades amostrais, um número par, a mediana está
A entre as posições 5 e 6. A 5ª posição é ocupada pela nota 6 e a 6ª posição também é ocupada
P
L pela nota 6. Calculando a média entre 6 e 6, temos que a mediana das notas da primeira
I
C avaliação de bioestatística é igual a 6.
A
D
A

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 19

TABELA 2 - ORDENAÇÃO CRESCENTE DAS NOTAS DA PRIMEIRA AVALIAÇÃO DE


ESTATÍSTICA DE 10 ALUNOS DE CIÊNCIAS BIOLÓGICAS DA UNIASSELVI
Posição (Ordenação Unidade amostral 1° Avaliação de
crescente das notas) (Acadêmico) Estatística (Notas)
1° 1 2
2° 9 3
3° 6 4
4° 4 5
5° 2 6
6° 7 6
7° 3 7
8° 8 7
9° 5 8
10° 10 9
FONTE: A autora

É fácil encontrar uma mediana, certo? Agora tente encontrar qual é a mediana para as
notas da segunda avaliação de estatística. Os dados estão na Tabela 1. Você deve chegar ao
resultado de que a mediana das notas da segunda avaliação também é igual a 6.

A mediana não é sensível a valores extremos, pois a única informação utilizada é o


valor que ocupa a posição central na ordenação de todas as unidades da amostra (PAGANO;
GAUVREAU, 2013). A mediana pode ser usada tanto para variáveis discretas e contínuas,
quanto para variáveis nominais ou ordinais (PAGANO; GAUVREAU, 2013).

E
S
T
5.1.3. Moda A
T
Í
S
A moda é o valor observado com maior frequência. Na sequência de números 1, 7, T
I
9, 3, 4, 3 e 5, a moda é igual a 3, pois é o valor observado mais vezes. No entanto, algumas C
amostras podem não apresentar uma moda. Por exemplo, na sequência 1, 6, 3, 1, 9, 3, 6 e 9 A

não existe uma moda, pois todos os valores foram observados duas vezes. A
P
L
I
Vamos encontrar a moda para as notas da primeira avaliação de estatística. Os dados C
A
estão na Tabela 1. Nesse exemplo, as notas 6 e 7 são observadas duas vezes, portanto, as D
A
notas da primeira avaliação de estatística apresentam duas modas, que são 6 e 7. Nesses
À
casos dizemos que a amostra é bimodal, ou seja, apresenta dois valores mais frequentes.
B
I
O
Encontrar a moda também é simples, certo? Tente encontrar a moda para as notas da
L
segunda avaliação de estatística. Os dados estão na Tabela 1. Você deve chegar ao resultado O
G
de que a moda para as notas da segunda avalição é igual a 6. I
A
20 TÓPICO 1 UNIDADE 1

A moda pode ser usada tanto para variáveis discretas ou contínuas, quanto para variáveis
nominais ou ordinais.

5.2 MEDIDAS DE DISPERSÃO

As medidas de tendência central, como média, mediana e moda são muito importantes,
pois descrevem o valor central dentre a variação de valores que as unidades amostrais podem
apresentar. No entanto, também é necessário ter uma ideia de quanto os valores das unidades
amostrais podem variar além da medida de tendência central. Será que todos os valores são
parecidos, e assim, concentram-se próximos do centro? Ou será que os valores são muito
diferentes e estão dispersos em um amplo intervalo? Para responder essas perguntas, utilizamos
as medidas de dispersão, também chamadas de medidas de variabilidade, como a amplitude,
intervalo interquartil, variância, desvio padrão e coeficiente de variação.

5.2.1 Amplitude

A amplitude é o valor obtido pela diferença entre o menor e o maior valor observado
na amostra. Apesar de ser facilmente calculada e interpretada, a amplitude não reflete bem
a variabilidade da amostra, pois é obtida utilizando apenas dois valores da amostra (VIEIRA,
E
S 2011). Assim, dois conjuntos de dados podem apresentar a mesma amplitude, mas terem
T
A variabilidades muito diferentes (VIEIRA, 2011). Além disso, a amplitude é afetada pelos valores
T
Í
extremos e só pode ser utilizada para variáveis discretas ou contínuas.
S
T
I Vamos calcular a amplitude para as notas da primeira avaliação de estatística. Os
C
A dados estão na Tabela 1. A nota mais baixa foi 2 e a nota mais alta foi 9, o que resulta em
A uma amplitude de 7. Simples, você não achou? Agora tente calcular a amplitude para as notas
P
L
da segunda avaliação de estatística (Tabela 1). Você deve encontrar como resultado uma
I amplitude igual a 4.
C
A
D
A

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 21

5.2.2 Intervalo interquartil

A partir da ordenação crescente das unidades amostrais de uma amostra, como fizemos
para encontrar a mediana (Tabela 2), é possível dividir as unidades em quatro grupos, que são
chamados de quartis (CALLEGARI-JACQUES, 2003). Cada quartil corresponde a 25% das
unidades amostrais da amostra. O primeiro quartil ( ) engloba 25% das unidades amostrais
com os menores valores, o segundo quartil ( ) é igual à mediana, e o terceiro quartil ( )
agrupa 75% das unidades amostrais.

Antes de calcular o intervalo interquartil é necessário descobrir qual posição na ordenação


de valores é equivalente a cada quartil. Para isso podemos usar a equação ,
em que representa cada um dos quartis (1, 2, 3 ou 4), e representa o número de unidades
amostrais da amostra. Após encontrar as posições que equivalem ao primeiro e ao terceiro
quartil, é possível calcular o intervalo interquartil pela subtração do valor que ocupa o terceiro
quartil do valor que ocupa o primeiro quartil ( ).

Vamos calcular o intervalo interquartil para as notas da primeira avaliação de estatística.


Para facilitar, podemos observar os dados da Tabela 2, pois já estão ordenados. A posição que
corresponde ao primeiro quartil é . Podemos arredondar o valor 2,75
para 3, e assim, é a nota da 3ª posição, que corresponde à nota 4. Já o terceiro quartil é
. Arredondando para 8, equivale à nota na 8ª posição, ou seja,
nota 7. O intervalo interquartil é resultante de , ou seja, .

E
Agora calcule o intervalo interquartil para as notas da segunda avaliação de estatística. S
T
Os dados estão na Tabela 1. Você deve encontrar que o intervalo interquartil para as notas da A
T
segunda avaliação é igual a 2. Í
S
T
I
O intervalo interquartil, que também pode ser chamado de intervalo interquartílico ou C
distância interquartílica, é uma medida de dispersão interessante, pois sofre menor influência A

de valores extremos, em comparação à amplitude (VIEIRA, 2011). A


P
L
I
C
A
D
A
À

B
I
O
L
O
G
I
A
22 TÓPICO 1 UNIDADE 1

5.2.3 Variância

Uma medida de dispersão muito usada é a variância, e como veremos nas próximas
unidades desse caderno, ela é utilizada em vários testes estatísticos. A variância mede como
os dados variam em torno da média (PAGANO; GAUVREAU, 2013). Se a variância é pequena,
quer dizer que os dados estão agrupados em torno da média, enquanto uma variância grande
significa que os dados estão dispersos em relação à média (VIEIRA, 2011).

A variância de uma amostra, que é uma estimativa, é representada por . Já a variância


de uma população, que é o parâmetro, é representada por (sigma minúsculo do alfabeto
grego).

Considerando que a variância mede a variabilidade das unidades amostrais em relação


à média, uma maneira de quantificá-la é fazer uma média da distância das unidades amostrais
em relação à média amostral, conforme a equação:

Os termos que compõem essa equação são os mesmos que você aprendeu quando
calculou a média. Caso você não lembre o que cada termo significa, consulte a Tabela 4
(adiante). A equação diz que devemos pegar cada uma das unidades amostrais e subtrair da
média amostral ( ), depois somar o resultado de cada uma das subtrações e, por fim, dividir
o somatório pelo número total de unidades amostrais ( ), ou seja, a equação da variância é uma
média da soma das diferenças de cada unidade amostral em relação à média. No entanto, o

E
somatório de ( ) sempre resulta em zero. Isso acontece porque a soma das diferenças das
S unidades amostrais com valores menores que é igual à soma das diferenças das unidades
T
A com valores maiores que , ou seja, as duas somas se cancelam. Uma opção para resolver
T
Í esse problema é elevar ( ) ao quadrado, conforme a equação:
S
T
I
C Sempre que você for calcular uma variância, utilize essa última equação. A equação
A nos diz que devemos fazer o somatório do quadrado da diferença de cada unidade amostral
A em relação à média e depois dividir esse somatório por . Na equação anterior dividimos
P
L o somatório apenas por , mas o correto é dividir por , pois a equação da variância
I
C apresenta uma estimativa, que é . Sempre que existirem estimativas em uma equação, o
A
D número equivalente às estimativas deve ser descontado do tamanho amostral ( ).
A

À Agora vamos calcular a variância para as notas da primeira avaliação de estatística.


B Para começar, precisamos calcular a diferença de cada unidade amostral em relação à média
I
O ( ), cujo somatório deve ser igual a zero (terceira coluna da Tabela 3). Depois precisamos
L
O fazer o somatório de , que nesse caso é igual a 44,2 (quarta coluna da Tabela 3).
G
I Substituindo os dados na equação, temos:
A
UNIDADE 1 TÓPICO 1 23

A variância para as notas da primeira avaliação de estatística é igual a 4,9. Agora tente
calcular a variância para as notas da segunda avaliação de estatística. Os dados estão na
Tabela 1. Você deve chegar ao resultado de que a variância das notas da segunda avaliação
é igual a 2,9.

A tabela a seguir demonstra que ( ) é a diferença de cada unidade amostral em


relação à média; é o quadrado da diferença de cada unidade amostral em relação
à média. Dados referentes às notas da primeira avaliação de estatística dos acadêmicos de
Ciências Biológicas da UNIASSELVI, que apresenta .

TABELA 3 - CÁLCULOS UTILIZADOS PARA SE OBTER A VARIÂNCIA DE UMA AMOSTRA

E
S
T
A
T
Í
S
T
I
C
A

A
P
FONTE: A autora L
I
C
A
D
A
À

B
I
O
L
O
G
I
A
24 TÓPICO 1 UNIDADE 1

5.2.4 Desvio padrão

O desvio padrão é obtido pela raiz quadrada positiva da variância (PAGANO; GAUVREAU,
2013). O desvio padrão é mais usado que a variância, pois está na mesma unidade de medida
da variável investigada.

O desvio padrão de uma amostra, que é uma estimativa, é representado por . Já o


desvio padrão de uma população, que é o parâmetro, é representado por (sigma minúsculo
do alfabeto grego). A equação do desvio padrão é:

Vamos calcular o desvio padrão para as notas da primeira avaliação de estatística


(Tabela 1). Para isso precisamos da variância, que já foi calculada anteriormente e é igual a
4,9. Basta extrair a raiz quadrada de 4,9 para obter o desvio padrão, que é igual a 2,2.

Tente calcular o desvio padrão para as notas da segunda avaliação de estatística. Os


dados estão na Tabela 1. Você deve chegar ao resultado de que o desvio padrão das notas da
segunda avalição é igual a 1,7.

ÇÃO!
ATEN

E
Caro acadêmico, você entendeu como calcular a variância e
S o desvio padrão? Se não, leia novamente para compreender
T melhor. É muito importante que você tenha entendido isso,
A pois utilizaremos a variância e o desvio padrão em outros
T
Í
momentos ao longo do caderno.
S
T
I
C
A

A
P 5.2.5 Coeficiente de variação
L
I
C
A O coeficiente de variação (CV) é utilizado quando queremos comparar a variabilidade de
D
A dois conjuntos de dados que estão em unidades de medida diferentes (PAGANO; GAUVREAU,
À 2013). Por exemplo, podemos comparar a variabilidade na circunferência (medida em

B
centímetros) e na altura (medida em metros) das araucárias do reflorestamento por meio do
I coeficiente de variação.
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 25

O coeficiente de variação é obtido pela equação: , ou seja, o coeficiente


de variação é a razão entre o desvio padrão ( ) e a média ( ) amostral, multiplicado por 100.
O coeficiente de variação é adimensional, pois a razão entre e faz com que as unidades de
medidas se cancelem. O coeficiente de variação é expresso em porcentagem, em decorrência
da multiplicação por 100.

Vamos calcular o coeficiente de variação para as notas da primeira avaliação de


estatística (Tabela 1). Para isso precisamos do desvio padrão ( ) e da média ( .
Substituindo os valores na equação, temos:

Para as notas da primeira avaliação de estatística, o coeficiente de variação é igual a


38,6%. Não é possível dizer se esse coeficiente de variação é alto ou baixo, é preciso compará-
lo em relação a outro valor.

Agora tente calcular o coeficiente de variação para as notas da segunda avaliação de


estatística. Os dados estão na Tabela 1. Você deve chegar ao resultado de que o coeficiente
de variação das notas da segunda avaliação é igual a 26,6%, ou seja, um valor menor que o
coeficiente de variação das notas da primeira avaliação de estatística.

TABELA 4 - NOTAÇÕES MATEMÁTICAS E SEUS SIGNIFICADOS


Notação
Significado E
matemática S
Número de unidades amostrais da amostra, ou tamanho amostral. T
A
T
É a i-ésima unidade amostral, num conjunto de unidades Í
amostrais. S
T
O subscrito i indica uma unidade amostral dentre as n unidades I
amostrais da amostra. Por exemplo, x1 representa a primeira C
A
unidade amostral, enquanto x2 representa a segunda unidade
A
amostral. P
É a última unidade amostral da amostra. L
I
Sigma – letra maiúscula do alfabeto grego. Indica somatório dos C
∑ A
elementos à sua direita.
D
Média de uma amostra. É uma estimativa. A
À
Média de uma população. É um parâmetro.
B
Variância de uma amostra. É uma estimativa. I
O
Variância de uma população. É um parâmetro. L
O
Desvio padrão de uma amostra. É uma estimativa. G
Desvio padrão de uma população. É um parâmetro. I
A

FONTE: Adaptado de Vieira (2011)


26 TÓPICO 1 UNIDADE 1

6 USO DE TABELAS E GRÁFICOS

Na estatística descritiva você aprendeu como descrever um conjunto de dados com


apenas dois valores: uma medida de tendência central e uma medida de dispersão. Além da
estatística descritiva, também podemos resumir dados utilizando tabelas e gráficos. A partir
de agora, você aprenderá um pouco sobre tabelas e gráficos, que são úteis para apresentar
e sintetizar conjuntos de dados.

6.1 TABELAS

Toda tabela é composta por quatro elementos: o título, que explica o conteúdo da
tabela; o cabeçalho, que indica qual é o conteúdo de cada coluna; a coluna indicadora, que
especifica o conteúdo de cada linha; e o corpo, que é preenchido pelos dados dispostos em
linhas e colunas (VIEIRA, 2011).

6.1.1 Tabelas de distribuição de frequências

E
S Uma tabela de distribuição de frequência é constituída por um conjunto de classes
T
A ou categorias e o número de unidades amostrais que pertence a cada uma das classes ou
T
Í
categorias (PAGANO; GAUVREAU, 2013). Tanto variáveis nominais ou ordinais quanto variáveis
S discretas ou contínuas podem ser apresentadas em tabelas de distribuição de frequências.
T
I
C
A Variáveis nominais ou ordinais: Para resumir um conjunto de dados composto
A por variáveis nominais ou ordinais em uma tabela de distribuição de frequências, podemos
P
L simplesmente contar quantas unidades amostrais foram classificadas em cada categoria
I preestabelecida (Tabela 5) (VIEIRA, 2011). Dessa forma, chegamos à frequência absoluta
C
A em que cada categoria foi observada. Além disso, pode ser interessante expressar quanto o
D
A número de unidades amostrais em cada categoria representa do total de unidades da amostra
À (VIEIRA, 2011). Para isso, dividimos o número de unidades amostrais em cada categoria pelo
B total de unidades amostrais estudadas, depois multiplicamos por 100. Desta forma teremos
I
O
a frequência relativa em que cada categoria foi observada, expressa em porcentagem. Com
L a frequência relativa podemos construir uma tabela de distribuição de frequências relativas.
O
G
I
A Para exemplificar como variáveis qualitativas podem ser resumidas em tabelas de
UNIDADE 1 TÓPICO 1 27

distribuição de frequências, utilizaremos os dados do Inventário Florístico Florestal de Santa


Catarina, que avaliou 723 espécies de plantas da Floresta Ombrófila Densa e classificou cada
espécie quanto à síndrome de dispersão. Síndrome de dispersão é uma variável qualitativa
nominal. A Tabela 5 apresenta o número de espécies de plantas que têm síndrome de dispersão
zoocórica, anemocórica e autocórica, ou seja, a frequência absoluta de cada síndrome. A
mesma tabela também apresenta a porcentagem de espécies em cada categoria, ou seja,
a frequência relativa de cada categoria, por exemplo, para calcular a frequência relativa da
síndrome de dispersão zoocoria, basta fazer o seguinte cálculo: , em
que 564 é a frequência absoluta da síndrome de dispersão zoocoria e 723 é o número total
de espécies estudadas.

TABELA 5 - NÚMERO DE ESPÉCIES DE PLANTAS E PORCENTAGEM DE ESPÉCIES DE


PLANTAS POR SÍNDROME DE DISPERSÃO NA FLORESTA OMBRÓFILA DENSA DE
SANTA CATARINA

Síndrome de dispersão Número de espécies Porcentagem de espécies (%)


Zoocoria 564 78,0
Anemocoria 107 14,8
Autocoria 49 6,8
Espécies não 3 0,4
classificadas
Total 723 100,0
FONTE: Adaptado de Gasper et al. (2014)

Variáveis discretas ou contínuas: Para organizar dados de variáveis discretas ou


contínuas em tabelas de distribuição de frequências, primeiramente é necessário dividir o
intervalo de valores que a variável apresenta em classes, depois encaixar cada unidade amostral
E
dentro de alguma classe criada e, no final, contar o número de unidades amostrais por classe S
T
(Tabela 6) (PAGANO; GAUVREAU, 2013). A
T
Í
S
É interessante que as classes tenham intervalos com tamanhos iguais, o que facilita T
futuras comparações entre classes (PAGANO; GAUVREAU, 2013). Para definir os intervalos de I
C
classes é preciso ordenar as unidades amostrais em sequência crescente. Depois de ordenar A

todos os valores, é necessário identificar os valores máximo e mínimo para calcular a amplitude A
P
dos valores. A amplitude é dada pela diferença entre o máximo valor e o mínimo valor. Na L
I
sequência, é preciso dividir a amplitude pelo número de classes em que se deseja organizar os C
A
dados. A escolha do número de classes é arbitrária e fica a critério do pesquisador. O resultado D
da divisão da amplitude pelo número de classes corresponde ao intervalo de classes. Os limites A
À
da primeira classe serão: limite inferior, o valor mínimo observado na amostra; limite superior,
B
o limite inferior da primeira classe somado ao intervalo de classes. Limites da segunda classe I
serão: limite inferior, o limite superior da primeira classe; limite superior, o limite inferior da O
L
segunda classe somado ao intervalo de classes. Assim sucessivamente até que toda variação O
G
de valores que a amostra apresenta seja incluída em classes. I
A
28 TÓPICO 1 UNIDADE 1

Como exemplo didático, vamos organizar as notas da primeira avaliação de estatística de


50 acadêmicos de Ciências Biológicas da UNIASSELVI (Quadro 1) em uma tabela de distribuição
de frequências com três classes. Como as notas dos 50 acadêmicos já estão ordenadas no
quadro, podemos calcular a amplitude de valores pela diferença da maior nota observada
(nota 10) pela menor nota (nota 1). A amplitude é igual a 9. Para obter o intervalo de classes,
é só dividir a amplitude (9) pelo número de classes (três classes), que já foi preestabelecido.
Intervalo de classes é . Os limites da primeira classe são: limite inferior = 1, a menor
nota observada na amostra; limite superior = 4, que corresponde à soma do limite inferior da
primeira classe ao intervalo de classes. Os limites da segunda classe são 4 e 7 e da terceira
classe, 7 e 10. Depois de estabelecer os limites das classes, contamos quantas notas se
encaixam em cada classe. O resultado pode ser observado na Tabela 6.

QUADRO 1 - NOTAS DA PRIMEIRA AVALIAÇÃO DE ESTATÍSTICA DOS 50 ALUNOS DE CIÊNCIAS


BIOLÓGICAS DA UNIASSELVI

1,0 1,5 2,0 2,2 2,3 2,8 3,0 3,3 3,7 3,9
4,0 4,2 4,4 4,9 5,0 5,0 5,0 5,3 5,5 5,7
5,7 5,9 6,0 6,0 6,0 6,0 6,0 6,1 6,4 6,5
6,5 6,5 6,9 7,0 7,0 7,0 7,2 7,3 7,5 7,5
7,6 7,9 8,0 8,3 8,4 8,5 9,0 9,5 10,0 10,0
FONTE: A autora

Além disso, a frequência absoluta de cada classe também pode ser expressa em
frequência relativa (veja a Tabela 6). Para isso, é necessário dividir o número de acadêmicos
de cada classe pelo número total de acadêmicos estudados ( ) e multiplicar por 100. Por
E exemplo, a frequência relativa da primeira classe é (Tabela 6).
S
T
A
T
Í
TABELA 6 - TABELA DE DISTRIBUIÇÃO DE FREQUÊNCIAS ABSOLUTAS E RELATIVAS DAS
S NOTAS DA PRIMEIRA AVALIAÇÃO DE ESTATÍSTICA DOS 50 ACADÊMICOS DA TURMA
T DE CIÊNCIAS BIOLÓGICAS DA UNIASSELVI
I
C Porcentagem de acadêmicos por
A Classes de notas Número de acadêmicos por classe
classe (%)
A 1a4 11 22
P 4a7 25 50
L
I 7 a 10 14 28
C
A FONTE: A autora
D
A

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 29

6.1.2 Tabelas de contingência

Quando as unidades amostrais são classificadas de acordo com duas variáveis


qualitativas, os dados podem ser organizados em uma tabela de contingência (Tabela
7) (VIEIRA, 2011). Tabelas de contingência são tabelas com duplas entradas, cada uma
representando uma das variáveis qualitativas (VIEIRA, 2011). Também podemos construir
tabelas de contingência para variáveis quantitativas discretas ou contínuas, desde que os valores
das variáveis quantitativas sejam separados em classes e, assim, cada classe é equivalente
a uma categoria de uma variável qualitativa.

Para construir uma tabela de contingência, utilizaremos novamente os dados do


Inventário Florístico Florestal de Santa Catarina, que avaliou 723 espécies de plantas da
Floresta Ombrófila Densa e classificou cada espécie quanto à síndrome de dispersão e o estágio
sucessional. A Tabela 7, que é uma tabela de contingência desses dados, expressa o número
de espécies em cada uma das categorias de síndrome de dispersão e estágio sucessional.
Por exemplo, dentre as 564 espécies zoocóricas, 106 delas são espécies pioneiras.

TABELA 7 - SÍNDROME DE DISPERSÃO E ESTÁGIO SUCESSIONAL DAS ESPÉCIES DE


PLANTAS DA FLORESTA OMBRÓFILA DENSA DE SANTA CATARINA
Síndrome de Estágio sucessional
Total
dispersão Pioneira Secundária Climácica Não classificada
Zoocoria 106 264 137 57 564
Anemocoria 32 64 5 6 107
Autocoria 16 20 6 7 49
E
Não S
0 0 0 3 3
classificada T
A
Total 154 348 148 73 723 T
Í
FONTE: Adaptado de Gasper et al. (2014) S
T
I
C
A

A
6.2 GRÁFICOS P
L
I
C
Além da estatística descritiva e de tabelas, também podemos utilizar gráficos para A
D
organizar e resumir dados. A partir de agora você conhecerá os principais tipos de gráficos A
que podem ser usados para apresentar dados. À

B
I
O
L
O
G
I
A
30 TÓPICO 1 UNIDADE 1

6.2.1 Gráfico de barras

O gráfico de barras é utilizado para representar a distribuição de frequência de variáveis


nominais ou ordinais (PAGANO; GAUVREAU, 2013). Em um plano cartesiano, no eixo horizontal
(eixo x) são apresentadas as categorias em que as unidades amostrais foram classificadas.
O eixo vertical (eixo y) representa a frequência absoluta ou relativa das observações dentro
de cada categoria e obedece a uma escala. Sobre cada categoria no eixo horizontal são
desenhadas barras. A altura de cada barra corresponde à frequência absoluta ou relativa em
que cada categoria foi observada. As barras devem ter a mesma largura e devem ser separadas
uma das outras, pois se estiverem juntas representam uma variável contínua.

No gráfico a seguir você pode observar dois exemplos de gráficos de barras para
as 723 espécies de plantas da Floresta Ombrófila Densa que foram classificadas quanto à
síndrome de dispersão. O Gráfico 1A apresenta a frequência absoluta em que cada síndrome
de dispersão foi observada, enquanto O Gráfico 1B mostra a frequência relativa de cada
síndrome de dispersão. No eixo horizontal são apresentadas as três síndromes de dispersão
e no eixo vertical a frequência de observações seguindo uma escala. Note também que cada
eixo possui sua respectiva legenda.

GRÁFICO 1 - NÚMERO DE ESPÉCIES (A) E PORCENTAGEM DE ESPÉCIES (B) DE PLANTAS


POR SÍNDROME DE DISPERSÃO NA FLORESTA OMBRÓFILA DENSA DE SANTA
CATARINA

E
S
T
A
T
Í
S
T
I
C
A

A
P
L
I
C
A
D FONTE: Adaptado de Gasper et al. (2014)
A

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 31

6.2.2 Histograma

O histograma é um tipo de gráfico usado para representar distribuições de frequências


de variáveis discretas ou contínuas (PAGANO; GAUVREAU, 2013). É composto por um eixo
horizontal (eixo x) que representa as classes em que a amplitude de valores da variável foi
separada; e um eixo vertical (eixo y), que compreende a frequência de observações dentro de
cada classe. A frequência de observações de cada classe é representada pela área de barras
verticais. O conjunto da área de todas as barras deve somar 100% (PAGANO; GAUVREAU,
2013). Dessa forma, a proporção da área de uma classe é equivalente à sua frequência relativa
e, assim, um histograma de frequências relativas tem o mesmo formato que um histograma de
frequências absolutas. Note que as barras devem ser justapostas, o que indica que a variável
representada é contínua.

O Gráfico 2 apresenta o histograma para os dados do Quadro 1. As notas da primeira


avaliação de 50 acadêmicos de Ciências Biológicas foram separadas em 10 classes, e os
intervalos das classes podem ser observados no eixo x. No eixo y está a frequência de
observações de cada classe.

GRÁFICO 2 - NOTAS DA PRIMEIRA AVALIAÇÃO DE ESTATÍSTICA DOS 50 ACADÊMICOS


DA TURMA DE CIÊNCIAS BIOLÓGICAS DA UNIASSELVI

E
S
T
A
T
Í
S
T
I
C
A

A
P
L
I
C
A
D
A
À

B
FONTE: A autora I
O
L
O
G
I
A
32 TÓPICO 1 UNIDADE 1

6.2.3 Box plot

Box plot, também chamado de diagrama de caixa, é utilizado para apresentar um resumo
dos dados (PAGANO; GAUVREAU, 2013). Nele estão representados o primeiro e terceiro
quartis, a mediana e os valores mais extremos observados na amostra.

Um box plot é composto por uma caixa central, que se estende verticalmente, que
corresponde ao intervalo interquartil e representa 50% dos dados. O limite inferior da caixa
corresponde ao valor do primeiro quartil, o limite superior da caixa representa o valor do terceiro
quartil, e o pequeno quadrado no centro indica a mediana (PAGANO; GAUVREAU, 2013). Caso
a mediana esteja situada próxima ao meio da caixa, os dados são ligeiramente simétricos.

As barras que se estendem para fora da caixa correspondem aos valores mais extremos
observados na amostra, mas que estão a menos de 1,5 vezes a altura da caixa além dos quartis
(PAGANO; GAUVREAU, 2013). Existindo alguma unidade amostral com valor mais extremo
que 1,5 vezes a altura da caixa, esta unidade é representada por um círculo ou um asterisco
e corresponde a um valor atípico (PAGANO; GAUVREAU, 2013).

Na Figura 3 é apresentado um box plot das notas da primeira avaliação de 10 acadêmicos


de Ciências Biológicas da UNIASSELVI, que são os mesmos dados da Tabela 1. Você
lembra que já calculamos a mediana ( ), o primeiro quartil ( ) e o terceiro quartil
( ) para as notas dos 10 acadêmicos. Também já identificamos as notas mais extremas para

E
calcular a amplitude, que foram as notas 2 e 9. Agora todos esses valores estão representados
S no box plot.
T
A
T
Í
S
T
I
C
A

A
P
L
I
C
A
D
A

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 33

FIGURA 3 - BOX PLOT PARA AS NOTAS DA PRIMEIRA AVALIAÇÃO DA DISCIPLINA DE


ESTATÍSTICA DE 10 ACADÊMICOS DE CIÊNCIAS BIOLÓGICAS DA UNIASSELVI

FONTE: A autora

6.2.4 Gráfico de dispersão bidimensional

Um gráfico de dispersão bidimensional deve ser usado para representar a relação entre
duas variáveis contínuas (PAGANO; GAUVREAU, 2013). Cada ponto no gráfico corresponde
a uma unidade amostral e suas medidas para duas variáveis estudadas. O eixo horizontal
(eixo x) representa uma variável e o eixo vertical (eixo y) a outra variável, cada variável em E
S
sua respectiva escala (PAGANO; GAUVREAU, 2013). T
A
T
Í
O Gráfico 3 traz a dispersão bidimensional para as notas da primeira e segunda avaliação S
da disciplina de estatística de 10 acadêmicos de Biologia da UNIASSELVI (dados da Tabela T
I
1). Note que cada círculo representa um acadêmico e sua posição no gráfico corresponde às C
A
notas obtidas na primeira e na segunda avaliação. Por exemplo, o círculo mais à esquerda
A
corresponde a um acadêmico que tirou nota 2 na primeira avaliação e nota 4 na segunda P
L
avaliação. I
C
A
D
A
À

B
I
O
L
O
G
I
A
34 TÓPICO 1 UNIDADE 1

GRÁFICO 3 - RELAÇÃO ENTRE A PRIMEIRA E A SEGUNDA NOTA DA AVALIAÇÃO DA DISCIPLINA


DE ESTATÍSTICA DE 10 ACADÊMICOS DE CIÊNCIAS BIOLÓGICAS DA UNIASSELVI

FONTE: A autora

E
S
T
A
T
Í
S
T
I
C
A

A
P
L
I
C
A
D
A

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 35

RESUMO DO TÓPICO 1

Neste tópico, você aprendeu que:

• Estatística é a ciência que orienta a coleta, organização, análise e interpretação de dados.

• Uma população é o conjunto de todas as unidades amostrais em estudo, enquanto uma


amostra é um subconjunto de unidades amostrais da população. Unidade amostral é uma
unidade da população sobre a qual é feita a coleta de dados.

• A estimativa é um valor que resume uma característica da amostra, enquanto o parâmetro é


um valor que resume uma característica da população.

• Variável é qualquer característica observada na unidade amostral e que pode variar entre as
unidades amostrais. Podem ser classificadas, quanto à natureza que possuem, em: i) variáveis
quantitativas discretas ou contínuas, que são valores numéricos e expressam quantidades; ii)
variáveis qualitativas nominais ou ordinais, que fornecem dados de natureza não numérica; iii)
variáveis derivadas, que são geradas a partir de operações lógicas ou matemáticas de outras
variáveis.

• Geralmente é inviável fazer um censo, pois a população é muito grande e essa tarefa
demandaria muito tempo e recurso financeiro. Por isso precisamos amostrar, ou seja, selecionar
E
parte das unidades amostrais de maneira que representem a população. S
T
A
• Existem diferentes estratégias de amostragem: i) amostragem aleatória simples, em que todas T
Í
as unidades amostrais da população têm igual chance de serem amostradas; ii) amostragem S
T
sistemática, em que as unidades amostrais são escolhidas por um sistema predefinido; iii) I
C
amostragem estratificada, que pode ser aplicada quando se sabe que a população é composta A
por estratos; iv) amostragem de conveniência, em que o pesquisador avalia as unidades A
amostrais porque dispõe delas ou porque são unidades de fácil acesso. P
L
I
C
• Um dos principais objetivos em ciência é obter conclusões confiáveis a respeito da população A
D
(o parâmetro) tendo como base apenas informações da amostra (a estimativa), ou seja, fazer A
inferências estatísticas sólidas. À

B
I
• A Lei dos Grandes Números estabelece que quanto maior o tamanho amostral, mais próxima O
L
uma estimativa estará do parâmetro populacional. O
G
I
• A Estatística Descritiva é utilizada para descrever resumidamente um conjunto de dados A
36 TÓPICO 1 UNIDADE 1

por meio das: i) medidas de tendência central (média, mediana e moda), que descrevem o
valor central dentre a variação de valores que as unidades amostrais podem apresentar; ii)
medidas de dispersão (amplitude, intervalo interquartil, variância, desvio padrão e coeficiente
de variação), que avaliam quanto os valores das unidades amostrais podem variar além da
medida de tendência central.

• A principal medida de tendência central é a média, que compreende em somar o valor de


todas as unidades amostrais e dividir pelo tamanho amostral.

• As principais medidas de dispersão são a variância e o desvio padrão. A variância é a razão


do somatório do quadrado da diferença de cada unidade amostral em relação à média pelo
tamanho amostral. O desvio padrão é obtido pela raiz quadrada da variância.

• Podemos resumir e apresentar dados por meio de tabelas, como as tabelas de distribuição
de frequências e tabelas de contingência, ou por meio de gráficos, como o gráfico de barras,
o histograma, o box plot e o gráfico de dispersão bidimensional.

E
S
T
A
T
Í
S
T
I
C
A

A
P
L
I
C
A
D
A

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 1 37


IDADE
ATIV
AUTO

Caro acadêmico! Para fixar melhor o conteúdo estudado, vamos exercitar um


pouco. Leia as questões a seguir e responda-as em seu caderno de estudos. Bom
trabalho!

1 Uma pesquisadora especialista em pequenos mamíferos acabou de conseguir


financiamento para seu projeto, que tem por objetivo investigar se a qualidade dos
fragmentos florestais influencia a riqueza de espécies de pequenos mamíferos na
Floresta de Araucárias. Para isso, a pesquisadora propôs amostrar a riqueza de espécies
em 50 fragmentos florestais distribuídos aleatoriamente pela extensão da Floresta de
Araucárias no Sul e Sudeste do Brasil. Ela pretende criar uma grid (uma rede de células
com comprimento e largura definidos) com células de 10 km por 10 km de extensão que
cubra toda a Floresta de Araucárias. Dentre as células da grid a pesquisadora irá sortear
50 células. Como uma célula pode ter mais de um fragmento florestal, a pesquisadora
também vai sortear um fragmento dentre todos os fragmentos florestais encontrados
na célula. Nos 50 fragmentos florestais que serão selecionados, a pesquisadora irá
registrar a riqueza de espécies de pequenos mamíferos. A qualidade dos fragmentos
florestais será compilada a partir de um índice composto pelo tamanho do fragmento
florestal, distância para um fragmento florestal mais próximo e altura das árvores do
fragmento. A partir dessas informações sobre o projeto da pesquisadora, identifique qual
E
é a população, a amostra e a unidade amostral do estudo. Que tipos de variáveis serão S
T
coletadas e qual a estratégia de amostragem será empregada na pesquisa? A
T
Í
S
2 Os dados a seguir mostram a área foliar e área foliar específica (a razão da área T
I
foliar pelo peso seco foliar) de 10 espécies de árvores da Mata Atlântica que foram C
amostradas no Parque Estadual do Palmito, litoral do Paraná (dados provenientes do A

estudo de BOEGER; WISNIEWSKI, 2003). A


P
L
I
Sp1 Sp2 Sp3 Sp4 Sp5 Sp6 Sp7 Sp8 Sp9 Sp10 Sp11 C
Área foliar (cm2) 47,1 42,5 32,0 27,9 22,6 20,5 5,0 16,0 35,6 23,1 15,9 A
Área foliar específica D
108,6 83,9 75,8 76,3 138,6 82,4 91,5 76,1 89,3 82,5 87,7 A
(cm2.g-1)
À

B
I
O
L
O
G
I
A
38 TÓPICO 1 UNIDADE 1

Para cada variável apresentada acima (área foliar e área foliar específica),
calcule:

a) As medidas de tendência central: média, mediana e moda.


b) As medidas de dispersão: amplitude, intervalo interquartil, variância, desvio
padrão e coeficiente de variação.
Qual variável possui menor variabilidade?

E
S
T
A
T
Í
S
T
I
C
A

A
P
L
I
C
A
D
A

B
I
O
L
O
G
I
A
UNIDADE 1

TÓPICO 2

DISTRIBUIÇÃO DE PROBABILIDADES

1 INTRODUÇÃO

Você acabou de aprender que a maioria dos estudos científicos precisa trabalhar com
amostras, pois é impossível coletar dados de toda a população. Você também estudou como
resumir e apresentar dados de uma amostra por meio da estatística descritiva, tabelas e
gráficos. No entanto, os pesquisadores geralmente querem ir além de apenas apresentar dados.
O objetivo maior é usar informações contidas na amostra para fazer inferências a respeito da
população. A base teórica que permite dar esse passo é a probabilidade. Portanto, agora é
importante fazer uma revisão dos conceitos relacionados à probabilidade, bem como estudar
os principais tipos de distribuição de probabilidades.

Uma série de fenômenos probabilísticos acontece diariamente, como, por exemplo, E


S
estar com pressa e ver que o ônibus acabou de passar pelo ponto ou esquecer a janela do T
quarto aberta no dia de uma tempestade. Esses fenômenos são probabilísticos porque eles A
T
podem ou não acontecer e é possível calcular a probabilidade em que aconteçam. Assim, todos Í
S
os fenômenos probabilísticos têm duas características em comum. Primeiro, não é possível T
I
antecipar o resultado de um fenômeno probabilístico (CALLEGARI-JACQUES, 2003; VIEIRA, C
A
2011). Apesar de não saber o que vai acontecer com certeza, é possível estabelecer um padrão
de comportamento em longo prazo (CALLEGARI-JACQUES, 2003; VIEIRA, 2011). A
P
L
I
O resultado de um fenômeno chamado de evento e o conjunto de eventos é denominado C
A
de espaço amostral (CALLEGARI-JACQUES, 2003; VIEIRA, 2011). A probabilidade, por sua D
A
vez, é uma medida da chance de cada evento acontecer (CALLEGARI-JACQUES, 2003).
À

B
Para estabelecer a probabilidade de um evento acontecer, podemos utilizar o conceito I
O
de frequências relativas (CALLEGARI-JACQUES, 2003; VIEIRA, 2011). Imagine eventos L
O
que são mutuamente excludentes (ou seja, se um evento ocorre, o outro não pode ocorrer) G
e igualmente prováveis. Alguns desses eventos têm a característica A, e outros não têm. A I
A
probabilidade de ocorrer um evento com a característica A (P(A)) é dada por:
40 TÓPICO 2 UNIDADE 1

Vamos pensar em um exemplo prático. Um baralho é composto por 52 cartas,


desconsiderando coringas. Das cartas do baralho, 26 são cartas vermelhas e 26 são pretas.
Podemos perguntar qual é a probabilidade de tirar uma carta vermelha do baralho? A
probabilidade é: . Podemos multiplicar a probabilidade por
100 e obter uma porcentagem, que para esse exemplo é de 50%.

A probabilidade tem duas propriedades importantes. Ela varia entre 0 e 1 (ou 0% a


100%). A soma das probabilidades de todos os eventos possíveis, dado um espaço amostral,
sempre é igual a 1% ou 100% (CALLEGARI-JACQUES, 2003; VIEIRA, 2011).

Geralmente queremos descobrir a probabilidade de um evento em situações mais


complexas que o exemplo das cartas vermelhas. Para isso, podemos aplicar duas regras da
probabilidade, que são: a regra da soma e a regra do produto.

Regra da soma: a probabilidade de ocorrer A ou B é igual à soma da probabilidade de


ocorrer A e B, menos a probabilidade de ocorrer A e B juntos (CALLEGARI-JACQUES, 2003;
VIEIRA, 2011). Caso A e B sejam mutuamente excludentes, a probabilidade de ocorrer A ou B
é somente a soma das probabilidades de A e B (CALLEGARI-JACQUES, 2003; VIEIRA, 2011).

E
Vamos exemplificar! Imagine que você quer saber qual é a probabilidade de tirar do
S baralho uma carta que seja de copas ou uma carta que seja um rei. O baralho tem 13 cartas
T
A de copas e quatro cartas de rei. As cartas não são mutuamente excludentes, pois uma carta
T
Í que tem as duas características que você está procurando (o rei de copas) e, por isso, esta
S
T carta deve ser excluída na hora de fazer o somatório das probabilidades. Então a probabilidade
I
C desse evento é:
A

A
P
L
I
C
A
D
A

À
Para exemplificar eventos mutuamente excludentes, imagine que você quer calcular a
B probabilidade de tirar do baralho uma carta que seja dama ou rei. No baralho existem quatro
I
O damas e quatro reis. Como damas e reis são mutuamente excludentes, ou seja, não existe
L
O no baralho uma carta que seja dama e rei ao mesmo tempo, a probabilidade é calculada por:
G
I
A
UNIDADE 1 TÓPICO 2 41

Regra do produto: essa regra é usada quando queremos saber a probabilidade de


dois eventos que ocorrem simultaneamente ou um seguido do outro (CALLEGARI-JACQUES,
2003; VIEIRA, 2011). Se A e B são dependentes (ou seja, a ocorrência de um evento interfere
na ocorrência do outro), a probabilidade de ocorrer A e B é igual à probabilidade de ocorrer
A multiplicada pela probabilidade de ocorrer B, dado que A tenha ocorrido (CALLEGARI-
JACQUES, 2003; VIEIRA, 2011). Caso A e B sejam independentes (ou seja, a ocorrência de
um evento não influencia na ocorrência do outro), a probabilidade de A e B ocorrerem é igual
à multiplicação das probabilidades de A e B (CALLEGARI-JACQUES, 2003; VIEIRA, 2011).

Vamos pensar em um exemplo em que os eventos são dependentes. Imagine que você
quer saber qual a probabilidade de tirar duas cartas de copas do baralho em sequência e sem
reposição de cartas. Como o baralho tem 13 cartas de copas, a probabilidade da primeira carta
ser de copas é . Já a probabilidade da segunda carta ser de copas vai depender da
primeira carta retirada. Se a primeira carta for uma carta de copas, a probabilidade da segunda
carta ser de copas é . O denominador da razão é 51, pois a segunda retirada de cartas
tem uma carta a menos que a primeira. O cálculo da probabilidade é dado por:

E
S
T
Veremos um exemplo para eventos independentes. Vamos calcular a probabilidade de A
T
tirar duas cartas de copas do baralho em sequência, mas agora com reposição de cartas, ou Í
S
seja, a carta retirada na primeira rodada volta para o baralho. Nesse caso, é só multiplicar a T
I
probabilidade de tirar uma carta de copas do baralho por ela mesma, como o cálculo a seguir C
A
demonstra:
A
P
L
I
C
A
D
A
À
Note que quando não há reposição de cartas no baralho, a probabilidade de tirar duas
B
cartas de copas na sequência é menor que quando há reposição de cartas. I
O
L
Existem casos em que a probabilidade de um evento acontecer muda de acordo O
G
com a condição em que o evento acontece, o que é chamado de probabilidade condicional I
A
42 TÓPICO 2 UNIDADE 1

(CALLEGARI-JACQUES, 2003; VIEIRA, 2011). Por exemplo, a probabilidade de uma pessoa


ter alguma doença cardíaca é maior se ela for obesa. Já a chance de uma pessoa ter cáries
é maior se ela não tem uma higiene bucal adequada.

Voltando ao baralho, a probabilidade de tirar uma carta de paus do baralho é de:


, entretanto, imagine que o baralho
esteja dividido em cartas pretas e vermelhas, você gostaria de calcular a probabilidade de tirar
uma carta de paus apenas dentre as cartas pretas (26 cartas do baralho são pretas). Nesse
caso, a probabilidade é de ,
ou seja, quando consideramos apenas as cartas pretas (a condição), a probabilidade de tirar
uma carta de paus dobra.

2 DISTRIBUIÇÃO DE PROBABILIDADES

Você estudou anteriormente que variável é uma característica observada nas unidades
amostrais e que varia entre as unidades. Uma variável pode assumir diferentes valores, e se
os valores ocorrem por influência do acaso, essa variável é chamada de variável aleatória
(VIEIRA, 2011). Por exemplo, ao tirar uma carta do baralho, essa carta pode ser qualquer
uma dentre as 52 que compõem o baralho. Qual carta será retirada depende do acaso. No
exemplo do reflorestamento de araucárias, o número de pinhas por araucária também é uma
variável aleatória. Se fizermos um sorteio para amostrar uma araucária, essa araucária terá um
determinado número de pinhas, que possivelmente seria diferente se outra araucária tivesse
E sido sorteada.
S
T
A Variáveis aleatórias são sempre números e, portanto, podem ser discretas ou contínuas
T
Í (VIEIRA, 2011). Uma variável aleatória discreta assume valores que podem ser associados
S
T a números naturais, como a contagem do número de pinhas por araucária. Já uma variável
I
C aleatória contínua pode assumir infinitos valores num dado intervalo, como a altura das
A
araucárias do reflorestamento. Um tipo especial de variável aleatória discreta são as variáveis
A
P
aleatórias binárias, que podem assumir somente um de dois valores possível, como sexo
L masculino ou feminino, fator Rh positivo ou negativo.
I
C
A
D Variáveis aleatórias são representadas por letras maiúsculas ( , por exemplo). Já valores
A
observados de uma variável aleatória são representados pela letra minúscula correspondente
À
à variável ( , por exemplo), e suas respectivas probabilidades, por .
B
I
O Cada variável aleatória tem uma distribuição de probabilidades correspondente (VIEIRA,
L
O 2011). A distribuição de probabilidades descreve a chance de observar os diferentes valores
G
I que uma variável aleatória pode apresentar (VIEIRA, 2011). Apesar de ser muito parecido
A
UNIDADE 1 TÓPICO 2 43

com a distribuição de frequências que você estudou para construir tabelas de distribuição de
frequências, distribuições de frequências e de probabilidades são diferentes. Uma distribuição
de frequências é construída a partir de dados da amostra, ou seja, são dados empíricos (VIEIRA,
2011). Se amostras independentes da mesma população forem coletadas várias vezes, as
distribuições de frequência obtidas dessas amostras serão diferentes. Já uma distribuição de
probabilidades é teórica e estável, não muda, pois é construída com base em teoria e com
base nos dados de toda a população em estudo (VIEIRA, 2011).

A partir de agora você irá estudar dois tipos de distribuição teórica de probabilidades:
a distribuição binomial e a distribuição normal. A primeira é usada para variáveis aleatórias
binárias, e a última para variáveis aleatórias contínuas.

2.1 DISTRIBUIÇÃO BINOMIAL

A distribuição binomial é usada para representar a distribuição de probabilidades


de variáveis aleatórias binárias (VIEIRA, 2011). Uma variável aleatória binária assume um
dentre dois valores possíveis, como, por exemplo, feminino ou masculino, alérgico ou não
alérgico, saudável ou doente. Para simplificar, o valor assumido por uma variável aleatória
binária é chamado de “sucesso” ou “fracasso” (VIEIRA, 2011). A probabilidade de sucessos
é representada pela letra e a probabilidade de fracassos, pela letra (VIEIRA, 2011). O
somatório de e resulta em 1 ( .

Imagine que em uma determinada população, 30% das pessoas têm alguma alergia
E
alimentar. Nesse caso, podemos representar ter alergia alimentar como “sucesso” ( e não ter S
T
alergia alimentar como “fracasso” ( ). Ao sortear uma pessoa da população, a probabilidade A
T
dessa pessoa ter alergia alimentar é , enquanto a probabilidade de a pessoa não Í
S
ter alergia é de . Essas duas equações descrevem a distribuição T
de probabilidades da variável aleatória alergia alimentar. I
C
A

No entanto, podemos estar interessados em determinar a distribuição de probabilidades A


P
para situações mais complexas, por exemplo, podemos nos perguntar qual a probabilidade L
I
de sortear duas pessoas da população e ambas apresentarem alergia alimentar. Para isso, C
precisamos determinar todas as possíveis combinações entre alérgicos e não alérgicos a partir A
D
do sorteio de duas pessoas da população, conforme apresentado na Tabela 8. A
À

B
I
O
L
O
G
I
A
44 TÓPICO 2 UNIDADE 1

TABELA 8 - DISTRIBUIÇÃO DE PROBABILIDADES DE ALÉRGICOS AO SORTEAR DUAS


PESSOAS DA POPULAÇÃO. A PREVALÊNCIA DE PESSOAS ALÉRGICAS NA
POPULAÇÃO É DE 30% ( )

FONTE: Adaptado de Vieira (2011)

A partir da combinação de todas as possibilidades entre alérgicos e não alérgicos e


do cálculo da probabilidade das combinações (Tabela 8), chegamos ao resultado de que a
probabilidade de sortear duas pessoas da população e ambas serem alérgicas é de 0,09 ou 9%.
A distribuição de probabilidades de alérgicos ao sortear duas pessoas da população também
pode ser representada graficamente.

GRÁFICO 4 - DISTRIBUIÇÃO DE PROBABILIDADES DE ALÉRGICOS AO SORTEAR


DUASPESSOAS DA POPULAÇÃO

E
S
T
A
T
Í
S
T
I
C
A

A
P
L
I
C
A
D
A FONTE: A autora

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 2 45

A distribuição de probabilidades para variáveis aleatórias binárias pode ser calculada


pela equação:

Nesta equação, representa a probabilidade de sucesso, é a probabilidade de fracasso,


é o número de sucesso e representa o número de tentativas. O termo indica fatorial de um
número. Por exemplo, fatorial do número quatro é . O fatorial de .

Observe o exemplo prático. Vamos calcular a distribuição de probabilidades de alérgicos


quando amostramos ao acaso cinco pessoas da população. Portanto, e varia entre 0
e 5. Quando , ou seja, dentre as cinco pessoas sorteadas nenhuma for alérgica, teremos
a seguinte probabilidade:

Da mesma forma podemos calcular as probabilidades para , , e


x = 5. A distribuição de probabilidades de alérgicos ao sortear cinco pessoas da população é
apresentada no gráfico a seguir. No diagrama de frequência de probabilidades, as áreas de
todas as barras somam 100%.

GRÁFICO 5 - DISTRIBUIÇÃO DE PROBABILIDADES DE ALÉRGICOS AO SORTEAR CINCO


PESSOAS DA POPULAÇÃO
E
S
T
A
T
Í
S
T
I
C
A

A
P
L
I
C
A
D
A
FONTE: A autora À

B
I
O
L
O
G
I
A
46 TÓPICO 2 UNIDADE 1

A distribuição binomial de uma variável aleatória pode ser determinada se dois


parâmetros forem fornecidos: i) que é o número de tentativas (por exemplo, o sorteio de 10
pessoas da população); ii) que é a probabilidade de sucesso em uma tentativa (VIEIRA, 2011).

A distribuição binomial assume que existe um número fixo de tentativas , e cada


tentativa resulta em um de dois valores possíveis (PAGANO; GAUVREAU, 2013). Os resultados
de tentativas são independentes e a probabilidade de é constante em todas as tentativas
(PAGANO; GAUVREAU, 2013).

A média de uma distribuição binomial é dada por (VIEIRA, 2011). Enquanto a


variância é obtida por (VIEIRA, 2011). Note que a média e a variância são parâmetros
da população, e por isso são representadas por e , respectivamente.

Para calcular a média e a variância de uma distribuição binomial, vamos voltar ao


exemplo da população que apresenta prevalência de alérgicos de 30% ( ). Imagine que
você gostaria de saber quantas pessoas em média têm alergia alimentar considerando uma
amostra de 100 pessoas ( ). Neste caso, a média é , ou seja, ao
amostrar 100 pessoas, em média 30 apresentam alergia alimentar. A variância para este caso
é .

2.2 DISTRIBUIÇÃO NORMAL

E
S Você já estudou como representar a distribuição de frequências de variáveis contínuas
T
A em forma de histograma. No Gráfico 2 você pôde ver um histograma para a distribuição de
T
Í
frequências de notas da primeira avaliação de estatística de 50 acadêmicos de Ciências
S Biológicas da UNIASSELVI.
T
I
C
A Outro histograma de frequências, mas para dados reais, é apresentado no Gráfico 6.
A São dados referentes ao peso de 216.682 recém-nascidos vivos na cidade de São Paulo no
P
L ano de 1998 (dados provenientes de MONTEIRO; BENICIO; ORTIZ, 2000). A amostragem do
I peso dos recém-nascidos pode ser considerada um censo, pois todos os recém-nascidos da
C
A cidade de São Paulo em 1998 foram incluídos na amostra.
D
A

À Note que nos dois histogramas mencionados existe uma maior frequência de
B observações para os valores centrais, enquanto valores mais extremos são menos frequentes.
I
O
Muitas variáveis estudadas na biologia apresentam esse tipo de distribuição de frequências,
L que é muito parecida com uma distribuição de probabilidades teórica chamada de distribuição
O
G normal.
I
A
UNIDADE 1 TÓPICO 2 47

A distribuição normal também pode ser denominada de distribuição Gaussiana ou curva


em forma de sino, e sua representação teórica é apresentada no Gráfico 7. Apesar de nenhuma
distribuição de frequências de dados empíricos ter todas as propriedades de uma distribuição
normal, a tendência de uma variável apresentar distribuição normal permite resolver várias
questões em estatística (VIEIRA, 2011), como veremos nas próximas unidades desse caderno.

GRÁFICO 6 - DISTRIBUIÇÃO DE FREQUÊNCIAS DO PESO DE 216.682


NASCIDOS VIVOS NO ANO DE 1998 NA CIDADE DE SÃO PAULO

FONTE: Adaptado de Monteiro, Benicio e Ortiz (2000)

2.2.1 Características da distribuição normal

E
S
A distribuição normal tem a forma de um sino ou montanha, o Gráfico 6 traz a T
A
demonstração. Ela representa uma população infinita, ou seja, os valores no eixo x podem T
variar desde infinito negativo ( ) até o infinito positivo ( ) (CALLEGARI-JACQUES, Í
S
2003). Portanto, a curva nunca toca o eixo x e as caudas da curva são abertas (CALLEGARI- T
I
JACQUES, 2003). O eixo y não mostra a proporção de observações por classes como nos C
A
outros histogramas que vimos até agora, pois é impossível calcular a proporção de observações
A
sobre uma quantidade infinita (VIEIRA, 2011). No entanto, a curva abrange toda a população P
em estudo, e assim, a área total sob a curva vale 1% ou 100% (CALLEGARI-JACQUES, 2003; L
I
VIEIRA, 2011). C
A
D
A
A distribuição normal pode ser determinada quando dois parâmetros de uma variável
À
são fornecidos: a média ( ) e o desvio padrão ( ) (CALLEGARI-JACQUES, 2003; VIEIRA,
B
2011), que são calculados conforme as equações que você já estudou no item sobre Estatística I
O
Descritiva. A probabilidade de observar um valor qualquer da variável estudada pode ser L
O
calculada pela equação: G
I
A
48 TÓPICO 2 UNIDADE 1

Na equação, é um valor da variável para o qual se quer calcular a probabilidade,


é pi (3,14...), é exponencial na base do logaritmo natural, é a média e é o desvio padrão.

GRÁFICO 7 - REPRESENTAÇÃO DE UMA CURVA DE DISTRIBUIÇÃO NORMAL


TEÓRICA

FONTE: A autora

Na distribuição normal, as medidas de tendência central média, mediana e moda


coincidem e estão no centro da distribuição (CALLEGARI-JACQUES, 2003; VIEIRA, 2011).
A curva é simétrica em torno da média, ou seja, o intervalo entre a média e o infinito positivo
abrange 50% da população, enquanto o intervalo entre a média e o infinito negativo abriga os
outros 50% da população (CALLEGARI-JACQUES, 2003; VIEIRA, 2011). A curva de distribuição
normal tem dois pontos de inflexão, que correspondem à distância de um desvio padrão positivo
E ( ) e um desvio padrão negativo ( ) em relação à média (CALLEGARI-JACQUES, 2003).
S
T
A
T É importante ressaltar que a distribuição normal representa a probabilidade (indicada
Í
S
no eixo y do diagrama) de observar os diferentes valores de uma variável (indicados no
T eixo x). Pelo formato da curva, valores próximos à média têm maior probabilidade de serem
I
C observados. Já para valores mais extremos no eixo x, ou seja, mais distantes da média, a
A
probabilidade de observação diminui.
A
P
L
I Sabendo que a área total sob a curva corresponde a 100% da população e que a curva
C
A
é simétrica, é possível estabelecer algumas relações entre a área sob a curva e o desvio padrão
D (CALLEGARI-JACQUES, 2003; VIEIRA, 2011):
A

À
i) A área sob a curva entre a média ( ) e um desvio padrão ( ) equivale a 34,13% da
B
I população. Como a curva é simétrica, 68,26% da área sob a curva estão entre e ,
O
L
o que corresponde a aproximadamente 2/3 da população.
O
G
I ii) A área sob a curva entre e é equivalente a 95,44% da população. O
A
UNIDADE 1 TÓPICO 2 49

ponto no eixo x correspondente a até o infinito positivo representa 2,28% da população.


Como a curva é simétrica, até o infinito negativo também equivale a 2,28%.

iii) A área sob a curva entre e representa 99,74% da população. O ponto


no eixo x que corresponde a até o infinito positivo equivale a 0,13%, da mesma forma,
até o infinito negativo vale 0,13%.

O gráfico a seguir demonstra a proporção da área sob a curva de distribuição normal


correspondente a: A) e ; B) e ; C) e ( média e
desvio padrão).

GRÁFICO 8 - PROPORÇÃO DA ÁREA SOB A CURVA DE DISTRIBUIÇÃO NORMAL

E
S
T
A
T
Í
S
T
I
C
A

A
P
L
I
C
A
D
A
À

B
I
O
L
O
G
I
A
FONTE: A autora
50 TÓPICO 2 UNIDADE 1

Vamos exemplificar essas relações entre a área sob a curva e o desvio padrão a
partir dos dados de peso de recém-nascidos vivos da cidade de São Paulo no ano de 1998.
Como vimos no Gráfico 6, essa variável apresenta uma distribuição de frequências muito
próxima à distribuição normal. Conhecendo o peso médio ( 3161 g, aqui representado por
, o parâmetro populacional, pois temos um censo) e o desvio padrão ( 540 g), podemos
estabelecer que:

i) Aproximadamente 2/3 (68,26%) dos recém-nascidos pesam entre


2621 g e 3701 g.

ii) A probabilidade de que um recém-nascido pese entre 3161 g e 3701 g é de 34,13%.

iii) Grande parte (95,44%) dos recém-nascidos pesa entre


2081 g e 4241 g.

iv) Quase todos (99,74%) os recém-nascidos pesam entre


1541 g e 4781 g.

Conclusões como as mencionadas para o peso dos recém-nascidos são válidas somente
se a variável estudada apresenta distribuição de frequências normal ou aproximadamente
normal (CALLEGARI-JACQUES, 2003; VIEIRA, 2011). Para variáveis com distribuição de
frequências diferente de uma distribuição normal, esse tipo de inferência não pode ser feito.

E
S 2.2.2 Distribuição normal padronizada
T
A
T
Í A distribuição normal padronizada, também denominada de distribuição normal reduzida,
S
T é uma distribuição normal que apresenta média igual a zero ( ) e desvio padrão de um
I
C ( ) (CALLEGARI-JACQUES, 2003; VIEIRA, 2011).
A

A
P Uma variável com distribuição normal padronizada é chamada de variável padronizada e
L
I
é indicada pela letra (VIEIRA, 2011). Podemos padronizar qualquer variável em variável ,
C desde que a variável tenha distribuição normal e tenha a média e o desvio padrão conhecidos
A
D (CALLEGARI-JACQUES, 2003; VIEIRA, 2011). A equação para fazer a transformação é dada
A
por:
À

B
I
Na equação, é um valor qualquer da variável , e são, respectivamente, a média
O e o desvio padrão da variável , e o valor obtido representa o valor padronizado.
L
O
G
I Essa padronização pode ser útil porque elimina a escala da variável original, o que
A
UNIDADE 1 TÓPICO 2 51

permite a comparação entre diferentes variáveis se todas estiverem padronizadas. Além disso,
cada valor tem uma área sob a curva correspondente, que representa a distância entre a
média ( ) e o valor .

A área sob a curva para cada valor é tabelada e pode ser consultada em uma tabela
chamada de Tabela de Distribuição Z (veja o Apêndice 1 no final do caderno). O corpo da
tabela mostra a área sob a curva correspondente a cada valor da cauda direita da curva, ou
seja, somente valores positivos de . A combinação entre a primeira coluna (valores inteiros
e decimais de ) e a primeira linha (valores centesimais) da tabela indicam os valores de
possíveis. Por exemplo, para achar a área sob a curva quando (ou seja, igual a um
desvio padrão), basta olhar o valor que está na 11ª linha e na 1ª coluna, que é igual a 0,3413.
Assim, a área sob a curva entre e é de 0,3413 (ou 34,13%). A área sob a curva de
um valor negativo é igual ao valor positivo de , pois a curva normal é simétrica. Portanto, a
área sob a curva entre e também é de 0,3413.

Voltando aos dados de peso dos recém-nascidos vivos na cidade de São Paulo em 1998
( ge g), podemos nos perguntar qual a probabilidade de um recém-nascido
pesar entre 2000 g e 4000 g? Vamos iniciar desenhando uma curva normal e indicando os
valores do peso médio e da área sob a curva que desejamos encontrar (o intervalo entre 2000
g e 4000 g). Na sequência, precisamos transformar os valores de peso (2000 g e 4000 g) em
valores de , pois assim será possível achar a área sob a curva correspondente ao intervalo
de peso 2000 g e 4000 g.

O valor equivalente ao peso de 2000 g é dado por:


. Note que o calculado é negativo, mas, como
E
já discutido, a área sob a curva de valores negativos de é igual aos valores positivos de . S
T
Portanto, a área sob a curva para é de 0,4842. A
T
Í
O valor equivalente ao peso de 4000 g é dado por: .A S
T
área sob a curva para é de 0,4394. I
C
A
Agora basta somar as áreas sob a curva encontradas e obter a probabilidade A
( ). Assim, temos que a probabilidade de um recém-nascido pesar P
L
entre 2000 g e 4000 g é de 92,36%. I
C
A
D
Podemos descobrir qual a probabilidade de um bebê nascer com mais de 4000 g. Já A

sabemos que a área sob a curva entre a média ( g) e o (que representa 4000 À

g) é de 0,4394. Agora queremos saber qual a área sob a curva que vai de até o infinito B
I
positivo. Sabendo que metade da curva normal vale 0,5 (ou 50%), basta subtrair do total da O
L
área sob a curva a porção que não nos interessa, ou seja, . Encontramos O
G
que a probabilidade de um recém-nascido pesar mais de 4000 g é de apenas 6,06%. I
A
52 TÓPICO 2 UNIDADE 1

O gráfico a seguir traz a representação da área sob a curva entre: 2000 g e 3161 g (
); 3161g e 4000 g ( ); 4000 g até o infinito positivo.

GRÁFICO 9 - REPRESENTAÇÃO DA ÁREA SOB A CURVA

FONTE: A autora

Também podemos calcular qual o peso de um recém-nascido que está a 1,5 desvios
padrão acima da média ( ). Para isso precisamos reorganizar a equação da distribuição
normal padronizada da seguinte forma: . Já sabemos que , e
. Agora basta substituir os valores na equação: , ou seja,
um recém-nascido com 3971 g pesa 1,5 desvios padrões a mais que a média.
E
S


T
!
A ROS
SFUTU
T UDO
EST
Í
S
T
I
C
A Caro acadêmico, o entendimento sobre distribuição normal
será fundamental para os próximos conteúdos deste caderno.
A Caso você não tenha entendido, por favor, volte e releia com
P
L calma. A distribuição normal é um dos principais requisitos
I para a maioria dos testes estatísticos que você irá estudar.
C
A
D
A

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 2 53

3 DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS

Você acabou de ver uma breve introdução sobre probabilidade e estudou dois dos
principais tipos de distribuição de probabilidades, a distribuição binomial e a distribuição
normal. Você estudou isso para poder calcular a probabilidade de um evento acontecer (por
exemplo, a probabilidade de um recém-nascido pesar mais de 4000 g), dada uma distribuição
de probabilidades com os parâmetros populacionais conhecidos. Como você também já viu,
dificilmente é possível amostrar toda a população e chegar aos parâmetros populacionais. Por
isso, os pesquisadores trabalham com amostras da população, que fornecem estimativas dos
parâmetros.

Para chegar a estimativas confiáveis de parâmetros populacionais (por exemplo, é


uma estimativa de , é uma estimativa de ), precisamos assegurar a representatividade
e completude amostral. A representatividade amostral diz respeito à seleção das unidades
amostrais que compõem a amostra. Uma amostra é representativa quando todas as unidades
amostrais da população tiveram a mesma chance de terem sido amostradas. Já a completude
amostral se refere ao tamanho amostral. O tamanho da amostra tem que ser grande o suficiente
para estimar os parâmetros populacionais. Conforme a Lei dos Grandes Números, quanto maior
o tamanho da amostra, melhor serão as estimativas dos parâmetros populacionais.

Podemos chegar a estimativas confiáveis garantindo a representatividade e completude


amostral. No entanto, ao trabalhar com amostras precisamos lidar com outro ponto importante:
as estimativas de um parâmetro (por exemplo, a média) obtidas a partir de amostras
E
independentes de uma mesma população variam (CALLEGARI-JACQUES, 2003; PAGANO; S
T
GAUVREAU, 2013). A
T
Í
S
Imagine que foram amostradas aleatoriamente 25 unidades amostrais de uma população T
I
qualquer e a partir dessa amostra foi calculada uma média ( ). As primeiras 25 unidades C
amostrais foram devolvidas à população. Na sequência, uma nova amostragem aleatória de A

25 unidades amostrais foi feita e gerou uma segunda média ( ). Você acha que os valores das A
P
médias e serão exatamente os mesmos? Certamente os valores das duas médias serão L
I
diferentes! Isso acontece porque existe variabilidade entre as unidades amostrais e estamos C
A
trabalhando apenas com parte das unidades amostrais da população (PAGANO; GAUVREAU, D
2013). Cada amostra foi composta por unidades amostrais diferentes, portanto, os valores A
À
obtidos para e também serão diferentes.
B
I
Sabendo que estimativas variam, é importante determinar qual a variabilidade associada O
L
à estimativa de um parâmetro. Quando a estimativa é a média, sua variabilidade pode ser O
G
observada a partir da distribuição amostral das médias. I
A
54 TÓPICO 2 UNIDADE 1

Imagine uma população hipotética de quatro valores apenas: 5, 10, 15 e 20. A média
para esses valores é (usamos porque é um parâmetro da população). Imagine
também que você retirou diferentes amostras aleatórias dessa população, todas compostas
por dois valores. Em cada retirada, antes de tirar o segundo valor, o primeiro valor foi reposto
à população. Para cada amostra foi calculada uma média a partir dos dois valores, essa média
é uma estimativa da média populacional. Pela combinação dos valores foi possível obter 16
amostras diferentes, que apresentaram sete médias distintas. Na Tabela 9 você pode ver a
frequência em que cada média foi observada. Essa tabela representa uma distribuição amostral
das médias.

Observe na Tabela 9 que médias amostrais iguais ou próximas da média populacional


( ) são mais frequentes, enquanto médias amostrais com valores extremos (por exemplo,
ou ) são menos frequentes. A distribuição amostral das médias da Tabela 9 segue
uma distribuição normal. No entanto, a distribuição de frequências da população original é
uniforme, ou seja, todos os valores apresentam a mesma frequência de observações (frequência
de 0,25).

TABELA 9 - DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS A PARTIR DE AMOSTRAS COMPOSTAS


POR DOIS VALORES RETIRADOS ALEATORIAMENTE DA POPULAÇÃO ( 5, 10, 15 E
20)

Média Número de observações Porcentagem de observações


5,0 1 6,25
7,5 2 12,50
10,0 3 18,75
E 12,5 4 25,00
S
T 15,0 3 18,75
A 17,5 2 12,50
T
Í 20,0 1 6,25
S Total 16 100,00
T
I FONTE: Adaptado de Callegari-Jacques (2003)
C
A

A
P Os gráficos a seguir demonstram: A) distribuição amostral das médias a partir de
L
I amostras compostas por dois valores retirados aleatoriamente da população ( 5, 10, 15 e
C
A 20). B) distribuição de frequências da população original.
D
A

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 2 55

GRÁFICO 10 - DISTRIBUIÇÕES

FONTE: Adaptado de Callegari-Jacques (2003)

Essa diferença entre as distribuições de frequências das médias amostrais e da


população original é uma das principais características da distribuição amostral das médias
(CALLEGARI-JACQUES, 2003). Essa propriedade é garantida pelo Teorema do Limite Central,
que diz que médias obtidas de amostras grandes, independentes, de tamanho igual e retiradas
aleatoriamente de uma população apresentam distribuição normal, não importando qual é a
distribuição de frequências da população original (CALLEGARI-JACQUES, 2003).

Normalmente nós não amostramos uma mesma população várias vezes para construir
uma distribuição amostral das médias. No entanto, esse conhecimento é fundamental, pois
ao obter uma amostra de maneira aleatória e suficientemente grande, podemos assumir que
a média amostral segue uma distribuição normal. Assim, temos maior segurança ao estimar a
média populacional a partir da média amostral, pois sabemos que o valor da média amostral
obtido tem grande chance de estar próximo do valor da média populacional.

E
A distribuição amostral das médias, como toda distribuição normal, tem o centro em S
T
(a média populacional) (CALLEGARI-JACQUES, 2003). A variabilidade que as médias A
T
amostrais podem apresentar é descrita pelo erro padrão da média, que é representado por Í
S
(CALLEGARI-JACQUES, 2003). O erro padrão da média pode ser estimado a partir do T
desvio padrão da amostra e tamanho amostral, conforme a equação: I
C
A

Na equação, a estimativa do erro padrão da média ( ) é dada pela razão entre o A


P
desvio padrão da amostra ( ) e a raiz quadrada do tamanho da amostra ( ). L
I
C
A
Para o exemplo da população hipotética de quatro valores (5, 10, 15 e 20), uma das D
possíveis combinações de dois valores é amostra 10 e 15. Essa amostra apresenta A
À
e . Substituídos os valores na equação, temos:
B
I
A estimativa do erro padrão da média para a amostra 10 e 15 é 2,5. O
L
O
G
O erro padrão da média também pode ser interpretado como uma medida de variação I
A
56 TÓPICO 2 UNIDADE 1

da média se uma nova amostra aleatória e independe fosse tomada da população, ou seja, se
o estudo fosse repetido, como as estimativas da média poderiam variar.

O erro padrão da média apresentado acima é uma estimativa. O erro padrão da média
da população é obtido somente quando todas as possíveis médias amostrais são conhecidas,
ou seja, quando temos uma distribuição amostral das médias (CALLEGARI-JACQUES, 2003).
Raramente fazemos várias amostras independentes da mesma população, por isso precisamos
trabalhar com uma estimativa do erro padrão da média. Sempre melhoramos a estimativa
do erro padrão da média aumentando o tamanho amostral, conforme previsto pela Lei dos
Grandes Números.

Como você viu, a estimativa do erro padrão da média é composta pelo desvio padrão
da amostra, ou seja, a variação natural que as unidades amostrais apresentam. Sempre que
o desvio padrão da amostra for grande, também teremos um erro padrão da média grande
(PAGANO; GAUVREAU, 2013). Uma maneira de diminuir o erro padrão da média é aumentar
o tamanho amostral (PAGANO; GAUVREAU, 2013).


!
ROS
SFUTU
EST UDO

Caro acadêmico, o conhecimento sobre erro padrão da


média é fundamental, pois vários testes estatísticos que
estudaremos nas próximas unidades utilizam a média
amostral para chegar a inferências sobre a população.
E Como a média amostral varia conforme conjunto de
S unidades amostrais que compõem a amostra, precisamos
T ter uma medida de variação associada à média amostral,
A
T
que é o erro padrão da média.
Í
S
T
I
C
A

A
P
L
I
C
A
D
A

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 2 57

RESUMO DO TÓPICO 2

Neste tópico, você aprendeu que:

• A probabilidade mede a chance de eventos acontecerem. A probabilidade de um evento pode


ser calculada usando a regra da soma ou a regra do produto.

• A distribuição binomial é uma distribuição de probabilidades teórica usada para variáveis


aleatórias binárias. Pode ser determinada quando (número de tentativas) e (probabilidade
de sucesso em uma tentativa) são conhecidos.

• A distribuição binomial assume que existe um número fixo de tentativas e cada tentativa
resulta em um de dois eventos possíveis. Os resultados de tentativas são independentes e
a probabilidade de é constante em todas as tentativas.

• A média de uma distribuição binomial é dada por e a variância, por .

• A distribuição normal tem a forma de um sino. Representa uma população infinita, ou seja, os
valores no eixo x variam do até o . Pode ser determinada quando e são conhecidos.
A média, mediana e moda coincidem e estão no centro da distribuição.

• Área sob a curva vale 1% ou 100%. Como a curva é simétrica em torno da média, o intervalo
E
entre abrange 50% da área sob a curva e abriga os outros 50% da área. S
T
A
T
• A distribuição normal padronizada é uma distribuição normal com e . Í
S
T
I
• Variável é uma variável com distribuição normal padronizada. Qualquer variável pode ser C
transformada em variável , desde que tenha distribuição normal, e conhecidos. A

A
P
• Cada valor tem uma área sob a curva correspondente, que representa a distância entre L
I
e o valor , que pode ser consultada na Tabela de Distribuição Z. C
A
D
• Uma amostra é representativa quando todas as unidades amostrais da população tiveram A
À
a mesma chance de terem sido amostradas. Já a completude amostral se refere ao tamanho
B
amostral. I
O
L
• Estimativas de um parâmetro obtidas a partir de amostras independentes de uma mesma O
G
população variam. Para a média, essa variação pode ser representada pela distribuição amostral I
A
58 TÓPICO 2 UNIDADE 1

das médias.

• Teorema do Limite Central diz que médias obtidas de amostras grandes, independentes, de
tamanho igual e retiradas aleatoriamente de uma população, apresentam distribuição normal,
não importando qual é a distribuição de frequências da população original.

• A variabilidade que as médias amostrais podem apresentar é descrita pelo erro padrão da
média ( ). O erro padrão da média é estimado pela razão entre o desvio padrão da amostra
( ) e a raiz quadrada do tamanho da amostra ( ).

• Quando o desvio padrão da amostra é grande, o erro padrão da média também é grande.
Uma maneira de diminuir o erro padrão da média é aumentar o tamanho amostral.

E
S
T
A
T
Í
S
T
I
C
A

A
P
L
I
C
A
D
A

B
I
O
L
O
G
I
A
UNIDADE 1 TÓPICO 2 59


IDADE
ATIV
AUTO

Caro acadêmico! Para fixar melhor o conteúdo estudado, vamos exercitar um pouco.
Leia as questões a seguir e responda-as em seu caderno de estudos. Bom trabalho!

1 Um pesquisador montou um experimento para testar hipóteses relacionadas à


competição. O experimento é composto por vários tanques e, em cada tanque, o
pesquisador colocou três espécies de peixes em diferentes densidades. Sabendo
que o primeiro tanque (T1) possui 10 indivíduos da espécie 1 (Sp1), 15 indivíduos da
espécie 2 (Sp2) e 25 indivíduos da espécie 3 (Sp3) e o segundo tanque (T2) tem 15
indivíduos da Sp1, 25 indivíduos da Sp2 e 10 indivíduos da Sp3, responda:

a) Se o pesquisador retirar um peixe por sorteio de cada tanque, qual a probabilidade


do peixe de cada tanque pertencer à Sp1?
b) Se o pesquisador retirar um peixe por sorteio de cada tanque, qual a probabilidade
do peixe de cada tanque pertencer à Sp1 ou à Sp2?
c) Se o pesquisador retirar dois peixes por sorteio de cada tanque, sem reposição
do primeiro peixe sorteado, qual a probabilidade dos dois peixes de cada tanque
pertencerem à Sp3?
d) Se o pesquisador retirar dois peixes por sorteio de cada tanque, com reposição
do primeiro peixe sorteado, qual a probabilidade dos dois peixes de cada tanque
pertencerem à Sp2? E
S
T
A
2 A osteoporose é uma doença diagnosticada por um exame que mede a densidade T
Í
mineral óssea (g/cm2). Com base em uma grande amostra, a Organização Mundial da S
T
Saúde estabeleceu que pessoas com densidade mineral óssea abaixo de 2,5 desvios I
C
padrão em relação à média (µ - 2,5 σ) apresentam osteoporose. Imagine que para a A
coluna lombar a densidade mineral óssea média é igual a 1,06 g/cm2 e o desvio padrão
A
é de 0,2 g/cm2. A partir de que valor de densidade mineral óssea na coluna lombar P
L
uma pessoa é diagnosticada com osteoporose? Para responder essa questão utilize I
C
a equação da distribuição normal padronizada. A
D
A
3 Um pesquisador estava estudando a riqueza de anfíbios na restinga de Santa Catarina À

e decidiu registrar a riqueza de espécies de anfíbios em dez cidades do Estado que B


I
apresentam restinga. As dez cidades foram escolhidas aleatoriamente por um sorteio. O
L
A partir de sua amostragem, o pesquisador observou que a riqueza média de anfíbios
O
foi de 45 espécies e o desvio padrão foi de cinco espécies. A partir das informações G
I
fornecidas, calcule o erro padrão da média. O que o erro padrão da média nos diz em A

relação à riqueza de anfíbios na restinga?


60 TÓPICO 2 UNIDADE 1

E
S
T
A
T
Í
S
T
I
C
A

A
P
L
I
C
A
D
A

B
I
O
L
O
G
I
A
UNIDADE 1

TÓPICO 3

TESTE DE HIPÓTESES

1 INTRODUÇÃO

Todo estudo científico tem uma pergunta norteadora. Para tentar responder às perguntas,
o pesquisador inicia estabelecendo afirmações que serão investigadas (CALLEGARI-JACQUES,
2003). Essas afirmações são denominadas de hipóteses. Depois de definir a pergunta e as
hipóteses de trabalho, o pesquisador monta um delineamento amostral e coleta dados. Os dados
representam evidências que podem suportar ou refutar as hipóteses. Por isso, o pesquisador
precisa avaliar os dados coletados para saber se eles fornecem evidências que suportam ou
não determinada hipótese. Como geralmente os dados são provenientes de amostras, a decisão
sobre uma hipótese sempre tem uma probabilidade de erro. Assim, o pesquisador também
precisa medir o tamanho do erro associado à decisão em relação a cada hipótese.
E
S
T
A
T
Í
2 TESTE DE HIPÓTESES S
T
I
C
O teste de hipóteses, também chamado de teste de significância, é o procedimento A

estatístico formal que permite testar diferentes hipóteses (SALSBURG, 2009). Um teste de A
P
hipóteses compreende várias etapas e a primeira delas é estabelecer as hipóteses a serem L
I
testadas. De acordo com a pergunta de trabalho, o pesquisador define dois tipos diferentes C
A
de hipóteses: uma é a hipótese nula e a outra é a hipótese alternativa. A partir de agora você D
vai estudar o que são esses tipos de hipótese, bem como as demais etapas de um teste de A
À
hipóteses.
B
I
O
L
O
G
I
A
62 TÓPICO 3 UNIDADE 1

2.1 HIPÓTESE NULA

A hipótese nula (H0) é a primeira hipótese a ser formulada e é a explicação mais simples
possível para a variação observada nos dados (GOTELLI; ELLISON, 2011). Na hipótese nula a
variação dos dados é atribuída inteiramente à aleatoriedade ou a erros de medidas (GOTELLI;
ELLISON, 2011). Ela estabelece a ausência de padrão, como, por exemplo: não há relação
entre as variáveis estudadas; o fenômeno estudado não possui efeito; o tratamento não exerce
influência; não há diferença entre os grupos; o processo biológico não existe; os dados não
diferem da expectativa ao acaso (GOTELLI; ELLISON, 2011).

Um pesquisador coleta dados para juntar evidências que refutem a hipótese nula, pois
geralmente o interesse da pesquisa está na hipótese alternativa. A partir de um teste estatístico
é possível avaliar se os dados fornecem evidências a favor ou contrárias à hipótese nula. Essa
avaliação serve de base para a tomada de decisão de aceitar ou rejeitar a hipótese nula, ou
seja, decidir se a melhor explicação para a variação nos dados é a hipótese nula.

Vamos exemplificar o que é uma hipótese nula. Imagine que você gostaria de saber se
araucárias de reflorestamentos, como as da Figura 1, produzem mais pinhas por árvore que
as araucárias de fragmentos florestais naturais. Neste caso, a hipótese nula seria que não
existe diferença na produção de pinhas entre araucárias de reflorestamentos e araucárias de
fragmentos florestais naturais.

E
S
T
A
T
Í 2.2 HIPÓTESE ALTERNATIVA
S
T
I
C A hipótese alternativa (H1) é formulada após a hipótese nula. Representa a negação
A
lógica da hipótese nula (CALLEGARI-JACQUES, 2003). Na hipótese alternativa a variação
A
P observada nos dados é atribuída a algum fator. Ela estabelece a existência de um padrão,
L
I como, por exemplo: há relação entre as variáveis estudadas; o fenômeno estudado possui
C
A
efeito; o tratamento exerce influência; há diferença entre os grupos; o processo biológico existe;
D os dados diferem da expectativa ao acaso (GOTELLI; ELLISON, 2011).
A

À
Geralmente, a hipótese alternativa é a hipótese de interesse em uma pesquisa científica,
B
I no entanto, os dados são coletados para suportar ou rejeitar a hipótese nula e, portanto, a
O
L
inferência estatística sempre está relacionada à hipótese nula. Um pesquisador não pode
O aceitar ou rejeitar a hipótese alternativa, somente a hipótese nula.
G
I
A
UNIDADE 1 TÓPICO 3 63

Para o exemplo da produção de pinhas por araucárias de reflorestamentos e de


fragmentos florestais naturais, a hipótese alternativa seria que existe diferença na produção
de pinhas entre araucárias de reflorestamentos e araucárias de fragmentos florestais. Esta
hipótese alternativa não sugere se a produção de pinhas é maior em reflorestamentos ou em
fragmentos florestais, ela apenas considera a existência de diferença. Um teste de hipóteses
em que a hipótese alternativa não estabelece a priori uma expectativa da direção do padrão,
como no exemplo mencionado, é chamado de teste bilateral (CALLEGARI-JACQUES, 2003).

No entanto, podemos imaginar que as araucárias de reflorestamentos produzem mais


pinhas porque os proprietários dos reflorestamentos adubam o solo e irrigam as árvores,
enquanto araucárias em fragmentos florestais podem ter se estabelecido em solos pobres ou
com deficiência de água e, por isso, produzem menos pinhas. Neste caso, a hipótese alternativa
seria que araucárias de reflorestamentos produzem mais pinhas que araucárias de fragmentos
florestais naturais. Quando a hipótese alternativa estabelece a priori uma expectativa da direção
do padrão, como neste último exemplo, o teste de hipóteses é chamado de teste unilateral
(CALLEGARI-JACQUES, 2003).

2.3 P-VALOR

Após formular as hipóteses nula e alternativa, o próximo passo de um teste de hipóteses


é avaliar quanto os dados suportam ou não a hipótese nula. A avaliação dos dados acontece
por meio de um teste estatístico. Cada pergunta e hipótese de estudo tem um teste estatístico
E
específico, que fornece uma estatística do teste, ou seja, um valor numérico obtido a partir de S
T
cálculos estatísticos. Essa estatística do teste pode ser convertida em uma probabilidade, que A
T
é chamada de p-valor. Portanto, o p-valor é uma medida de probabilidade calculada a partir Í
S
dos dados observados. T
I
C
De acordo com Pagano e Gauvreau (2013), o p-valor indica quão provável seria obter A

uma amostra igual à que foi observada se a hipótese nula fosse verdadeira, ou seja, se o A
P
p-valor é baixo, isso significa que a probabilidade de encontrar um resultado igual ao que foi L
I
observado é baixa, se a hipótese nula fosse verdadeira. Nesses casos em que o p-valor é C
A
baixo, a hipótese nula é rejeitada. Já um p-valor alto significa que é muito provável encontrar D
o resultado observado se a hipótese nula fosse verdadeira, o que leva à aceitação da hipótese A
À
nula.
B
I
O p-valor é calculado com base em três coisas: o tamanho amostral ( ); a diferença O
L
entre as médias das amostras estudadas ( ); e nível de variação entre as unidades O
G
amostrais de cada amostra ( ). O p-valor diminui conforme aumenta o tamanho da amostra, I
A
64 TÓPICO 3 UNIDADE 1

pois a chance de a estimativa estar próxima do valor do parâmetro também aumenta, de acordo
com a Lei dos Grandes Números. O p-valor diminui ainda se a diferença entre as médias das
amostras for grande e se a variação entre as unidades amostrais de uma mesma amostra for
pequena (baixo ) (GOTELLI; ELLISON, 2011).

Vamos supor que um pesquisador avaliou se existe diferença na produção de pinhas


por araucárias de reflorestamentos e de fragmentos florestais naturais. Ele encontrou que as
araucárias de reflorestamentos produzem o dobro de pinhas em comparação às araucárias
de fragmentos florestais. O pesquisador também observou que essa diferença na produção de
pinhas tem a probabilidade de 1% de acontecer, caso a hipótese nula seja verdadeira (p-valor =
0,01), ou seja, essa diferença observada na produção de pinhas é pouco provável de acontecer
simplesmente por explicação do acaso. Possivelmente algum fator está influenciando para que
araucárias do reflorestamento produzam mais pinhas, como, por exemplo, a adubação do solo.

Outra interpretação para o p-valor de 0,01 é que se a hipótese nula for verdadeira
e o estudo for repetido 100 vezes, e em cada vez as unidades amostrais forem diferentes,
somente em uma das repetições será possível encontrar uma diferença igual ou maior que a
diferença observada na produção de pinhas. Já se a diferença na produção de pinhas entre
araucárias de reflorestamentos e de fragmentos florestais naturais fosse muito pequena, o
p-valor tenderia a ser mais alto, ou seja, a diferença na produção de pinhas observada teria
grande probabilidade de acontecer se a hipótese nula fosse verdadeira e, portanto, a diferença
na produção de pinhas poderia ser atribuída ao acaso.

E
S
T 2.4 NÍVEL CRÍTICO DE SIGNIFICÂNCIA
A
T
Í
S Quando o p-valor calculado é muito baixo, ou seja, a probabilidade de encontrar um
T
I resultado igual ao que foi observado se a hipótese nula fosse verdadeira é muito baixa, tendemos
C
A a rejeitar a hipótese nula. Já quando o p-valor é alto, ou seja, existe uma alta probabilidade de
A
encontrar um resultado igual ao observado se a hipótese nula fosse verdadeira, geralmente
P nos leva a aceitar a hipótese nula.
L
I
C
A Suponhamos agora que a probabilidade de encontrar uma diferença tão grande quanto
D
A à observada para a produção de pinhas entre araucárias de reflorestamentos e de fragmentos
À florestais é de 8% (p = 0,08), qual seria sua decisão em relação à hipótese nula? Você aceitaria

B
ou rejeitaria H0? Para tomar essa decisão é necessário definir um limite de p-valor a partir do
I qual a hipótese nula deveria ser rejeitada. Esse limite de p-valor é estabelecido pelo nível
O
L crítico de significância.
O
G
I
A O nível crítico de significância, representado por , é uma probabilidade a partir da
UNIDADE 1 TÓPICO 3 65

qual se rejeita ou se aceita a hipótese nula. A definição do nível crítico de significância é uma
das etapas do teste de hipóteses e deve ser feita antes do cálculo do p-valor. A definição do
nível crítico de significância é arbitrária e pode variar de acordo com os objetivos da pesquisa
e critérios do pesquisador, no entanto, trabalhos em Ciências Biológicas costumam usar um
, enquanto pesquisas na área da saúde utilizam um (CALLEGARI-JACQUES,
2003; GOTELLI; ELLISON, 2011).

Quando o p-valor calculado a partir dos dados é menor que o nível crítico de significância,
a tomada de decisão é rejeitar a hipótese nula. Já quando o p-valor calculado for maior que
o nível crítico de significância, a decisão é aceitar a hipótese nula. Veja a relação entre nível
crítico de significância e p-valor na Tabela 10.

TABELA 10 - RELAÇÃO ENTRE P-VALOR, NÍVEL CRÍTICO DE SIGNIFICÂNCIA ( ) E HIPÓTESE


NULA (H0)

FONTE: A autora

GRÁFICO 11 - INDICAÇÃO DA ÁREA SOB A CURVA DE REJEIÇÃO E


ACEITAÇÃO DA HIPÓTESE NULA (H0) QUANDO O NÍVEL CRÍTICO DE
SIGNIFICÂNCIA É DE 5% ( )
E
S
T
A
T
Í
S
T
I
C
A

A
P
L
I
FONTE: A autora C
A
D
A
À
O nível crítico de significância também pode ser interpretado como uma medida de erro B
em relação à tomada de decisão, em que se rejeita a hipótese nula quando ela é verdadeira (o I
O
que é chamado de Erro Tipo I, conforme você estudará a seguir) (GOTELLI; ELLISON, 2011). L
O
G
I
A
66 TÓPICO 3 UNIDADE 1

2.5 ETAPAS DE UM TESTE DE HIPÓTESES

Como vimos, um teste de hipóteses é o procedimento estatístico formal que permite


testar diferentes hipóteses. Um teste de hipóteses compreende as seguintes etapas:

1) Estabelecer as hipóteses nula e alternativa.


2) Definir o nível crítico de significância ( ).
3) Escolher o teste estatístico mais adequado de acordo com a pergunta de estudo.
4) Calcular a estatística do teste e o p-valor a partir dos dados coletados.
5) Comparar o p-valor com o nível crítico de significância preestabelecido.
6) Fazer a inferência estatística, ou seja, rejeitar ou aceitar a hipótese nula.

3 TIPOS DE ERROS

Quando aplicamos um teste de hipóteses, estamos trabalhando com dados limitados e


incompletos. A inferência estatística feita a partir desses dados apresenta um erro associado.
Caso fosse possível fazer um censo, teríamos acesso aos parâmetros populacionais e certeza
se a hipótese nula é falsa ou verdadeira, porém, isso geralmente é impossível em pesquisas
científicas, estamos sujeitos a cometer dois tipos de erros: erro Tipo I e erro Tipo II.

E
S
T
A
T 3.1 ERRO TIPO I
Í
S
T
I O erro Tipo I acontece quando rejeitamos incorretamente a hipótese nula quando
C
A deveríamos aceitá-la (Tabela 11) (CALLEGARI-JACQUES, 2003; GOTELLI; ELLISON, 2011),
A ou seja, atribuímos a variação nos dados a algum fator, quando na verdade essa variação
P
L é resultado apenas do acaso (GOTELLI; ELLISON, 2011). O erro Tipo I também pode ser
I
C chamado de falso positivo.
A
D
A A probabilidade de cometer o erro Tipo I é indicada pelo nível crítico de significância
À (CALLEGARI-JACQUES, 2003; GOTELLI; ELLISON, 2011). Por exemplo, para um
B , se a hipótese nula for verdadeira e o estudo for repetido 100 vezes, utilizando diferentes
I
O unidades amostrais em cada vez, em cinco das 100 repetições a decisão tomada em relação à
L
O
hipótese nula estará errada, ou seja, em cinco estudos a hipótese nula será rejeitada quando
G deveria ser aceita.
I
A
UNIDADE 1 TÓPICO 3 67

3.2 ERRO TIPO II

O erro Tipo II ocorre quando falhamos em rejeitar a hipótese nula quando deveríamos
rejeitá-la (Tabela 11) (CALLEGARI-JACQUES, 2003; GOTELLI; ELLISON, 2011), ou seja,
atribuímos a variação nos dados somente ao acaso, quando na verdade existe um padrão que
é explicado por algum outro fator (GOTELLI; ELLISON, 2011). O erro Tipo II pode ser chamado
de falso negativo. Por convenção é representado por .

TABELA 11 - RELAÇÃO ENTRE A HIPÓTESE NULA VERDADEIRA E A TOMADA DE DECISÃO


Tomada de decisão
Verdade
Não rejeitar H0 Rejeitar H0
Decisão correta Erro Tipo I
H0 é verdadeira
Probabilidade: Probabilidade:
Erro Tipo II Decisão correta
H0 é falsa
Probabilidade: Probabilidade:
FONTE: Adaptado de Callegari-Jacques (2003)

3.3 PODER DO TESTE

A probabilidade do erro Tipo II é representada por , que varia entre 0 e 1. O complemento


de , ou seja, , é denominado poder do teste (CALLEGARI-JACQUES, 2003; GOTELLI; E
S
ELLISON, 2011). Assim, o poder do teste pode ser interpretado como a probabilidade de rejeitar T
A
a hipótese nula quando ela é falsa, ou, em outras palavras, afirmar corretamente a existência de T
Í
um padrão quando ele realmente existe (CALLEGARI-JACQUES, 2003; GOTELLI; ELLISON, S
T
2011). I
C
A
Uma maneira de aumentar o poder do teste é elevar o nível crítico de significância (a)
A
(PAGANO; GAUVREAU, 2013). Quando o intervalo de é maior, a chance de se aceitar a P
L
hipótese nula quando ela é falsa diminui (a probabilidade de diminui). Se é menor, o poder I
C
do teste aumenta, pois é o complemento de ( ), no entanto, ao aumentar o , o risco em A
D
cometer o erro Tipo I também aumenta (rejeitar H0 verdadeira), ou seja, sempre que diminuímos A
a chance de cometer o erro Tipo II, a chance de cometer o erro Tipo I aumenta, e vice-versa, À
pois os erros são inversamente relacionados (GOTELLI; ELLISON, 2011). B
I
O
A única maneira de diminuir simultaneamente (erro Tipo I) e (erro Tipo II) é aumentar o L
O
tamanho da amostra e, em consequência, se aumenta o poder do teste (PAGANO; GAUVREAU, G
I
2013). A
68 TÓPICO 3 UNIDADE 1

IMPO
RTAN
TE!

O texto que você vai ler a seguir foi retirado do livro “Uma
senhora toma chá... como a estatística revolucionou a
ciência no século XX”, de David Salsburg. Este livro é uma
ótima sugestão para quem quer saber um pouco sobre a
vida e as contribuições dos cientistas responsáveis por
grandes avanços na estatística moderna e na pesquisa
científica. O livro é excelente e a leitura muito prazerosa!
A linguagem é acessível mesmo às pessoas sem muito
conhecimento estatístico ou matemático.

LEITURA COMPLEMENTAR

UMA SENHORA TOMA CHÁ...

Era uma tarde de verão em Cambridge, Inglaterra, no final dos anos 1920. Um grupo
de professores universitários, suas esposas e alguns convidados tomaram lugar a uma mesa
no jardim para o chá da tarde. Uma das mulheres insistia em afirmar que o chá servido sobre
o leite parecia ficar com gosto diferente do que apresentava ao receber o leite sobre ele. As
cabeças científicas dos homens zombaram do disparate. Qual seria a diferença? Não podiam
conceber diferença alguma na química da mistura. Um homem de estatura baixa, magro, de
óculos grossos e cavanhaque começando a ficar grisalho interessou-se pelo problema.
E
S
T
A
‘Vamos testar a proposição’, animou-se. Começou a esboçar um experimento no qual
T a senhora que insistira haver diferença seria servida com uma sequência de xícaras, algumas
Í
S com o leite servido sobre o chá, e outras com o chá servido sobre o leite.
T
I
C
A [...] alguns leitores podem menosprezar esse esforço como momento menor de uma
A conversa em tarde de verão. ‘Que diferença faz se a senhora consegue distinguir uma infusão
P da outra?’, perguntarão. ‘Nada existe de importante ou de grande mérito científico nesse
L
I problema’, argumentarão com desprezo. ‘Essas cabeças privilegiadas deveriam usar sua
C
A poderosa capacidade cerebral para algo que beneficiasse a humanidade’.
D
A

À [...] apesar do que os não cientistas possam pensar sobre a ciência e sua importância,

B
[...] a maioria dos cientistas se empenha em suas pesquisas porque está interessada nos
I resultados e porque obtém estímulo intelectual com suas tarefas. Raras vezes os bons cientistas
O
L pensam a respeito da importância de seu trabalho. Assim foi naquela ensolarada tarde em
O
G Cambridge. A senhora poderia ou não estar certa sobre o paladar do chá. A graça estava em
I
A encontrar um modo de afirmar se estava certa, e, sob a direção do homem de cavanhaque,
UNIDADE 1 TÓPICO 3 69

começaram a discutir como poderiam fazer isso.

Entusiasmados, vários deles se envolveram no experimento e em poucos minutos


estavam servindo diferentes padrões de infusão sem que a senhora os pudesse ver. Então,
com ar de objetividade, o homem de cavanhaque ofereceu-lhe a primeira xícara. Ela tomou
um pequeno gole e declarou que, naquela, o leite fora colocado sobre o chá. Ele anotou a
resposta sem comentários e lhe passou a segunda xícara... [...]

Testar se a senhora pode sentir o gosto diferente do chá

Vamos supor que queremos testar se a senhora pode detectar a diferença entre
uma xícara na qual o leite foi posto sobre o chá e outra em que o chá foi posto sobre o
leite. Apresentamos duas xícaras e informamos que uma delas é do primeiro e a outra é do
segundo. Ela as prova e identifica corretamente. Poderia ter adivinhado; tinha 50% de chance.
Apresentamos um segundo par, e novamente ela identifica corretamente. Se tivesse adivinhado,
a chance de isso acontecer duas vezes seguidas seria de 25%. Apresentamos um terceiro par
de xícaras, e outra vez ela identifica corretamente. A chance de isso acontecer como resultado
de pura adivinhação é de 12,5%. Apresentamos mais pares de xícaras, e ela as identifica
corretamente. Em algum instante, teremos que reconhecer que ela é capaz de perceber a
diferença. Suponhamos que ela erre em um par; suponhamos que erre no par 24, depois de
ter acertado todos os outros. Ainda assim podemos concluir que ela é capaz de detectar a
diferença? E se ela tiver errado em quatro dos 24 pares, ou cinco dos 24?

O teste de hipótese ou de significância é o procedimento estatístico formal que calcula


a probabilidade do que observamos, assumindo que a hipótese a ser testada é verdadeira.
E
Quando a probabilidade observada é muito baixa, concluímos que a hipótese não é verdadeira. S
T
Um aspecto importante é o fato de o teste de hipóteses fornecer uma ferramenta para rejeitar A
a hipótese. No caso mencionado, a hipótese rejeitada é a de que a senhora está meramente T
Í
adivinhando. S
T
I
FONTE: SALSBURG, D. Uma senhora toma chá... como a estatística revolucionou a ciência no C
século XX. Rio de Janeiro: Zahar, 2009, p. 288. A

A
P
ÃO! L
Ç
ATEN I
C
A
D
A

O homem de estatura baixa, magro, de óculos grossos À


e cavanhaque começando a ficar grisalho que o autor
B
menciona era Ronald Aylmer Fisher, um dos principais I
nomes da estatística. O
Para descobrir se a senhora realmente sentia o gosto L
O
diferente do chá ou se era só adivinhação, leia o livro! O
G
autor fornece a resposta no livro. I
A
70 TÓPICO 3 UNIDADE 1

RESUMO DO TÓPICO 3

Neste tópico, você aprendeu que:

• O teste de hipóteses é o procedimento estatístico formal que permite testar diferentes


hipóteses.

• Um teste de hipóteses compreende diferentes etapas: i) estabelecer as hipóteses nula e


alternativa; ii) definir o nível crítico de significância ( ); iii) escolher o teste estatístico mais
adequado; iv) calcular a estatística do teste e o p-valor; v) comparar o p-valor com o ; vi)
fazer a inferência estatística.

• A hipótese nula (H0) é a explicação mais simples possível para a variação observada nos
dados. Geralmente a variação nos dados é atribuída inteiramente à aleatoriedade ou a erros
de medidas.

• A hipótese alternativa (H1) é a negação lógica da hipótese nula. A variação observada nos
dados é atribuída a algum fator além do acaso.

• A inferência estatística sempre diz respeito à hipótese nula, portanto, podemos apenas rejeitar
ou aceitar a hipótese nula. A inferência nunca é em relação à hipótese alternativa.

E • Em um teste de hipótese bilateral não estabelecemos a priori uma expectativa da direção do


S
T padrão. Já em um teste unilateral existe uma expectativa da direção do padrão.
A
T
Í
S • O p-valor indica quão provável seria obter uma amostra igual à que foi observada se a hipótese
T
I nula fosse verdadeira. O p-valor é calculado a partir dos dados observados.
C
A
• O nível crítico de significância ( ) é uma probabilidade a partir da qual se rejeita ou se aceita
A
P a hipótese nula. A delimitação de é arbitrária, mas em Ciências Biológicas costumamos usar
L
I um .
C
A
D
A
• Um p-valor menor que leva à rejeição da hipótese nula. Já um p-valor maior que leva à
aceitação da hipótese nula.
À

B
I • O erro Tipo I acontece quando rejeitamos incorretamente a hipótese nula quando deveríamos
O
L aceitá-la. Já o erro Tipo II ocorre quando falhamos em rejeitar a hipótese nula quando deveríamos
O
G rejeitá-la.
I
A
• O poder do teste é o complemento de (erro Tipo II), ou seja, . É interpretado como a
probabilidade de rejeitar corretamente a hipótese nula quando ela é falsa.
UNIDADE 1 TÓPICO 3 71


IDADE
ATIV
AUTO

Caro acadêmico! Para fixar melhor o conteúdo estudado, vamos exercitar um


pouco. Leia as questões a seguir e responda-as em seu caderno de estudos. Bom
trabalho!

1 Para cada caso abaixo, formule a hipótese nula:

a) O comprimento e o peso das sementes de Bauhinia rufa (Bong.) Steud (Fabaceae)


diminuem no sentido base-ápice no fruto.

b) A heterozigosidade da espécie Nasua nasua (Mammalia: Procyonidae) aumenta com


a redução nos níveis de fragmentação da paisagem.

c) Há uma correlação positiva entre o teor de argila e o teor de matéria orgânica no


solo da Floresta Amazônica.

d) A riqueza de espécies da tribo neotropical Bignonieae (Bignoniaceae) é maior na


região equatorial e diminui em direção aos polos.

e) A riqueza de espécies arbustivas da Floresta Ombrófila Densa é maior no interior,


E
intermediária no meio e menor na borda dos fragmentos florestais. S
T
A
T
2 As sentenças abaixo relacionam p-valor, nível crítico de significância (a) e inferência Í
S
estatística. Identifique se as sentenças são verdadeiras ou falsas e corrija as falsas. T
I
C
( ) O p-valor calculado a partir dos dados foi maior que o valor de a preestabelecido, A

assim se aceita a hipótese nula. A


P
( ) O p-valor calculado a partir dos dados foi menor que o valor de a preestabelecido, L
I
assim se aceita a hipótese alternativa. C
A
( ) O p-valor obtido a partir dos dados foi menor que o valor de a preestabelecido, D
A
assim se rejeita a hipótese nula.
À
( ) O p-valor obtido a partir dos dados foi maior que o valor de a preestabelecido, assim
B
a hipótese alternativa não é verdadeira. I
O
L
O
G
I
A
72 TÓPICO 3 UNIDADE 1

3 Observe a figura a seguir. De acordo com o que você aprendeu sobre inferência
estatística e teste de hipóteses, quais seriam as hipóteses nula e alternativa
neste caso? Em quais das situações (a, b, c ou d) os médicos tomaram a decisão
correta em relação à hipótese nula (H0) e em quais casos os médicos cometeram
os erros Tipo I e Tipo II?

VOCÊ ESTÁ
GRÁVIDA

VOCÊ ESTÁ
GRÁVIDO

VOCÊ NÃO
ESTÁ GRÁVIDA

VOCÊ NÃO
ESTÁ GRÁVIDO

E
S
T
A
T
Í
S
T
I
C
FONTE: Adaptado de <http://flowingdata.com/2014/05/09/type-i-and-ii-errors-
A simplified/>. Acesso em: 20 jul. 2016.

A
P
L
I
C
A
D
A

B
I
O
L
O
G
I
A

Das könnte Ihnen auch gefallen