Beruflich Dokumente
Kultur Dokumente
A P O S T I L A 1: E S T A T I S T I C A D E S C R I T I V A
1
PREFCIO
Introduo
A palavra estatstica deriva da expresso status, em latim, e significa o estudo do estado. Foi pensada pelos
ingleses, no sculo XVI, como uma cincia poltica, destinada a descrever caractersticas de um estado ou pas,
tais como populao, rea, riqueza e recursos naturais (Laurenti et al. 1985), envolvendo compilaes de dados
e grficos. Em 1662, John Graunt publicou informes estatsticos sobre nascimentos e mortes. A partir da deuse incio ao desenvolvimento da probabilidade e estatstica, sobretudo a partir do sculo XVII, com o estudo das
grandes epidemias que assolavam o mundo, dando ensejo ao desenvolvimento da demografia. Em cada sculo
seguinte mais e mais reas foram se incorporando ao conjunto das que faziam uso da estatstica. Na ltima
dcada, com a grande revoluo da informtica, houve um avano significativo das reas de probabilidade e
estatstica, com o desenvolvimento de softwares mais poderosos, deixando disposio do pesquisador muitas
ferramentas alternativas ao seu trabalho (BOTTER, et alii, 1996)
Hoje em dia a maior parte das decises tomadas em quase todas as reas de atividade humana moderna
(por exemplo, avaliao de novos tratamentos mdicos e de novos terminais de atendimento bancrio, do
planejamento de pesquisas cientficas, de estratgias de marketing e investimento, para citar algumas) tm
suas bases na estatstica - definida, a grosso modo, como a coleta, anlise e interpretao de dados, ou de
forma mais ampla, como a cincia da tomada de deciso perante incertezas.
Como j foi dito anteriormente, a Estatstica engloba um grande leque de ferramentas de anlise. Com
finalidade didtica iremos dividir a estatstica em dois grandes grupos:
a) Estatstica Descritiva: Por conta da quantidade de dados geralmente ser to grande, extremamente
difcil captar intuitivamente as informaes que os dados contm. necessrio, portanto, que as informaes
sejam reduzidas at o ponto em que se possa interpret-las mais claramente. A estatstica descritiva vai
resumi-las atravs do uso de certas medidas-sntese, que tornem possvel a interpretao de resultados. No
sentido mais amplo, suas funes so:
coleta de dados;
organizao e classificao destes dados;
apresentao atravs de grficos e tabelas;
clculo de coeficientes (estatsticos), que permitem descrever resumidamente os fenmenos.
b) Indutiva ou Inferncia Estatstica : Consiste em obter e generalizar concluses; ou seja, inferir
propriedades para o todo com base na parte, no particular. tratada atravs de tcnicas e mtodos que se
fundamentam na Teoria das Probabilidades.
Em estatstica utilizaremos extensivamente os termos populao e amostra. Assim, definiremos esses
termos no contexto da estatstica:
Populao: conjunto da totalidade dos elementos (valores, pessoas, medidas) a serem estudados. Congrega todas as observaes que sejam relevantes para o estudo de uma ou mais caractersticas dos
indivduos. Podem ser tanto seres animados ou inanimados.
Amostra: um subconjunto de elementos extrados de uma populao.
Censo: uma coleo de dados relativos a todos os elementos de uma populao.
O esquema a seguir tenta sintetizar, com um exemplo, as etapas de uma pesquisa estatstica:
Populao
Amostra
Tratamento de dados
Inferncia estatstica
Estatstica descritiva
ESTATSTICA DESCRITIVA
2.1
A estatstica est envolvida em todas as etapas de um projeto de pesquisa. A seguir as fases de um trabalho
cientifco so citadas do ponto de vista do trabalho estatstico.
As fases do trabalho estatstico so do mbito da Estatstica Descritiva, e so as principais fases as
seguintes:
1. Definio do Problema: formulao completa do problema a ser estudado. Levantamento de outros
trabalhos realizados no mesmo campo e anlogos, uma vez que parte da informao de que se necessita
pode ser encontrado nestes ltimos.
2. Planejamento: determinao do procedimento necessrio para resolver o problema e, em especial, como
levantar informaes sobre o assunto objeto de estudo. Preocupao com a formulao correta das
perguntas, qualquer que seja a modalidade de coleta de dados. nesta fase que ser escolhido o
tipo de levantamento a ser utilizado, que pode ser censitrio ou por amostragem. Outros elementos
importantes a serem pr-estabelecidos desta fase so: o cronograma das atividades (fixao de prazo
para as vrias fases); os custos envolvidos; exame das informaes disponveis; o delineamento da amostra
(se necessria); a forma como sero escolhidos os dados; elaborao do questionrio.
3. Coleta de dados (quesitos especficos para obter informaes desejadas): refere-se obteno, reunio
e registro sistemtico de dados, com um objetivo determinado. Alm dos registros feitos pelo prprio
pesquisador, pode-se recorrer a fontes externas de dados.
4. Crtica dos questionrios: leitura dos questionrios, observao de respostas incompletas, erradas. Supresso de valores estranhos ao levantamento.
5. Apurao dos dados: consiste em resumir os dados, atravs de sua contagem e agrupamento. um
trabalho de condensao e de tabulao dos dados, que chegam ao analista de forma desorganizada,
tornando impossvel a tarefa de apreender todo o seu significado pela simples leitura. Nos dias atuais
esta apurao tornou-se sinnimo de organizao de base de dados, que realizada em computadores.
6. Apresentao dos Dados: h duas formas de apresentao:
4
(a) Apresentao Tabular: apresentao numrica dos dados. As tabelas tm a vantagem de conseguir
expor, sinteticamente, e em um s local, os resultados sobre determinado assunto, de modo a se
obter uma viso global mais rpida daquilo que se pretende analisar.
(b) Apresentao Grfica: constitui uma apresentao geomtrica. de extrema importncia, no
sentido de permitir uma viso rpida, fcil e clara do fenmeno e sua variao.
7. Anlise e Interpretao dos Dados: O interesse maior consiste em tirar concluses que auxiliem o
pesquisador a resolver seu problema. A analise dos dados estatsticos est ligada essencialmente ao
clculo de medidas, cuja finalidade principal descrever o fenmeno. Assim, o conjunto de dados
a ser analisado pode ser expresso por nmeros-resumos, as estatsticas, que evidenciam caractersticas
particulares desse conjunto. O significado exato de cada um desses valores ser explicado posteriormente.
2.2
CLASSIFICAO DE VARIVEIS
Definiremos varivel como qualquer atributo/caracterstica que exera influncia no fenmeno estudado. Por
exemplo, desejamos registrar a idade das pessoas ao morrer, a estatura ou peso dos indivduos, o rendimento
das famlias em uma grande cidade, o nmero de empregados dispensados, por ms, em uma grande empresa,
a distribuio dos alunos por sexo, etc.
Antes da escolha da anlise descritiva apropriada necessria a classificao da varivel de interesse, pois
a adequao da tcnica est diretamente relacionada ao tipo de varivel em questo.
De acordo com a estrutura numrica as variveis podem ser classificadas em:
Quantitativas - se os resultados das observaes sero expressos sempre atravs de nmeros, que representam contagens ou medidas. Ex: Idade, Altura, Peso, Nmero de nascidos vivos, Populao.
Qualitativas - se os resultados das observaes sero expressos atravs de categorias, que se distinguem
por alguma caracterstica no-numrica. Ex: Sexo, Nvel de escolaridade, Cor da pele, Estado civil,
Tipo sanguneo.
As variveis qualitativas podem ser classicadas, por sua vez, em:
1. Nominal - caracteriza-se por dados que consistem apenas em nomes, rtulos ou categorias. Os dados
no podem ser dispostos segundo um esquema ordenado. Ex: Estado civil
2. Ordinal - envolve dados que podem ser dispostos em alguma ordem, mas as diferenas entre os valores
dos dados no podem ser determinadas ou no tem sentido. Ex: Nvel de escolaridade.
Em relao s variveis quantitativas, estas podem ser classificadas em:
1. Discreta - s pode assumir valores pertencentes a um conjunto finito ou enumervel. Ex: Nmero de
alunos presentes s aulas de determinado professor; nmero de mortos em um surto de determinada
doena. Geralmente, seus valores so resultados de um processo de contagem, razo pela qual seus
valores so expressos atravs de nmeros inteiros no-negativos.
2. Contnua - pode assumir qualquer valor pertencente a um determinado intervalo do conjunto dos Reais.
Ex: Estatura e peso de atletas de um time de voley; temperatura mxima diria. Pode-se dizer que a
varivel contnua resulta normalmente de mensuraes.
2.3
Srie estatstica uma sucesso de dados estatsticos que medem a intensidade do fenmeno, segundo suas
caractersticas qualitativas ou quantitativas. As sries estatsticas sero classificadas de acordo com a variao
de trs elementos: tempo, local e o fato. So elas:
Srie Histrica - aquela em que o elemento que serve como base de classificao a frao do tempo,
como o dia, o ms, o ano, o sculo, etc.. Ex: : Taxa de mortalidade infantil nos ltimos 10 anos na
cidade do Salvador-Ba.
Srie Geogrfica - aquela que apresenta como elemento varivel somente o local (fator geogrfico).
Ex: A produo de cereais no Brasil, em 1996, segundo os Estados produtores.
Srie Especfica - aquela srie que apresenta como elemento ou carter varivel o fato(ou espcie), permanecendo fixos a poca e o local. Ex: Os alunos de uma Faculdade, em determinado ano, classificados
segundo o tipo sanguneo.
Srie Mista - refere-se s sries que so combinaes de outros tipos de sries j estudadas. Classificao
da populao brasileira segundo as Unidades da Federao e o sexo.
2.4
2.4.1
Aps a apurao, h a necessidade de os dados e os resultados obtidos a partir daqueles serem dispostos de
uma forma ordenada e resumida, a fim de auxiliar o pesquisador na anlise e facilitar a compreenso das
concluses apresentadas ao leitor. Os dados e os resultados so ento apresentados na forma de tabelas.
Uma tabela deve ser auto-suficiente, isto , deve ter significado prprio, de modo a prescindir, quando
isolada, de consultas ao texto. A elaborao de tabelas obedece Resoluo no 886, de 26 de outubro de 1966,
do Conselho Nacional de Estatstica.
Uma tabela possui elementos essenciais e complementares.
Os elementos essenciais so:
Ttulo - obrigatrio. Deve conter a designao do fato observado, o local e a poca em que foi
registrado. Deve ser claro e conciso. colocado na parte superior da tabela.
Corpo da tabela - o conjunto de colunas e linhas onde se encontram as informaes numricas sobre
o fato observado. Casa, clula ou cela - o cruzamento de cada linha com uma coluna, onde se tem a
frequncia com que a categoria aparece.
Cabealho - a parte superior da tabela, onde se especifica o contedo de cada coluna.
Coluna indicadora - a parte da tabela em que se especifica o contedo de cada linha.
Os elementos complementares so:
Fonte - a indicao da entidade responsvel pelo fornecimento ou elaborao dos dados. colocado
no rodap da tabela.
Notas - so colocadas abaixo da fonte, se necessrias. Contm informaes gerais destinadas a conceituar
ou esclarecer o contedo das tabelas.
Chamadas - tambm colocadas no rodap (se necessrias). Servem para esclarecer minncias em relao
s casas, colunas ou linhas.
DISTRIBUIO DE FREQUNCIA
As distribuies de frequncias constituem-se num caso particular das sries estatsticas, nas quais todos os
elementos so fixos. Agora os dados referentes ao fenmeno so apresentados atravs de gradaes, onde
feita a correspondncia entre categorias ou valores possveis e as frequncias respectivas.
A definio de alguns conceitos ser importante para o uso da linguagem apropriada ao elaborarmos
e analisarmos as distribuies de frequncias. No total, so 9 conceitos a serem apresentados. A seguir
definiremos 5 primeiros, vlidos para quaiquer distribuio de freqncias, e mais adiante apresentaremos os
4 ltimos, especficos para dados agrupados em classes.:
1. Dados Brutos - o conjunto dos dados numricos obtidos aps a coleta dos dados.
Ex: Idade dos alunos do curso de medicina veterinria da UFBA, no ano de 1993.
24 - 23 - 22 - 28 - 35 - 21 - 23 - 33 - 34 - 24 - 21 - 25 - 36 - 26 - 22 - 30 - 32 - 25 26 - 33 - 34 - 21 - 31 - 25 - 31 - 26 - 25 - 35 - 33 - 31
Como pode ser observado, os valores esto dispostos de forma desordenada. Em razo disso, pouca
informao se consegue obter inspecionando-se os dados anotados. Mesmo uma informao to simples
como a de saber os valores mnimos e mximo requer um certo exame dos dados coletados.
2. Rol - o arranjo dos dados brutos em uma determinada ordem crescente ou decrescente.
Ex: Utilizando os mesmos dados anteriores:
21 - 21 - 21 - 22 - 22 - 23 - 23 - 24 - 25 - 25 - 25 - 25 - 26 - 26 - 26 - 28 - 30 - 31 - 31 - 31 -32 - 33 - 33 33 - 34 - 34 - 34 - 35 - 35 - 36
Apresenta vantagens concretas em relao aos dados brutos. Ela torna possvel visualizar, de forma
bem ampla, as variaes dos dados, uma vez que os valores extremos so percebidos de imediato. Mas,
a anlise com este tipo de disposio comea a se complicar quando o nmero de observaes tende a
crescer.
3. Amplitude total ou range (A) - a diferena entre o maior e o menor valor observado da varivel
em estudo.
Ex: Utilizando os mesmos dados anteriores:
A = 36 - 21 = 15.
4. Frequncia absoluta simples (fi ) - o nmero de vezes que o elemento aparece na amostra ou o
nmero de elementos pertencentes a uma classe.
5. Frequncia total (ft ) - a soma das frequncias simples absolutas de todos os elementos observados.
Para condensarmos melhor os dados, aconselhvel a elaborao de distribuies de frequncia. Uma
tabela com distribuio de frequncia uma tabela onde se procura fazer um arranjo dos valores e suas
respectivas frequncias, onde a frequncia de determinado valor ser dado pelo nmero de observaes ou
repeties de um valor ou de uma modalidade. As tabelas de frequncias podem representar tanto valores
individuais como valores agrupados em classes.
Essas tabelas podem ser classificadas em:
Distribuio de Frequncias de Dados Tabulados No-Agrupados em Classes - uma tabela
onde os valores da varivel aparecem individualmente. Esse tipo de distribuio utilizado geralmente
para representar uma varivel discreta, com pouca variedade de valores.
Exemplo : Utilizando os mesmos dados anteriores, a tabela a seguir representa a distribuio de frequncias
de dados no agrupados.
Tabela 1: Idade dos alunos do curso de medicina veterinria da UFBA, no ano de 1993.
Idade (Xi )
fi
21
3
22
2
23
2
24
1
25
4
26
3
28
1
30
1
31
3
32
1
33
3
34
3
35
2
36
1
TOTAL (fi )
30
Fonte: (dados hipotticos)
Este tipo de tabela no aconselhvel quando estamos trabalhando com variveis que apresentam uma
grande quantidade de valores distintos, uma vez que a tabela poder ficar muito extensa, dificultando, alm
de sua elaborao, as anlises e concluses dos dados pesquisados.
Note que a soma das frequncias absolutas simples sempre igual ao nmero total de valores observados.
Distribuio de Frequncias de Dados Agrupados em Classes.
Muitas vezes com o objetivo de resumir os dados originais em uma distribuio de frequncias, utilizaremos os dados agrupados em classes e no mais individualmente. Classe pode ser definida como sendo os
subintervalos da Amplitude Total de uma varivel (grupo de valores).
Quando a varivel objeto de estudo for contnua geralmente ser conveniente agrupar os valores observados
em classes. Se, por outro lado, a varivel for discreta e o nmero de valores representativos dessa varivel for
muito grande, recomenda-se o agrupamento dos dados em classes. Nesse ltimo caso, o procedimento visa a
evitar certos inconvenientes, como:
8
1. grande extenso da tabela, dificultando, tanto quanto os dados brutos, a leitura e a interpretao dos
resultados apurados.
2. o aparecimento de diversos valores da varivel com frequncia nula.
3. impossibilidade ou dificuldade de visualizao do comportamento do fenmeno como um todo, bem
como de sua variao.
Este tipo de tabela informa, de imediato, a tendncia de a srie se concentrar em torno de um valor central,
alm de proporcionar uma viso panormica do comportamento da varivel, o que seria impossvel de se fazer
a partir da lista dos dados brutos.
Ex: Utilizando os mesmos dados anteriores, temos:
Tabela 2: Idade dos alunos do curso de medicina veterinria da UFBA, no ano de 1993.
Idade
Frequncias (fi )
21 | 24
7
24 | 27
8
27 | 30
1
30 | 33
5
33 | 36
9
TOTAL
30
Fonte: (dados hipotticos)
24+21
2
= 22, 5
Para obter os pontos mdios das demais classes, basta acrescentar ao ponto mdio da classe precedente
a amplitude do intervalo de classe.
TIPOS DE FREQUNCIAS
Absoluta
Frequncias Simples
Relativa
Frequncia Acumulada
Absoluta
Abaixo de
Relativa
(crescente)
Absoluta
Acima de
Relativa
(dcrescente)
1. Frequncia Simples:
(a) Frequncia Simples Absoluta (fi ) - o nmero de repeties de um valor individual ou de uma
classe de valores da varivel. Trata-se do caso visto at o presente momento.
(b) Frequncia Simples Relativa (fri ) - representa a proporo de observaes de um valor individual ou de uma classe, em relao ao nmero total de observaes. Trata-se, portanto, de um
nmero relativo.
fri =
Pfi
fi
fi
ft
(1)
Desejando expressar o resultado em termos percentuais, multiplica-se o quociente obtido por 100:
fri =
fi
n .100
(2)
2. Frequncias Acumuladas:
(a) Frequncias Acumuladas Abaixo de :
i. Absoluta (Fiab ) - a soma da frequncia simples absoluta de uma classe ou de um dado
valor com as frequncias simples absolutas das classes ou dos valores anteriores. A expresso
abaixo de refere-se ao fato de que as frequncias a serem acumuladas correspondem aos
valores menores ou anteriores ao valor ou classe cuja frequncia acumulada se deseja obter,
incluindo no clculo a frequncia do valor ou da classe. utilizada toda vez que se procura
saber quantas observaes existem at uma determinada classe ou valor individual.
10
ii. Relativa (Friab ) - a soma da frequncia simples relativa dessa classe ou desse valor com as
frequncias simples relativas das classes ou dos valores anteriores.
(b) Frequncias Acumuladas Acima de:
i. Absoluta (Fiac ) - representa o nmero de observaes existentes alm do valor ou da classe,
incluindo no clculo as observaes correspondentes a esse valor ou a essa classe. Para obter este
tipo de frequncia, basta somar frequncia simples absoluta da classe ou do valor individual,
as frequncias simples absolutas das classes ou dos valores individuais posteriores.
ii. Relativa (Friac ) - igual soma da frequncia simples relativa dessa classe ou desse valor com
as frequncias simples relativas das classes ou dos valores posteriores.
Exemplo com as frequncias apresentadas.
Tabela 3: Idade dos alunos do curso de medicina veterinria da UFBA, no ano de 1993.
Idade
N o de alunos(fi ) fri fri (%) Fiab Fiab (%) Fiac Fiac (%)
21 | 24
7
0.23
23
7
23
30
100
24 | 27
8
0.27
27
15
50
23
77
27 | 30
1
0.03
3
16
53
15
50
30 | 33
5
0.17
17
21
70
14
47
33 | 36
9
0.30
30
30
100
9
30
TOTAL
30
1.00
100
...
...
...
...
Fonte: (dados hipotticos)
2.4.3
APRESENTAO GRFICA
Tipos de Diagramas:
(a) Grficos em Linhas ou Grficos Lineares - So frequentemente usados para a representao
de sries temporais. As linhas so mais eficientes neste tipo de grfico porque permitem a deteco
de intensas flutuaes nas sries e tambm possibilitam a representao de vrias sries em um
mesmo grfico.
(b) Grficos Pictricos (Pictogramas) - So grficos construdos a partir de figuras ou conjunto
de figuras representativas da intensidade ou das modalidades do fenmeno. So grficos muito
comuns em jornais e revistas, tendo como principal vantagem o fato de despertar a ateno do
pblico leitor.
(c) Grficos em Barras - Tm por finalidade comparar grandezas, por meio de retngulos de igual
largura e alturas proporcionais s respectivas grandezas. Cada barra representa a intensidade de
uma modalidade ou atributo.
(d) Grficos em Colunas - Prestam-se mesma finalidade dos grficos em barras horizontais, sendo,
entretanto, preferveis a esses ltimos quando as legendas a se inscreverem sob os retngulos forem
breves.
(e) Grficos de Colunas Remontadas ou de Barras Agrupadas - So utilizados para estabelecer
comparaes entre duas ou mais categorias.
(f) Grficos em Setores - So utilizados para representar valores absolutos ou porcentagens complementares. Utilizados quando se pretende comparar cada valor da srie com o total.
A seguir podemos encontrar alguns tipos de diagramas, sendo que o Box-Plot ser explicado mais adiante.
a. Grfico em linha:
c. Grfico em barras
10
21
Bahia
8
5,8
Estados
Freqncia
7,5
5,7
5,1
4,9
4
38
Sergipe
27
Piau
Maranho
10
0
1980
1981
1982
1983
1984
Pe rodo
12
10
20
30
Freqncias
40
50
d. Grfico em colunas
Cosumo (mpg)
40
10
41
38
35
28
30
8,5
8
Freqncias
50
26
20
6
4
2
10
2,7
1,2
0,5
2,7
4,2
3,8
3,6
2,4
1,2
0
Mazda 808
Vega
Toyota
Corolla
Dodge Colt
Toyota
Celica
1996
1997
Produtos
Modelos
f. Grfico em setores
g. Box-Plot
2100
10%
2000
22%
1900
1800
28%
1700
1600
40%
Maranho
Piau
Se rgipe
Bahia
1500
1400
N =
100
P eso ao N asc er
100
2.4.3.1
GRFICOS REPRESENTATIVOS DAS DISTRIBUIES DE FREQUNCIA
A representao grfica das distribuies de frequncia feita atravs do histograma e do polgono de frequncia.
1. Histograma - um grfico formado por um conjunto de retngulos justapostos, de forma que a rea
de cada retngulo seja proporcional frequncia da classe que ele representa.
2. Polgonos de Frequncia - Unindo por linhas retas os pontos mdios das bases superiores dos retngulos do histograma, obtm-se outra representao dos dados, denominada polgono de frequncia.
Maiores informaes sobre esses e outros tipos de grfico sero fornecidas em aula pelo professor.
CURIOSIDADE:
Florence Nightingale
Florence Nightingale (1820-1910) conhecida por muitos como a fundadora da profisso de enfermeira,
mas ela tambm salvou milhares de vidas utilizando a estatstica. Ao encontrar um hospital em ms condies
13
sanitrias e sem suprimentos, tratou de melhorar essas condies e passou a utilizar a estatstica para convencer as autoridades da necessidade de uma reforma mdica mais ampla. Elaborou grficos originais para
mostrar que, durante a guerra da Crimia, morreram mais soldados em consequncia de ms condies sanitrias do que em combate. Florence Nightingale foi a pioneira na utilizao no s da estatstica social como
das tcnicas de grficos.
Fonte: TRIOLA, Mrio. Introduo Estatstica. LTC Editora, 7a edio. Rio de Janeiro, 1999
2.5
Vimos at agora a sintetizao dos dados sob a forma de tabelas, grficos e distribuies de frequncias.
Agora, vamos aprender o clculo de medidas que possibilitem representar um conjunto de dados relativos
observao de determinado fenmeno de forma resumida.
As medidas de tendncia central so tambm chamadas de medidas de posio, e estabelecem o valor em
torno do qual os dados se distribuem.
Vale a pena chamar a ateno que, para o clculo dessas medidas, necessrio que a varivel seja quantitativa.
As principais medidas de tendncia central so:
2.5.1
Mdias.
So as medidas de tendncia central mais comumente utilizadas para descrever resumidamente uma distribuio de frequncia.
Mdia Aritmtica
1. Mdia Aritmtica Simples: dada pelo quociente entre a soma dos valores observados e a frequncia
total ( o nmero total de observaes).
Genericamente, podemos escrever:
X=
xi
n
(3)
23, 0 + 20, 0 + 22, 0 + 19, 0 + 25, 0 + 28, 2 + 24, 0 + 21, 0 + 27, 0 + 21, 0
= 23, 0
= X
10
Isso significa que o peso mdio de 23,0 kg. claro que foram obtidos pesos de crianas desta idade que
se encontram abaixo ou acima do valor mdio. No entanto, a mdia representa um valor tpico (Soares
& Siqueira,1999).
2. Mdia Aritmtica Ponderada: a mdia aritmtica calculada quando os dados estiverem agrupados
em distribuies de frequncia. Os valores x1 , x2 , ..., xn sero ponderados pelas respectivas frequncias
absolutas f1 , f2 , ..., fn .
14
Ento teremos:
X=
xi fi
n
Exemplos:
(a) Para tabelas de distribuio de dados no agrupados (TABELA 4):
Tabela 4: Nmero de cries em criancas de 7 anos de idade. Candeias.1990.
N o de dentes careados (xi ) No de crianas (fi ) xi fi
0
3
0
1
2
2
2
4
8
3
2
6
4
1
4
5
1
5
TOTAL
13
25
Fonte: (dados hipotticos)
0 (3) + 1 (2) + 2 (4) + 3 (2) + 4 (1) + 5 (1)
2+8+6+4+5
25
=
=
= 1, 923 2, 0
13
13
13
O nmero mdio de cries por criana 2,0 entre a populao avaliada em Candeias, ou seja, em
mdia cada criana de 7 anos apresenta 2 cries.
X=
xi fi
2500
=
... ==> X = 31, 25 31, 0
n
80
Interpretao: A idade mdia dos pacientes de Aids na Bahia, em 1993, foi de 31 anos.
A desvantagem da mdia aritmtica relaciona-se com a existncia de valores extremos (muito
grandes ou muito pequenos), que podem distorcer o resultado final. H casos em que outros tipos
de mdia so mais adequados, como a mdia geomtrica ou harmnica.
X=
Mdia Geomtrica
1. Tambm pode ser simples ou ponderada, conforme se utilize ou no em seu clculo uma tabela de
frequncias.
2. Mdia Geomtrica Simples: A mdia geomtrica de n valores definida, genericamente, como a raiz
n-sima do produto entre eles.
Dados n valores x1 , x2 , ..., xn , a mdia geomtrica desses valores ser:
Xg =
n x x ..... x
1 2
n
15
(4)
Mdia Harmnica:
o inverso da mdia aritmtica dos inversos.
Os inversos dos valores ,X1 , X2 , ..., Xn sero:
Xh =
1
n
P
i=1
1
1
1
X1 , X2 , ..... Xn ,Assim,
=
1
xi
1
1
+ X1 +.....+ X1
X1
n
2
como X =
n
P
xi
i=1
, temos:
n
= P
n
1
i=1
xi
De maneira anloga, temos a definio de mdia harmnica para dados agrupados em classes.
Esse tipo de mdia , sobretudo, usada para construo de ndices econmicos.
Em geral, temos :X h 6 X g 6 X.
CURIOSIDADE:
Um cidado mdio
Um homem americano mdio chama-se Robert. Tem 31 anos, altura de 1,75 cm, pesa 78 kg, seu
manequim 48, cala sapatos tamanho 43 e tem 85 cm de cintura. Consome anualmente 5,6 kg de massa,
11,8 kg de bananas, 1,8 kg de batatas fritas, 8,15 kg de sorvete e 35,8 kg de carne. Em cada ano, v televiso
durante 2567 horas e recebe 585 cartas ou assemelhados pelo correio. Aps comer sua poro de batatas fritas,
ler a correspondncia e ver televiso, ele termina o dia com 7,7 horas de sono. O dia seguinte comea com
21 minutos de transporte para um emprego, onde trabalha 6,1 horas.
Fonte: TRIOLA, Mrio. Introduo Estatstica. LTC Editora, 7a edio. Rio de Janeiro, 1999
Mediana (Md) definido como o valor que divide uma srie ordenada de tal forma que pelo menos a
metade dos itens sejam iguais ou maiores do que ela, e que a outra metada dos itens sejam menores do que
ela. Colocados em ordem crescente, a mediana o elemento que ocupa a posio central.
Como a mediana divide os dados ordenados ao meio, ela no sensvel a valores discrepantes. A depender
de como estejam os dados, deve-se diferenciar a forma como encontra-se a mediana.
1. Determinao da Mediana de Valores no-tabulados.
Processa-se a partir de um rol ou lista ordenada dos dados. Podem ocorrer duas hipteses com relao
ao nmero de observaes n: que ele seja mpar ou par. Veremos os dois casos:
(a) Nmero mpar de observaes:
Requer, em primeiro lugar, que se determine a ordem em que se encontra a mediana na srie. Para
isto encontramos:
Emd =
n+1
2
(6)
O passo seguinte ser localizar a mediana na lista de valores, de acordo com o resultado obtido no
clculo do elemento mediano (Emd ).
16
n
2
(7)
A mediana ser determinada pela mdia aritmtica entre os valores que ocupam a posio definida
pelo elemento mediano e a posio sucessora.
2. Determinao da Mediana de Valores Tabulados no-Agrupados em Classes.
Da mesma forma como foi calculado anteriormente, definiremos o elemento mediano. Em seguida,
acrescentaremos tabela de frequncia uma coluna de frequncias acumuladas abaixo de absoluta.
Com o uso destas frequncias encontraremos a posio definida pelo elemento mediano, na qual estar
a mediana.
Exemplo: Clculo da mediana para os dados da tabela 4 da seco de mdia.
Tabela 6: Nmero de cries em crianas de 7 anos de idade. Candeias. 1990.
N o de dentes careados (xi )
0
1
2
3
4
5
TOTAL
Fonte: (dados hipotticos)
Soluo: n = 13 ==> Emd =
(n+1) 14
2 =2
No de crianas (fi )
3
2
4
2
1
1
13
Fiab
3
5
9
11
12
13
...
= 7.
Como n mpar > a mediana definida pelo valor que ocupa a 7a posio. Com base nas informaes
da coluna que contm as frequncias acumuladas abaixo de absoluta, a mediana igual a 2.
Interpretao: 50% das crianas de 7 anos apresentaram 2 ou menos cries numa comunidade de Candeias
em 1990.
3. Determinao da Mediana de Valores Tabulados Agrupados em Classes.
Neste caso, encontramos o elemento mediano atravs da frmula Emd = n2 , no se fazendo distino
entre nmero par ou mpar de observaes. A partir da, determinaremos a classe mediana, aps a qual
a mediana ser calculada atravs da seguinte expresso:
ant
Md = l + h. EmdfF
md
onde,
l = limite inferior da classe mediana;
h = amplitude do intervalo de classe
Emd = elemento mediano
Fant = frequncia acumulada at a classe anterior classe mediana
f md = frequncia absoluta simples da classe mediana.
17
(8)
Moda (Mo)
A moda outra medida de tendncia central, sendo, no entanto a menos importante. Sua vantagem que pode
ser usada para variveis qualitativas. Genericamente, pode-se definir a moda como o valor mais frequente da
distribuio.
1. Determinao da Moda de Valores No-Tabulados.
Considerando um conjunto ordenado de valores, a moda ser o valor predominante, o valor mais frequente desse conjunto. Embora seu significado seja o mais simples possvel, nem sempre a moda existe
(distribuio amodal) e nem sempre nica. Se apresentar apenas uma moda diremos que unimodal;
se possuir duas modas diremos que bimodal; se tiver vrias modas (mais que duas) diremos que
multimodal.
2. Determinao da Moda para Valores Tabulados.
No caso de dados tabelados no agrupados em classe, a determinao da moda imediata, bastando
para isso, consultar a tabela, localizando o valor que apresenta a maior frequncia.
Exemplo:
Tabela 7: Indivduos segundo o tipo sanguneo.
Tipo de Sangue Frequncia
O
417
A
292
B
94
AB
17
TOTAL
820
Fonte: (dados hipotticos)
Os dados apresentados mostram que na amostra o sangue tipo O ocorreu com maior frequncia. Ento,
para esta amostra, a moda sangue do tipo O.
Tratando-se de uma tabela de frequncias com valores tabulados e agrupados em classes, o procedimento
no imediato, sendo disponveis alguns mtodos de clculo distintos. Qualquer que seja o mtodo adotado,
o primeiro passo para determinar a moda localizar a classe que apresenta a maior frequncia, comumente
chamada de classe modal.
18
Nesse curso definiremos apenas o mtodo da moda bruta, que consiste em tomar o ponto mdio da classe
modal como sendo a moda. A classe modal ser aquela que apresentar a maior frequncia absoluta simples.
Exemplo:
Para este exemplo temos que a terceira classe a classe modal (fi = 7)e a moda bruta ser seu ponto
mdio:
Mo = 5. Interpretao: A nota mais frequente na 1a avaliao foi 5, 0.
2.6
SEPARATRIZES
So as medidas que separam o rol ou a distribuio de frequncias em partes iguais. Vimos que a mediana
divide a distribuio em duas partes iguais quanto ao nmero de elementos de cada parte. Agora vamos
estudar outras medidas que dividem a distribuio em partes iguais, que sero as chamadas separatrizes. So
elas:
2.6.1
Quartis (Qi):
0%
Q1
Q2
Q3
25%
50%
75%
Q1 : 1o quartil. Deixa
Q2 : 2o quartil. Deixa
Q3 : 3o quartil. Deixa
Genericamente, para
expresso:
100%
in
4
(9)
onde:
i = nmero do quartil a ser calculado
n = nmero de observaes.
Para dados agrupados em classes, encontraremos os quartis de maneira semelhante usada para o clculo
da mediana:
Qi = l + h.
[EQi Fant ]
19
fQi
(10)
onde,
l = limite inferior da classe que contm o quartil desejado
h = amplitude do intervalo de classe
EQi = elemento quartlico
Fant = frequncia acumulada at a classe anterior classe mediana
f Qi = frequncia absoluta simples da classe quartlica.
2.6.2
Decis(Di):
D1
0%
D2
10% 20%
D3
D4
D5
30%
40%
50% 60%
D7
D6
D8
70% 80%
D9
90%
100%
De maneira geral, para calcular os decis, recorreremos expresso que define a ordem em que o decil se
encontra:
EDi =
in
10
(11)
Para dados agrupados em classes, encontraremos os decis de maneira semelhante usada para clculo da
mediana e dos quartis.
2.6.3
C1 C2 C3
0% 1% 2% 3%
C50
50%
O elemento que definir a ordem do centil ser encontrado pelo emprego da expresso:
ECi =
in
100
(12)
onde:
i = nmero identificador do centil
n = nmero total de observaes
Para dados agrupados em classes, encontraremos os centis de maneira semelhante utilizada para clculo
da mediana, dos quartis e dos decis.
Exemplo: Com base na tabela de distribuio de frequncias abaixo encontre:
a) Primeiro quartil ; b) Septuagsimo quinto centil ; c) Nono decil
Resoluo:
a) Q1
Encontrar a posio do primeiro quartil:
20
Tabela 9: Consumo mdio de eletricidade (kw/hora) entre usurios. Rio de Janeiro. 1980.
Consumo (Kwh) No de usurios (fi ) Fiab
5 | 25
4
4
25 | 45
6
10
45 | 65
14
24
65 | 85
26
50
85 | 105
14
64
105 | 125
8
72
125 | 145
6
78
145 | 165
2
80
TOTAL
80
...
Fonte: (dados hipotticos)
EQ1 = n4 = 80
4 = 20
O Q1 est localizado na 20a posio, logo encontra-se na 3a classe. Com base nesses dados, calcularemos
Q1 da seguinte forma:
= 59.29
Q1 = 45 + 20[2010]
14
Interpretao: 25% dos usurios consomem at 59,59 kwh. De maneira anloga, 75% dos usurios consomem mais de 59,59 kwh.
b) C75
Encontrar a posio do centil 75:
n
EC75 = 75 100
= 75 (80)
100 = 60
O C75 est localizado na 60a posio, logo encontra-se na 5a classe. Com base nesses dados, calcularemos
C75 da seguinte forma:
= 99.29
C75 = 85 + 20[6050]
14
Interpretao: 75% dos usurios consomem at 99,29 kwh. De maneira anloga, 25% dos usurios consomem mais de 99,29 kwh.
c) D9
Encontrar a posio do 9o decil:
n
= 9 (80)
ED9 = 9 10
10 = 72
O D9 est localizado na 72a posio, logo encontra-se na 6a classe. Com base nesses dados, calcularemos
D9 da seguinte forma:
= 125
D9 = 105 + 20[7264]
8
Interpretao: 90% dos usurios consomem at 125 kwh. De maneira anloga, 10% dos usurios consomem
mais de 125 kwh.
2.7
MEDIDAS DE DISPERSO
Para avaliar o grau de variabilidade ou disperso dos valores de um conjunto de nmeros, lanaremos mo das
estatsticas denominadas medidas de disperso. Essas nos proporcionaro um conhecimento mais completo
do fenmeno a ser analisado, permitindo estabelecer comparaes entre fenmenos da mesma natureza e
mostrando at que ponto os valores se distribuem acima ou abaixo da medida de tendncia central.
2.7.1
1. Amplitude Total ou Intervalo Total (A) => a diferena entre os valores extremos da srie.
A = Xmax Xmn
21
A amplitude nos d a idia do campo de variao dos valores da srie. No entanto, devemos frisar que a
amplitude no uma boa medida de disperso porque seu clculo se baseia apenas nos valores extremos
da amostra e no em todos os dados.
2. Desvio-Padro (S) => a medida de disperso mais usada e mais importante. Mede a concentrao
dos dados em torno da mdia. dado pela soma dos quadrados dos desvios dividido pelo nmero total
de observaes.
(a) Desvio-padro de dados brutos:
S=
n (x x)2
P
i
i=1 n 1
(13)
Exemplo: Calcular o desvio-padro do conjunto A = {10, 12, 13, 20, 25, 34, 45}X = 22, 71
S=
1.007,430
6
= 12, 958
S=
k (x x)2 f
P
i
i
n
1
i=1
(14)
n (x x)2
P
i
n
1
i=1
22
(15)
Se os valores estiverem prximos uns dos outros, ento o desvio-padro ser pequeno, e consequentemente os dados sero homogneos.
Se os valores estiverem distantes uns dos outros, ento o desvio-padro ser grande, e consequentemente os dados sero heterogneos.
A desvantagem do uso da varincia perante o uso do desvio-padro que a unidade de medida
utilizada igual ao quadrado da unidade de medida dos dados. No entanto, por conta da maior
facilidade do trato algbrico com funes quadrticas, a varincia ser a medida de disperso mais
utilizada quando tratarmos da inferncia estatstica.
4. Coeficiente de Variao (CV) => Trata-se de uma medida relativa de disperso, til para comparao em termos relativos do grau de concentrao em torno da mdia de sries distintas.
dado por:
CV =
S
100.
X
(16)
Como o CV uma medida que exprime a variabilidade relativa mdia, usualmente expresso em
porcentagem.
Exemplo:
Grupo I > CV = 66, 67%, S = 2, X = 3
GrupoII > CV = 3, 64%, S = 2, X = 55
Como vemos, a disperso dos dados a mesma para os dois grupos. Entretanto as mdias so diferentes.
Isso determina a diferena da disperso relativa, medida pelo coeficiente de variao. Neste caso, o desvio 2
muito mais importante para o grupo I do que para o grupo II, o que confirmado atravs do CV.
Obs: Para efeitos prticos, costuma-se considerar que o CV superior a 50% indica alto grau de disperso
e, consequentemente, pequena representatividade da mdia. Enquanto que para valores inferiores a 50%, a
mdia ser tanto mais representativa quanto menor for o valor de seu CV.
Exemplo: A Tabela 13 representa a distribuio de recm-nascidos vivos, segundo o peso, em gramas.
Calcule o desvio-padro, a varincia e o coeficiente de variao, e compare os resultados encontrados com as
respostas apresentadas.
23
Soluo:
Inicialmente precisaremos calcular a mdia aritmtica, cujo valor para este conjunto de dados de 2998,8
gramas.
Com esta informao pode-se, ento, encontrar o desvio padro (555,2 gramas) e a varincia (308.240,6
gramas2).
Para avaliar a variabilidade desses dados o coeficiente de variao uma ferramenta fundamental, permitindo uma anlise mais clara sobre a importncia da disperso dos pesos desses recm-nascidos. Assim,
o Coeficiente de Variao = 18,5%, o que indica que no h uma grande variabilidade entre os pesos dos
recm-nascidos avaliados, que se apresentam homogneos.
2.8
MEDIDAS DE ASSIMETRIA
As medidas de assimetria so utilizadas para avaliar o grau de assimetria da distribuio de frequncias, sendo
que assimetria pode ser definida como o grau de deformao de uma curva de frequncias.
Vamos aprender algumas formas de avaliar a assimetria das curvas de frequncia dos dados:
2.8.1
Uma primeira verificao da assimetria pode ser feita atravs da comparao entre os valores observados para
a mdia, mediana e moda. Desta forma teremos abaixo esta relao, com a respectiva representao grfica
atravs de polgono de frequncias.
a) Se a distribuio simtrica: (X = Md = Mo)
M o d a = M ed ia = M ed iana
24
Mo Med Media
Media Med Mo
2.8.2
X Mo
S
(17)
Interpretao:
Se Sk = 0, a distribuio simtrica
Se Sk > 0, a distribuio assimtrica positiva
Se Sk < 0, a distribuio assimtrica negativa
2.8.3
O coeficiente Quartil de Assimetria (eQ )=> um coeficiente muito til, sobretudo quando no temos
o desvio-padro. dado por:
eQ =
Q3 2Md + Q1
Q3 Q1
(18)
2.9
Iremos realizar uma discusso breve destes termos e da distino entre eles. Do ponto de vista estatstico
representam medidas simples, mas que permitem estabelecer comparao entre grupos.
2.9.1
A proporo de indivduos de uma dada categoria definida atravs do quociente entre o nmero de indivduos pertencentes a essa categoria e o nmero total de indivduos considerados, devendo as categorias ser
mutuamente exclusivas e exaustivas. A proporo expressa mais comumente em percentagem.
Algumas medidas importantes na anlise do processo sade-doena so definidas como propores, como,
por exemplo, as seguintes:
PROPORES UTILIZADAS EM MORTALIDADE
1. Mortalidade proporcional segundo a idade
Exemplo: Proporc. Mort..de menores de 1ano =
Tabela 13: Proporo de bitos por acidentes de trnsito na faixa etria de 15-29 anos de idade. Regio
Nordeste. Brasil. 1980-1995.
Ano No debitos por acid. trnsito entre 15 - 29 No total de btos por acid. trnsito Proporo
1980
1025
3462
29,61
1995
1705
5543
30,76
Fonte: MS/ DATASUS
2. Mortalidade proporcional segundo o sexo
Exemplo: Mort. Proporc. para o sexo feminino =
26
2.9.2
RAZO ( ou ndice)
Tabela 14: Populaes masculina e feminina e razo de masculinidade (por 1000 mulheres), segundo as grandes
Regies do Brasil. 1980.
Sexo Masculino Feminino Razo de Masculinidade
Regies
Norte
2992144
2893392
1034,1
Nordeste
17054379 17801090
958,1
Sudeste
25731364 26014954
989,1
Sul
9529280
9509655
1002,1
Centro-Oeste
3838932
3705675
1036,0
BRASIL
59146099 59924766
987,0
Fonte: LAURENTI, Estatstica de Sade, E.P.U. 1987
Interpretao: No Brasil, em 1980, a razo de masculinidade assumiu o valor de 987.0 homens para 1000
mulheres.
2.9.3
TAXA ( ou Coeficiente)
usual multiplicar-se o resultado obtido por um nmero mltiplo de 10, que constitui a chamada base
do coeficiente qual deve, obrigatoriamente, ser acrescentada a unidade de referncia usado no denominador
(habitantes, mulheres, homens, nascidos vivos, etc...). Quando se calcular um coeficiente est implcita sempre
a noo de risco de acontecimento do fenmeno em estudo. Assim, um coeficiente sempre calculado para
determinado perodo de tempo bem especificado e para uma rea delimitada.
no total de bitos, rea A, tempo t
Exemplo: Coeficiente geral de mortalidade =
Populao total, rea A, tempo t
Tabela 15: Populaco, bitos e coeficiente geral de mortalidade, em alguns subdistritos do Municpio de So
Paulo. 1967).
Subdistrito
Populao btos
Coefic. (por 1000 habitantes)
Bela Vista
69000
1318
19,1
Consolao
60300
4291
71,5
Jardim Amrica
49300
7725
159,6
Liberdade
62300
3413
54,7
Capela do Socorro
77764
280
3,6
Moca
52967
213
4,0
Tatuap
285000
811
2,9
Tucuruvi
345918
839
2,4
Vila Formosa
101000
418
4,1
Fonte: LAURENTI, R. A medida das doenas. In: FORATTINI, O P. Epidemiologia Geral.
So Paulo, Edgard Blucher, Ed. Da Universidade de So Paulo, 1976.
BOX-PLOT
O box-plot um mtodo alternativo ao histograma para representar os dados. O box-plot fornece informaes
sobre as caractersticas de posio, disperso, assimetria, comprimento das caudas e outliers de um conjunto
de dados. No entanto, a maior importncia desse tipo de grfico est na identificao de possveis outliers no
conjunto de dados.
A construo de um box-plot exige que tenhamos o valor mnimo, o primeiro quartil, a mediana, o terceiro
quartil e o valor mximo. Como a mediana revela uma tendncia central, ao passo que os quartis indicam a
disperso dos dados (atravs do clculo do intervalo interquartil), os box-plot tm a vantagem de no serem
to sensveis a valores extremos como outras medidas baseadas na mdia e no desvio-padro.
Um dos aspectos mais convenientes do uso dos box-plot a possibilidade de comparao entre dois ou
mais conjuntos de dados.
Exemplo: Idade dos indivduos, segundo o nmero de infeces por dengue. Salvador. 1998.
120
100
80
60
1534
1445
1484
1423
1437
1466
1425
1478
1431
1471
1536
1583
1449
1452
1567
1584
1579
1563
1551
1504
1462
1575
1578
1540
40
20
0
-20
N=
476
384
655
Nmero de infeces
Fonte: TEIXEIRA, Glria, et alii. Dinmica de circulao do vrus do dengue em distintos espaos
intraurbanos de uma grande cidade submetida a um programa de combate vetorial. ISC/UFBA. 2000.
Em sala de aula sero apresentados mais detalhes sobre este tpico.
3.1
At o momento todas as anlises foram discutidas para cada varivel individualmente. A tcnica a ser
estudada a seguir refere-se a problemas que envolvam conjuntos de dados que possuem duas ou mais variveis
quantitativas.
28
A verificao da existncia e do grau de relao entre variveis quantitativas objeto do estudo da correlao. Por exemplo, pode-se desejar saber se existe relao entre o peso e a altura de um indivduo; ou entre
a temperatura do ambiente e a produo de frutas.
A investigao da relao de duas variveis, tais como estas, usualmente comea com uma tentativa para
descobrir a forma aproximada dessa relao, representando-se graficamente os dados como pontos no plano
x, y. Tal grfico denominamos grfico de disperso. Por meio dele pode-se prontamente verificar se existe
alguma relao pronunciada e, em caso positivo, se a relao pode ser tratada como aproximadamente linear.
Aps esta verificao, pode-se medir o grau em que as variveis esto relacionadas. A esta medida chamaremos de coeficiente de correlao, r, que definido pela seguinte frmula:
P
P
P
Y)
XY ( X)(
n
(19)
r = rh
P 2 (P X)2 i hP 2 (P Y )2 i
X n
Y n
O coeficiente de correlao, r, mede a fora da associao linear entre as duas variveis avaliadas. No
entanto, vale a pena ressaltar que esta somente uma medida vlida se as duas variveis esto relacionadas
linearmente, ou seja, se a relao visualizada no grfico de disperso deve lembrar o desenho de uma reta.
Como propriedade, o r deve satisfazer seguinte condio: 1 r 1,onde os valores de r s sero iguais
a 1 se os pontos estiverem totalmente sobre uma linha reta.
Sua interpretao depender do valor numrico e do sinal, podendo ser classifada como: correlao linear
positiva (0 < r < 1), correlao linear perfeita positiva (r = 1), correlao negativa (1 < r < 0), correlao
perfeita negativa (r = 1), correlao nula (r = 0). Quando duas variveis forem independentes, o coeficiente
de correlao ser nulo.
3.2
Como foi dito, o uso do coeficiente de correlao linear somente valido para duas variveis quantitativas. No
entanto, em muitas situaes, o pesquisador se v s voltas com variveis qualitativas. Desta forma, a seguir
apresentaremos algumas formas simples de anlise da relao entre duas variveis qualitativas.
Caso 1 Tabelas bidimensionais 2 2
Um pesquisador est avaliando duas variveis qualitativas, sendo que cada uma delas apresenta apenas
duas modalidades mutuamente exclusivas. Deseja-se verificar independncia entre as variveis em estudo,
ou seja, ausncia de associao entre estas. Esta associao pode ser feita pela comparao das propores
em cada uma das categorias. No entanto, esta comparao no teria limites definidos para a indicao de
associao. Deste modo, estaremos propondo a utilizao de uma medida singular, de limites bem definidos,
que nos informe sobre a intensidade da associao, caso exista.
Para tabelas 2 2, uma medida adequada o coeficiente de YULE, que pode ser definido por:
Y =
ad bc
ad + bc
29
(20)
Sobreviventes
Sim No
130
70
80
160
210
230
TOTAL
200
240
440
ad bc
(130x160) (70x80)
20800 5600
15200
=
=
=
= 0.58
ad + bc
(130x160) + (70x80)
20800 + 5600
26400
Logo, os dados sugerem a existncia de uma associao entre o uso da vacina e o padro de sobrevivncia
aps a exposio ao vrus em estudo.
Caso 2 Tabelas bidimensionais r s
A desvantagem do uso do coeficiente de YULE que esta medida restringe-se na anlise de tabelas 2 2.
Suponha-se, no entanto, que as duas variveis qualitativas em estudo apresentem uma r categorias e outra s
categorias mutuamente exclusivas. Neste caso, a medida a ser utilizada baseia-se na diferena entre os valores
observados e esperados em cada uma das categorias, sendo denominada coeficiente de contingncia de Pearson.
O uso deste coeficiente contrape os resultados observados (simbolizados pela letra O) pelo pesquisador
com aqueles resultados esperados (simbolizados pela letra E) obtidos a partir de uma hiptese terica de
independncia entre os atributos. Assim, se os resultados observados forem prximos aos esperados, isto
sugere independncia entre os atributos; caso contrrio, estaremos afastados da hiptese de independncia,
sugerindo-se uma associao entre os atributos.
Levando-se isto em considerao, utilizaremos uma estatstica chamada de Qui-quadrado, que mede a
discrepncia entre os valores, e que definida por:
2 =
n [(O E)2 ]
P
E
i=1
(21)
30
da linha (em que se encontra a casela) pelo total da coluna (em que se encontra a casela), sendo este produto
dividido pelo total geral (N)
O coeficiente de contigncia de Pearson dado pela seguinte expresso:
C=
2
2 + n
(22)
Interpretao do coeficiente:
C = 0 indica independncia;
C > 0 sugere associao.
Obs: Este coeficiente falho em determinar o sentido da associao (direta ou inversa). Alm disso,
h ausncia de um limite superior, que varia para cada estrutura da tabela. Para contornar este segundo
problema, sugere-se o uso do coeficiente corrigido C, que tem a expresso:
Ccor = C.
min(r, s)
min(r, s) 1
(23)
onde:
Sexo
Masculino Feminino
112
88
58
42
180
120
250
150
600
400
TOTAL
200
100
300
400
1000
Soluo: Os valores dispostos na tabela anterior referem-se aos resultados observados no estudo em questo.
Precisamos encontar os resultados esperados para cada casela.
= (200)(600)
= 120
E11 = (n1.)(n.1)
N
1000
(n1.)(n.2)
(400)(200)
E12 =
= 1000 = 80, e assim por diante para todas as caselas.
N
Assim obteremos a tabela completa (com os resultados observados fora dos parnteses e os resultados
esperados dentro dos parnteses) disposta da seguinte forma:
Grupo Sanguneo
A
B
AB
O
TOTAL
Sexo
Masculino Feminino
112 (120)
88 (80)
58 (60)
42 (42)
180 (180) 120 (120)
250 (240) 150 (160)
600
400
TOTAL
200
100
300
400
1000
EXERCCIOS DE FIXAO
1) Em um estudo estatstico a caracterstica de interesse pode ser qualitativa (nominal ou ordinal) ou quantitativa (discreta ou contnua). Classifique as variveis nos exemplos que se seguem:
a) populao: moradores de uma certa cidade
varivel: cor dos olhos (pretos, castanhos, azuis, verdes)
b) populao: casais residentes em uma certa cidade
varivel 1: nmero de filhos
varivel 2: classe econmica
c) populao: candidatos a um exame vestibular
varivel 1: renda familiar
varivel 2: sexo (masculino, feminino)
varivel 3: nmero de pessoas na famlia
d) populao: sabonetes de certa marca
varivel: peso lquido
e) populao: aparelhos produzidos por uma linha de montagem
varivel: nmero de defeitos por unidade
2) Especifique o tipo de srie estatstica que deve ser construda para atender ao objetivo de cada uma
das situaes abaixo:
a) O diretor de marketing da empresa G.L.T. S.A., fabricante de componentes eletrnicos, deseja examinar
a evoluo de suas vendas em 1975, ms a ms, no Brasil.
b) Um laboratrio farmacutico est interessado em conhecer o comportamento das vendas de trs de seus
produtos no Brasil em 1994.
c) O H.G.E. necessita saber o nmero de bitos por principais grupos de causa em idosos no ltimos 5
anos.
d) O A.A. (Alcoolatras Annimos) deseja saber o nmero de pessoas que frequentaram as reunies no ano
de 1995, em todas as capitais do Brasil.
3) Elabore tabelas com os dados abaixo, classificando a srie estatstica de cada uma delas:
a) Segundo o Anurio Estatstico do Brasil, a produo de leo de mamona no Cear, em 1971, foi de
8.610 toneladas, em Pernambuco, 32.100 toneladas, na Bahia foi de 28.778 toneladas, e em So Paulo foi de
62.012 toneladas.
b) Segundo a Equipe Tcnica de Estatstica Agropecuria, a produo de peles de alguns animais silvestres,
na Bahia, em 1965, em toneladas, foi a seguinte: Ariranha, 159; Capivara, 1.927; Gato do mato, 27.154; Porco
do mato, 18.843. No ano de 1966, registraram-se os seguintes dados, em toneladas: Ariranha, 143; Capivara,
2.410; Gato do mato, 29.800; Porco do mato, 19.635.
c) Segundo a Anurio Estatstico do Brasil, editado pelo IBGE, a populao presente recenseada no
Brasil, segundo o sexo, foi a seguinte: em 1940, 41.236.315 habitantes; sendo 20.614.088 do sexo masculino e
32
20.622.227 do sexo feminino; em 1950, a populao total foi 51.944.397, sendo 25.885.001 do sexo masculino.
Em 1960, para o total de 70.119.071 habitantes, registrou-se a presena de 35.108.354 mulheres. E em 1970,
a populao total alcanou 93.204.379 habitantes, sendo 46.330.629 do sexo masculino.
4) Para os conjuntos de dados a seguir:
a) Determinar o nmero de classes pela regra de Sturges
b) Construir a tabela de frequncias absolutas simples
c) Determinar:
c.1) as frequncias simples relativas
c.2) as frequncias absolutas e relativas acumuladas (abaixo de)
c.3) as frequncias absolutas e relativas acumuladas (acima de)
d) Construir um histograma e um polgono de frequncias
4.1) Os dados seguintes representam 20 observaes relativas ao ndice pluviomtrico em determinados
municpios do Estado:
Milmetros
144 152
160 151
154 145
142 146
141 150
de Chuva
159 160
157 146
141 150
142 141
143 158
4.2) Considere os seguintes dados sobre a distribuio de valores de metabolismo basal (cal/dia) em 35
adolescentes:
910
1070
1190
1280
960
1080
1200
1280
980
1090
1210
1300
1000
1110
1220
1310
1010
1110
1240
1360
1020
1120
1240
1380
1040
1130
1260
1420
1040
1140
1270
1460
1070
1180
1270
fi
3
10
12
5
19
49
fi
24
21
3
51
1
50
145|150
2
150|155
10
155|160
27
160|165
38
165|170
27
170|175
21
175|180
8
180|185
7
c) Calcule o primeiro quartil, o quadragsimo centil e o nono decil para o conjunto de dados 5.5.
d) Avalie a assimetria do conjunto de dados 5.5
6) Como parte de uma investigao sobre o efeito da variao de temperatura em ratos, a taxa de perda
de gua em um grupo de ratos foi determinada para um srie de temperaturas pela absoro de gua ocorrida
em um particular tempo. Os resultados seguintes foram obtidos:
Temperatura (o C)
gua Absorvida (mg)
15
2794
20
2924
25
3175
30
3340
35
3576
1996
1995
10
20
30
40
50
60
70
( m ilh e s)
8) Decidiu-se investigar a distribuio salarial dos profissionais com nvel universitrio em duas regies A e
B. As informaes pertinentes foram obtidas e encontram-se no quadro abaixo, expressas em salrios mnimos.
Com base nestes dados, responda:
a) Que medidas podem ser calculadas a partir das que se encontram no quadro?
b) Faa uma descrio rpida das principais diferenas entre o salrio destes profissionais?
Regio
A
B
Mdia
20.000
20.000
DP
4.00
6.00
Mediana
20.32
18.00
Moda
20.15
17.00
34
Q1
17.32
16.00
Q3
22.68
24.00
Min
8.00
14.00
Mx
32.00
42.00
Sexo
Masculino Feminino
20
60
25
75
45
135
TOTAL
80
100
180
Aprovado
120
45
180
255
600
Reprovado
80
55
120
145
400
TOTAL
200
100
300
400
1000
Bibliografia
BERQU, SOUZA, GOTLIEB. Bioestatstica. So Paulo: Editora Pedaggica e Universitria Ltda, 1980.
BOTTER, et alii. Noes de estatstica: Notas de aula. Instituto de Matemtica e Estatstica. USP.
Fevereiro, 1996.
BUSSAB, Wilton O , MORETTIN, Pedro A . Estatstica Bsica. 4a ed. So Paulo: Atual Editora, 1980.
FONSECA, Jairo Simon da, MARTINS, Gilberto de Andrade. Curso de Estatstica. 3a ed. Editora Atlas,
1990.
LAURENTI, et elii. Estatsticas de sade. 2a ed. So Paulo: E.P.U., 1987.
LOPES, Paulo Afonso. Probabilidades e Estatstica. Editora R.A . 1999
MORETTIN, Luiz Gonzaga. Estatstica Bsica. 7a ed. Editora Makron Books. Vols. 1 e 2. 1999.
MORAES, Lia Terezinha L.P. Notas de aulas (diversos). Departamento de Estatstica. UFBA.1996.
SOARES, Jos Francisco; SIQUEIRA, Arminda Lcia. Introduo Estatstica Mdica. 1a edio. Belo
Horizonte: Departamento de Estatstica. UFMG.1999.
SOUNIS, Emlio. Bioestatstica. So Paulo: Editora McGraw-Hill do Brasil Ltda, 1979.
TOLEDO, Geraldo Luciano, OVALLE, Ivo Izidoro. Estatstica Bsica. 2a ed. So Paulo: Editora Atlas,
1994.
TRIOLA, Mrio. Introduo Estatstica. 7a ed. Editora LTC. 1999
VIEIRA, Snia. Introduo Estatstica. Rio de Janeiro: Editora Campus Ltda, 1981.
35