Sie sind auf Seite 1von 41

Medidas de Estatística Descritiva

• Estudámos nas aulas passadas formas de


sintetizar os dados estatísticos, incluindo através
de Distribuições de Frequências.
• O tópico seguinte consiste em estudar técnicas
numéricas que permitem descrever um conjunto
de dados estatísticos através de um único valor:
são as Medidas de Estatística Descritiva.
• As Medidas de Estatística Descritiva são ainda
mais resumidas que os métodos gráficos anteriores
e, além disso, permitem a comparação de
diferentes distribuições.
Medidas de Estatística Descritiva
• Entre as medidas de estatística descritiva, é
possível encontrarmos:
a) medidas de localização √
b) medidas de dispersão √
c) medidas de assimetria √
d) medidas de curtose
e) medidas de concentração
Medidas de Localização:
Medidas de tendência central

• As medidas de localização situam as observações


no eixo dos números reais.

• As mais importantes são as medidas de


tendência central que representam os
fenómenos pelos seus valores centrais.

• As medidas de tendência central incluem a


média, a moda e a mediana.
Média aritmética
• É a medida de tendência central mais familiar e
de mais fácil interpretação.
• É a soma de todos os valores observados
dividida pelo número de observações.
• A média da população para dados
desagregados é dada por:

com N = dimensão da população e = valores individuais observados


Média aritmética: exemplo (1)
• Olhemos para os preços de 6 modelos de
telemóveis à venda numa loja em Luanda e
calculemos o preço médio.

Quadro 1. Preços de telemóveis numa loja de Luanda


Modelo Preço (em Kwanzas)
1. Nokia 6500
2. Samsung 8000
3. Eriksson 6000
4. LG 7500
5. Motorola 8500
6. Siemens 7000
Média aritmética: exemplo (2)
• Com base na fórmula da média aritmética, o
preço médio dos vários modelos de telemóveis é
de:
= 7250

• Atenção: este valor para o preço médio não


toma em conta as quantidades de telemóveis
vendidos para cada modelo.
• Neste caso, vai ser necessário ponderar os
preços pelas respectivas quantidades vendidas!
Média aritmética: exemplo (3)

Quadro 2. Média dos preços dos telemóveis numa loja (Luanda)


Modelo Preço Quantidade Preço × Quantidade
(em Kwanzas) vendida
X¡ F¡ X¡ × F ¡
1. Nokia 6,500 50 325,000
2. Samsung 8,000 75 600,000
3. Eriksson 6,000 35 210,000
4. LG 7,500 55 412,500
5. Motorola 8,500 80 680,000
6. Siemens 7,000 60 420,000
∑ = 355 ∑ = 2,647,500
Média aritmética: exemplo (4)
• Para ponderar os preços pelas respectivas
quantidades vendidas, utiliza-se a fórmula
seguinte (média da população para dados
agregados):
Nota: A média da amostra (dados
agregados) segue exactamente o
mesmo princípio.

• Com base nos cálculos da tabela anterior, o


preço médio passa então a ser o seguinte:

= 7,457.8 Kz
Média aritmética:
Dados agregados em classes (1)
• No caso de variáveis contínuas, é necessário
definir-se os centros ou pontos médios de
cada classe.
• A média calcula-se substituindo os valores da
variável pelos centros de cada classe.
• A fórmula a utilizar deve então ser a seguinte:

Média da população (dados


agregados em classes)
Média aritmética:
Dados agregados em classes (2)
Quadro 3. Distribuição dos salários (em USD) dos empregados de uma empresa

Classes de Centro da Número de


rendimentos Classe empregados
mensais (USD)
(X¡) (C¡) (F¡) (C¡) × (F¡)
Menos de 400 300 5 1,500
[400 - 600[ 500 23 11,500
[600 - 800[ 700 17 11,900
[800 – 1,000[ 900 8 7,200
Mais de 1,000 1,100 7 7,700

Total ∑ = 60 ∑ = 39,800
Média aritmética:
Dados agregados em classes (3)

• Aproveitando a tabela anterior, o salário


médio dos funcionários da empresa é:
= 663.3 USD

• Nestes casos, a média passa a ser um valor


aproximado da verdadeira média.
• Uma divisão diferente em classes implica um
valor provavelmente diferente do anterior.
Média aritmética:
vantagens e desvantagens
• Vantagens:
a) Facilidade de interpretação e cálculo (daí ser
muito utilizada).
b) Utilização de toda a informação disponível e
cálculo com precisão matemática.
• Desvantagens:
a) Influência de valores extremos que tomam
um peso significativo no cálculo da média.
b) Pode não corresponder a um valor em
concreto da variável.
Mediana
• É uma medida de tendência central que não é
afectada por observações extremas.

• Se ordenarmos os dados por ordem crescente


ou decrescente e tomarmos o valor central,
esse valor é conhecido como mediana.

• Isto significa que o numero de observações


para valores inferiores à mediana deverá ser
igual ao numero de observações para valores
superiores.
Mediana:
caso com variáveis discretas

Temos de considerar 2 casos distintos


↙ ↘
Para N ímpar: Para N par:
a mediana será o a mediana será a média
elemento central (de entre os elementos
centrais
ordem )
(de ordem e )
Mediana: caso com dados discretos (1)
• Exemplo 1: Cálculo da mediana com N ímpar
X¡ F¡ cum F¡
1 1 1
2 3 4
3 5 9
4 2 11
∑ = 11

• Com N =11 (ímpar), a mediana (Me) corresponde ao elemento de


ordem , ou seja 6.

• Recorre-se às frequências acumuladas para saber o valor da variável


que inclui o 6º elemento. O valor é X¡ = 3, logo Me é igual a 3.
Mediana: caso com dados discretos (2)
Exemplo 2: Cálculo da mediana com N par

X¡ F¡ f¡ cum F¡ cum f¡
82 5 0.119 5 0.119
85 10 0.238 15 0.357
87 15 0.357 30 0.714
89 8 0.190 38 0.904
90 4 0.095 42 0.999
∑ = 42
• Com N = 42 (par), a mediana é a média entre os valores que
correspondem aos elementos de ordem e (o 21º e 22º).

• Portanto Me = 87 porque o valor é idêntico.


Mediana:
caso com variável contínua (1)
• Neste caso, o cálculo já não é tão fácil. É
necessário identificar o intervalo que contém
a mediana e depois calcular onde (no mesmo
intervalo) se localiza a observação central.

• Eis os passos a seguir:


1. Calcula-se o elemento .
2. Através das frequências acumuladas,
identifica-se a classe que contém a mediana
(classe mediana).
Mediana:
caso com variável contínua (2)
3. Calcula-se a posição exacta na classe mediana,
utilizando a fórmula:

onde = limite inferior da classe mediana;


cum F (Me – c) = frequências acumuladas
anteriores à classe mediana; F (Me) = frequência
da classe mediana; = amplitude da classe
mediana.
Mediana:
caso com variável contínua (3)
• Exemplo 3. Cálculo da mediana para dados contínuos
Classes F¡ cum F¡
35 – 45 5 5
45 – 55 12 17
55 – 65 18 35
65 – 75 14 49
75 – 85 6 55
85 – 95 3 58
∑ = 58
Mediana:
caso com variável contínua (4)
• Procedimentos para cálculo da mediana:

1. Calcula-se = 29.
2. Identifica-se a classe mediana: [55;65[
3. Calcula-se a mediana utilizando a fórmula anterior:

Me = 55 + [(29-17)/18] × 10 = 61,67

• Determinação gráfica da mediana (com frequências


relativas acumuladas)
Mediana:
vantagens e desvantagens
• Vantagens:
a) É fácil de calcular e de compreender.
b) Não sofre a influência de valores extremos, quer
sejam grandes ou pequenos (útil sobretudo para
distribuições bastante assimétricas).

• Desvantagens:
a) Para fins de inferência estatística, a mediana não
satisfaz as propriedades de um bom estimador.
Moda

• É o valor que mais observações apresenta no


conjunto de dados (ou o valor mais frequente
da distribuição) e torna-se fácil de calcular
quando os dados estão ordenados.
• No caso de variáveis discretas, o cálculo é fácil.
• No caso de variáveis contínuas, o cálculo é um
pouco mais complicado (ver fórmula).
• Para determinar a moda graficamente, basta
construir o histograma e identificar a classe
modal.
O Histograma:
Caso com intervalos diferentes
Histograma Classe modal
Frequência Corrigida

8
7
6
5
4
3
2
1
0
0 1 3 7 9 15 17 19 20
Moda
Notas dos alunos
Moda:
vantagens e desvantagens
• Vantagens:
a) É fácil de calcular e interpretar.
b) Não sofre a influência de valores extremos.

• Desvantagens:
a) Muitas vezes não tem valor exacto (incerto).
Medidas de tendência não-central (1)

• Quantis: quartis, decis, percentis.

• Quartis ( , , ) são os valores da variável


que dividem a distribuição de frequências em 4
partes iguais. coincide com a mediana.
Medidas de Dispersão
• As medidas de dispersão servem para dar uma
indicação da dispersão dos valores da variável.
• São um instrumento que permite avaliar a
representatividade das medidas de localização.
• 2 distribuições podem ter a mesma média e mesmo
assim terem aspectos muito diferentes. No exemplo
de baixo, X e Y têm a mesma média aritmética.
• = = 20, mas enquanto Y apresenta variações
relativamente à média, X não tem qualquer
dispersão.
X 20 20 20 20 20
Y 15 10 20 25 30
Amplitude do intervalo de variação (R)
• É a medida de dispersão mais simples de se
calcular e é a diferença entre os valores
máximo e mínimo da variável.

• É uma medida pouco sensível aos valores


intermédios, porque usa apenas os 2 valores
extremos.

• R = X max – X min Amplitude do intervalo de variação


Amplitude do intervalo interquartis
• É a diferença entre o 3º e 1º quartis, portanto
engloba 50% das observações centrais.

• IQ = - Amplitude do intervalo interquartis

• Tem uma grande desvantagem: não inclui os


valores extremos que representam metade
das observações.
Desvio absoluto médio (1)
• O desvio absoluto médio (DM) mede a dispersão dos
valores em torno da média.

• Mas a soma dos desvios de cada valor em relação à média


é sempre nula (propriedade da média). Uma hipótese é
usar o valor absoluto das diferenças.

• O DM é a média aritmética dos desvios absolutos dos


valores da variável relativamente à sua média:

Desvio absoluto médio (dados desagregados)

Desvio absoluto médio (dados agregados)


Desvio absoluto médio (2)
Exemplo 4. Gastos diários de um estudante da UCAN (em Kwanzas)

Dia da Despesa diária Desvio da Desvio


semana de um estudante despesa diária absoluto
da UCAN
(em Kwz)
X¡ - |X¡ - | (X¡ - )²
(X¡)
Segunda 500 0 0 0
Terça 300 -200 200 40,000
Quarta 400 -100 100 10,000
Quinta 300 -200 200 40,000
Sexta 600 100 100 10,000
Sábado 800 300 300 90,000
Domingo 600 100 100 10,000
Total 3,500 0 1000 200,000
Desvio absoluto médio (3)
• O processo de cálculo do DM divide-se em 3 partes:

1. Calcula-se, primeiro, o valor da média:


= 3500 / 7 = 500 Kwz.

2. Determina-se as diferenças entre cada valor observado


e a média. Interessa-nos a magnitude da diferença, por
isso o sinal (negativo ou positivo) deve ser ignorado.
Encontramos assim o desvio absoluto.

3. Finalmente, somam-se as diferenças e dividem-se pelo


numero total de observações:
DM = 1000 / 7= 142.9 Kwz
Variância (1)
• A variância é a soma do quadrado das diferenças
entre os valores da variável e a média, dividida pelo
numero total de observações.

Variância (Dados desagregados)

• No exemplo anterior, a variância calcula-se


elevando ao quadrado as diferenças (X¡ - ) e
dividindo a soma destas diferenças pelo número de
observações.
Variância (2)
• Quando lidamos com uma amostra de pequena
dimensão, é mais correcto dividir a soma de
quadrados por n-1, em vez de n: o estimador deixa
de ser enviesado em relação ao verdadeiro
parâmetro da população.
s² = 200,000/6 = 33,333 Kwanzas²

• Para dados agregados, a variância é a média


aritmética do quadrado dos desvios dos valores da
variável relativamente à média.
Variância
(dados agregados)
Variância (3)
• A variância tem a vantagem de usar toda a
informação na amostra/população.

• Em contrapartida, é medida no quadrado das


unidades em que está definida a variável X, o que
não é muito conveniente.

• Por essa razão, é mais utilizado o desvio-padrão,


raíz quadrada positiva da variância:
Coeficiente de variação (1)
• O coeficiente de variação (CV) é uma medida
relativa de dispersão. É útil sobretudo para
comparar duas distribuições em que as unidades
de medida são diferentes ou as médias das duas
distribuições são diferentes.

• Serve para compreender em termos relativos o


grau de concentração em torno das médias. O CV
é dado por:
Coeficiente de variação
Coeficiente de variação (2): Exemplo
• Uma empresa oferece um salário médio para os
homens de 800 USD com desvio padrão de 300 USD
e para mulheres de 600 USD com desvio-padrão de
240 USD.

• CV (H) = (300/800) × 100 = 37,5%


CV (M) = (240/600) × 100 = 40%

Em conclusão: os salários das mulheres registam


uma maior dispersão relativa que os salários dos
homens.
Medidas de Assimetria
• A forma mais simples para medir o grau de
assimetria de uma distribuição é comparar as 3
medidas de tendência central: a Média, a Moda e a
Mediana.
• Quando uma distribuição é simétrica, os valores da
média, da mediana e da moda são coincidentes.
• Quando a média ≥ mediana ≥ moda, a distribuição é
assimétrica positiva (ou enviesada à esquerda).
• No caso inverso, média ≤ mediana ≤ moda, a
distribuição é assimétrica negativa (ou enviesada à
direita).
Distribuição simétrica

  Mo  Md

Numa distribuição simétrica, a média, a mediana e a


moda são iguais.
Assimetria positiva

Mo ≤ Me ≤ µ

Com assimetria positiva, a presença de valores


extremamente elevados vai afectar positivamente
sobretudo o valor da média.
Assimetria negativa

µ ≤ Me ≤ Mo

Com assimetria negativa, a presença de valores


extremamente pequenos vai afectar negativamente
sobretudo o valor da média.
Grau de assimetria de uma
distribuição: indicadores
Quanto mais pronunciada for a assimetria da
distribuição, maior será a distância entre a
moda e a mediana. G é um indicador possível
do grau de assimetria:

G1 = 3 (Média – Mediana) / Desvio Padrão

Um indicador alternativo é o Coeficiente de


assimetria de Pearson:

G2 = (Média – Moda) / Desvio Padrão

Das könnte Ihnen auch gefallen