Sie sind auf Seite 1von 28

Apostila I

Estatstica Bsica

Alexandre Diniz

1.0 INTRODUO ESTATSTICA


1.1 Conceitos bsicos:
Mtodo
Na Grcia antiga, methodos, significava caminho para se chegar a um fim.
Mtodo o conjunto de etapas, ordenadamente dispostas, a serem vencidas:
. na investigao da verdade;
. no estudo de uma cincia;
. ou para alcanar um determinado fim.

Tcnica
Modo de fazer de forma mais hbil, mais segura e mais perfeita algum tipo de atividade, arte ou
ofcio.

Conhecimento

Conhecer estabelecer uma relao entre a pessoa que conhece e o objeto que passa a ser
conhecido.
No processo do conhecimento, o sujeito se apropria do objeto processando-o mentalmente
Conhecer = transformar o objeto em conceito, reconstituindo-lhe em sua mente (semitica).
Tipos de conhecimento:
. vulgar ou emprico;
. filosfico;
. teolgico/dogmtico;
. cientfico.
Dois mtodos de raciocnio cientfico:
induo e deduo.

Induo

. Vai do particular para o geral;


. vai dos fatos para as idias;
. vai das observaes para as generalizaes.

Deduo

. O raciocnio dedutivo parte do geral para chegar ao particular;


. do universal para chegar ao singular;
. das idias para os fatos;
. das generalizaes para a observao.

Estatstica

Originalmente coleo de informaes de interesse para o estado sobre a populao e


economia.
As palavras estatstica e estado tm a mesma origem latina: status.
Desenvolveu para tornar-se um mtodo de anlise muito utilizado nas cincias sociais e naturais.

Populao

Coleo de todas as observaes potenciais sobre um determinado fenmeno.


Amostra
Conjunto de dados efetivamente observados ou extrados de uma populao.
Sobre os dados da amostra se desenvolvem os estudos, visando a fazer inferncias sobre a
populao.

Amostragem

. Processo de escolha da amostra;


. parte inicial de qualquer estudo estatstico;
. consiste na escolha criteriosa de elementos a serem submetidos ao estudo, para que os
resultados sejam representativos, toma-se o cuidado de entrevistar um conjunto de
pessoas com caractersticas scio-econmicas, culturais, religiosas etc. to prximas quanto
possvel da populao.
A escolha da amostra, construo dos instrumentos, entrevistas, codificao dos dados e
apurao
dos resultados so etapas deste tipo de pesquisa.

1.2 Grandes reas da estatstica:


. Amostragem e planejamento de experimentos = coleta de dados.
. Estatstica descritiva = organizao, apresentao e sintetizao de dados.
. Estatstica inferencial = o conjunto de mtodos para tomada de decises, nas situaes onde
existem incerteza e variao.
Inferncia
. A tomada de decises sobre a populao, com base em estudos feitos sobre os dados da
amostra, constitui o problema central da inferncia estatstica.
. Tais decises sempre envolvem um grau de incerteza (probabilidade de erro).
. A inferncia feita com base em um modelo estatstico.

Probabilidade
. Impossvel fazer inferncias estatsticas sem utilizar alguns resultados da teoria de
probabilidades.
. Embora intimamente associada estatstica, tem suas caractersticas prprias.

. Busca quantificar a incerteza existente em determinada situao.

1.3 Escalas de mensurao:


Mensurao
Atribuio de um nmero a qualidades de um objeto ou fenmeno segundo regras definidas.
O processo de atribuio de nmeros a qualidades de objetos, forma a escala de mensurao ou
escala de medida.
Variveis
Caractersticas das unidades de anlise.
Unidades de anlise
Base da anlise.
Elementos nos quais se tem interesse.
Tipos de variveis
Quatro maneiras bsicas, ou nveis bsicos, de mensurao (quatro tipos de variveis):
1. nominal
2. ordinal
3. intervalar
4. razo
Importante definir os nveis de mensurao para as variveis, porque as tcnicas de anlise
estatstica que podem ser utilizadas dependem da escala de mensurao.

Escala nominal

O nvel mais simples das escalas de medida;


sistema simples de classificao;
utilizada para classificar objetos ou fenmenos em termos de igualdade dos seus atributos e
numer-los;
Recurso para se classificar e rotular ou dar nomes a objetos.
O caso mais simples formado pela diviso em duas classes que so identificadas com os
nmeros zero ou um - varivel binria (0,1).
Cada observao na mensurao nominal pertence a uma s classe muito freqente na anlise
geogrfica;
Indica a presena ou no de determinada caracterstica.
Ex: Municpios dentro e fora da rea de atuao da SUDENE.
Caractersticas
. classes so mutuamente excludentes;
. operaes aritmticas no podem ser aplicadas (adio e multiplicao);
. contagem simples possvel;
. pode-se levantar a classe modal (mais freqente);
. a freqncia de cada classe pode ser expressa como porcentagem do nmero total.

Escala ordinal

Utilizada quando os fenmenos ou observaes podem ser arranjados segundo uma ordenao
(grandeza, preferncia, importncia, distncia, etc..).
Ex: expresses qualitativas arranjadas segundo uma ordem:
. hierarquia dos nveis educacionais: primeiro, segundo e terceiro graus;
. nveis de renda: renda baixa, media e alta;
. hierarquia urbana;
. padro de habitao;
. preferncia locacional;
. escala de dureza dos minerais.
Possvel quando se desenvolve uma seqncia qualitativa na qual lgico colocar um fato antes
do outro.
. No deve fazer operaes aritmticas
Ex: classificao de hotis em nveis hierrquicos.
No se pode dizer que um hotel quatro estrelas duas vezes melhor do que um hotel duas
estrelas.
Sabe-se que os quatro estrelas so melhores, mo no existe meios de se quantificar esta
diferena na escala ordinal.
Caractersticas:
. possvel calcular a freqncia de cada classe, para indicar a classe modal;
. Classes so mutuamente excludente;
. Pode-se calcular coeficientes de correlao - Spearman e Kendall (estatstica no paramtrica).

Escala intervalar

Caractersticas:
. Tem todas as caractersticas de uma escala ordinal, porm os intervalos entre os valores so
conhecidos exatamente e assim cada observao pode receber um valor numrico preciso.
. A extenso de cada intervalo sucessivo constante:
i.e. numerao dos anos, variaes de altitude atravs de curvas de nvel e escalas de
temperatura;
. O ponto zero de uma escala de intervalo arbitrrio e no indica ausncia da caracterstica
medida.
. A falta de zero absoluto uma desvantagem, pois no possvel afirmar que uma temperatura de
20 C duas vezes mais quente do que uma de 10 C.
. Adapta-se a todas as operaes aritmticas usuais, desde que seja mantida a ordem dos objetos
e as diferenas relativas entre elas.
. A mdia e o desvio padro podem ser calculados.

Escala de razo

Caractersticas:
. Mais precisa de todas

. Tem todas as caractersticas de uma escala de intervalo, com a vantagem de que o ponto zero
representa uma origem verdadeira (zero indica ausncia de fenmeno).
Ex: escala mtrica, idades e pesos de pessoas, distncia, produo, renda per capita, rea
cultivada, capacidade, etc.
. Todas as operaes so possveis;
. Pode-se calcular qualquer razo entre duas medidas ou dois valores.
Ex:: densidade demogrfica de zero pessoas por km2 = nenhuma pessoa est na rea.
Ex: densidade de 30 pessoas por km2 = indica que existem trs vezes mais do que 10/km2.
. Qualquer teste estatstico paramtrico ou no paramtrico pode ser utilizado.

Observaes

. Conhecimento das escalas de mensurao importante no momento de preparao de


questionrios.
. Perguntas devem ser elaboradas de tal maneira que as respostas sejam dadas na escala
desejada.
. Pode-se formular uma pergunta de duas ou trs maneiras, segundo a mensurao escolhida:
Ex: informao sobre o nvel de escolaridade do chefe de famlia:
Escala nominal: O chefe de famlia alfabetizado?
Sim No
Escala ordinal: Qual o nvel escolar do chefe de famlia?

1 grau 2 grau 3 grau


Escala de razo: Quantos anos freqentou a escola?
5 anos

1.4 Estatstica descritiva:


. Ocupa-se da organizao, apresentao e sintetizao de dados.
. Parte mais conhecida
. TV ou jornais mdias, ndices, grficos.

1.4.1 Medidas de tendncia central:


Busca identificar valores tpicos de uma determinada distribuio.

Mdia aritmtica
. Medida de tendncia central mais utilizada;
. familiar para a maioria das pessoas;

. encontrada adicionando-se todos os valores e dividindo-se o resultado pelo nmero total de


ocorrncias:
Mdia =

i /n

Mediana

. Valor que divide uma distribuio exatamente em duas metades.


Clculo
. Primeiramente, arranja-se os dados em ordem crescente ou decrescente e em seguida encontrase o valor central.
. Para os conjuntos com nmero mpar de observaes, a mediana encontrada atravs da
frmula n +1/2, onde n o nmero de observaes.
. O valor encontrado atravs da frmula indica a ordem do termo da distribuio que representa a
mediana.
. Para os conjuntos com nmeros pares, a mediana est entre os dois nmeros centrais n/2 e
n+2/2. Aps identificar esses nmeros centrais, deve-se som-los e dividir por dois.
. s vezes uma medida melhor do que a mdia, pois esta influenciada por valore extremos.

Moda

. Valor que ocorre com maior freqncia;


. utilizada mais freqentemente quando dados esto registrados na escala nominal;
. existem conjuntos de dados sem moda;
. existem conjuntos de dados com modas mltiplas (bi-modal x unimodal).
. A exceo dos dados agrupados, a moda no uma medida muito til;
. neste caso a classe modal aquela cuja freqncia supera as demais.

Distribuio dos dados

. Existem relaes mtuas entre as trs medidas de tendncia central.


. Se temos um conjunto de dados com distribuio totalmente simtrica-normal, mdia, mediana e
moda so idnticas.
. Se um conjunto de dados tem uma distribuio assimtrica positiva, os trs valores mdios so
diferentes uns dos outros, sendo o valor da mdia superior ao da mediana.
. A simetria positiva muito freqente nos conjuntos de dados geogrficos.
. Se um conjunto de dados apresenta uma distribuio assimtrica negativa, o valor da mdia
menor do que o da mediana.

1.4.2 Medidas de variabilidade ou disperso


.Para se descrever um conjunto de dados no basta s indicar a tendncia central, especialmente
quando se compara dois ou mais conjuntos de dados.
. Um conjunto pode ter todos os valores prximos mdia, enquanto outro pode ter os dados mais
dispersos
. Portanto, o grau de disperso em torno dos valores centrais uma informao importante.

Amplitude total

. Medida mais simples de disperso.


. rapidamente encontrada e d uma primeira impresso sobre a disperso dos dados para os
conjuntos de dados:
1, 4, 7, 10, 13

e 4, 5, 7, 8, 11

. os dois tm a mdia 7, mas a disperso bem diferente;


. a disperso do primeiro caso vai de 1 a 13 amplitude total de 12;
. a disperso do segundo caso vai de 4 a 11 - amplitude total de 7.
. Porm, uma medida imprecisa, pois o clculo envolve s dois valores observados, no importa
se o conjunto de dados tenha 1000 observaes;

. no se tem informao alguma sobre a distribuio dos dados dentro do intervalo ou sobre o
nmero de valores que esto perto da mdia.

Por exemplo nos conjuntos:


1,2,6,6,6,6,6,10,11 a mdia 6 e a amplitude total 10;
1,1,1,1,6,11,11,11,11 a mdia tambm 6 e a amplitude tambm 10,
mas os dados se agrupam de modo distinto.

. a amplitude uma boa medida de disperso para conjuntos de dados pequenos, porm para
conjuntos maiores a medida desaconselhvel.

Varincia e Desvio Padro

. Na prtica o desvio mdio quadrado em torno da mdia de um conjunto de dados (varincia)


mais utilizado;
. desta maneira, o sinal torna-se sempre positivo.
A soma dos desvios da mdia elevados ao quadrado dividida pelo nmero total de observaes.

Sx =

xi-mdia)

Ela a mdia dos quadrados dos desvios em relao mdia do conjunto.


Como os desvios so elevados ao quadrado, a varincia expressa em unidades quadradas e
assim muito difcil de ser interpretada.
Mais importante ainda do que a varincia, o desvio padro, que indica a disperso nas mesmas
unidades de medidas dos dados originais.

O desvio padro a raiz da mdia dos quadrados dos desvios em relao mdia do conjunto e
uma medida do desvio dos valores individuais em relao ao valor central do conjunto de dados ou
a raiz quadrada da varincia.
Se os valores esto prximos uns dos outros, a soma dos quadrados pequena.
Se os valores esto distantes uns dos outros, a soma dos quadrados grande.
Nos casos em que os dados so tirados de uma amostra e se queremos estimar o desvio padro
da populao da qual a amostra foi tirada, aconselhvel substituir o denominador por n-1. Com
mais de 30 dados o resultado quase idntico.

Medidas de disperso relativa

Para comparar a variabilidade entre diversos conjuntos de dados que tm mdias bem diferentes,
o coeficiente de variao uma medida melhor , indicando a variao relativa.
Facilmente obtido dividindo-se o desvio padro pela mdia da distribuio.

V=s/x
Como tanto desvio padro, quanto mdia so dados na mesma unidade, V um nmero
independente de unidades de medida.
Uma desvantagem = no utilizvel se a mdia est prxima de zero;
. fato que ocorre raramente nos dados geogrficos, exceto em relao temperatura e
precipitao.

1.5 Probabilidade:
. Impossvel fazer inferncias estatsticas sem utilizar alguns resultados da teoria de
probabilidades.
. Embora intimamente associada estatstica, tem suas caractersticas prprias.
. Busca quantificar a incerteza existente em determinada situao,

Experimento aleatrio processo de coleta de dados relativos a um fenmeno que acusa


variabilidade em seus resultados

Espao amostral conjunto de todos os resultados possveis de um experimento (E)


Ex: Dado E={1,2,3,4,5,6}
Gnero E={Homem, mulher}
Quando o espao amostral consiste em um nmero finito ou infinito contvel de eventos
espao amostral discreto;
Quando espao amostral consiste em todos os nmeros reais de determinado intervalo
espao amostral contnuo.

Evento Subconjunto de um espao amostral

Probabilidade possibilidade de um dado evento ocorrer

Dado Probabilidade de 1 = 1/6


Sexo Probabilidade de feminino =
As de copas Probabilidade 1/52

Distribuio de probabilidades distribuio de probabilidades associadas a um conjunto de


eventos (espao amostral).

Distribuio finita ou discreta de probabilidades baseada em um nmero contvel de


eventos

Ex: Experimento com dois dados soma da combinao dos resultados


Dado 1

Dado 2

10

1
2
3
4
5
6

1
2
3
4
5
6

E= (2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12)

36 combinaes possveis, logo


1/36, 2/36, 3/36, 4/36, 5/36, 6/36, 5/36, 4/36, 3/36, 2/36, 1/36
Associar a cada valor a sua probabilidade distribuio de probabilidade (varivel aleatria).

Distribuio infinita ou contnua de probabilidades nmero infinito de eventos a curva


se homogeiniza a partir de um nmero infinito de casos

Ex: altura, temperatura, precipitao, tempo de viagem


A distribuio pode ser encarada como um refinamento de uma distribuio bem grosseira.
medida que aumenta a preciso das medidas, um nmero maior de classes at que no limite
temos uma curva contnua.
Exs: Nmero de crimes em Belo Horizonte discreta (valores inteiros)
Tempo de percurso contnuo
Quantidade de leite produzida contnua
Nmero de perueiros discreta
Peso do trigo contnua
Quantidade de gros de areia discreta
Altura discreta.

Vrios tipos de distribuies contnuas binomial, poisson e pascal (etc.)


Mais til e mais utilizada a normal.

Distribuio normal

. Distribuio de probabilidade.
. A mais importante das distribuies contnuas de probabilidade.
. A curva em forma de sino.
. Tem sua origem associada aos erros de mensurao.
. Quando se efetuam repetidas mensuraes de determinada grandeza com um aparelho
equilibrado, no se chega ao mesmo resultado todas as vezes.
. Obtm-se um conjunto de valores que oscilam, de modo aproximadamente simtrico, em torno do
valor verdadeiro.
. Ao construir um histograma desses valores e o correspondente polgono de freqncia, obtm-se
uma poligonal aproximadamente simtrica.
. Supunha-se anteriormente que todos os fenmenos devessem ajustar-se a uma curva em forma
de sino. Caso contrrio, suspeitava-se de alguma anormalidade no processo de coleta de dados.

11

. Da o nome curva norma.


. Descobriu-se depois que vrios fenmenos no possuem distribuies normais
. a distribuio normal tem papel preponderante na estatstica, sendo utilizada largamente nos
processos de inferncia.

Principais caractersticas:
1. mdia da distribuio
2. desvio padro
3.
4. a curva simtrica em relao a um eixo vertical passando por x =
5. a curva normal assinttica ao eixo horizontal em ambas as direes.
6. A rea total sob a curva normal e acima do eixo horizontal 1 (o eixo horizontal o eixo dos
valores de v.a. X, nomal)

Propriedades:
68,26% das ocorrncias encontram-se entre +/- 1
95,44% das ocorrncias encontram-se entre +/- 2
99,74% das ocorrncias encontram-se entre +/- 3
99,99% das ocorrncias encontram-se entre +/- 4

A probabilidade de v.a . normal x estar entre a e b igual a rea sob a curva e acima do segmento
horizontal

12

1.6 Teste de hiptese:


Nos testes de hipteses, fazemos suposies acerca dos parmetros desconhecidos e
perguntamos o quo provveis as nossas estatsticas amostrais seriam caso essas suposies
fossem de fato verdadeiras.

O objetivo: decidir se uma conjectura/suposio (hiptese) sobre determinada caracterstica de


uma ou mais populaes , ou no, apoiada pela evidncia obtida a partir de dados amostrais

Parmetro x Estatstica

O objetivo da estatstica inferencial fazer generalizaes sobre a populao com base em uma
amostra retirada da prpria populao.
Portanto, faz-se necessrio diferenciar as caractersticas da populao e da amostra

Parmetros

Populao parmetros letras gregas


Os parmetros so valores fixos associados a populao e so geralmente desconhecidos.
Ex: a mdia de pontos entre os estudantes de geografia pode ser desconhecida, mas o mesmo
valor seria encontrado por todos os pesquisadores.

Estatsticas

Amostra - estatsticas letras romanas


As estatsticas, por outro lado, variam a cada amostra.
Caso 10 amostras de estudantes fossem selecionadas, ns raramente obteramos os mesmos
resultados.
Porm, ao contrrio dos parmetros, pode-se calcular facilmente as estatsticas para as amostras.

Observaes

Entretanto, a populao que nos interessa e no a amostra.


As amostras so trabalhadas por convenincia e o objetivo fazer inferncias acerca dos
parmetros da populao, com base nas amostras, que so conhecidas. Amostra um mero
caminho, um passo.
Nos testes de hipteses, fazemos especulaes acerca dos parmetros desconhecidos e ento
perguntamos quo provvel as estatsticas seriam caso as nossas especulaes fossem de fato
verdadeiras.
Ao faz-lo tentamos tomar uma deciso racional se os valores especulados para os parmetros
so razoveis luz das evidncias.

13

Teste de hiptese portanto um processo de deciso. Como a lgica no processo complexa,


segue uma discusso do procedimento

Hiptese estatstica/real/alternativa (H1): qualquer afirmao sobre os parmetros da populao


em estudo.
Hiptese Nula (Ho) anttese da hiptese real.
A designao nula - Ho a hiptese de igualdade ou nulidade no diferena/no relao.

Erros tipo I e tipo II


Concluso do teste

Ho verdadeira

No rejeitar Ho

Correto

Rejeitar Ho

Ho falsa

Correto

Etapas para testar uma hiptese estatstica:

1. Checar os pr-requisitos dos testes.


2. Formulao das hipteses Ho e H1.
3. Escolher uma distribuio adequada aos objetivos e a natureza dos dados .
4. Escolher o nvel de significncia (alfa) e estabelecer a regio crtica.
5. Calcular o valor da estatstica de teste com base em uma amostra de tamanho n extrada da
populao.
6.

Tomada de deciso.

Bibliografia:

Blalock, Hubert. 1973. Social Statistics. New York, Mcgraw-Hill.


Gravetter, Frederick e Wallnav, Larry 1992. Statistics for the Behavioral
Sciences. New York, West Publishing Company.
Gregory, S. 1973. Statistical Methods and the Geographer. London, Longman.
Hammond, Robert e McCullagh, Patrick. 1974. Quantitative Techniques in Geography An
Introduction. Oxford, Clarendon Press.
Hoel, Paul. 1981. Estatstica Elementar. So Paulo, Atlas.
Martins, Gilberto e Donaire, Denis. 1979. Princpios de Estatstica. So Paulo, Atlas.
Siegel, Sidney. 1975 Estatstica No Paramtrica Rio de Janeiro McGraw-Hill do Brasil

14

Soares, Jos; Farias, Alfredo; Csar, Cibele. 1991. Introduo Estatstica. Rio de Janeiro,
Guanabara Koogan.

15

2.0 REGRESSO LINEAR


2.1 Anlise bivariada
Problema tpico de correlao e anlise de regresso:
. Existem relaes entre fenmenos distintos em um conjunto de reas?
Anlises envolvem:
1. varivel independente (representada por x) causa.
2. varivel dependente (representado por y) efeito.
Ex: relao entre:
Taxa de fecundidade (nmero mdio de filhos durante idade reprodutiva);
Populao urbana (%);
Para uma amostra de pases do mundo.
Hiptese:
Quanto maior a proporo de habitantes urbanos, menor ser a taxa de fecundidade
Ho: No existe relao entre as duas variveis
Exame do diagrama de disperso indica que a tendncia geral foi confirmada, porm para
uma medio precisa, necessrio que se conhea a relao funcional entre X e Y.

Grfico de disperso
9

Fertilidade (# mdio de crianas)

Rwanda

8
Somalia
Burkina
Faso
Afghanistan
Ethiopia
Burundi Uganda
Oman
Gambia
Tanzania

Cambodia

Liberia
Zambia
Syria
Pakistan
Nigeria
Senegal

Kenya Haiti
Botswana

Bangladesh

IraqSaudi Arabia
Libya

Iran

Cameroon
Cent. Afri.R

Jordan

Honduras
Guatemala

U.Arab Em.
South Africa
Nicaragua
Paraguay
Bolivia
Kuwait
Bahrain
Gabon
Morocco
El Egypt
Salvador
Uzbekistan
Malaysia
Lebanon
Philippines
Vietnam
Mexico
Costa Rica EcuadorTurkey Armenia
Peru
Venezuela
Panama
Domincan R.
Azerbaijan
Indonesia
Argentina Israel
Brazil
ChileUruguay
Colombia
N. Korea
Georgia
Thailand
Sweden
USA
New
ZealandIceland
Norway
Estonia
Ireland Poland
Lithuania
Latvia
Cuba
Belarus
AustraliaUK
Singapore
China
Romania Finland
Ukraine
Russia
Canada Denmark
BulgariaFrance
Hungary
Barbados Croatia
S. KoreaJapan
Switzerland
NetherlandsBelgium
Austria
Greece
Portugal
Germany
Spain
Hong Kong
Italy

4
3
2

India

1
0

20

40

60

80

100

120

Populao urbana (%)

Em outras palavras:
. importante conhecer o impacto que um aumento em X ter em Y (coeficiente de regresso);
. tambm necessrio mensurar a representatividade da relao, ou o quo bem a linha de
regresso define a distribuio de pontos do diagrama de disperso (coeficiente de correlao).

16

2.1.1 Regresso linear simples:


Pergunta inicial:
possvel predizer uma varivel (Y) a partir de uma outra (X)?
A quantidade de mudana em uma varivel dependente (Y), fomentada pela mudana em uma
varivel independente (X) indicada pelos parmetros da equao da regresso, indicada pela
frmula:
i

= ayx + byxXi

Onde,
isima observao;
Xi o valor de X para a isima observao;
ayx o termo interceptor (ponto da linha de regresso que cruza o eixo dos Y)
byx a inclinao da reta
mudana em Y a cada incremento em unidades de X
Objetivo = prever os valores de Y
O que faz a regresso linear?
. Traa atravs dos pontos marcados no diagrama de disperso das variveis X e Y, uma linha que
minimiza as distncias entre os pontos plotados.
. Minimiza a soma dos quadrados de todos os desvios verticais dos valores reais em relao
linha.
A linha de regresso , portanto, a melhor descrio, a nvel de uma reta, de uma tendncia
inerente a um conjunto de pontos.
Como colocada para produzir os valores de ayx e byx?
O propsito estatstico por trs da construo da linha de regresso coloc-la o mais prximo
possvel de todas as observaes, de maneira que minimize os desvios quadrados entre ela e o
eixo dos Y. O objetivo minimizar:
Yi-

(Variao)

O objetivo atingido ao utilizar o conceito estatstico de:


. varincia;
. covarincia;
. mtodo dos quadrados mnimos;
Varincia
2
2
Sy
Yi - mdia de Y) /n
Desvio padro
2
Sy =
y
Covarincia
COVyx = (
xi - mdia de X) (Yi mdia de Y))
N

17

Coeficiente de regresso (b)


O coeficiente de regresso a razo entre a covarincia entre as duas variveis e a varincia na
varivel independente X.

b=

(xi-mdia de x) (yi-mdia de y)
2
xi-mdia de x)

ou
b= COVyx
2
Sy
A covariao indica o tamanho conjunto dos desvios de Y e X de suas respectivas mdias,
enquanto a variao indica o tamanho dos desvios em Xi. Portanto, quanto maior a covarincia,
maior ser o impacto de X sobre Y.
O clculo de covarincias e varincias envolve os valores individuais de Yi e Xi, em termos de suas
distncias das suas respectivas mdias. uma caracterstica do mtodo dos quadrados mnimos
que a reta de regresso passe pelos ponto de interseo da mdia de x e de y.
Isto ajuda na determinao de a:
a = mdia de Y b(mdia de X)
Obs:
. A covarincia uma medida absoluta e pode ser positiva ou negativa
. A varincia s pode ser positiva

Coeficiente de correlao ( r )
Os dois parmetros da equao de regresso indicam a forma da relao entre Y e X, mas diz
pouco sobre o grau de acuidade das estimativas de Y. Para tal, utiliza-se um parmetro
associado: coeficiente de correlao.
Existem muitos coeficientes de correlao estatstica, mas trabalhar-se- com o coeficiente de
correlao de Pearson.
r=

xi mdia de x) (yi mdia de y)


2
2
xi-mdia de x)
yi-mdia de y) ]

Covariao em X e Y
Raiz quadrada do produto da variao total em X e Y

Duas funes:
1. Examina o grau de associao de duas variveis.
Mede at que ponto so interdependentes ou covariantes.
2. Determina a direo da correlao.
Varia de 1 a +1.

18

r =1
Correlao positiva perfeita
Quanto maiores os valores de x, maiores sero os valores de y

r = -1
Correlao negativa perfeita
Quanto maiores os valores de x, menores sero os valores de y

r=0
Ausncia de relao linear

Coeficiente de determinao (r )
O coeficiente linear de correlao r yx, compara a varincia na varivel dependente Y com a
reduo na varincia daquela varivel, quando uma varivel independente X utilizada para
estimar os valores de Y.
A proporo da variao total em Y explicada por X varia de 0 a 1.
2

r=

i-

mdia de Y)
2
Yi- mdia de Y)

variao explicada
variao total

19

Consideraes
. Dificilmente se encontra associaes perfeitas (r = +1 ou 1)
. Alto valor de r no significa necessariamente uma relao causal (sorvete e criminalidade)
. Pode ser utilizada para verificao quantitativa de provveis relaes
. Revela o grau de relao estatstica, mas no explica o porque da relao
. Coeficiente de correlao nulo (r=0), no indica ausncia de relao - indica ausncia de relao
linear
. Presena de um ou dois valores extremos podem influenciar fortemente os valores de r
Significncia
Vrios trabalhos que se utilizaram de regresso e/ou correlao utilizam a frase com 5% de
significncia.
Testes de significncia estatstica so utilizados para inferir caractersticas de uma populao, com
base em uma amostra. Os testes so vlidos apenas se:
. a amostra aleatria;
. a populao foi completamente especificada.
A correlao de 0.89 estatisticamente significante a 5%
Isto indica que existe a chance de 95% de que a relao observada na amostra seja verdadeira
para a populao.
Testes de significncia esto ligados a probabilidade de que os resultados observados na
amostras no sejam relacionados populao.
Em regresso, existe um modelo para a populao
o
Que estimado a partir de uma amostra
Y = a + bX

ryx = correlao

Teste de significncia para o coeficiente de correlao


A maneira de se testar a significncia de um coeficiente de correlao atravs da razo de F de
Snedecor.
Lembrem-se que a varincia total na varivel dependente :
2
y

Yi - mdia de Y) /n

A parcela desta varincia que explicada pela regresso :


(r

2
yx)

(Sy )

A parcela no explicada da varincia :


(1-r

2
yx)

(Sy )

Para construir o teste de F de Snedecor corrige-se esses valores, chamados de estimativas de


varincia, pelos seus respectivos graus de liberdade.

20

Existem:
(N-1) graus de liberdade na varincia total
k graus de liberdade na varincia explicada, sendo k o nmero de variveis independentes
n-k-1 graus de liberdade na varincia no explicada
2

F = (r yx) (Sy )/k


2
2
(1-r yx) (Sy )/n-k-1

varincia explicada/graus de liberdade .


varincia no explicada/graus de liberdade

Programa informa automaticamente o nvel de significncia associado aos valores de F.


Teste de significncia para o coeficiente de regresso
Atravs do teste T de Student.
T = byx
SEb
Seb erro padro da distribuio dos coeficientes de regresso
Seb= SEy
Sx
Onde,
Sey erro padro residual da regresso
Sx desvio padro de X
N nmero de observaes
Programa informa automaticamente o nvel de significncia associado aos valores de T.
Resduos
Quando as observaes deixam de cair na linha de regresso, o coeficiente de correlao indica o
grau de ajustamento da linha de regresso no conjunto de pontos. Isto no indica, nem o sucesso
da equao, ao estimar uma observao em particular, nem a variao existente em torno dos
valores estimados de Y. Para tal, verifica-se os resduos da regresso, definidos por:
Res Yi = Yi - i
O valor residual
Utilizados para identificar observaes que esto mais distantes da linha de maior ajustamento.
Pode indicar casos discrepantes, ou sugerir o uso de outras variveis independentes que podem
ser levadas em considerao na melhoria do modelo.
Resduos positivos valor estimado menor do que o valor real valor subestimado
Resduos negativos valor estimado maior do que o valor real - valor superestimado
Pr-requisito da correlao e regresso
. Variveis intervalares ou de razo
. Linearidade
Anlise de regresso constri uma linha que melhor define a distribuio de pontos;
Correlao testa a robustez desta linha, em relao a distribuio de pontos;
Caso no sejam lineares curvilinhas transformaes.

21

. Normalidade
variveis normalmente distribudas;
resduos normalmente distribudos (Yi- i);
. Varincias iguais
. Autocorrelao
valores de X so independentes entre si;
. Variveis independentes, sejam de fato independentes.

Aplicaes das anlises de regresso e de correlao simples


. Verificao de relaes entre variveis.
. Teste de hipteses.
. Predio e planejamento.
No se deve constituir num fim, mas levar o pesquisador, especialmente atravs da anlise e do
mapeamento de resduos, a formular ciclicamente novas hipteses a serem testadas com o bjetivo
de tentar explicar a totalidade do fenmeno.

2.2 Anlise Multivariada


Explora o poder de explicao que um conjunto de variveis independentes tm quando tomadas
em conjunto.
Pergunta inicial:
possvel predizer uma varivel (Y) a partir de um conjunto de outras (Xn)?

2.2.1 Regresso mltipla

A quantidade de mudana em uma varivel dependente (Y), fomentada pelas mudanas em


variveis independentes (Xn) indicada pelos parmetros da equao da regresso, indicada pela
frmula:
0.12

= a0.12 + b01.2X1 + + b02.1X2 +/-

Onde,
0.12 o valor estimado de Y a partir das variveis independentes X1 e X2;
a0.12 o valor interceptor (ponto do plano de regresso que cruza o eixo dos Y, onde X1=X2=0);
b01.2, b02.1 so os coeficientes de regresso parciais, indicando a inclinao das relaes entre Y0; e
X1 e X2, respectivamente, enquanto a(s) outra(s) varivel (is) /so mantida(s) constante(s);

O que faz a regresso linear mltipla?


. Traa atravs dos pontos marcados no diagrama de disperso das variveis X e Y, um plano que
minimiza as distncias entre os pontos plotados.
. Minimiza a soma dos quadrados de todos os desvios verticais dos valores reais em relao ao
plano.

22

Correlao parcial
Trabalha os dados de tal maneira, que se pode verificar o efeito de uma varivel, como se as
outras no estivessem presentes na anlise.
r01.23-n indica a correlao parcial entre a varivel dependente (Y0) e uma varivel independente X1,
mantendo o efeito das outras variveis independentes (X2, X3, Xn) constantes.
Um nmero infinito de variveis pode ser controlado.
Os nmeros antes do ponto indicam as variveis ativas, ao passo que as colocadas direita do
ponto indicam as variveis que esto sendo controladas.
r01.2 indica a correlao entre Y0 e X1, tendo removido o efeito das relaes Y0= f(x2) e a relao X1
= f(x2). Essas remoes so produzidas ao regressarmos:
Y0 em X2 e
X1 em X2 e
Ento, fazendo a regresso dos resduos dessas regresses:
r01.2 = r01-(r02)(r12)
2
02

2
12

Coeficientes de regresso parciais padronizados


b01.2 indica o aumento absoluto em Y associado a um aumento em uma unidade em X1, mantendose o efeito de X2 constante.
Comparaes entre os coeficientes b so impossveis, uma vez que as variveis independentes
geralmente apresentam unidades de medida distintas.
A soluo padronizar os valores do coeficiente de b, transformando-os em coeficientes beta (B).
Os valores de beta so dados em unidades de desvios padro e podem ser prontamente
comparveis.
B01.2 = b01.2 SX1
SX2

Coeficiente de correlao mltipla


Coeficientes de correlao parciais indicam a magnitude da relao entre duas variveis,
mantendo o efeito das demais variveis presentes na anlise constantes.
O quadrado dos coeficientes de correlao parciais indicam a proporo da varincia residual na
varivel dependente, que associada com a varincia residual na varivel independente.
Mede a magnitude da relao entre uma varivel dependente e uma srie de variveis
independentes

23

Procede-se da seguinte maneira:


1. Primeiramente, permite-se que uma das variveis independentes explique toda a variao
possvel;
2. Depois, permite-se que uma segunda varivel independente explique a poro da variao
deixada inexplicada pela primeira. Porm, para evitar duplicao, deve-se controlar o efeito
conjunto que as duas variaveis independentes tm.
3. Ento, permite-se que a terceira varivel seja introduzida, controlando o efeito das outras duas
variveis independentes no modelo.
O processo segue indefinidamente, ao sabor do nmero de variveis independentes no modelo.
R

2
1.23

2
12

+ r

2
13.2

(1-r

2
12)

Bibliografia:
Blalock, Hubert. 1973. Social Statistics. New York, Mcgraw-Hill.
Gregory, S. 1973. Statistical Methods and the Geographer. London, Longman.
Hammond, Robert e McCullagh, Patrick. 1974. Quantitative Techniques in Geography An
Introduction. Oxford, Clarendon Press.
Hoel, Paul. 1981. Estatstica Elementar. So Paulo, Atlas.
Johnston, R. 1992. Multivariate Statistical Analysis Geography. New York. Longman Scientific &
Technical.
King, Leslie. 1969. Statistical Analysis in Geography. Englewood Cliffs, Prentice-Hall Inc.
Martins, Gilberto e Donaire, Denis. 1979. Princpios de Estatstica. So Paulo, Atlas.
Montgomery, Douglas e Peck, Elizabeth 1992. Introduction to Linear Regression Analysis. New
York, John Wiley & Sons, INC.
Rummel, R. J. 1970. Applied Factor Analysis. Evanston, Northwestern University Press.
Soares, Jos; Farias, Alfredo; Csar, Cibele. 1991. Introduo Estatstica. Rio de Janeiro,
Guanabara Koogan.

24

3.0 Componentes Principais/Anlise Fatorial


Em regresso linear mltipla, busca-se compreender a relao entre um conjunto de variveis
independentes (Xn) e uma varivel dependente (Yi). O processo se d de tal maneira, que alm de
todas as variveis serem definidas/conhecidas previamente, especula-se acerca da direo da
relao entre elas (positiva ou negativa).
Em componentes principais/anlise fatorial, estuda-se a relao entre um conjunto de variveis,
explorando-se as inter-relaes entre todas as variveis simultaneamente. Desta maneira, todas as
variveis so ao mesmo tempo independentes e dependentes entre si. O resultado desta anlise
um novo conjunto de variveis, e a relao entre o primeiro e o segundo conjunto de variveis o
foco da anlise.
Mas por que trocar um conjunto de variveis por outro? Trs motivos distintos:
1. Para identificar grupos de variveis inter-correlacionadas, ou a estrutura subjacente na base de
dados. Neste caso, supe-se que a lista de variveis originais a manifestao de um nmero
menor de variveis (fatores ou dimenses);
2. Simplificar os resultados pela reduo do nmero de variveis (dimenses);
3. Classificao de reas/regionalizao com base nas dimenses/vetores produzidos.

Incio da anlise
Matriz de dados:
Uma lista de p variveis e n valores, obtidos em uma amostra.

Amostra
1
2
N

Variveis
X1
X11
X12
X1n

X2
X21
X22
X2n

X3
X31
X32
X3n

Xp
Xp1
Xp2
Xpn

A partir desta matriz de dados multivariados, obtm-se a covarincia, ou correlao entre as


1
variveis. Trabalhar-se- a partir da correlao de Pearson entre as variveis, como entrada para
a Anlise dos Componentes Principais/Fatorial.
A matriz de correlao composta de coeficientes de correlao (r) entre todos os pares possveis
de variveis.

O modelo
As variveis ou atributos (X1, X2... Xp) so definidas como combinaes lineares de k
componentes/fatores no observveis (S 1, S2,...Sk), comuns a todas as variveis, e um fator
especfico (Ei) para cada varivel:
X1= f (S1+S2 .....Sn)+/- E1
X2= f (S1+S2 .....Sn) +/- E2
Xp= f F(S1+S2....Sk)+/-Ep
1

Consultar item 2.0 da apostila para discusso sobre coeficiente de correlao de Pearson.

25

Onde, X1 uma das variveis originais;


S1, S2, Sk so os componentes/fatores, que por sua vez so compostos pelas variveis originais.
Os componentes/fatores so estimados a partir das variveis originais X1, X2,... Xp, segundo o
modelo:
Sj= wj1X1 + wj2X2 +...W jpXp
Componentes principais e anlise fatorial diferem na maneira como o erro tratado. Na anlise de
componentes principais, os erros so tratados como componentes, de tal modo que as todas as
variveis esto relacionadas a uma srie de componentes, um dos quais pode muito bem ser o seu
prprio erro. Por isso, a anlise de componentes principais chamada de modelo fechado, uma
vez que toda a varincia associada s variveis originais investigada. O resultado um conjunto
de componentes que iguala o nmero de variveis originais.
J a anlise fatorial exclui o erro das equaes, de tal forma que, cada varivel dividida em duas
partes: a varincia comum (associada a outras variveis) e a sua varincia nica, que residual. A
varincia comum ento dividida entre o conjunto de fatores, da mesma maneira como a varincia
dividia na anlise de componentes principais.

Extrao dos componentes/fatores


1. Estimao inicial dos fatores por meio da anlise de componentes principais
Os componentes principais/fatores (S1, S2,...Sp) so combinaes lineares das p variveis
aleatrias X1, X2, ..., Xp. Geometricamente, estas combinaes lineares representam a seleo de
um novo sistema de coordenadas, obtido pela rotao do sistema original de eixos X1, X2,... Xp. Os
novos eixos representam as direes com mxima variabilidade e fornecem uma descrio mais
simples e parcimoniosa da estrutura de correlao.

Estes componentes/fatores so obtidas matematicamente de forma que a primeira (S1) contenha a


maior quantidade possvel de informao total presente nas p variveis originais. J a segunda
(S2), que independente da primeira, contm o mximo possvel da informao restante, e assim
sucessivamente. Quanto maior for a correlao entre as variveis originais, maior a informao
contida nas primeiras componentes.

26

Seleo do nmero de componentes/fatores


A anlise de Componentes Principais produz um fator para cada varivel original. Na busca de
simplificao dos dados, deve-se selecionar um nmero pequeno de fatores (k<p), retendo apenas
aqueles que trazem grande parte da informao relevante contida nos dados originais.
A determinao do nmero de fatores que deve ser utilizado para representar os dados leva em
considerao os autovalores, tambm denominados valores caractersticos ou eigenvalues,
correspondentes a cada fator. Os critrios mais utilizados so os seguintes:
1. Selecionar o nmero de fatores que explique grande parte da variao total contida nos dados.
A porcentagem da varincia total contida no i-simo fator dada por:
% da varincia total =

Autovalor x 1000 .
Soma dos p autovalor

2. Analisar a representao visual dos autovalores no grfico Scree, observando a contribuio de


cada fator.
3. Utilizar apenas os fatores cujos autovalores sejam maiores do que 1.

Interpretao dos componentes/fatores


. Matriz dos loadings dos componentes/fatores
Uma vez selecionados os componentes/fatores que representam satisfatoriamente a informao
contida nas variveis originais, deve-se interpretar cada componente/fator pela anlise de como as
variveis originais esto relacionadas a cada componente/fator. Para isto so utilizados os valores
dos coeficientes que relacionam as variveis originais padronizadas com os fatores. Estes
coeficientes so denominados loadings dos fatores, pois indicam o peso de cada varivel no
componente/fator e so equivalentes aos coeficientes de correlao (r) entre os
componentes/fatores e cada varivel original.
interessante notar que a soma dos quadrados dos loadings de cada fator produz a varincia
explicada por cada um, que uma medida da quantidade de informao existente nos dados
originais que foi captada pelo fator.
Uma vez decidido o nmero de fatores que ser considerado, deve-se dar um nome para cada
fator extrado. Porm, em geral, todas as variveis esto relacionadas como primeiro fator,
dificultando a interpretao.
A tcnica utilizada para melhorar a interpretao dos resultados consiste em modificar os valores
dos loadings, de tal modo que os novos valores produzam uma matriz de loadings dos fatores com
um estrutura simples. Isto obtido por meio da rotao dos fatores iniciais.

Rotao
A rotao mantm a informao total presente nos componentes/fatores originais, mas faz nova
atribuio das variveis originais aos fatores;

27

Os principais critrios para a rotao so:


. cada fator deve ter a maioria dos loadings o mais prximo de zero possvel;
. cada varivel original deve ter poucos loadings prximos de 1 nos diversos fatores;
. quaisquer dois fatores devem exibir padres diferenciados de loadings baixos e altos.
Existem vrios mtodos de rotao. Em geral, os softwares estatsticos tem algortmos disponveis
para a rotao ortogonal. Este tipo de rotao preserva a orientao original entre os fatores, de
modo que permaneam perpendiculares aps a rotao. Os mtodos de rotao ortogonal mais
populares so:
1. Varimax: busca uma rotao dos fatores de forma a maximizar a variao dos quadrados dos
loadings. Obtm-se, para cada fator, loadings grandes, mdios e pequenos.
2. Quartimax: procura atribuir a cada varivel apenas um loading elevado. Este critrio tem a
tendncia indesejvel de geral um fator global, onde todas as variveis tm loadings elevados.
3. Equamax: busca obter uma estrutura simples com relao s linhas e colunas da matriz
formada pelos loadings dos fatores. uma combinao dos mtodos varimax e quartimax.

Clculo dos escores dos componentes/fatores


Aps a extrao dos componentes/fatores que resumem as variveis originais (dimenses
primrias), h interesse, na maioria das vezes, em obter os valores dos fatores correspondentes
aos dados da amostra. Estes valores, nos novos eixos coordenados, so denominados escores.
Os escores podem ser utilizados para construir grficos, ou so utilizados como entrada de dados
para
outras
tcnicas
estatsticas.
Pode-se
ainda
utiliz-los
no
processo
de
classificao/regionalizao.

Bibliografia:
Dillon, William R. 1984. Multivariate Analysis, Methods and Applications. New York,John Wiley &
Sons, Inc.
Drumond, Ftima. Anlise Dimensional. Departamento de Estatstica. Icex/UFMG
Faissol, Speridio 1972. Anlise Fatorial: problemas e aplicaes na geografia, especialmente nos
estudos urbanos. Revista Brasileira de Geografia. 34 (4): 77-100.
1972. A Estrutura Urbana Brasileira: uma viso ampliada no contexto do
processo brasileiro de desenvolvimento econmico. Revista Brasileira de Geografia. 34 (3):19-123.
Johnston, R. 1992. Multivariate Statistical Analysis in Geography. New York. Longman Scientific &
Technical.
Rummel, R. J. 1970. Applied Factor Analysis. Evanston, Northwestern University Press.

28

Das könnte Ihnen auch gefallen