Beruflich Dokumente
Kultur Dokumente
3 - ANLISE BIDIMENSIONAL
comum haver interesse em saber se duas variveis quaisquer esto relacionadas, e o
quanto esto relacionadas, seja na vida prtica, seja em trabalhos de pesquisa, por exemplo:
- se o sexo dos funcionrios de uma empresa est relacionado com a funo exercida;
- o quanto o a temperatura ambiente em uma regio influencia as vendas de refrigerante;
- se o nvel de escolaridade de um grupo de empreendedores est relacionado com o grau de sucesso
por eles alcanado.
Muitas vezes queremos verificar se h uma relao de causa e efeito entre as duas variveis
(se as variveis so dependentes ou no), se possvel estudar uma das variveis atravs da outra
(que mais fcil de medir)- prever os valores de uma atravs dos valores da outra, ou calcular uma
medida de correlao ou de dependncia entre as variveis.
A Anlise Bidimensional1 prope-se a tentar responder as perguntas do pargrafo anterior.
As duas variveis abordadas podem ser qualitativas ou quantitativas, e para cada tipo haver
tcnicas apropriadas.
Para variveis qualitativas vamos estudar: tabelas de contingncia (j vistas na seo 2.2),
estatstica Qui-Quadrado e o Coeficiente de Contingncia Modificado2. Para variveis quantitativas
vamos abordar: diagramas de disperso, anlise de correlao, anlise de regresso linear simples,
coeficiente de determinao e anlise de resduos. As prximas sees trataro de cada tpico.
Se mais de duas variveis estiverem envolvidas ser necessrio empregar tcnicas de anlise multidimensional, ou
ANLISE MULTIVARIADA.
2
No Captulo 6 iremos estudar o teste de independncia do Qui-Quadrado, uma outra forma de avaliar a associao
entre duas variveis qualitativas.
Exemplo 3.1 - Vamos analisar novamente a tabela de contingncias para as variveis Sexo e Funo
construda no Exemplo 2.3.
Funo
Sexo
Escritrio
Servios gerais
Gerncia
Total
Masculino
Feminino
Total
157
206
363
27
0
27
74
10
84
258
216
474
Fonte: hipottica
43,25%
56,75%
100%
100%
0%
100%
88,10%
11,90%
100%
54%
46%
100%
Fonte: hipottica
Seria interessante saber se as duas variveis so estatisticamente dependentes, e o quo forte esta
associao. Repare que os percentuais de homens e mulheres em cada funo so diferentes dos
percentuais marginais (de homens e mulheres no total de funcionrios), sendo que em duas funes
as diferenas so bem grandes.
A tabela de contingncias tambm chamada de distribuio conjunta das duas variveis.
Permite descrever o grau de associao existente entre as duas variveis: possvel avaliar a "fora"
do relacionamento, e caso haja uma associao forte pode-se prever os valores de uma varivel
atravs dos da outra. Se as variveis forem independentes (ou seja, a associao entre elas for
fraca), as freqncias na tabela de contingncias devem distribuir-se de forma a seguir o padro dos
totais marginais. Se, porm, houver uma associao entre as variveis, elas forem dependentes, as
freqncias devero seguir algum padro diferente daquele apresentado pelos totais marginais.
Precisamos de uma estatstica que relacione as freqncias OBSERVADAS na tabela de
contingncias com as freqncias ESPERADAS se as duas variveis fossem independentes (se as
freqncias nos cruzamentos dos valores das variveis seguissem os padres dos totais marginais).
E quais sero os valores das freqncias esperadas?
Exemplo 3.2 - Calcule as freqncias esperadas sob a condio de independncia entre Sexo e
Funo para a tabela de contingncias do Exemplo 3.1.
Se as variveis so independentes as freqncias de homens e mulheres em cada funo
devem ter a mesma proporo que homens e mulheres tm no total de funcionrios. Lembrando que
h 54% de homens e 46% de mulheres, esperamos que esses percentuais mantenham-se em cada
funo, se as variveis so independentes.
- Em Escritrio, h 363 pessoas nesta funo, sob a condio de independncia deveriam haver:
Homens => 54% de 363 = 197,58 Mulheres => 46% de 363 = 165,42
- Em Servios Gerais, h 27 pessoas, sob a condio de independncia deveriam haver:
Homens => 54% de 27 = 14,70
Mulheres => 46% de 27 = 12,30
- Em Gerncia, h 84 pessoas, sob a condio de independncia deveriam haver:
Homens => 54% de 84 = 45,72
Mulheres => 46% de 84 = 38,28
Um rpido exame da tabela do Exemplo 2.25 mostra que as freqncias observadas esto
razoavelmente distantes das esperadas sob a condio de independncia. H indcios de que as
duas variveis esto relacionadas.
E ij
Onde Eij a freqncia esperada, sob a condio de independncia entre as variveis, em uma
clula qualquer da tabela de contingncias. As freqncias esperadas so necessrias para que
possamos compar-las com as observadas, sendo essa comparao materializada em uma estatstica,
chamada de Qui-Quadrado: 2. A expresso est descrita abaixo:
2
E
ij
ij
2
E
i 1 j1
ij
Onde L o nmero total de linhas da tabela de contingncias (nmero de valores que uma das
variveis pode assumir), C o nmero total de colunas da tabela (nmero de valores que a outra
varivel pode assumir), e Oij a freqncia observada em uma clula qualquer da tabela de
contingncias. Ento, para cada clula da tabela de contingncias calcula-se a diferena entre a
freqncia observada e a esperada. Para evitar que as diferenas positivas anulem as negativas as
diferenas so elevadas ao quadrado. E para evitar que uma diferena grande em termos absolutos,
mas pequena em termos relativos, "inflacione" a estatstica, ou que uma diferena pequena em
termos absolutos, mas grande em termos relativos, tenha sua influncia reduzida, divide-se o
quadrado da diferena pela freqncia esperada. Somam-se os valores de todas as clulas e obtmse o valor da estatstica.
Exemplo 3.3 - Calcule a estatstica Qui-Quadrado para a tabela de contingncias do Exemplo 3.1.
Funo
Sexo
Escritrio
Servios gerais
Gerncia
Total
Masculino
Feminino
Total
157
206
363
27
0
27
74
10
84
258
216
474
Fonte: hipottica
Escritrio
Funo
Servios gerais
Gerncia
Masculino
157 - 197,58
27 - 14,70
74 - 45,72
Feminino
206 - 165,42
0 - 12,30
10 - 38,28
(O-E)2
Sexo
Masculino
Feminino
Finalmente:
(O-E)2/E
Sexo
Masculino
Feminino
Escritrio
1646,921
1646,921
Funo
Servios gerais
151,383
151,383
Gerncia
799,672
799,672
Escritrio
8,336
9,956
Funo
Servios gerais
10,301
12,304
Gerncia
17,490
20,891
2
k
C*
k 1
2 N
Onde:
- 2 a estatstica Qui-Quadrado, calculada a partir das freqncias observadas e esperadas (sob a
condio de independncia) a partir da tabela de contingncias.
- N o nmero total de observaes da tabela de contingncias.
- k o menor nmero entre o nmero de linhas e colunas da tabela de contingncias.
O Coeficiente de Contingncia Modificado varia de zero (completa independncia) at 1
(associao perfeita). Usualmente C* acima de 0,5 indicaria uma associao de moderada para
forte, o que bastaria para considerar que existe associao estatstica entre as variveis. CUIDADO,
porm, com as generalizaes, associao estatstica no significa relao de causa e efeito!
Exemplo 3.4 - Calcule o Coeficiente de Contingncia Modificado para os dados do Exemplo 3.3.
O valor de 2 foi calculado no Exemplo 2.27, a varivel Sexo pode assumir 2 valores, e Funo
pode assumir 3. O total de observaes igual a 474.
Ento:
2 = 79,227 N = 474
k = 2 (porque o menor valor entre 2 e 3).
2
k
79,227
2
C*
0,54
2
N
k 1
79,227 474
2 1
Ento a associao pode ser considerada de moderada para forte. O resultado coerente com a
tabela de contingncias, pois h grandes diferenas entre as freqncias esperadas e observadas.
H possibilidade de avaliar o relacionamento entre duas variveis qualitativas nominais (atravs do Coeficiente de
Contingncia Modificado, que foi visto anteriormente) e entre duas variveis qualitativas ordinais (atravs dos
coeficientes de correlao por postos, que no sero abordados nesta disciplina).
4
Na Anlise de Regresso Mltipla podem haver vrias variveis independentes mas apenas UMA dependente.
5
Veja as definies de variveis na seo 2.1.
x
i 1
Cov(X, Y)
sX sY
x y i y
n 1
sX sY
(1)
i 1
i 1
n x i y i x i y i
i 1
2
n
n
n
n
2
2
n x i x i n y i y i
i 1
i 1
i1
i1
(2)
Para fazer os clculos preciso calcular a soma dos valores de X, a soma dos valores de Y, a
soma dos valores do produto XY, a soma dos quadrados dos valores de X, a soma dos quadrados
dos valores de Y e o nmero de valores da amostra (n).
O coeficiente de correlao linear de Pearson pode variar de -1 a +1 (passando por zero), e
adimensional7: se r = -1 significa que h uma correlao linear negativa perfeita entre as variveis;
se r = +1 significa que h uma correlao linear positiva perfeita entre as variveis; e se r = 0
significa que no h correlao linear entre as variveis. Admite-se que se |r| > 0,7 a correlao
linear pode ser considerada forte.
Novamente, um alto coeficiente de correlao linear de Pearson (prximo a +1 ou a -1) no
significa uma relao de causa e efeito entre as variveis, apenas que as duas variveis apresentam
aquela tendncia de variao conjunta.
Exemplo 3.5 - Estamos avaliando as mdias de 15 estudantes no 2o grau (ensino mdio),
relacionando-as com os ndices dos mesmos estudantes no seus cursos universitrios. As mdias no
segundo grau podem variar de 0 a 100, e os ndices na universidade de 0 a 4. Construa um diagrama
de disperso e calcule o coeficiente de correlao linear de Pearson para os dados a seguir.
Interprete os resultados encontrados.
Mdia no 2o grau
80,0
82,0
84,0
85,0
87,0
88,0
88,0
89,0
90,0
91,0
91,0
92,0
94,0
96,0
98,0
7
Sem unidade.
ndice na Universidade
1,0
1,0
2,1
1,4
2,1
1,7
2,0
3,5
3,1
2,4
2,7
3,0
3,9
3,6
4,0
ndice na Universidade
Y
1,0
1,0
2,1
1,4
2,1
1,7
2,0
3,5
3,1
2,4
2,7
3,0
3,9
3,6
4,0
X2
Y2
XY
6400
6724
7056
7225
7569
7744
7744
7921
8100
8281
8281
8464
8836
9216
9604
1,0
1,0
4,41
1,96
4,41
2,89
4,0
12,25
9,61
5,76
7,29
9,0
15,21
12,96
16,0
80,0
82,0
176,4
119,0
182,7
149,6
176,0
311,5
279,0
218,4
245,7
276,0
366,6
345,6
392,0
15
yi 37,5
x i 1335,0
i 1
i 1
i 1
15
i 1
15
i 1
i 1
i 1
i 1
n x i y i x i y i
2
n
n
2
n x i x i
i 1
i1
2
n
n
2
n y i y i
i 1
i1
r = 0,9
Corroborando nossas concluses anteriores, o coeficiente de correlao linear de Pearson
teve resultado positivo, e prximo de 1, indicando forte correlao linear positiva entre a mdia no
2o grau e o ndice na universidade ao menos para estes estudantes 8.
O passo lgico seria obter uma equao que permitisse expressar o relacionamento das
variveis, de maneira que seja possvel fazer previses sobre a varivel dependente a partir dos
valores da varivel independente.
3.2.3 - Anlise de Regresso
A Anlise de Regresso tem por finalidade obter uma funo de regresso: uma funo
matemtica que exprima o relacionamento entre duas ou mais variveis. Se apenas duas variveis
esto envolvidas chama-se de regresso simples, se h mais de uma varivel independente (e
apenas uma dependente) chama-se de regresso mltipla.
A funo de regresso explica grande parte da variao de Y com X. Uma parcela da
variao permanece sem ser explicada, e atribuda ao acaso. As mesmas suposies gerais
utilizadas na anlise de correlao so necessrias: a existncia de uma teoria que "explique" o
relacionamento entre as variveis, o pareamento dos dados, a quantidade suficiente de dados, etc.
Alm desses, para realizar a Anlise de Regresso, seja linear (reta), exponencial, logartmica,
polinomial, etc., alguns pressupostos bsicos so necessrios:
- supe-se que h uma funo que justifica em mdia, a variao de uma varivel em funo da
variao da outra;
- os pontos experimentais (os pares x,y) tero uma variao em torno da linha representativa desta
funo, devido a uma variao aleatria adicional, chamada de varincia residual ou resduo;
- a varivel X (varivel INDEPENDENTE) suposta sem erro.
- a varivel Y (varivel DEPENDENTE) ter uma variao nos seus valores dependente 9 de X se
houver regresso.
- a funo de regresso ser: Y = (X) + onde (X) a funo de regresso propriamente dita
e a componente aleatria de Y, devida ao acaso (e que SEMPRE existir).
- a variao residual de Y em torno da linha terica de regresso segue uma distribuio normal
com mdia zero e desvio padro constante (independente dos valores de X).
a bX , onde Y
a estimativa de Y, b o coeficiente
amostrais a e b respectivamente: Y
angular da reta (a sua inclinao), e a o coeficiente linear (o ponto onde a reta toca o eixo Y).
A melhor reta ser encontrada pelo mtodo dos mnimos quadrados: so encontrados os
coeficientes a e b que minimizam os quadrados dos desvios de cada ponto do diagrama de disperso
em relao a uma reta terica. Temos os seguintes valores de a e b:
i 1
i 1
i 1
2
n x i yi x i yi
2
n xi xi
i 1
i1
n
y
i 1
b xi
i 1
x
i 1
15
1335,0
i 1
x 119165,0 x
15
37,5
15
i 1
i 1
y i 3400,5
n = 15
i 1
i 1
i 1
2
n x i yi x i yi
n xi
i 1
y
i 1
n
xi
i1
b xi
i 1
13,52 0,18 X
A equao da reta ser ento: Y
Vejamos como ficaria o diagrama de disperso com a reta acima traada sobre ele.
Y = -13.520 + (.180 * X)
4.10
3.78
3.46
3.14
2.82
2.50
2.18
1.86
1.54
1.22
0.90
80
82
84
86
88
90
92
94
96
98
100
Imagine agora uma situao em que fosse possvel coletar uma grande quantidade de dados,
para as mesmas duas variveis, e um diagrama de disperso fosse construdo, tal como o da figura
10.
Sempre que possvel devemos coletar a maior quantidade possvel de dados, seja regresso
simples ou mltipla, para que o modelo obtido seja robusto e no sofra grandes alteraes devido
aos valores discrepantes.
)2 :
(Y Y
( Y Y)
Y)2 + ( Y Y
)2
(Y
r2
i 1
n
i 1
varincia explicada
var incia total
Se houver mais de uma varivel independente faz-se um diagrama de disperso para cada uma delas.
diagramas de disperso dos resduos padronizados (em funo da temperatura e dos valores preditos
pelo modelo de regresso) para a reta, e as figuras 16 e 17 apresentam os respectivos diagramas
para a parbola.
a) Faa a anlise do diagrama de disperso das variveis. Na sua opinio qual dos modelos
apresenta o melhor ajuste aos dados?
b) Faa a anlise dos resduos para o modelo da reta.
c) Faa a anlise dos resduos para o modelo da parbola.
d) Com base nas respostas anteriores, qual dos dois modelos parece ser o mais apropriado para
descrever o relacionamento entre as variveis?
e) Utilizando o modelo escolhido no item d, faa a previso de vendas para os seguintes valores de
temperatura:
e.1 - 27o C
e.2 - 32o C
e.3 - 38o C
y = 248.67x - 6668.2 y = 26.477x 2 - 1438.6x + 20112
R2 = 0.8049
R2 = 0.8631
3500
3000
Vendas
2500
2000
1500
1000
500
0
25
27
29
31
33
35
37
39
Temperatura
a) Observando o diagrama podemos ver que a parbola (polinmio de 2 o grau) aparenta ter
melhor ajuste aos dados, pois ela "segue" melhor o seu comportamento do que a reta. Os resduos
do modelo de parbola provavelmente sero menores do que os da reta, o que pode ser constatado
tambm pelo seu coeficiente de determinao (0,8631), que maior do que o da reta (0,8049).
Ambos os modelos, porm, conseguem "explicar" grande parte da variao mdia das vendas, pois
seus coeficientes de determinao so substancialmente maiores do que 0,5.
R e s d u o s p a ra re t a
2
1
0
-1 2 5
30
35
-2
-3
-4
40
Resduos padronizados
Resduos padronizados
R e s d u o s p a ra re t a
2
1
0
-5 0 0
-1 0
500
1000
1500
2000
2500
3000
-2
-3
-4
Te m p e ra t u ra
V a lo re s p re d it o s
2
1
0
-1 2 5
30
35
-2
-3
-4
40
Resduos padronizados
Resduos padronizados
R e s d u o s p a ra p a r b o la
2
1
0
-1 5 0 0
1000
1500
2000
2500
3000
-2
-3
-4
Te m p e ra t u ra
V a lo re s p re d it o s
REGRA IMPORTANTE:
E se a anlise de resduos identificar que todos os modelos so apropriados? Neste caso
devemos selecionar aquele que apresentar o maior coeficiente de determinao. Se, porm, os
modelos tiverem coeficientes de determinao prximos (diferenas inferiores a 5%) devemos ser
parcimoniosos, e escolher o modelo mais simples.
Exemplo 3.9 - A figura 18 apresenta o diagrama de disperso dos resduos padronizados por valores
preditos para o modelo ajustado no Exemplo 3.6. Faa a anlise dos resduos. O modelo
adequado?
Resduos de ndice (Y)
2.4
1.8
Resduos Padronizados
1.2
0.6
0.0
- 0.6
- 1.2
- 1.8
- 2.4
- 3.0
0.700
1.050
1.400
1.750
2.100
2.450
2.800
3.150
3.500
3.850
Valores preditos
Figura 18 - Resduos padronizados por valores preditos: ndices na universidade x mdias no 2o grau
Este exemplo contm apenas 15 dados, o que torna a anlise dos seus resduos menos conclusiva
que a do Exemplo 3.8.
- Nmero de resduos positivos e negativos. H 5 resduos positivos e 10 negativos.
- Grandeza dos resduos. Excetuando um nico ponto discrepante positivo todos os resduos
encontram-se a 1,2 desvios padres de zero.
- Existncia de padres. Aparentemente no h padres nos pontos, mas torna-se difcil uma
concluso final devido pequena quantidade de dados.
O modelo da reta pode ser considerado adequado, no obstante a diferena entre o nmero de
resduos positivos e negativos, devido pequena quantidade de pontos, e o fato de que apesar de
tudo no h um padro nos pontos.