Sie sind auf Seite 1von 9

Captulo 7

Anlise de Correspondncias
Um outro conjunto de tcnicas de anlise de dados tem por objectivo estudar tabelas de dupla entrada,
isto , quadros a duas dimenses, de valores no-negativos, em que cada dimenso est associada aos nveis
de um factor (critrio de classicao).
Um exemplo frequente deste tipo de dados em aplicaes biolgicas o de tabelas de frequncias de
observaes, em determinado conjunto de locais (um dos factores), de um dado conjunto de espcies
(o outro factor). Um dos principais objectivos de interesse no estudo deste tipo de dados ser o de
analisar eventuais preferncias (ou averses) de determinadas espcies por alguns dos locais analisados.
De utilidade ser tambm uma visualizao grca, de baixa dimenso (m = 2 ou m = 3) com marcadores
de linhas (locais) e colunas (espcies) que reicta a informao sobre as associaes sugerideas na tabela.
Em particular, ser de interesse analisar eventuais desvios hiptese de independncia na distribuio
das observaes pelas vrias combinaes de nveis de um e outro factor.
Existem vrias tcnicas aparentadas com este objectivo genrico. Entre elas, a mais famosa a Anlise
Factorial de Correspondncias, da escola francesa de anlise de dados multivariados
1
. Mas tcnicas
aparentadas encontram-se tambm sob as designaes de Reciprocal averaging, dual scaling ou apenas
correspondence analysis. As diferenas entre estas variantes dizem respeito forma de introduo dos
conceitos bsicos e forma de apresentao dos resultados.
1
Para uma abordagem muito completa do mtodo sob esta perspectiva, pode consultar a obra de M. Greenacre referida
na bibliograa desta disciplina: Theory and Application of Correspondance Analysis, da Academic Press (1984). No R
existe um mdulo bastante completo de anlises multivariadas na perspectiva da escola francesa, designado ade4.
177
CAPTULO 7. ANLISE DE CORRESPONDNCIAS
7.1 Tabelas de contingncia e outras tabelas de dupla entrada
A matria prima deste conjunto de tcnicas so, como se disse, matrizes de dupla entrada
2
, cujos valores
so no-negativos.
Quando os valores da tabela so frequncias de observao de cada uma das possveis combinaes de
nveis dos dois factores de classicao, os quadros designam-se tabela de contingncias.
Exemplo 7.1 Como se assinalou mais acima, um exemplo frequente de tabelas de contingncia em
contextos biolgicos diz respeito a tabelas cujas margens correspondem a diferentes locais (sites em ingls)
e espcies (species). Um exemplo duma tal tabela encontra-se no mdulo MASS do R, numa data frame
de nome waders. trata-se duma tabela de dimenso 15 19, onde as linhas correspondem a 15 locais na
costa ocidental de frica, as colunas correspondem a 19 espcies de aves limcolas (para mais pormenores,
consultar help(waders), aps ter carregado o mdelo). Eis a tabela:
> library(MASS)
> waders
S1 S2 S3 S4 S5 S6 S7 S8 S9 S10 S11 S12 S13 S14 S15 S16 S17 S18 S19
A 12 2027 0 0 2070 39 219 153 0 15 51 8336 2031 14941 19 3566 0 5 0
B 99 2112 9 87 3481 470 2063 28 17 145 31 1515 1917 17321 3378 20164 177 1759 53
C 197 160 0 4 126 17 1 32 0 2 9 477 1 548 13 273 0 0 0
D 0 17 0 3 50 6 4 7 0 1 2 16 0 0 3 69 1 0 0
E 77 1948 0 19 310 1 1 64 0 22 81 2792 221 7422 10 4519 12 0 0
F 19 203 48 45 20 433 0 0 11 167 12 1 0 26 1790 2916 473 658 55
G 1023 2655 0 18 320 49 8 121 9 82 48 3411 14 9101 43 3230 587 10 5
H 87 745 1447 125 4330 789 228 529 289 904 34 1710 7869 2247 4558 40880 7166 1632 498
I 788 2174 0 19 224 178 1 423 0 195 162 2161 25 1784 3 1254 0 0 0
J 82 350 760 197 858 962 10 511 251 987 191 34 87 417 4496 15835 5327 1312 1020
K 474 930 0 10 316 161 0 90 0 39 48 1183 166 4626 65 127 4 0 0
L 77 249 160 136 999 645 15 851 101 723 266 495 83 1253 1864 4107 1939 623 527
M 22 144 0 4 1 1 0 10 0 2 9 125 5 411 0 3 0 0 0
N 0 791 0 0 4 38 1 56 1 30 54 95 0 1726 0 0 0 0 0
O 0 360 128 43 364 1628 63 287 328 641 850 83 67 48 6499 9094 5647 1333 582
Este tipo de tabela pode ser til no estudo de eventuais preferncias, ou rejeies, de determinados locais,
por parte de algumas espcies.
Na tabela acima referida, os valores das somas de linha e de coluna no esto predeterminados.
Uma variante da tabela acima indicada consistiria em substituir as frequncias absolutas pelas frequncias
relativas (relativas ao total de observaes). Assim, se T indicasse a tabela de frequncias absolutas, e
2
No sero consideradas nesta disciplina generalizaes da Anlise de Correspondncias para situaes onde se tm tabels
de trs ou mais dimenses.
ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010 178
7.2. ALGUNS CONCEITOS E NOTAO
n o nmero total de observaes associado tabela, a tabela F = T/n fornece as frequncias relativas
de cada combinao (i, j) de nveis dos factores A e B. Este tipo de tabela designa-se uma tabela de
correspondncias. A soma dos elementos duma matriz F de correspondncias igual a 1, e a tabela
pode ser vista como uma estimativa de distribuio de probabilidades bivariada.
Outra variante da tabela acima indicada seria dada no caso de se assinalar, no a frequncia de obser-
vaes, mas apenas a presena ou ausncia das espcies nos locais. Nesse caso, os elementos no-nulos
da tabela seriam todos iguais a 1 (indicando a presena). Neste caso podemos falar numa matriz de
incidncias ou matriz indicatriz.
O conceito de tabela de contingncias (ou de matriz de incidncias) no se restringe ao caso de tabelas
de locais espcies.
Exemplo 7.2 Ainda no mdelo MASS encontra-se uma outra tabela de contingncias, na data frame
caith. Trata-se da classicao de 5387 habitantes de Caithness, na Esccia, de acordo com dois factores:
cr dos olhos (com 4 nveis: blue, light, medium, dark) e cr do cabelo (com 5 nveis: fair, red, medium,
dark, black). A tabela a seguinte:
> caith
fair red medium dark black
blue 326 38 241 110 3
light 688 116 584 188 4
medium 343 84 909 412 26
dark 98 48 403 681 85
Mais uma vez, uma tabela deste tipo sugere a procura de associaes preferenciais (ou raras) entre cr de
olhos e cr de cabelo. Anlises de Correspondncias visam dar uma resposta a esta questo, acompanhando
com frequncia os resultados duma representao visual a baixa dimenso que ajude na compreenso das
relaes.
7.2 Alguns conceitos e notao
Como foi indicado acima, o ponto de partida para uma Anlise de Correspondncias uma tabela de
dupla entrada, que admitiremos na discusso ser uma tabela de contingncias.
Designemos os dois factores de classicao por A, com a nveis, e B, com b nveis. Admitimos que o
factor A est associado s linhas da tabela, e o factor B s suas colunas.
ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010 179
CAPTULO 7. ANLISE DE CORRESPONDNCIAS
A tabela de contingncias ser, assim, da forma
T =
_

_
n
11
n
12
n
1j
n
1,b1
n
1,b
n
21
n
22
n
2j
n
2,b1
n
2,b
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n
i1
n
i2
n
ij
n
i,b1
n
i,b
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n
a1,1
n
a1,2
n
a1,j
n
a1,b1
n
a1,b
n
a,1
n
a,2
n
a,j
n
a,b1
n
a,b
_

_
(7.1)
cujo (i, j)-simo elemento n
ij
indica o nmero de observaes (frequncia absoluta) efectuadas na com-
binao do nvel i do factor A com o nvel j do factor B.
A soma das frequncias na linha i da tabela de contingncia T,
n
i.
=
b

j=1
n
ij
(i = 1 : a) ,
indica o nmero total de observaes (frequncia absoluta) associado ao nvel i do primeiro factor de
classicao. Assim, caso se trate duma matriz em que as linhas correspondem a locais e as colunas a
espcies, a soma de cada linha indica a frequncia absoluta de observaes em cada local.
Como sabemos, o vector das somas de linhas dado pelo produto matricial T1
b
.
Analogamente, a soma das frequncias na coluna j da tabela,
n
.j
=
a

i=1
n
ij
(j = 1 : b) ,
indica o nmero total de observaes associado a esse nvel do segundo factor de classicao (o nmero
de observaes por espcie, no caso duma tabela locais espcies). Sabemos que o vector-linha das
somas de coluna dado pelo produto matricial 1
t
a
T.
O nmero total de observaes (em qualquer combinao de nveis dos dois factores) dado por:
n
..
=
a

i=1
n
i.
=
b

j=1
n
.j
=
a

i=1
b

j=1
n
ij
Este valor obtido matricialmente pelo produto
n
..
= 1
t
a
T1
b
.
A frequncia relativa da linha i da tabela (nvel i do factor A, independentemente de quais os nveis do
factor B correspondentes) dada por:
r
i
=
n
i.
n
..
(i = 1 : a) . (7.2)
ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010 180
7.2. ALGUNS CONCEITOS E NOTAO
O vector r destas frequncias relativas de linha
3
indica a proporo de observaes em cada nvel do
primeiro factor (cada linha). Assim, numa tabela do tipo locais espcies, o vector r fornece
a proporo de observaes em cada um dos a locais. Do ponto de vista matricial, o vector das
frequncias relativas de linhas calcula-se como:
r =
T1
b
1
t
a
T1
b
=
1
n
..
T1
b
.
De forma anloga, a frequncia relativa da coluna j da tabela dada por:
c
j
=
n
.j
n
..
(j = 1 : b) , (7.3)
e dene-se o vector c cujos b elementos so as frequncias relativas associadas a cada coluna. Numa tabela
do tipo locais espcies, o vector c fornece a proporo de observaes de cada uma das b espcies. Do
ponto de vista matricial, o vector (coluna) das frequncias relativas de colunas calcula-se como:
c =
T
t
1
a
1
t
a
T1
b
=
1
n
..
T
t
1
a
.
A tabela das correspondncias, ou tabela das frequncias relativas (relativas ao nmero total de
observaes) dado por
F =
T
n
..
=
_

_
n11
n..
n12
n..

n1,j
n..

n
1,b1
n..
n
1,b
n..
n21
n..
n22
n..

n2,j
n..

n
2,b1
n..
n
2,b
n..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
ni,1
n..
ni,2
n..

ni,j
n..

n
i,b1
n..
n
i,b
n..
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
na1,1
n..
na1,2
n..

na1,j
n..

n
a1,b1
n..
n
a1,b
n..
na,1
n..
na,2
n..

na,j
n..

n
a,b1
n..
n
a,b
n..
_

_
(7.4)
Utilizando esta tabela de frequncias relativas F, obtm-se frmulas mais simples para os vectores de
frequncias relativas de linha e de coluna:
r = F1
b
(7.5)
e
c = F
t
1
a
(7.6)
J se viu que, se T uma tabela de contingncias, a matriz F pode ser vista como uma estimativa da
distribuio de probabilidades bivariada associada ao problema sob estudo. De igual forma, os vectores
r e c so estimativas das distribuies de probabilidades marginais, associadas, respectivamente,
ao factor A e ao factor B.
3
hbito usar as iniciais das palavras inglesas com que se designam as linhas e as colunas de uma matriz rows e
columns para referenciar conceitos associados ao primeiro e segundo factores, respectivamente.
ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010 181
CAPTULO 7. ANLISE DE CORRESPONDNCIAS
Pers de linha e pers de coluna
Por perl da linha i entende-se o conjunto das frequncias observadas para cada elemento dessa linha,
relativas ao total de observaes nessa linha. Assim, o perl da linha i dado pelos b valores:
pl
(i)
j
=
n
ij
n
i.
(j = 1 : b) . (7.7)
No caso de uma tabela do tipo locais espcies, um perl de linha corresponder distribuio, por
espcie, das observaes numa dada localidade, ou seja, ao perl da localidade.
Do ponto de vista matricial, a matriz P
L
dos pers de linha calcula-se atravs do produto
P
L
= D
1
r
F , (7.8)
onde D
1
r
a matriz diagonal (a a) cuja diagonal dada pelos recprocos do vector de frequncias
relativas de linha, ou seja,
D
1
r
=
_

_
1
r1
0 0 0
0
1
r2
0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0
1
ra1
0
0 0 0
1
ra
_

_
.
De forma anloga, por perl da coluna j entende-se o conjunto das frequncias observadas para cada
elemento dessa coluna, relativas ao total de observaes nessa coluna. Assim, o perl da coluna j
dado pelos a valores:
pc
(j)
i
=
n
ij
n
.j
(i = 1 : a) . (7.9)
No caso de uma tabela do tipo locais espcies, um perl de coluna corresponder distribuio das
observaes de uma dada espcie, por localidade, ou seja, ao perl da espcie.
A matriz P
C
dos pers de coluna calcula-se atravs do produto
P
C
= FD
1
c
, (7.10)
onde D
1
c
a matriz diagonal (b b) cuja diagonal dada pelos recprocos do vector de frequncias
relativas de coluna.
Exemplo 7.3 Consideremos um pequeno exemplo, para assentar ideias. Admita-se que se tem uma
tabela das frequncias absolutas de observaes, do tipo locais espcies, com a = 3 locais e b = 5
espcies,
T =
_

_
12 3 15 10 20
9 6 12 0 18
21 24 6 12 32
_

_ .
A matriz de correspondncias associada dada por
F =
T
200
=
_

_
0.060 0.015 0.075 0.050 0.100
0.045 0.030 0.060 0.000 0.090
0.105 0.120 0.030 0.060 0.160
_

_ .
ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010 182
7.2. ALGUNS CONCEITOS E NOTAO
O vector r das frequncias relativas de linhas dado por
r = (0.300, 0.225, 0.475) .
O vector c das frequncias relativas de colunas dado por
c = (0.210, 0.165, 0.165, 0.110, 0.350) .
O perl da primeira linha , tendo em conta que n
1.
= 60, o vector
pl
(1)
=
_
12
60
,
3
60
,
15
60
,
10
60
,
20
60
_
= ( 0.200 , 0.050 , 0.250 , 0.167 , 0.333 ) .
Os restantes pers de linha so dados pelo produto matricial (tendo em conta que o valor n
..
= 200
cancela em todos os produtos):
P
L
= D
1
r
F =
_

_
1
60
0 0
0
1
45
0
0 0
1
95
_

_
_

_
12 3 15 10 20
9 6 12 0 18
21 24 6 12 32
_

_
=
_

_
0.2000000 0.0500000 0.2500000 0.1666667 0.3333333
0.2000000 0.1333333 0.2666667 0.0000000 0.4000000
0.2210526 0.2526316 0.0631579 0.1263158 0.3368421
_

_ .
A interpretao dos valores nesta matriz de pers de linha evidente: na primeira localidade, 20% das
observaes correspondem primeira espcie, 5% segunda espcie, 25% terceira espcie, 16, 7%
quarta espcie, e o restante tero de observaes quinta e ltima espcie. Estas propores variam nos
restantes locais.
Por outro lado, o perl da primeira coluna , tendo em conta que n
.1
= 42, o vector
pc
(1)
=
_
12
42
,
9
42
,
21
42
_
= ( 0.2857 , 0.2143 , 0.5000 ) .
Os restantes pers de coluna so dados pelo produto matricial
P
C
= FD
1
c
=
_

_
12 3 15 10 20
9 6 12 0 18
21 24 6 12 32
_

_
_

_
1
42
0 0 0 0
0
1
33
0 0 0
0 0
1
33
0 0
0 0 0
1
22
0
0 0 0 0
1
70
_

_
=
_

_
0.2857143 0.0909091 0.4545455 0.4545455 0.2857143
0.2142857 0.1818182 0.3636364 0.0000000 0.2571429
0.5000000 0.7272727 0.1818182 0.5454545 0.4571429
_

_ .
As propores devem agora ser lidas por coluna: assim, das observaes da primeira espcie, cerca de
28, 5% foram efectuadas no primeiro local, cerca de 21, 4% no segundo local, e metade foram efectuadas
no terceiro local.
ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010 183
CAPTULO 7. ANLISE DE CORRESPONDNCIAS
Assinale-se que a soma das colunas da matriz de perl de linhas um vector de uns, 1
3
, facto que
matricialmente fcil de vericar, tendo em conta que essa soma de linhas dada pelo produto matricial
P
L
1
5
= D
1
r
F1
5
= 1
3
.
De facto, o produto F1
5
igual ao vector da soma de linhas de F, cujos recprocos se encontram nas
posies diagonais da matriz D
1
r
. Analogamente, a soma das linhas da matriz de perl de colunas
tambm um vector de uns:
P
t
C
1
3
= D
1
c
F
t
1
3
= 1
5
.
7.3 A hiptese de independncia
No caso de existir independncia entre os factores de classicao, a probabilidade p
ij
de ter uma obser-
vao na clula (i, j) da tabela de contingncias ser dada pelo produto das respectivas probabilidades
marginais, ou seja, p
ij
= p
i.
p
.j
, na notao convencional. Nesse caso, ter-se- como valor esperado para
o nmero de observaes que recaem na clula (i, j) (de entre um total de n
..
observaes), o produto
E
ij
= n
..
p
i.
p
.j
.
Ora, as probabilidades marginais podem ser estimadas pelas frequncias relativas marginais da tabela,
ou seja, p
i.
=
ni.
n..
= r
i
e p
.j
=
n.j
n..
= c
j
. Logo, o valor esperado estimado ser, dada a hiptese de
independncia,

E
ij
= n
..
p
i.
p
.j
= n
..
n
i.
n
..

n
.j
n
..
= n
..
r
i
c
j
.
Assim, a hiptese de independncia daria tabela de contingncias uma estrutura simples, aproximada
por:
T = n
..
rc
t
F = rc
t
.
A matriz dada pela diferena
F rc
t
fornece informao sobre desvios independncia na tabela de contingncias. Quanto mais prximo de
zero estiver a generalidade dos valores dessa matriz, mais plausvel ser a hiptese de independncia entre
os factores de classicao. Assim, a norma da matriz F rc
t
pode ser vista como um ndice global
de desvio hiptese de independncia. O quadrado dessa norma, como sabemos da Denio (1.4), na
pgina 19, dada pela soma dos quadrados dos seus elementos, isto , por
Frc
t

2
=
r

i=1
c

j=1
_
n
ij
n
..

n
i.
n
..
n
.j
n
..
_
2
=
r

i=1
c

j=1
_
O
ij


E
ij
n
..
_
2
, (7.11)
usando a habitual notao dos testes
2
de independncia, onde O
ij
= n
ij
designa o nmero de obser-
vaes na clula (i, j) e

E
ij
= n
..
ni.
n..
n.j
n..
=
ni.n.j
n..
o nmero esperado estimado de observaes nessa mesma
ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010 184
7.3. A HIPTESE DE INDEPENDNCIA
clula. A semelhana da expresso (7.11) com a estatstica do teste
2
independncia duma tabela de
contingncias sugere que, em vez de se analisar a matriz Frc
t
, se analise antes a matriz que se obtm
dividindo cada uma das suas linhas pela raz quadrada do produto das frequncias relativas de linha, e
cada coluna pela raz quadrada do produto das frequncias relativas de coluna. De facto, seja D

1
2
r
a
matriz diagonal dada por
D

1
2
r
=
_

_
1

r1
0 0 0
0
1

r2
0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0
1

ra1
0
0 0 0
1

ra
_

_
, (7.12)
e D

1
2
c
a matriz diagonal dada por
D

1
2
c
=
_

_
1

c1
0 0 0
0
1

c2
0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0
1

c
b1
0
0 0 0
1

c
b
_

_
. (7.13)
Ento, o elemento genrico da matriz
D

1
2
r
_
F rc
t
_
D

1
2
c
(7.14)
dado por
n
ij
n..
ricj

ricj
, e a soma dos quadrados dos elementos dessa matriz ser assim dada por
D

1
2
r
_
F rc
t
_
D

1
2
c

2
=
a

i=1
b

j=1
_
nij
n..

ni.
n..
n.j
n..
_
2
ni.
n..
n.j
n..
=
1
n
..
a

i=1
b

j=1
_
O
ij


E
ij
_
2

E
ij
. (7.15)
Por outras palavras, o quadrado da norma da matriz (7.14) a estatstica do teste
2

independncia dos factores, a dividir pelo nmero total de observaes. Valores grandes desta
norma ao quadrado indiciam violao da hiptese de independncia, pelo que a dimenso da generalidade
dos valores da matriz D

1
2
r
(F rc
t
) D

1
2
c
indiciadora de falta de independncia. Mais, cada parcela da
estatstica do teste
2
est associada a um elemento da matriz (7.14), pelo que ser possvel analisar nos
elementos dessa matriz quais as combinaes de nveis de um e outro factor que mais contribuem para o
valor nal da estatstica do
2
e que, em caso de rejeiao da hiptese de independncia seriam as mais
responsveis por essa ausncia de independncia.
O estudo da matriz D

1
2
r
(Frc
t
) D

1
2
c
ser assim de grande interesse na considerao da hiptese de
independncia entre os factores de classicao. Nesta disciplina, esta matriz ser designada a matriz
normalizada dos desvios independncia.
ISA/UTL Mestrado em Matemtica Estatstica Multivariada 2009/2010 185

Das könnte Ihnen auch gefallen