Sie sind auf Seite 1von 12

PS-GRADUAO EM AGRONOMIA CPGA-CS

Anlise Multivariada Aplicada as Cincias


Agrrias

Anlise de Componentes
Principais

Carlos Alberto Alves Varella

Seropdica - RJ

Contedo
Introduo...........................................................................................................................3
Matriz de dados X...............................................................................................................4
Matriz de covarincia S.......................................................................................................4
Padronizao com mdia zero e varincia 1...................................................................5
Padronizao com varincia 1e mdia qualquer.............................................................5
Determinao dos componentes principais.........................................................................6
Contribuio de cada componente principal.......................................................................7
Interpretao de cada componente......................................................................................8
Escores dos componentes principais...................................................................................9
Quadro 1. Organizao de um conjunto de dados com n tratamentos, p variveis e k
componentes....................................................................................................................9
Exemplo de aplicao.........................................................................................................9
Quadro 2. Valores originais e padronizados de duas variveis para cinco tratamentos 10
Obteno dos componentes principais..............................................................................10
Quadro 3. Informaes que podem ser obtidas com a anlise de componentes
principais.......................................................................................................................11
Quadro 4. Escores dos dois componentes principais para os cinco tratamentos obtidos
a partir da matriz de correlao R.................................................................................11
Grfico de disperso..........................................................................................................12
Figura 2. Disperso dos tratamentos em funo dos escores dos componentes
principais.......................................................................................................................12
Programa SAS para obteno dos componentes principais..............................................12
BIBLIOGRAFIA..............................................................................................................12

PS-GRADUAO EM AGRONOMIA CPGA-CS

Anlise Multivariada Aplicada as Cincias Agrrias

ANLISE DE COMPONENTES PRINCIPAIS


Carlos Alberto Alves Varella1

Introduo
A anlise de componentes principais uma tcnica da estatstica multivariada que
consiste em transformar um conjunto de variveis originais em outro conjunto de variveis
de mesma dimenso denominadas de componentes principais. Os componentes principais
apresentam propriedades importantes: cada componente principal uma combinao linear
de todas as variveis originais, so independentes entre si e estimados com o propsito de
reter, em ordem de estimao, o mximo de informao, em termos da variao total
contida nos dados. A anlise de componentes principais associada idia de reduo de
massa de dados, com menor perda possvel da informao. Procura-se redistribuir a
variao observada nos eixos originais de forma a se obter um conjunto de eixos ortogonais
no correlacionados. Esta tcnica pode ser utilizada para gerao de ndices e agrupamento
de indivduos. A anlise agrupa os indivduos de acordo com sua variao, isto , os
indivduos so agrupados segundo suas varincias, ou seja, segundo seu comportamento
dentro da populao, representado pela variao do conjunto de caractersticas que define o
indivduo, ou seja, a tcnica agrupa os indivduos de uma populao segundo a variao de
suas caractersticas. Segundo REGAZZI (2000), apesar das tcnicas de anlise multivariada
terem sido desenvolvidas para resolver problemas especficos, principalmente de Biologia e
Psicologia, podem ser tambm utilizadas para resolver outros tipos de problemas em
diversas reas do conhecimento. A anlise de componentes principais a tcnica mais
conhecida, contudo importante ter uma viso conjunta de todas ou quase todas as tcnicas
da estatstica multivariada para resolver a maioria dos problema prticos.
1 Professor. Universidade Federal Rural do Rio de Janeiro, IT-Departamento de
Engenharia, BR 465 km 7 - CEP 23890-000 Seropdica RJ. E-mail: varella@ufrrj.br.
3

Matriz de dados X
Considere a situao em que observamos p caractersticas de n indivduos de uma
populao . As caractersticas observadas so representadas pelas variveis X 1, X2, X3, ...,
Xp. A matriz de dados de ordem n x p e normalmente denominada de matriz X.
x11

x12

x13 x1 p

x21
X x31

xn1

x22

x23 x2 p
x33 x3 p

x32

xn 3

xnp

A estrutura de interdependncia entre as variveis da matriz de dados representada


pela matriz de covarincia S ou pela matriz de correlao R. O entendimento dessa
estrutura atravs das variveis X1, X2, X3, ..., Xp, pode ser na prtica uma coisa complicada.
Assim, o objetivo da anlise de componentes principais transformar essa estrutura
complicada, representada pelas variveis X1, X2, X3, ..., Xp, em uma outra estrutura
representada pelas variveis Y1, Y2, Y3, ..., Yp no correlacionadas e com varincias
ordenadas, para que seja possvel comparar os indivduos usando apenas as variveis Y is
que apresentam maior varincia. A soluo dada a partir da matriz de covarincia S ou da
matriz de correlao R.
Matriz de covarincia S
A partir da matriz X de dados de ordem n x p podemos fazer uma estimativa da
matriz de covarincia da populao que representaremos por S. A matriz S simtrica e
de ordem p x p.
ar ( x )
V
1

ov( x x ) Cov( x x ) Cov( x x )


C
1 2
1 3
1 p

ov( x x ) V
ar ( x )
C
2 1
2

Cov( x 2 x 3 ) Cov( x 2 x p )

ov( x x ) Cov( x x ) V
ov( x x )
ar ( x )
S C

C
3 1
3 2
3
3 p

Cov( x p x 1 ) Cov( x p x 2 ) Cov( x p x 3 ) Var ( x p )

Normalmente as caractersticas so obervadas em unidades de medidas diferentes entre


si, e neste caso, segundo REGAZZI (2000) conveniente padronizar as variveis Xj (i=1, 2,
3, ..., p). A padronizao pode ser feita com mdia zero e varincia 1, ou com varincia 1 e
mdia qualquer.
Padronizao com mdia zero e varincia 1
x ij x j
z ij
, i 1, 2, , n e
s( x j )
Padronizao com varincia 1e mdia qualquer
x ij
z ij
, i 1, 2, , n e
s( x j )

S( x j )

em que, j e
caracterstica j:

j 1, 2, , p

j 1, 2, , p

so, respectivamente, a estimativa da mdia e o desvio padro da


n

xj

x
i 1

ij

ar ( x )
s( x j ) V
j

j 1, 2, p

x
n

ar ( x )
V
j

i 1

ij

xj

n 1

ar ( x )
V
j

ou

x
i 1

2
ij

x
i 1

ij

n 1

Aps a padronizao obtemos uma nova matriz de dados Z:


z11

z12

z13 z1 p

z 21
Z z 31

z n1

z 22

z 23 z 2 p
z33 z3 p

z 32

zn2

z n3

z np

A matriz Z das variveis padronizadas zj igual a matriz de correlao da matriz de


dados X. Para determinar os componentes principais normalmente partimos da matriz de
correlao R. importante observar que o resultado encontrado para a anlise a partir da

matriz S pode ser diferente do resultado encontrado a partir da matriz R. A recomendao


que a padronizao s dever ser feita quando as unidades de medidas das caractersticas
observadas no forem as mesmas.
Determinao dos componentes principais
Os componentes principais so determinados resolvendo-se a equao caracterstica da
matriz S ou R, isto :

det R I 0 ou

R I 0

r ( x1 x2 ) r ( x1 x3 ) r ( x1 x p )

1
r ( x 2 x3 ) r ( x 2 x p )
r ( x2 x1 )
R r ( x3 x1 ) r ( x3 x2 )
1
r ( x3 x p )

1
r ( x p x1 ) r ( x p x2 ) r ( x p x3 )

Se a matriz R for de posto completo igual a p, isto , no apresentar nenhuma coluna


que seja combinao linear de outra, a equao

R I 0

ter p razes chamadas de

autovalores ou razes caractersticas da matriz R. Na montagem da matriz de dados X


importante observar que o valor de n (indivduos, tratamentos, gentipos, etc.) dever ser
pelo menos igual a p+1, isto , se queremos montar um experimento para analisar o
comportamento de p caractersticas de indivduos de uma populao recomendado que
o delineamento estatstico apresente pelo menos p+1 tratamentos.
Sejam 1, 2, 3, ..., p as razes da equao caracterstica da matriz R ou S, ento:
1 2 3 , p

~
Para cada autovalor i existe um autovetor a i :
6

a i1
a
i2

~
ai

a ip

~
Os autovetores a i so normalizados, isto , a soma dos quadrados dos coeficientes
igual a 1, e ainda so ortogonais entre si. Devido a isso apresentam as seguintes
propriedades:
p

2
ij

j 1

a
j 1

ij

a kj 0

~a ~a 1

'
i

~a ~a
'
i

0 para i k

e
~
Sendo a i o autovetor correspondente ao autovalor i , ento o i-simo componente
principal dado por:
Yi a i1X1 a i 2 X 2 a ip X p

Os componentes principais apresentam as seguintes propriedades:


1) A varincia do componente principal Yi igual ao valor do autovalor i.
ar Y
V
i
i

2) O primeiro componente o que apresenta maior varincia e assim por diante:

ar (Y ) V
ar (Y ) V
ar (Y )
V
1
2
p
3) O total de varincia das variveis originais igual ao somatrio dos autovalores que
igual ao total de varincia dos componentes principais:

Var(X ) Var(Y )
i

4) Os componentes principais no so correlacionados entre si:

Cov Yi , Yj 0

Contribuio de cada componente principal


A contribuio Ci de cada componenete principal Yi expressa em porcentagem.
calculada dividindo-se a varincia de Yi pela varncia total. Representa a proporo de
varincia total explicada pelo componenete principal Yi.

Ci

ar Y
V
i
p

Var Yi

100

i 1

100

i 1

i
100
trao S

A importncia de um componente principal avaliada por meio de sua contribuio,


isto , pela proporo de varincia total explicada pelo componente. A soma dos primeiros
k autovalores representa a proporo de informao retida na reduo de p para k
dimenses. Com essa informao podemos decidir quantos componente vamos usar na
anlise, isto , quantos componentes sero utilizados para diferenciar os indivduos. No
existe um modelo estatstico que ajude nesta deciso. Segundo REGAZZI (2000) para
aplicaes em diversas reas do conhecimento o nmero de componentes utilizados tem
sido aquele que acumula 70% ou mais de proporo da varincia total.
ar Y V
ar Y
V
1
k
k

Var Yi

100 70% onde

kp

i 1

Interpretao de cada componente


Esta anlise feita verificando-se o grau de influncia que cada varivel X j tem sobre o
componente Yi. O grau de influncia dado pela corelao entre cada Xj e o componente Yi
que est sendo interpretado. Por exemplo a correlao entre Xj e Y1 :

Corr X j, Y1 rXj Y1 a 1 j

ar Y
V
1

ar X
V
j

a 1j

Var X j

Para comparar a influncia de X 1, X2, ..., Xp sobre Y1 anlisamos o peso ou loading de


cada varivel sobre o componente Y1. O peso de cada varivel sobre um determinado
componente dado por:
a 11
, w2

Var X 1

w1

a 1p

Var X p

a 12
, wp

Var X 2

, sendo w1 o peso de X1.

Se o objetivo da anlise for a obteno de ndices, prtica muito comum em Economia,


a anlise termina aqui.
Se o objetivo da anlise comparar ou agrupar indivduos, a anlise continua e
necessrio calcular os escores para cada componente principal que ser utilizado na anlise.
Escores dos componentes principais
Os escores so os valores dos componentes principais. Aps a reduo de p para k
dimenses, os k componentes principais sero os novos ndivduos e toda anlise feita
utilizando-se os escores desses componentes. No Quadro 1 exemplificado a organizao
de um conjunto de dados composto por n tratamentos, p variveis e k componentes
principais.
Quadro 1. Organizao de um conjunto de dados com n tratamentos, p variveis e k
componentes
Tratamentos
Variveis
Escores dos componentes principais
X1
X2
...
Xp
Y1
Y2
...
Yk
(Indivduos)
1
2

X11
X21

Xn1

X12
X22

Xn2

X1p
X2p

Xnp

...

Y11
Y21

Yn1

Y12
Y22

Yn2

...
...

...

Assim temos que os escores do primeiro componente para os n tratamentos so:


Trat
1
2

Primeiro conponente principal


Y11 a 11X 11 a 12 X 12 a 1p X 1p
Y21 a 11X 21 a 12 X 22 a 1p X 2 p

Y1k
Y2k

Ynk

Yn1 a 11X n1 a 12 X n 2 a 1p X np

Exemplo de aplicao
No Quadro 2 esto os valores originais observados (X 1 e X2) e padronizados (Z1 e Z2)
de duas variveis para cinco tratamentos (n=5).

Quadro 2. Valores originais e padronizados de duas variveis para cinco tratamentos


Variveis originais
Variveis padronizadas
Tratamentos
X1
X2
Z1
Z2
1
102
96
24,3827
6,9554
2
104
87
24,8608
6,3033
3
101
62
24,1436
4,4920
4
93
68
22,2313
4,9268
5
100
77
23,9046
5,5788
Varincia
17,50
190,50
1
1
Mdia
100,00
78,00
23,9046
5,6513
Os dados esto padronizados para varincia 1:
Z ij

X ij

s X j

Z12

104
17,5

24,8608

A matriz de correlao :

1 0,5456
R

0,5456 1
A equao caracterstica :

R I 0

1 0,5456
0,5456 1

2 2 0,7023 0
Os autovalores da matriz de correlao R so:
1 = 1,5456 e 2 = 0,4544
A soma de 1 e 2 igual ao trao da matriz R. O trao de uma matriz a soma dos
elementos de sua diagonal principal.
10

trao(R) = 1+1=2

Obteno dos componentes principais


O autovetor normalizado para o primeiro componente principal :

~a a 11 1
1
a
2
12

1 0,7071
1 0,7070

e o primeiro componente principal :

Y1 0,7071Z1 0,7071Z 2
Da mesma forma para o segundo componente principal temos:

~a a 21 1 1 0,7071
21
a

2 1 0,7070
22
Y2 0,7071Z1 0,7071Z 2

Quadro 3. Informaes que podem ser obtidas com a anlise de componentes principais
Component Varincia Coeficiente de
Correlao
Porcentage
Porcentage
e
(Autoval ponderao
entre Zj eYi
m
m
principal
or)
da varincia acumulada
Z1
Z2
Z1
Z2
total
de varincia
dos Yi
Y1
1,5456
0,7071
0,7071 0,879
0,879
77,28
77,28
Y2

0,4544

-0,7071

0,7071

-0,476

0,476

22,72

100,00

Quadro 4. Escores dos dois componentes principais para os cinco tratamentos obtidos a partir
da matriz de correlao R.
Escores dos componentes principais
Tratamentos
Y1
Y2
1
22,16
-12,32
2
22,04
-13,12
3
20,25
-13,90
4
19,20
-12,24
5
20,85
-12,96

11

Grfico de disperso
So utilizados para visualizar a disperso dos tratamentos em funo dos escores dos
componentes principais em espao bi ou tridimensional. A disperso das mdias de
tratamentos para este exemplo est ilustrada na Figura 2.

5
3
4

Figura 2. Disperso dos tratamentos em funo dos escores dos componentes principais.

Programa SAS para obteno dos componentes principais

BIBLIOGRAFIA
REGAZZI, A.J. Anlise multivariada, notas de aula INF 766, Departamento de Informtica
da Universidade Federal de Viosa, v.2, 2000.
KHATTREE, R. & NAIK, D.N. Multivariate data reduction and discrimination with
SAS software. Cary, NC, USA: SAS Institute Inc., 2000. 558 p.
JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 4th ed.
Upper Saddle River, New Jersey: Prentice-Hall, 1999, 815 p.

12

Das könnte Ihnen auch gefallen