Beruflich Dokumente
Kultur Dokumente
Anlise de Componentes
Principais
Seropdica - RJ
Contedo
Introduo...........................................................................................................................3
Matriz de dados X...............................................................................................................4
Matriz de covarincia S.......................................................................................................4
Padronizao com mdia zero e varincia 1...................................................................5
Padronizao com varincia 1e mdia qualquer.............................................................5
Determinao dos componentes principais.........................................................................6
Contribuio de cada componente principal.......................................................................7
Interpretao de cada componente......................................................................................8
Escores dos componentes principais...................................................................................9
Quadro 1. Organizao de um conjunto de dados com n tratamentos, p variveis e k
componentes....................................................................................................................9
Exemplo de aplicao.........................................................................................................9
Quadro 2. Valores originais e padronizados de duas variveis para cinco tratamentos 10
Obteno dos componentes principais..............................................................................10
Quadro 3. Informaes que podem ser obtidas com a anlise de componentes
principais.......................................................................................................................11
Quadro 4. Escores dos dois componentes principais para os cinco tratamentos obtidos
a partir da matriz de correlao R.................................................................................11
Grfico de disperso..........................................................................................................12
Figura 2. Disperso dos tratamentos em funo dos escores dos componentes
principais.......................................................................................................................12
Programa SAS para obteno dos componentes principais..............................................12
BIBLIOGRAFIA..............................................................................................................12
Introduo
A anlise de componentes principais uma tcnica da estatstica multivariada que
consiste em transformar um conjunto de variveis originais em outro conjunto de variveis
de mesma dimenso denominadas de componentes principais. Os componentes principais
apresentam propriedades importantes: cada componente principal uma combinao linear
de todas as variveis originais, so independentes entre si e estimados com o propsito de
reter, em ordem de estimao, o mximo de informao, em termos da variao total
contida nos dados. A anlise de componentes principais associada idia de reduo de
massa de dados, com menor perda possvel da informao. Procura-se redistribuir a
variao observada nos eixos originais de forma a se obter um conjunto de eixos ortogonais
no correlacionados. Esta tcnica pode ser utilizada para gerao de ndices e agrupamento
de indivduos. A anlise agrupa os indivduos de acordo com sua variao, isto , os
indivduos so agrupados segundo suas varincias, ou seja, segundo seu comportamento
dentro da populao, representado pela variao do conjunto de caractersticas que define o
indivduo, ou seja, a tcnica agrupa os indivduos de uma populao segundo a variao de
suas caractersticas. Segundo REGAZZI (2000), apesar das tcnicas de anlise multivariada
terem sido desenvolvidas para resolver problemas especficos, principalmente de Biologia e
Psicologia, podem ser tambm utilizadas para resolver outros tipos de problemas em
diversas reas do conhecimento. A anlise de componentes principais a tcnica mais
conhecida, contudo importante ter uma viso conjunta de todas ou quase todas as tcnicas
da estatstica multivariada para resolver a maioria dos problema prticos.
1 Professor. Universidade Federal Rural do Rio de Janeiro, IT-Departamento de
Engenharia, BR 465 km 7 - CEP 23890-000 Seropdica RJ. E-mail: varella@ufrrj.br.
3
Matriz de dados X
Considere a situao em que observamos p caractersticas de n indivduos de uma
populao . As caractersticas observadas so representadas pelas variveis X 1, X2, X3, ...,
Xp. A matriz de dados de ordem n x p e normalmente denominada de matriz X.
x11
x12
x13 x1 p
x21
X x31
xn1
x22
x23 x2 p
x33 x3 p
x32
xn 3
xnp
ov( x x ) V
ar ( x )
C
2 1
2
Cov( x 2 x 3 ) Cov( x 2 x p )
ov( x x ) Cov( x x ) V
ov( x x )
ar ( x )
S C
C
3 1
3 2
3
3 p
S( x j )
em que, j e
caracterstica j:
j 1, 2, , p
j 1, 2, , p
xj
x
i 1
ij
ar ( x )
s( x j ) V
j
j 1, 2, p
x
n
ar ( x )
V
j
i 1
ij
xj
n 1
ar ( x )
V
j
ou
x
i 1
2
ij
x
i 1
ij
n 1
z12
z13 z1 p
z 21
Z z 31
z n1
z 22
z 23 z 2 p
z33 z3 p
z 32
zn2
z n3
z np
det R I 0 ou
R I 0
r ( x1 x2 ) r ( x1 x3 ) r ( x1 x p )
1
r ( x 2 x3 ) r ( x 2 x p )
r ( x2 x1 )
R r ( x3 x1 ) r ( x3 x2 )
1
r ( x3 x p )
1
r ( x p x1 ) r ( x p x2 ) r ( x p x3 )
R I 0
~
Para cada autovalor i existe um autovetor a i :
6
a i1
a
i2
~
ai
a ip
~
Os autovetores a i so normalizados, isto , a soma dos quadrados dos coeficientes
igual a 1, e ainda so ortogonais entre si. Devido a isso apresentam as seguintes
propriedades:
p
2
ij
j 1
a
j 1
ij
a kj 0
~a ~a 1
'
i
~a ~a
'
i
0 para i k
e
~
Sendo a i o autovetor correspondente ao autovalor i , ento o i-simo componente
principal dado por:
Yi a i1X1 a i 2 X 2 a ip X p
ar (Y ) V
ar (Y ) V
ar (Y )
V
1
2
p
3) O total de varincia das variveis originais igual ao somatrio dos autovalores que
igual ao total de varincia dos componentes principais:
Var(X ) Var(Y )
i
Cov Yi , Yj 0
Ci
ar Y
V
i
p
Var Yi
100
i 1
100
i 1
i
100
trao S
Var Yi
kp
i 1
Corr X j, Y1 rXj Y1 a 1 j
ar Y
V
1
ar X
V
j
a 1j
Var X j
Var X 1
w1
a 1p
Var X p
a 12
, wp
Var X 2
X11
X21
Xn1
X12
X22
Xn2
X1p
X2p
Xnp
...
Y11
Y21
Yn1
Y12
Y22
Yn2
...
...
...
Y1k
Y2k
Ynk
Yn1 a 11X n1 a 12 X n 2 a 1p X np
Exemplo de aplicao
No Quadro 2 esto os valores originais observados (X 1 e X2) e padronizados (Z1 e Z2)
de duas variveis para cinco tratamentos (n=5).
X ij
s X j
Z12
104
17,5
24,8608
A matriz de correlao :
1 0,5456
R
0,5456 1
A equao caracterstica :
R I 0
1 0,5456
0,5456 1
2 2 0,7023 0
Os autovalores da matriz de correlao R so:
1 = 1,5456 e 2 = 0,4544
A soma de 1 e 2 igual ao trao da matriz R. O trao de uma matriz a soma dos
elementos de sua diagonal principal.
10
trao(R) = 1+1=2
~a a 11 1
1
a
2
12
1 0,7071
1 0,7070
Y1 0,7071Z1 0,7071Z 2
Da mesma forma para o segundo componente principal temos:
~a a 21 1 1 0,7071
21
a
2 1 0,7070
22
Y2 0,7071Z1 0,7071Z 2
Quadro 3. Informaes que podem ser obtidas com a anlise de componentes principais
Component Varincia Coeficiente de
Correlao
Porcentage
Porcentage
e
(Autoval ponderao
entre Zj eYi
m
m
principal
or)
da varincia acumulada
Z1
Z2
Z1
Z2
total
de varincia
dos Yi
Y1
1,5456
0,7071
0,7071 0,879
0,879
77,28
77,28
Y2
0,4544
-0,7071
0,7071
-0,476
0,476
22,72
100,00
Quadro 4. Escores dos dois componentes principais para os cinco tratamentos obtidos a partir
da matriz de correlao R.
Escores dos componentes principais
Tratamentos
Y1
Y2
1
22,16
-12,32
2
22,04
-13,12
3
20,25
-13,90
4
19,20
-12,24
5
20,85
-12,96
11
Grfico de disperso
So utilizados para visualizar a disperso dos tratamentos em funo dos escores dos
componentes principais em espao bi ou tridimensional. A disperso das mdias de
tratamentos para este exemplo est ilustrada na Figura 2.
5
3
4
Figura 2. Disperso dos tratamentos em funo dos escores dos componentes principais.
BIBLIOGRAFIA
REGAZZI, A.J. Anlise multivariada, notas de aula INF 766, Departamento de Informtica
da Universidade Federal de Viosa, v.2, 2000.
KHATTREE, R. & NAIK, D.N. Multivariate data reduction and discrimination with
SAS software. Cary, NC, USA: SAS Institute Inc., 2000. 558 p.
JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 4th ed.
Upper Saddle River, New Jersey: Prentice-Hall, 1999, 815 p.
12