Sie sind auf Seite 1von 68

Anlisis en Componentes Principales

CIMPA-UCR
Anlisis en Componentes
Principales
ACP
Anlisis en Componentes Principales
CIMPA-UCR
Situacin: se tiene una tabla de datos cuantitativos
Objetivo:
obtener una representacin en pocas dimensiones de los
objetos, perdiendo el mnimo de informacin
obtener (pocas) variables sintticas, basadas en las variables
originales y no correlacionadas entre ellas
son objetivos equivalentes
Solucin matemtica: calcular los valores y vectores propios de
la matriz de correlaciones
Variables sintticas componentes principales
ACP: resumen
Anlisis en Componentes Principales
CIMPA-UCR
Plano principal:
ACP: Ilustracin
Anlisis en Componentes Principales
CIMPA-UCR
p variables cuantitativas
n individuos
p n
X

( )
p n
j
i
x X

=
i
Fila i representa al individuo i-simo:
i
x
( )

=
= =
p
j
j
j
i
T
p
i i i
i
e x x x x x
1
2 1
,..., ,
ACP: Los Datos
Anlisis en Componentes Principales
CIMPA-UCR
j
Columna j representa a la variable j-sima:
j
x
( )

=
= =
n
i
i
j
i
T
j
n
j j
j
f x x x x x
1
2 1
,..., ,
Las variables son cuantitativas.
ACP: Los Datos
Anlisis en Componentes Principales
CIMPA-UCR
1. Buscar la recta de mejor ajuste de la nube
H

2. Buscar el plano de mejor ajuste en la nube


H

4. Buscar el espacio de mejor ajuste de la nube


ETC.
ACP: Objetivos
Anlisis en Componentes Principales
CIMPA-UCR
MEJOR AJUSTE: que se respeten lo mejor posible las distancias
entre los individuos.
( ) ( )
)
`

)
`


i
H
H
i i
H
H
i d Max i i d Max 0 , ,
2
) (

1 2
) (
TEOREMA: El plano de mejor ajuste contiene a la recta de
mejor ajuste.
El espacio de mejor ajuste contiene al plano de
mejor ajuste.
Ajuste en ACP
Anlisis en Componentes Principales
CIMPA-UCR
Encontrar q variables sintticas
: ,..., ,
2 1 q
c c c
combinacin lineal de las
no correlacionadas entre s:
que contengan el mximo de informacin:
varianza mximo:
j
x
0 ,

=
|

\
|
k k
c c
|

\
|
k
c MaxVar
Criterio:
mxima informacin
Varianza mxima
Inercia proyectada mxima
Error mnimo
ACP: Objetivo dual
Anlisis en Componentes Principales
CIMPA-UCR
FILAS
i
i
R
P
n puntos en R
P
DISTANCIA:
( ) ( )

=
=
p
j
j i ij
x x i i d
1
2

2
,
COLUMNAS
j j
R
n
p puntos en R
n
DISTANCIA:
( ) ( )

=
=
n
i
j
i
j
i
x x j j d
1
2
2
,
ACP: Principios Geomtricos
Anlisis en Componentes Principales
CIMPA-UCR
Nube de puntos:
p variables centradas:
p
n
R x x x ,..., ,
2 1
0 =
j
x
( ) ( )

=
=
n
i
i
n
x d N I
1
2
1
0 ,
Dispersin de la nube
( ) 0 = g
g
1
x
2
x
3
x
n
x
Inercia: concepto intuitivo
Anlisis en Componentes Principales
CIMPA-UCR
Proximidad de la nube N a un punto a:

=
i
i a
a x I
2
Teorema de Huyghens:
2
a I I
g a
+ =
Mnimo de la I
a
cuando a =g
Si M es identidad: I
g
=traza V
( )

= = = =
i i j
j
j
i
j
j
j
i
i j
j
j
i
i
i g
f x f x f x x I
2
2
2
2
2
( ) ( ) ( )

= = = =
j
j
i j i
j
i
j
j
i
trazaV x x x var
2 2
I
g
= I
H
+ I
H

Inercia
Sea M = I
Anlisis en Componentes Principales
CIMPA-UCR
Inercia proyectada:
( ) ( )

=
=
n
i
i n
x d N I
1
2
1
0 ,
~
~
Dispersin multidimensional
Inercia proyectada
Anlisis en Componentes Principales
CIMPA-UCR
i
x
i

H
H
i i i
x + =
i i

Por Teorema de Pitgoras
2 2 2 2
i i i i i
x + = + =
Sumando:

+ =
i i
i i i i i i
p p x p
2 2 2

) ( ) ( ) ( N I N I N I
H
H
g
+ =

Proximidad entre N y el subespacio H:

=
= =
n
i i
i i i i i H
p x p N I
1
2 2
) (
Inercia proyectada
Anlisis en Componentes Principales
CIMPA-UCR
Sea ptimo
1 k
E
( ) 1 dim
1
=

k E
k
k k
E E
1
con
:
k
E
ptimo,
( ) k E
k
= dim
Sea
Sea
( ) k F E F
k k
= dim ,

+ =
1 k k
E F H
{ } 0
1

k k
E F I
pues
( )
( ) ( ) 1 1 dim
dim
1
+ = =
=

k p k p E
k F
k
k
. , 0
1


k k
E F I
Sea eje gen. :
Sea G: suplementario M-ortogonal de en F
k
: :
= G F
k
Teorema de inclusin

Anlisis en Componentes Principales


CIMPA-UCR
Sea
=
1 k k
E E
Entonces:
( ) ( ) ( )
( ) ( ) ( ) N I N I N I
N I N I N I
k k
k
E E
G F

+ =
+ =
1
mn
( ) ( ) ( ) ( ) N I N I N I N I
k k k
F E G E

1
Por construccin,
k k
E E
1
Teorema de inclusin
Anlisis en Componentes Principales
CIMPA-UCR
Sea E
k-1
ptimo de dimensin k-1
Para cualquier F
k
de dim k que contiene a E
k-1:
=
1
/
k k
E F
con
1

k M
E
( ) ( ) ( ) N I N I N I
k k
E F
+ =
1
( ) N I
k
F
se minimiza si
( ) N I

es mnima
Procedimiento:
1. Buscar eje sea mnima
2. Buscar eje sea mnima
k. Buscar eje sea mnima
( ) N I E
1
/
1 1

=
( ) N I
M
2
/ ,
1 2 2


( ) N I E
k
k M k k


/ ,
1
Clculo de los ejes principales
Anlisis en Componentes Principales
CIMPA-UCR
1. Buscar la recta sea mnima,
2. Buscar la recta sea mnima,
3. Buscar la recta sea mnima,
1
:
1 u
I u

1
1
= u
2 2
:
u
I u

2 1 2
, 1 u u u =
3 3
:
u
I u

2 3 1 3 3
, , 1 u u u u u =
ETC.

+ =
u
u g
I I I
u
I

es Mnimo

u
I es Mximo
MVMu u I
t
u
=

1
1
=
M
u
Sea
i
proyeccin de x
i
sobre u:
u c
i i
r r
=
Mu x u x c
T
i i i
= =
r r
,

= = = = =


T T T
i i
M
i i
M
i i
u
2
2 2
r r

Tctica del ACP


Anlisis en Componentes Principales
CIMPA-UCR
Recta u Vector u, : 1 = u
I
u
sea mnima
I
u

sea mxima
PROBLEMA:
( ) { } MVMu u u F Max
T
=
RESTRICCIN:
1
2
= u
SOLUCIN: ( ) 1 , = Mu u MVMu u u L
T T

POR MULTIPLICADORES DE LAGRANGE:
u VMu u VMu
u
L
= = =

0 2 2
u es vector propio de VM
ACP: Primer Eje
Anlisis en Componentes Principales
CIMPA-UCR
( ) ( ) = = = = = 1 Mu u u M u MVMu u u F
T T T
F es mximo si es mximo
PRIMER EJE:
Con unitario, vector propio asociado a
1
el mayor valor
propio de la matriz VM
1
u
1
u
ACP: Primer Eje
Anlisis en Componentes Principales
CIMPA-UCR
Recta u Vector u, , 1 = u { }

u
I Max u u ,
1
PROBLEMA:
( ) { } MVMu u u F Max
T
=
RESTRICCIONES:
1
2
, 1 u u u =
SOLUCIN:
( ) ( ) ( )
1
1 , , Mu u Mu u MVMu u u L
T T T
=
POR MULTIPLICADORES DE LAGRANGE:
0 2 2
1
= =

Mu Mu VMu
u
L

0 0 2 0 2 2
1 1 1 1 1
VMu u Mu u Mu u VMu u
T T T T
0 =
ACP: Segundo Eje
Anlisis en Componentes Principales
CIMPA-UCR
Mu VMu Mu VMu = = 0 2 2
es vector propio de V y F(u) =
u est asociado a
2
, el segundo valor propio de VM
PLANO PRINCIPAL: Generado a u
1
y u
2
, vect. Propios
de V asociados a
1
y
2
los dos primeros valores propis de V
2
u
1
u
EJES PRINCIPALES
k
k
u u u
...
,..., ,
2 1
2 1
Vectores propios de VM, asociados a los primeros k
valores propios de VM.
ACP: Segundo Eje
Anlisis en Componentes Principales
CIMPA-UCR
Para eliminar el efecto de escala en las variables:
P. ej: PESO Gramos, Onzas, Kilogramos, etc.
j
j
j
i
j
i
x x
x


j
: desv. Estndar de variable x
j
Matriz a diagonalizar:

1 1
VD D R =
Ejes Principales: Vectores propios de R
( ) j x
j
= , 1 var
( ) ( ) ( ) ( )
k j k j k j
x x corr x x x x d , 2 var var ,
2
+ =
( ) ( )
k j
x x corr , 1 2 =
ACP Normado
Anlisis en Componentes Principales
CIMPA-UCR
7.0 9.0 8.7 7.2 6.8 MARA
8.7 5.5 6.5 6.0 6.0 SONIA
6.0 8.0 7.5 9.7 7.9 JOSE
7.2 9.0 8.2 6.4 6.3 CARLOS
6.5 8.0 7.7 9.6 7.8 ANA
7.3 8.9 7.8 6.0 6.0 ANDRES
9.0 7.0 6.5 6.5 5.0 LUIS
7.5 8.0 8.0 9.2 7.6 INES
7.0 7.0 7.3 9.4 7.5 PEDRO
8.0 8.6 9.2 6.5 7.0 LUCIA
GIM HIS. ESPA CIEN. MATE
7.42 7.9 7.74 7.65 6.79 PROM
ACP: notas escolares
Anlisis en Componentes Principales
CIMPA-UCR
1 -0.51 -0.37 -069 -0.79 GIM
-0.51 1 0.82 -0.02 0.21 HISTO
-0.37 0.82 1 -0.02 0.38 ESPA
-0.69 -0.02 -0.02 1 0.85 CIEN
-0.79 0.21 0.38 0.85 1 MATE
GIM HISTO ESPA CIEN MATE
Cmo resumir esta informacin?
Cmo proyectar en pocas dimensiones?
Cmo obtener variables sintticas?
Correlaciones
Anlisis en Componentes Principales
CIMPA-UCR
100.0% 0.2% 0.01 5
99.8% 2.4% 0.12 4
97.4% 6.9% 0.35 3
90.4% 32.6% 1.63 2
57.9% 57.9% 2.89 1
ACUMULADA VARIANZA VALORES PROPIO
Valores propios
Anlisis en Componentes Principales
CIMPA-UCR
Grafico de valores propios
Notas escolares
57.86%
32.57%
6.93%
2.45%
.18%
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0
Numero del valor propio
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
Valor propios
Anlisis en Componentes Principales
CIMPA-UCR
-0.2 -0.75 -0.72 0.65 0.35 COMP.2
0.91 -0.60 -0.61 -0.72 -0.90 COMP.1
GIM HISTO ESPA CIEN MATEM
Correlaciones Principales
A nlisis en C o m p o n e n t e s P r i n c i p a l e s
CIMPA-UCR
Crculo de Correlaciones
Notas Escolares: Circulo de Correlaciones
Active
Matematica
Ciencias
Espanol
Historia
Ed.Fisica
-1.0 -0.5 0.0 0.5 1.0
Factor 1 : 57.86%
-1.0
-0.5
0.0
0.5
1.0
F
a
c
t
o
r

2

:

3
2
.
5
7
%
Anlisis en Componentes Principales
CIMPA-UCR
Plano Principal
Notas escolares: Plano principal 1-2
Active
Lucia
Pedro
Ines
Luis
Andres
Ana
Carlos
Jose
Sonia
Maria
-4 -3 -2 -1 0 1 2 3 4 5
Factor 1: 57.86%
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
F
a
c
t
o
r

2
:

3
2
.
5
7
%
Anlisis en Componentes Principales
CIMPA-UCR
12 12.5 9.5 9 EVELYNE
9.5 8.5 12.5 13 BRIGITTE
11.5 14 7 5.5 PIERRE
15 15.5 14.5 14.5 MONIQUE
7 5.5 10 11 ANDRE
12.5 12 14 14 DIDIER
9.5 11 7 6 ANNE
8 8 8 8 ALAIN
5.5 5 6 6 JEAN
LATN FRAN FISC. MATE
Tabla de notas francesas
Anlisis en Componentes Principales
CIMPA-UCR
1 LATN
0.951 1 FRAN
0.652 0.397 1 FISC
0.508 0.227 0.983 1 MATE
LATN FRAN FISC MATE
Matriz de correlaciones
Anlisis en Componentes Principales
CIMPA-UCR
100.000 0.026 0.00 4
99.974 0.089 0.00 3
99.884 27.992 1.12 2
71.892 71.892 2.88 1
%
ACUMULADO
%
TRAZA
VALOR
PROPIO
NMERO
Valores propios
Anlisis en Componentes Principales
CIMPA-UCR
99.944 2.022 70.782 27.140
0.14 0.82 -0.51
EVELYNE
99.993 0.213 81.068 18.711
-0.07 -1.29 -0.62
BRIGITTE
99.998 0.079 97.023 2.896
-0.06 1.94 0.33
PIERRE
99.977 0.001 0.349 99.627
0.01 0.19 -3.14
MONIQUE
99.943 0.021 70.348 29.573
0.03 -1.50 0.97
ANDRE
99.922 0.013 8.556 91.353
-0.02 -0.63 -2.05
DIDIER
99.999 0.157 50.804 49.039
-0.06 1.05 1.03
ANNE
99.968 0.001 1.493 98.474
0.00 -0.15 1.24
ALAIN
99.993 0.007 2.370 97.616
0.02 -0.43 2.74
JEAN
CALID. 3 COS 3 COS 2 COS 1
EJE 3 EJE 2 EJE 1
Calidad de la representacin
Anlisis en Componentes Principales
CIMPA-UCR
Diagonalizar la matriz de varianzas-covarianzas VM
valor propio de VM
v
r
vector propio de VM
v v VM
r r
= :
Caso estandarizado: diagonalizar R (matriz de correlaciones)

i
> 0
P vectores propios: ortogonales de norma 1
( )
p
u u ,...,
1
Componentes Principales
j
j
u XM C =
Propiedades:
( )
( ) 0 ,
0
var
=
=
=
k j
j
j
j
C C
C
C

r
(ortogonales)
ACP: Solucin
Anlisis en Componentes Principales
CIMPA-UCR
x Vx =
x
x Tx =
x
( ) ( ) ( ) x x Vx x V = = =
Signo del valor propio
El signo es arbitrario
Anlisis en Componentes Principales
CIMPA-UCR
( ) ( )
k j
jk
p p
jk
x x r r R , , = =

Existen 0 ,..., , ,
3 2 1

p
y existen vectores
R u u u
p
,..., ,
2 1
tales que:
j
j
j
u u R =
j
u j
j
j
u u R =
R
j
u A
( ) ( )
j
j
j
j
j j
u u u R u R = = =
Diagonalizar la matriz de
correlaciones
Signo:
Anlisis en Componentes Principales
CIMPA-UCR
x
2
~
x
1
~
x
x
~
2
2
2
~
cos
x
x
=
Por T. Pitgoras:
2
2
2
1
2
2 1
2
~ ~ ~ ~
x x x x x + = + =
2
2
2
2
1 2
~ ~
cos
x
x x +
=
2
2
2
2
2
1
~ ~
x
x
x
x
+ =
2
2
1
2
cos cos + =
Consecuencia del Teorema de
Pitgoras
Anlisis en Componentes Principales
CIMPA-UCR
Reconstruir las posiciones originales de los individuos en el
plano principal:
2 1
u u
Se proyecta x
i
en y en
1
u
2
u
En :
1
u
Mu X c u c
T
i i
i
i i
= = ,
En :
2
u
2
2
, Mu X d u d
T
i i i i
= =
i

x
i
~
2
u
:
~
i
x
proyeccin de
i
x
Calidad de la Representacin:
2
2
2
~
cos
M
i
M
i
x
x
=
Representacin de los individuos
Anlisis en Componentes Principales
CIMPA-UCR
Examinar las correlaciones
principales
( ) 5 . 0 ,
2

k j
C x
Representacin de las variables
Anlisis en Componentes Principales
CIMPA-UCR
Sea un eje principal:
i
u
k
u
k
I =

( ) ( )
k k
T
k k k k
T
k k
T
k
u
Mu u u M u MVMu u I
k
= = = =

k
es la inercia explicada por el eje
k
u
Inercia total:
p
VM traza N I + + + = = ... ) ( ) (
2 1
p

+ +...
1
1
% de Inercia explicada por el eje
principal
p


+ +
+
...
1
2 1
% de Inercia explicada por el plano
principal
Calidad de la representacin
Anlisis en Componentes Principales
CIMPA-UCR
p
k


+ +
+ +
...
...
1
1
% de Inercia explicada por los k
primeros ejes principales
2

% in.
% in
Valores Propios
75% 15%

3
60% 2 0 %

2
40% 40%

1
% Acumulado % Inercia VAP
Calidad de la representacin
Anlisis en Componentes Principales
CIMPA-UCR
1. Inercia explicada mnima:
k
c c c ,..., ,
2
1
tq
( ) N I mn
q
% ...
2 1
+ + +
2. Criterio del codo:
1 2 3 4 5 6 7
3. Interpretabilidad:
Individuos:
( ) 5 . 0

, cos
2

i i
x x
Nmero de ejes
Variables:
7 . 0 ,
|

\
|
j k
x c
Anlisis en Componentes Principales
CIMPA-UCR
4. Si variables estandarizadas

1
D M =
1 var =
|

\
|

j
x
Tomar solo tq
k
c
|

\
|
|

\
|
=
k
k k
c var 1
5. Informacin independiente: nmero equivalente
Nmero de ejes (cont.)
Anlisis en Componentes Principales
CIMPA-UCR
Variable cuantitativa
Anlisis Z
Z: centrada
Variable cualitativa
Anlisis m
Variable Nominal
con m modalidades
Variables suplementarias
Anlisis en Componentes Principales
CIMPA-UCR
Interpretar es dar sentido
a) Situacin de un punto respecto al conjunto de filas y
columnas la tabla.
b) Elementos suplementarios: referencia.
c) Experiencia del analista
Inercia de los factores
valores propios
% inercia
# factores
Interpretacin de resultados
Anlisis en Componentes Principales
CIMPA-UCR
Interpretacin de los factores
contribucin de individuos
variables activas: *eje x, *planos
variables suplementarias: ampliar el contexto
coordenadas de los individuos: aspecto general, prototipos,
tipologas
individuos suplementarios
Casos particulares:
factor ~ elemento aberrante
factor de oposicin
factor ~ grupo
factor ~ participacin
factor de escala
efecto talla
Interpretacin de resultados
Anlisis en Componentes Principales
CIMPA-UCR
Datos de prediagnstico
1. Calinda 220 x 3
2. Las Juntas 240 x 3
3. Cartagena 235 x 3
4. San Pablo 240 x 3
5. El Esfuerzo 240 x 3
6. Palo Verde 239 x 3
Anlisis en Componentes Principales
CIMPA-UCR
Variables
Circunferencia de la madre (cm)
CircMadr
Altura del Hijo (cm)
AltHijo
Nmero de manos
#Manos
Anlisis en Componentes Principales
CIMPA-UCR
Individuos
3 sitios por finca:
Bueno (B)
Medio (M)
Pobre (P)
20 casos para cada sitio
4 repeticiones c/u
Total: 240 casos (en teora) por finca
Anlisis en Componentes Principales
CIMPA-UCR
Correlaciones
0.731 0.851 0.730 San Pablo
0.597 0.685 0.682 Palo Verde
0.645 0.756 0.717 Las Juntas
0.617 0.816 0.734 El Esfuerzo
0.670 0.881 0.689 Cartagena
0.658 0.870 0.617 Calinda
AltHijo
#Manos
CircMadre
#Manos
CircMadre
AltHijo
Anlisis en Componentes Principales
CIMPA-UCR
Calinda: ACP completo
Pobre
Medio
Bueno
Anlisis en Componentes Principales
CIMPA-UCR
Calinda: ACP completo
Pobre Bueno
Anlisis en Componentes Principales
CIMPA-UCR
Calinda: ACP sin sitio medio
Bueno Pobre
Anlisis en Componentes Principales
CIMPA-UCR
Calinda: ACP sin sitio medio
Anlisis en Componentes Principales
CIMPA-UCR
Las Juntas: ACP sin medio
Bueno Pobre
Anlisis en C o m p o n e n t e s Principales
CIMPA-UCR
Las Juntas: ACP sin medio
Anlisis en Componentes Principales
CIMPA-UCR
Cartagena: ACP completo
Pobre Bueno
Medio
Anlisis en Componentes Principales
C I M P A -UCR
Cartagena: ACP completo
Anlisis en Componentes Principales
CIMPA-UCR
Cartagena: ACP sin medio
Pobre
B u e n o
Anlisis en Componentes Principales
CIMPA-UCR
C a r t a g e n a : A C P s i n medio
Anlisis en Componentes Principales
CIMPA-UCR
San Pablo: ACP sin medio
Pobre
Bueno
Anlisis en Componentes Principales
CIMPA-UCR
San Pablo: ACP sin medio
Anlisis en Componentes Principales
CIMPA-UCR
El Esfuerzo: ACP sin medio
Pobre
Bueno
Anlisis en Componentes Principales
CIMPA-UCR
El Esfuerzo: ACP sin medio
Anlisis en Componentes Principales
CIMPA-UCR
Palo Verde: ACP sin medio
Pobre
Bueno
Anlisis en Componentes Principales
CIMPA-UCR
Palo Verde: ACP sin medio
Anlisis en Componentes Principales
CIMPA-UCR
Anlisis de los horizontes
1
er
horizonte
2
o
horizonte
3
er
horizonte
4
o
horizonte
Anlisis en Componentes Principales
CIMPA-UCR
Crculo de correlaciones
Superficie
P
r
o
f
u
n
d
i
d
a
d

Das könnte Ihnen auch gefallen