Beruflich Dokumente
Kultur Dokumente
PRINCIPALES
INTRODUCCIÓN
Objetivos
Para qué
• Encontrar agrupaciones
¿Qué hace?
Forma nuevas variables llamadas Componentes Principales (c.p.) con las siguientes carac-
terı́sticas:
2) La primera c.p. explica la mayor cantidad de varianza de los datos, que sea posible
1
los datos, que sea posible.
′
Zi = ai X = a1i X1 + a2i X2 + · · · + api Xp i = 1, 2, ..., p o
′
Zi = ai (X − µ) (centradas)
′
Entonces, debe elegirse a1 un vector de norma uno, ka1 k = a1 a1 = 1, de tal manera que:
′
V ar(Z1 ) = V ar(a1 ′ X) = a1 V ar(X)a1 = a′1 Σa1 sea máxima
Bajo un argumento de álgebra lineal, se puede demostrar que el valor de a1 que hace máxima
la varianza de la primer componente, Z1 , es el eigenvector, a1 , asociado al primer eigenvalor
de la matriz Σ, λ1 . Para el segundo componente Z2 es el eigenvector, a2 , asociado al segundo
eigenvalor λ2 , con λ1 > λ2 y ası́ sucesivamente.
p
P p
P p
P
λi = V ar(Xi ) = V ar(Zi )
i=1 i=1 i=1
Por esta razón se dice que el i-ésimo componente principal explica una proporción de varianza
igual a:
q
P
λi
λi i=1
p , y los primeros q de ellos p q≤p
P P
λi λi
i=1 i=1
2
Como sabemos Σ es desconocida, pero la podemos estimar con S la matriz de varianza-
covarianza muestral, lo que proporciona los estimadores
λ̂i y âi
Varianza-covarianza
Si las variables no están medidas en las mismas unidades, entonces cualquier cambio en
la escala de medición en una o más variables tendrá un efecto sobre las c.p. Por ejemplo,
supongamos que una variable que se midió originalmente en pies, se cambió a pulgadas. Esto
significa que la varianza de la variable se incrementará en 122 = 144. Ya que c.p. se basa
en la varianza, esta variable tendrı́a una mayor influencia sobre los c.p. cuando se mide en
pulgadas que en pies.
Si una variable tiene una varianza mucho mayor que las demás, dominará el primer compo-
nente principal, sin importar la estructura de covarianza de las variables.
Si no se tienen las condiciones para realizar un análisis de c.p. con la matriz de varianza-
covarianza, se recomienda hacerlo con la matriz de correlación.
3
Análisis de c.p. con la matriz de correlación
Estandarizar los datos, hacer análisis de c.p. utilizando la matriz de correlación en lugar de
la de varianza-covarianza.
Encontrar el número de componentes que cubra este requerimiento. Este criterio depende
de la población bajo estudio y del investigador.
Gráfica de codo (SCREE). Cuando los puntos en la gráfica tienden a nivelarse (hori-
zontalmente), los eigenvalores están lo suficientemente cercanos a cero y pueden ignorarse.
Entonces, elegir el número de componentes igual al número de eigenvalores antes de que la
gráfica se nivele.
Desafortunadamente, mientras más componentes se requiere, menos útiles resultan cada una.
Matriz de correlación.
′ ′ ′ ′
Cov(X, Zi ) = Cov X, ai X = ai Cov(X, X) = ai Σ = ai λi i = 1, 2, ..., p
′
ya que ai es solución del sistema:
4
(Σ − λi I) ai = 0
Cov(Xj , Zi ) = λi aij
De donde tenemos:
√
λi aij λi aij
Cor(Xj , Zi ) = q =
2
λi σjj σjj
El peso que tiene la variable i en la componente j, está dado por aij . El tamaño relativo de
las aij ′ s reflejan la contribución relativa de cada variable en la componente. Para interpretar,
en el contexto de los datos, una componente, debemos analizar el patrón de las aij de cada
componente.
p
a∗ij = λj aij