Sie sind auf Seite 1von 44

1

ALGUNOS CONCEPTOS DE ANLISIS MULTIVARIADO CON APLICACIN A LA


INVESTIGACIN PEDAGGICA
(HERNAN GARCIA UNIVERSIDAD DE NARIO)

INTRODUCCION

El anlisis multivariado se refiere a un conjunto de mtodos los cuales pueden analizar relaciones
simultneas entre variables. Kendall (1980) define Anlisis multivariado como la rama del
anlisis estadstico concerniente con las relaciones de conjuntos de variables dependientes.

Cuando se analizan varias caractersticas o variables de un mismo individuo o cuando este es


sometido a varios tratamientos, estas variables por lo general estn correlacionadas. Una serie de
anlisis estadsticos univariados realizados separadamente para cada caracterstica puede
conducir a interpretaciones errneas de los resultados puesto que se ignora la correlacin o
interdependencia entre variables.

En las ciencias sociales a veces es preciso combinar varias preguntas para representar una idea,
por ejemplo la clase social a menudo se presenta mejor por un conjunto de preguntas que
incluyan el ingreso, la educacin y la ocupacin. Cuando se crean variables que son el resultado
de la combinacin de varias preguntas las tcnicas univariadas hacen confuso el anlisis y no
permiten extraer toda la informacin del conjunto de datos.

Las tcnicas multivariadas son una herramienta muy poderosa que ayuda a los investigadores a
hacer que tenga sentido conjuntos grandes, complicados y complejos de datos que constan de
una gran cantidad de variables. En la actualidad existen paquetes estadsticos tales como SAS,
STATGRAPHICS, SPSS, STATISTICS, etc. Que permiten la utilizacin de estas tcnicas.

Muchos mtodos multivariados tienden a ser de naturaleza exploratoria en lugar de confirmatoria,


es decir, tienden a explorar y motivar hiptesis en lugar de confirmarlas.

En el campo multivariado pueden utilizarse diferentes enfoques, tanto por lo diferentes tipos de
situaciones que se presentan al obtener los datos, como por el objetivo especfico del anlisis.
Los ms importantes son:

SIMPLIFICACION DE LA ESTRUCTURA O REDUCCION DE LOS DATOS

El objetivo es encontrar una manera simplificada de representar el universo de estudio. Esto


puede lograrse mediante la transformacin de un conjunto de variables interdependientes en otro
conjunto de variables independientes o en otro conjunto de menor dimensin. Las tcnicas que se
utilizan con mayor frecuencia son: el anlisis de componentes principales, anlisis de factores y
en anlisis de correspondencias mltiples.

CLASIFICACION

Este tipo de anlisis permite ubicar las observaciones o individuos dentro de grupos o bien
concluir que los individuos estn dispersos aleatoriamente en el multiespacio. Tambin pueden
agruparse variables. Las tcnicas empleadas son los mtodos de clasificacin jerrquicos y no
jerrquicos y el anlisis discriminante.
2

INVESTIGACIN DE LA DEPENDENCIA ENTRE VARIABLES

El objetivo es explicar o predecir una o varias variables denominadas dependientes en trminos


de otras variables denominadas independientes. Entre los mtodos para detectar dependencia
estn: El anlisis de regresin mltiple, Anlisis de correlacin cannica, anlisis discriminante,
regresin logstica y anlisis multivariado de varianza.

ANALISIS DE LA INTERDEPENDENCIA

Estos mtodos permiten analizar la asociacin mutua entre todas las variables sin distincin de
variables dependientes e independientes. Entre las tcnicas para analizar la interdependencia
entre variables se incluyen el anlisis de componentes principales, anlisis de factores, anlisis de
correspondencia mltiple, anlisis de clasificacin y escala multidimensional.

FORMULACIN Y PRUEBA DE HIPOTESIS

A partir de un conjunto de datos es posible encontrar modelos que permitan formular hiptesis en
funcin de parmetros estimables. La prueba de este nuevo modelo requiere una nueva
recopilacin de datos a fin de garantizar la necesaria independencia y validez de las conclusiones.
Una de estas tcnicas es la manova.

A continuacin se hace una breve descripcin de algunas de estas tcnicas para tener una idea
de los objetivos que persiguen.

Regresin mltiple

Desarrolla una ecuacin de prediccin que relaciona una variable dependiente ( o de criterio) con
un conjunto de variables independientes ( o predictoras) y el objetivo es estimar o predecir el valor
medio de la variable dependiente con base en los valores conocidos de las variables
independientes.

Anlisis discriminante

Se usa principalmente para clasificar individuos en dos o ms poblaciones definidas de manera


nica. Partiendo de una muestra aleatoria se construye una funcin o regla discriminante que se
la emplea para asignar nuevos individuos u observaciones en una de varias categoras posibles.

Regresin logstica

Se la utiliza para modelar la probabilidad de que un individuo u observacin caiga en un grupo


particular con base en la informacin medida en la observacin. Estos modelos se pueden utilizar
con fines discriminatorios.
3

Anlisis multivariado de varianza

Es una generalizacin del anlisis de varianza. Puede utilizarse para explorar la relacin
simultanea entre varias variables independientes cualitativas ( denominadas tratamientos) y dos o
ms variables dependientes cuantitativas.

Anlisis de correlacin cannica

Busca determinar la asociacin lineal entre un grupo de variables independientes y un grupo de


variables dependientes. Se buscan dos combinaciones lineales una para cada grupo de variables
de tal manera que la correlacin sea mxima.

Anlisis de componentes principales

Mediante este mtodo se obtienen componentes o combinaciones lineales de las variables


originales que permitan reducir la dimensionalidad del universo de estudio centrndose en las
componentes que sintetizan la mxima variabilidad.

Anlisis de Factores

Es un trmino genrico para varias tcnicas que pretenden explicar la correlacin de un conjunto
grande de variables en trminos de un conjunto reducido de variables subyacentes denominados
factores. Al reducir el nmero de variables, los procedimientos tratan de retener tanto de la
informacin original como sea posible y de hacer de las variables restantes tan significativas y tan
fciles de manipular como sea posible. El propsito del anlisis de factores es generar una
comprensin de la estructura fundamental de las preguntas, variables u objetos y combinarlos en
nuevas variables.

Anlisis de clasificacin

Estos mtodos permiten analizar y estudiar un conjunto de individuos agrupndolos en


subconjuntos de acuerdo con un objetivo predeterminado. En forma esquemtica la clasificacin
trata el problema de particionar un conjunto en subconjuntos, tales que la diferencia entre
elementos de un mismo subconjunto sea mnima y sea mxima para los elementos de diferentes
subconjuntos.

Anlisis de correspondencia mltiple

Esta tcnica estudia las relaciones simultaneas entre varias variables cualitativas. Se puede decir
que persigue los mismos objetivos del anlisis de componentes principales, tan solo que en este
caso se trata de variables cualitativas.
4

1. CONCEPTOS BASICOS

En las tablas de datos generalmente se distinguen dos conjuntos: Los individuos y las
caractersticas relativas a estos individuos. El trmino individuo puede determinar segn el caso,
una persona, un animal, una unidad, etc. se trata siempre de la entidad de base sobre la cual el
investigador realiza cierto nmero de medidas; el conjunto de individuos observados puede
provenir de un muestro o un censo.

Sobre los individuos se definen cierto nmero de caractersticas. Por ejemplo si se considera una
encuesta, las caractersticas son las preguntas; si se trata de los empleados de una empresa, las
caractersticas pueden ser el salario, la edad, el nivel educativo, el sexo, etc. En el siguiente
ejemplo se puden apreciar 8 individuos cada uno de ellos dotado de 4 caractersticas o variables:
sexo, nivel educativo, estado civil e ingreso:

VARIABLES
INDIVIDUOS SEXO NIVEL EDUCATIVO ESTADO CIVIL INGRESO(Miles pesos)
Juan M Universitario Casado 1800
Mara F Bachiller Soltero 600
Pedro M Tcnico Casado 600
Rosa F Universitario Casado 1200
Jos M Post universitario Casado 3000
Pablo M Post universitario Soltero 2800
Antonio M Post universitario Soltero 2900
Rocio F Bachiller Soltero 750

Generalizando, si se consideran n individuos cada uno de ellos caracterizado por p variables, se


los puede arreglar de la siguiente manera:

Variable 1 Variable 2 . . . Variable p


Individuo 1 X11 X12 . . . X1p
Individuo 2 X21 X22 . . . X2p
. . . . . . .
. . . . . . .
. . . . . . .
Individuo n Xn1 Xn2 . . . Xnp

o mediante una matriz de n filas y p columnas.

x11 x12 ... x1 p


x x 22 ... x2 p
X =
21

M M M M

xn 1 xn 2 ... xnp
5

donde las n filas representan a los n individuos y las p columnas representan a las p variables. El
individuo Xi tiene como coordenadas las p variables del vector fila

[
X i = xi 1 xi 2 ... xip ]

y la variable j tiene como coordenadas las n componentes del vector columna

x1 j
x
Xj =
2j

M

x nj

El elemento Xij representa el valor que toma el individuo i para la variable j

Desde un punto de vista geomtrico, las n filas son tratadas como n puntos en el espacio vectorial
p-dimensional Rp (n vectores con p componentes) y las p columnas son tratadas como p puntos
en el espacio vectorial n-dimensional Rn ( p vectores con n componentes). Al conjunto de
individuos se lo denomina nube de individuos N(n) y al conjunto de variables se lo denomina nube
de variables N(p).

En la nube de individuos se comparan stos en trminos de sus caractersticas y en la nube de


variables se obtiene informacin acerca de la relacin entre caractersticas consideradas en
funcin de los individuos que se estudian.

Las variables X1 ,X2 , ..., Xp pueden ser cuantitativas o cualitativas. Una variable es cuantitativa
cuando el conjunto de valores que toma est incluido en el conjunto de los nmeros reales y
cuando se puede efectuar sobre sta las operaciones algebraicas habituales. Una variable es
cualitativa cuando toma modalidades no numricas: sexo, profesin estado civil, etc.

Si en la matriz de datos

x11 x12 ... x1 p


x x 22 ... x2 p
X =
21

M M M M

xn 1 xn 2 ... xnp

cada Xij es un nmero real, el centro de gravedad de la nube de individuos se lo define como:

G = [X 1 XP ]
1 n
X2 L donde XJ = X ij ;
n i =1
j = 1,2,... p
6

Se observa que X j
es el promedio de la variable j, por lo tanto, el centro de gravedad se

refiere al punto en Rp cuyas coordenadas son los promedios de las p variables.

La varianza de la variable j se define por:

1 n
s jj = ( xij X j )2
n i =1

y la covarianza entre la j-sima y la k-sima variable est dada por:

1 n
s jk = (x ij X j )(x ik X k );
n i =1
j , k = 1,2,..., p

La matriz de varianza-covarianza viene dada por:

s11 s12 L s1 p
s s 22 L s 2 p
V =
21

M M M M

s p 1 s p 2 L s pp

Al determinante de la matriz V; | V | se denomina varianza generalizada, y a la traza de la matriz


V, se la denomina variacin total:

P
TR (V ) = S JJ
J =1

Tanto la varianza generalizada como la variacin total sern mayores cuanto mayor sea la
dispersin de los datos alrededor del centro de gravedad.

la correlacin entre la j-sima y la k-sima variable est dada por:

(x ij X j )( x ik X k )
r jk = i =1
n n

(x ij X j) 2
(x ik X k )2
i =1 i =1
7

La matriz de correlaciones viene dada por:

1 r12 L r1 p
r 1 L r2 p
R=
21

M M O M

rp 1 r p2 L 1

Ejemplo

Los siguientes datos se tomaron de un ejercicio del libro de Jhonson [3]. Se trata de una muestra
aleatoria de 50 personas de una empresa a los que se les evalu tres variables con respecto al
desempeo en ventas: X1= crecimiento en ventas, X2= rentabilidad en ventas y X3= habilidad
para abrir nuevas cuentas. Esta variables se midieron en una escala donde el puntaje 100 indica
un desempeo promedio. Adems a cada individuo se les realizaron cuatro pruebas que
pretenden medir : X4= creatividad, X5= razonamiento mecnico, X6= razonamiento abstracto y
X7= habilidad matemtica. El objetivo es analizar que pruebas revelan mejor el potencial para el
desempeo en ventas:

INDIVIDUOS X1 X2 X3 X4 X5 X6 X7

1 93 96 97.8 9 12 9 20
2 88.8 91.8 96.8 7 10 10 15
3 95 100.3 99 8 12 9 26
4 101.3 103.8 106.8 13 14 12 29
5 102 107.8 103 10 15 12 32
6 95.8 97.5 99.3 10 14 11 21
7 95.5 99.5 99 9 12 9 25
8 110.8 122 115.3 18 20 15 51
9 102.8 108.3 103.8 10 17 13 31
10 106.8 120.5 102 14 18 11 39
11 103.3 109.8 104 12 17 12 32
12 99.5 111.8 100.3 10 18 8 31
13 103.5 112.5 107 16 17 11 34
14 99.5 105.5 102.3 8 10 11 34
15 100 107 102.8 13 10 8 34
16 81.5 93.5 95 7 9 5 16
17 101.3 105.3 102.8 11 12 11 32
18 103.3 110.8 103.5 11 14 11 35
19 95.3 104.3 103 5 14 13 30
20 99.5 105.3 106.3 17 17 11 27
21 88.5 95.3 95.8 10 12 7 15
22 99.3 115 104.3 5 11 11 42
23 87.5 92.5 95.8 9 9 7 16
24 105.3 114 105.3 12 15 12 37
25 107 121 109 16 19 12 39
26 93.3 102 97.8 10 15 7 23
8

27 106.8 118 107.3 14 16 12 39


28 106.8 120 104.8 10 16 11 49
29 92.3 90.8 99.8 8 10 13 17
30 106.3 121 104.5 9 17 11 44
31 106 119.5 110.5 18 15 10 43
32 88.3 92.8 96.8 13 11 8 10
33 96 103.3 100.5 7 15 11 27
34 94.3 94.5 99 10 12 11 19
35 106.5 121.5 110.5 18 17 10 42
36 106.5 115.5 107 8 13 14 47
37 92 99.5 103.5 18 16 8 18
38 102 99.8 103.3 13 12 14 28
39 108.3 122.3 108.5 15 19 12 41
40 106.8 119 106.8 14 20 12 37
41 102.5 109.3 103.8 9 17 13 32
42 92.5 102.5 99.3 13 15 6 23
43 102.8 113.8 106.8 17 20 10 32
44 83.3 87.3 96.3 1 5 9 15
45 94.8 101.8 99.8 7 16 11 24
46 103.5 112 110.8 18 13 12 37
47 89.5 96 97.3 7 15 11 14
48 84.3 89.8 94.3 8 8 8 9
49 104.3 109.5 106.5 14 12 12 36
50 106 118.5 105 12 16 11 39

Para el anlisis de los datos se utiliz el paquete estadstico STATGRAPHICS.

El vector de medias viene dada por:

G = [98.84 106.62 102.81 11.22 14.18 10.56 29.76]

Este vector representa al individuo promedio del grupo.

La matriz de varianzas covaraianzas viene dada por

X1 X2 X3 X4 X5 X6 X7
X1 53.84 68.79 30.56 16.58 17.59 10.59 71.70
X2 68.79 102.50 40.20 21.66 25.56 10.08 100.74
X3 30.56 40.20 22.21 13.04 10.17 6.46 42.34
X4 16.58 21.66 13.04 15.60 7.90 1.24 17.18
X5 17.57 25.56 10.17 7.90 11.46 2.80 20.49
X6 10.59 10.08 6.46 1.24 2.80 4.58 12.77
X7 71.70 100.74 42.33 17.18 20.50 12.77 111.04
9

La matriz de correlaciones viene dada por:

X1 X2 X3 X4 X5 X6 X7
X1 1 0.9261 0.8840 0.5720 0.7081 0.6744 0.9273
X2 0.9261 1 0.8425 0.5415 0.7459 0.4654 0.9443
X3 0.8840 0.8425 1 0.7004 0.6375 0.6411 0.8526
X4 0.5720 0.5415 0.7004 1 0.5907 0.1469 0.4126
X5 0.7081 0.7459 0.6375 0.5907 1 0.3860 0.5746
X6 0.6744 0.4654 0.5411 0.1469 0.3860 1 0.5664
X7 0.9273 0.9443 0.8526 0.4126 0.5746 0.5664 1

De la matriz de correlaciones se puede apreciar que el conjunto de variables que ms se


correlacionan entre si, est formado por Habilidad matemtica, Crecimiento en ventas,
rentabilidad en ventas y habilidad para abrir nuevas cuentas. Es decir, La prueba Habilidad
matemtica es la que mejor revela el potencial del desempeo en ventas. Sucede algo parecido
con la variable razonamiento mecnico pero en menor grado.
10

2. ANALISIS FACTORIAL: CASO GENERAL

Los mtodos factoriales son bsicamente representaciones sobre ejes y planos de los objetos
que se quieren describir con el objeto de encontrar una manera simplificada de representar el
universo de estudio mediante la transformacin de las variables originales en otro conjunto de
variables artificiales con propiedades deseables que son combinaciones lineales de las originales.

Hay tres tcnicas dentro del anlisis factorial

Anlisis de componentes principales


Anlisis factorial de factores comunes y especficos
Anlisis factorial de correspondencias

Los mtodos factoriales se basan en principios comunes: a partir de una tabla de datos se
construyen dos nubes de puntos que representan, respectivamente, las filas y las columnas. Se
proyecta cada una de estas nubes sobre una sucesin de ejes ortogonales que maximizan la
inercia proyectada; las proyecciones de los puntos de una nube estn relacionados con las
proyecciones de la otra mediante las relaciones de transicin.

Sea la matriz de valores reales

x11 x12 ... x1 p


x x 22 ... x2 p
X =
21

M M M M

xn 1 xn 2 ... xnp

donde cada individuo x i est provisto de un peso p i (en el caso ms elemental todos los
individuos tienen el mismo peso 1/n).

Como se dijo anteriormente a la matriz de datos se le asocian dos nubes de puntos: la nube de
individuos situada en R p y la nube de variables situada en R n.

En R p buscamos una sucesin de ejes ortogonales tal que la varianza de la nube proyectada
sobre esos ejes sea mxima. Supongamos que este espacio est provisto de la distancia eucldea
cannica.
11

Empezamos proyectando la nube sobre un eje U.

Mi

U
Hi

O
Fig. 2.1 NUBE DE INDIVIDUOS

Sea U un vector unitario cualquiera en R P . Las coordenadas de la proyeccin de la nube de


individuos sobre el eje U forman un vector de dimensin p, denominado Fu

La proyeccin del punto M i sobre Fu es OH i . El mtodo mas utilizado para ajustar los n puntos
al vector U, es el mtodo de mnimos cuadrados, que consiste en minimizar la suma de los
cuadrados de las distancias M H 2
i i

Se tiene que:

n n n

M i H i = OM i OH i
2 2 2
(1)
i =1 i =1 i =1

OH = ( Xu)' Xu puesto que Xu son las proyecciones de la matriz de datos X sobre el


2
Pero i
i =1

vector unitario U ( las proyecciones de los n individuos sobre el vector U)

para minimizar la expresin (1) se maximiza la forma cuadrtica:

( Xu )'Xu = u' X ' Xu

se halla U de tal manera que u' X ' Xu sea mximo bajo la condicin de que UU= 1. Para
hallar U se utilizan multiplicadores de Lagrange. y se demuestra que:

El subespacio unidimensional (una recta) que mejor se ajusta en el sentido de los mnimos
cuadrados es el generado por U1, vector propio asociado al valor propio 1 ms grande de la
matriz X X.

El subespacio bidimensional (un plano) que mejor se ajusta en el sentido de los mnimos
cuadrados es el generado por los vectores propios U1 y U2, donde U2 es el vector propio
12

asociado al segundo valor propio 2 ms grande de X X bajo la condicin de que U1U1 = 1,


U2 U2 = 1 y U1 ortogonal a U2.

De manera general el subespacio q-dimensional que mejor se ajusta en el sentido de los mnimos
cuadrados a la nube de individuos, es el subespacio de dimensin q (q p), generado por los
vectores propios U1,U2, . . . , Uq correspondientes a los valores propios 1 2 ... q de XX.
Los vectores propios U1,U2, . . . , Uq son ortogonales dos a dos.

Las coordenadas del individuo Xi sobre el eje U se denota por F( i) y se llama factor de rango
asociado al individuo Xi
F (i ) = X ' i u

Las coordenadas de la nube de individuos sobre el eje U se denota por F y se llama factor
de rango asociado a la nube de individuos:

F = X u ; = 1, 2,..., p

La varianza que explica el factor F viene dada por:

p F i
2
(i ) =
i =1

La varianza de la nube de individuos viene dada por

p
I = j
j =1

En el espacio de variables se tendra que diagonalizar la matriz X X, para obtener el subespacio


t-dimensional con t n que mejor se ajusta en el sentido de los mnimos cuadrados a la nube de
variables. Este subespacio est generado por los vectores propios unitarios y ortogonales dos a
dos: V1,V2,...,Vt correspondientes a los valores propios 1 2 ... t de XX.

No es necesario diagonalizar esta matriz puesto que los valores propios diferentes de cero de
XX y X X son idnticos, y las nubes de individuos y variables se relacionan mediante las
siguientes ecuaciones de transicin:

1 1
u = X 'v y v = X u

13

INTERPRETACION

La interpretacin de los ejes desempea un papel fundamental. Esta interpretacin difiere


fuertemente de un mtodo factorial a otro; las coordenadas, los pesos, y las distancias estn
definidas de diferentes maneras, los ejes factoriales no representan el mismo gnero de
fenmenos en los diferentes mtodos. Sin embargo, la interpretacin de un eje conlleva a una
base puramente geomtrica.

Los factores se escogen en el orden decreciente de los valores propios, pueden ser analizados
separadamente o dos a dos con la ayuda de los planos factoriales. Estos planos estn definidos

por los ejes factoriales (U,U). El punto Xi est situado dentro de este plano mediante sus

dos coordenadas (F( i ), F( i )).

Para la interpretacin se utilizan las siguientes ayudas:

PORCENJATE DE INERCIA EXPLICADO POR EL EJE U


p
100%

=1

La importancia de un eje viene dado por el porcentaje de varianza que explica

CONTRIBUCIN DEL PUNTO X i A LA VARIANZA EXPLICADA POR U

pi F2 ( i )
CRT ( i ) =

Esta expresin permite identificar los puntos X i que contribuyen ms en la formacin del eje U.
Los puntos para los cuales esta contribucin es fuerte son los que fijan la posicin del eje.

CALIDAD DE REPRESENTACION DEL PUNTO X i POR SU PROYECCION SOBRE EL EJE U

La calidad de representacin del punto X i viene dada por

F2 ( i )
Cos2 (i ) =
d 2 (x i , g )

donde d 2 (x i , g) es la distancia al cuadrado del punto al centro de gravedad.


14

Gracias a la ortogonalidad de los ejes factoriales la calidad de representacin del punto viene
dada por :

2 p

Cos 2
(i ), adems cos 2
(i ) = 1
=1 =1

COMPONENTES PRINCIPALES

El anlisis de componentes principales se aplica a tablas rectangulares de medidas, donde las


columnas representan a las variables, las cuales son de tipo cuantitativo, y las filas representan a
los individuos.

x11 x12 ... x1 p


x x22 ... x 2 p
X =
21

M M M M

x n1 x n2 ... x np

Donde x ij es el valor de la variable j en el individuo i, n es el nmero de individuos y p es el


nmero de variables (p n )

Con respecto a los individuos se trata de evaluar su semejanza. Dos individuos se asemejan ms
cuanto ms prximos sean sus valores en el conjunto de variables.

Distancia entre los individuos x i y x s


p
d 2 (i , s ) = ( xij x sj ) 2
j =1

Con respecto a las variables, se evala su relacin. La relacin entre las variables j y k se mide
por su coeficiente de correlacin.

(x ij X j )( x ik X k )
r jk = i =1
n n

(x ij X j) 2
(x ik X k )2
i =1 i =1
15

Los objetivos ms importantes de todo anlisis por componentes principales son:

Generar nuevas variables que puedan expresar la informacin contenida en el conjunto


original de datos.

Reducir la dimensionalidad el problema que se est tratando.

Eliminar, cuando sea posible, algunas de las variables originales ya sea porque ellas aportan
poca informacin o porque una variable contiene en parte informacin ya suministrada por
otra variable.

Las nuevas variables generadas se denominan componentes principales que son combinaciones
lineales de las variables originales y no estn correlacionadas entre ellas.

El estudio se centra en las componentes que sintetizan la mayor variabilidad del sistema de
puntos. Por inspeccin de estas componentes se puede encontrar un medio para clasificar o
detectar similitudes o distancias entre individuos y relaciones entre variables.

Para detectar similitudes entre individuos de una manera grfica se pueden formar los planos
factoriales compuestos por los dos primeros componentes o la combinacin que se desee de los
componentes de los individuos ( Puntajes o scores de los individuos), un individuo esta situado en
este plano mediante las coordenadas respectivas de los componentes.

En el balance de la semejanza entre individuos trata de responder a preguntas como:

Que individuos son los que se asemejan.


Que individuos son los que se diferencian.
Existen grupos homogneos de individuos.
Se puede poner una tipologa entre individuos.

De la misma manera, en los planos factoriales formados por los componentes de las variables
(cargas factoriales), se trata de responder a preguntas como:

Que variables son las que aparecen relacionadas positivamente entre si.
Que variables son las que se oponen ( relacionadas negativamente).
Existen grupos de variables relacionadas entre si.
Se puede poner en evidencia una tipologa entre variables.

El anlisis por componentes principales debe ser aplicado cuando se desee conocer la relacin
entre los elementos de una poblacin y se sospeche que en dicha relacin influye de manera
desconocida un conjunto de variables.

GENERACION DE COMPONENTES PRINCIPALES

Se puede aplicar el caso general descrito en el captulo anterior, es decir, se diagonaliza la matriz
XX , donde X es la matriz cuyo trmino general es la variable centrada y tipificada:

x ij X j

sj
16

X j y sj
Siendo x ij el valor que toma el individuo i para la variable j , la media y la
desviacin estndar de la variable j.

En determinados casos se desea conservar la escala absoluta de cada variable, en este caso los
resultados son bastante sensibles a las unidades de medida elegidas. Su trmino general es:

x ij X j

1
En los dos casos al trmino general se lo multiplica por para que en el primer caso XX ,
n
sea la matriz de correlaciones y en el segundo XX sea la matriz de covarianzas. Cuando se utiliza
la matriz de correlaciones el anlisis se denomina normado.

COORDENADAS DE LOS INDIVIDUOS SOBRE LOS NUEVOS EJES

Las coordenadas de los n individuos sobre el eje factorial u ( -simo vector propio de la matriz
XX asociado al valor propio ) vienen dadas por la componente principal :

F = X u

La coordenada del individuo X i sobre este eje se escribe

p
xij X
F (i ) =
j
uj
j =1 sj n

Las propiedades ms importantes de estas componenentes son:

La nube de individuos est centrada sobre su centro de gravedad


Var( F ) =

COORDENADAS DE VARIABLES SOBRE LOS NUEVOS EJES

Del anlisis general, se tiene que en el espacio de variables no es necesario diagonalizar la matriz
XX puesto que los valores propios diferentes de cero de XX y XX son idnticos

El -simo componente viene dado por

G = X v
17

donde v es el vector propio unitario de la matriz XX. De las relaciones de transicin se tiene que
1
v = X u , reemplazando esta expresin obtenemos:

1
G = X ' v = X ' Xu = u como F = Xu

1
Tenemos que G = X ' F

La j-sima coordenada de la componente G viene dada por:

n x ij X 1
G ( j ) =
j
F ( i )
i =1 sj n

Las componentes principales son ortogonales dos a dos y no estn correlacionadas y sintetizan la
mxima variabilidad de los datos.

La nube de variables tiene propiedades muy importantes:

La nube de variables no est centrada sobre el origen


Las coordenadas de las variables sobre los componentes principales son las correlaciones de
stas con los factores
En general, cuanto ms cercano este | G( j) | a 1 ms grande ser la correlacin entre la
variable j y la componente.

Cuando las variables estn centradas y reducidas ( cuando se utiliza la matriz de correlacin ) los
extremos de los vectores que representan las variables se ubican en una hiperesfera de radio 1
denominado crculo de correlaciones, en este crculo:
| variable j | = 1
correlacin ( j, k ) = cos ( j , k )

1 j

O 1

Fig. 2.2 CIRCULO DE CORRELACIONES


18

INTERPRETACION

Para la interpretacin se siguen los siguientes pasos:

1. ESTUDIO DE LA VARIANZA DE LOS COMPONENTES

En el anlisis de componentes principales normado la varianza total es igual al nmero de


variables originales I = p, y cada variable contribuye con 1 a la varianza total.

Porcentaje de varianza explicado por el factor


p
100%

=1

Numero de componentes a retener

Dos de los criterios para seleccionar el nmero de componentes a retener, es el porcentaje de


varianza explicado por los componentes retenidos, y el otro criterio es retener los componentes
que correspondan a valores propios mayores que 1 ( Una componente principal es una variable
sinttica y un valor propio asociado menor que 1 indica que esta componente sintetiza menos
informacin que una variable aislada).

2. INTERPRETACION DE LOS COMPONENTES

Los componentes se escogen en el orden decreciente de sus valores propios, pueden ser
estudiados separadamente o dos a dos con la ayuda de los planos factoriales. Primero se estudia
la nube de variables y luego la nube de individuos.

NUBE DE VARIABLES

El plano factorial que cruza dos componentes de variables aporta una imagen aproximada de la
de la nube de variables. Si se dibuja un crculo de correlaciones sobre el primer plano y si las
variables tienen el mismo peso, el cuadrado de su coordenada sobre el eje factorial coincide con
su calidad de representacin

G2 ( j )
G ( j ) = Cos (i )
2

2
y es proporcion al a su contribucin CTR ( j ) = p

G
j =1
2
( j)

De este modo el estudio de las variables se reduce al estudio de sus coordenadas. Por ejemplo
para buscar los puntos que aportan la mayor parte de varianza explicada por la componente
buscamos aquellos puntos para los cuales | G (j)| sea ms grande.
19

Las variables que estn bien representadas son aquellas que estn cerca al borde del crculo, Si
una variable j est bien representada, se puede leer directamente sobre la grfica el coeficiente
de correlacin de esta con una variable cualquiera k. En la grfica, la correlacin entre las
variables j y k viene dada por el segmento OL. Las variables que estn cerca al centro del crculo
no sirven para la interpretacin.

j
k
L

Fig. 2.3 corr( j,k ) = OL

Veamos un ejemplo, En el siguiente grfico se observa sobre el plano factorial formado por los
dos primeros componentes cuatro grupos de variables.

G2

B A

G1

Fig. 2.4 CIRCULO DE CORRELACIONES


20

En el grupo A sobre la componente G1 aparece un grupo de variables cercanas a 1, sobre el


mismo factor se encuentra un grupo B formado por variables cercanas a 1; el grupo C esta
formado por variables cercanas al borde del crculo, sin tener coordenadas fuertes en ninguno de
los dos componentes, por ltimo est el grupo D con variables relativamente cercanas a 1 sobre
la componente G2.

Cada uno de estos grupos est formado por variables fuertemente correlacionadas entre si. La
componente G1 opone las variables del grupo A a las del grupo B. Dos variables perteneciente a
cada uno de stos grupos tienen un coeficiente de correlacin cercano a 1. El grupo D est
formado por variables cuya correlacin con las del grupo B es nula y tienen una correlacin
negativa con las variables del grupo C.

En cuanto a la calidad de representacin, las variables del grupo C estn bien representadas por
el plano (G1 , G2), aunque no estn bien representadas por ninguno de los componentes
separadamente.

NUBE DE INDIVIDUOS

Una vez interpretada la nube de variables se puede pasar a la nube de individuos. En esta nube
ms que las coordenadas se analiza el plano factorial.

Para los individuos bien representados en el plano, el hecho de encontrarse cerca significa que se
parecen segn las variables utilizadas en el anlisis. Por efectos de proyeccin pueden aparecer
individuos que estn cercanos entre ellos en el plano pero que en el espacio original no lo estn,
se requiere entonces de la medida de calidad de representacin. Si la calidad de representacin
de un individuo en un componente o en un plano factorial se acerca a 1, es entonces visible con
mucha fidelidad en la proyeccin.

Si se contemplan simultneamente las dos nubes, dos individuos situados en un mismo extremo
de un componente quedan cercanos por tener ambos generalmente valores fuertes en las
variables situadas del mismo lados que ellos y generalmente valores dbiles en las variables
situadas en el lado opuesto.

En el ejemplo anterior la componente G1 opone los individuos para los cuales las variables del
grupo A son fuertes y las del grupo B son dbiles. Sobre la componente G2 encontramos arriba
unos individuos para los cuales las variables del grupo D son dbiles y abajo unos individuos para
los cuales son fuertes.

Ejemplo
Los siguientes datos son algunos indicadores sobre los pases de Amrica Latina:
21

ALGUNOS INDICADORES DE LOS PAISES AMERICA LATINA

PAISES Urb Po93 Evh Evf Nat Mort Accr Morti Poph Pnbh Prim Sec Alpha
ARGE 86 33387 68 74 20 9 11 31 10243 2093 15 35.5 95
ARUB 53 65 72 80 15 6 8 8 32000 13172 2 15.6 95
BELI 50 245 67 72 38 5 33 35 19000 1386 22 21.2 91
BOLI 50 7505 59 64 34 9 25 83 17893 581 23 25.9 78
BRAS 75 160999 62 68 26 7 18 68 53362 2582 9 36.2 81
CHIL 84 13689 70 77 21 6 16 18 65132 1780 10 38.5 93
COLO 68 35212 68 74 26 5 21 37 35706 1213 19 34.2 87
COST 45 3268 75 79 27 4 23 15 79769 1657 19 29.6 93
CUBA 73 10948 73 78 18 7 11 12 41119 2458 16 55.8 94
DOMI 40 89 73 79 26 5 21 13 1792 1651 30 16.1 94
ECUA 55 11252 64 68 30 7 23 60 31905 1036 16 31.6 86
GUAT 39 9735 58 62 35 8 27 58 58277 880 26 20.7 55
GYAN 35 744 61 68 23 7 16 51 13636 364 26 23 95
HAIT 28 6580 52 55 43 15 28 106 72264 404 33 22.2 53
HOND 43 5240 64 68 38 7 31 56 107587 941 19 21.2 73
JAMA 51 2534 72 76 24 6 18 18 69139 1193 6 40.7 98
MEXI 71 94011 68 76 29 5 24 29 57147 1916 9 35.7 87
NICA 57 3965 60 65 37 7 30 60 72154 754 24 27.9 57
PANA 52 2581 72 76 26 5 20 21 42690 1776 11 14.1 88
PARA 47 5081 67 72 35 6 30 47 33559 914 27 25 90
PERU 69 23265 62 67 28 8 20 66 16394 1050 11 34.6 85
RDOM 58 7683 65 69 27 7 20 60 71699 759 16 30.6 83
SALV 43 5698 63 68 34 7 27 47 66085 980 13 22.7 73
SURI 48 413 66 71 26 6 20 39 23647 2988 10 27.1 95
TRIN 64 1313 68 73 21 6 16 18 41452 2762 3 47.1 95
URUG 89 3159 69 76 17 10 7 22 62420 2539 11 28.9 96
VENE 83 21170 71 78 28 4 24 26 37318 2350 6 39.9 88

Urb Tasa de urbanizacin


Po93 Poblacin en 1993
Evh Esperanza de vida (hombres)
Evf Esperanza de vida (mujeres)
Nat Tasa bruta de natalidad (/1000)
Mort Tasa bruta de mortalidad (/1000)
Accr Tasa de crecimiento de la poblacin
Morti Mortalidad infantil (/1000)
Poph Poblacin /hospital
Pnbh PNB /habitante
Prim %PNB agricultura
Sec %PNB industria
Alpha Tasa de alfabetizacin

Se utiliz el paquete estadstico STATGRAPHICS para realizar un anlisis de componentes


principales normado, es decir, utilizando la matriz de correlaciones. Algunas de las salidas son
las siguientes:
22

MATRIZ DE CORRELACIONES DE LOS INDICADORES:

PO93 EVH EVF NAT MORT ACCR MORTI POPH PNBH PRIM SEC ALPHA
PO93 1 -0.1078 -0.0275 -0.0606 -0.0492 -0.0697 0.167 0.0405 0.0022 -0.2458 0.2794 -0.042
EVH -0.1078 1 0.9781 -0.6514 -0.7069 -0.4431 -0.936 -0.1094 0.3764 -0.4837 0.2505 0.7867
EVF -0.0275 0.9781 1 -0.7121 -0.7043 -0.5069 -0.945 -0.172 0.4495 -0.5228 0.2504 0.8113
NAT -0.0606 -0.6514 -0.7121 1 0.2679 0.948 0.7044 0.2778 -0.5334 0.6205 -0.3992 -0.7566
MORT -0.0492 -0.7069 -0.7043 0.2679 1 -0.0452 0.6676 0.1345 -0.169 0.3672 -0.0967 -0.5194
ACCR -0.0697 -0.4431 -0.5069 0.948 -0.0452 1 0.5057 0.2446 -0.5216 0.5311 -0.3531 -0.6037
MORTI 0.167 -0.936 -0.945 0.7044 0.6676 0.5057 1 0.1249 -0.4434 0.5057 -0.2307 -0.7352
POPH 0.0405 -0.1094 -0.172 0.2778 0.1345 0.2446 0.1249 1 -0.147 -0.0629 0.0501 -0.4389
PNBH 0.0022 0.3764 0.4495 -0.5334 -0.169 -0.5216 -0.4434 -0.147 1 -0.5174 -0.1234 0.3169
PRIM -0.2458 -0.4837 -0.5228 0.6205 0.3672 0.5311 0.5057 -0.0629 -0.5174 1 -0.4355 -0.4975
SEC 0.2794 0.2505 0.2504 -0.3992 -0.0967 -0.3531 -0.2307 0.0501 -0.1234 -0.4355 1 0.3051
ALPHA -0.042 0.7867 0.8113 -0.7566 -0.5194 -0.6037 -0.7352 -0.4389 0.3169 -0.4975 0.3051 1

En esta matriz, se aprecia que los indicadores EVH (Esperanza de vida de hombres) y EVF
(Esperanza de vida de mujeres) estn altamente correlacionados entre si, y a su vez, estos se
correlacionan negativamente con el indicador MORTI ( Mortalidad infantil ), es decir, a valores
grandes de los indicadores EVH y EVF corresponden valores pequeos del indicador MORTI o
viceversa.

Puesto que hay 12 indicadores o variables (al indicador URB no se lo tuvo en cuenta), existen 12
componentes principales. La siguiente salida muestra: la componente, el valor propio asociado, el
porcentaje de varianza explicado y el porcentaje acumulado de variabilidad.

El paquete, por defecto, retiene los componentes principales cuyo valor propio sea mayor que
uno. En este caso, cuatro componentes han sido retenidos, La primera componente explica el
49.355 % de la variabilidad total de los datos, los cuatro componentes en conjunto explican el
83.543 % de la variabilidad total.

Component Eigenvalue Percent of Cumulative


Number Variance Percentaje
1 5.9226 49.355 49.355
2 1.6589 13.824 63.179
3 1.3765 11.471 74.650
4 1.0672 8.893 83.543
5 0.9083 7.569 91.113
6 0.4446 3.705 94.818
7 0.2737 2.281 97.098
8 0.1745 1.454 98.552
9 0.1147 0.956 99.508
10 0.0463 0.385 99.893
11 0.0121 0.101 99.994
12 0.0007 0.006 100.000
23

La siguiente salida muestra las cargas factoriales (correlaciones de las variables originales y las
componentes) de las primeras cuatro primeras componentes. Las variables que ms contribuyen
en la formacin de la primera componente son: MORTI, NAT, ALPHA, EVH Y EVF. Para la
segunda componente: ACCR, MORT, y PO93. Para la tercera componente: POPH y SEC. Para la
cuarta componente: PNBH Y POPH.

Component Component Component Component


1 2 3 4

Accr 0.2939 0.4068 0.3150 -0.0148


Alpha -0.3586 0.0622 -0.0823 -0.2952
Evf -0.3850 0.1981 0.0953 0.0184
Evh -0.3702 0.2525 0.1317 0.0270
Mort 0.2487 -0.4129 -0.3513 0.0690
Morti 0.3730 -0.2243 -0.0562 -0.0900
Nat 0.3623 0.2594 0.1869 0.0286
Pnbh -0.2283 -0.1095 -0.3390 0.5278
Po93 -0.0072 -0.4271 0.3879 -0.1393
Poph 0.1065 -0.0612 0.4761 0.6406
Prim 0.2842 0.2925 -0.2050 -0.2759
Sec -0.1522 -0.3947 0.4148 -0.3369

El paquete estadstico STATGRAPHICS, para el anlisis de componentes principales, posee una


herramienta grfica denominada BIPLOT. En este, se proyecta conjuntamente la nube de
individuos y la de variables. Las variables las proyecta como vectores e indican como stas
contribuyen en la formacin de los componentes. Esto facilita bastante la interpretacin. La
grfica siguiente muestra el biplot de indicadores y pases.

Fig. 2.4 BIPLOT DE INDICADORES Y PAISES


2.7 Accr
Prim
1.7 Evh
Nat
Component 2

Evf
0.7
Alpha Poph
-0.3 Pnbh
Morti
-1.3
Sec Po93 Mort
-2.3

-3.3
-5 -3 -1 1 3 5 7
Component 1
24

Aqu se puede ver de una manera ms fcil que los indicadores que ms contribuyen en la
formacin de la primer componente son: MORTI, NAT, ALPHA, EVH Y EVF y para la segunda
componente son: ACCR, MORT, y PO93. Adems de esto se puede observar que existen 2
grupos de indicadores fuertemente correlacionados entre si:
{ EVH, EVF, ALPHA} , {ACCR, PRIM, NAT}. La variable MORTI est altamente correlacionada
con los indicadores del primer grupo pero negativamente, es decir, a valores grandes de MORTI
corresponden valores pequeos de EVH, EVF y ALPHA. De la misma forma se tiene que PNBH
est correlacionada negativamente con los indicadores del segundo grupo, aunque esta
correlacin no es tan fuerte como en el primer caso.

Para proyectar los individuos se utilizan las coordenadas de los individuos (puntajes o scores).

COORDENADAS DE LOS INDIVIDUOS SOBRE LOS NUEVOS EJES

Component Component Component Component


1 2 3 4

ARGE -1.5782 -1.3826 -1.2121 -1.2060


ARUB -4.4137 -0.3927 -2.8345 3.0749
BELI 0.7761 2.4065 -0.0157 -0.7820
BOLI 2.8690 -0.3074 -1.1222 -1.0279
BRAS 0.4456 -3.2078 1.7049 -0.2679
CHIL -2.0758 -0.3557 0.7604 0.2615
COLO -0.6301 0.2346 0.5499 -0.8157
COST -1.6871 1.7533 1.2938 0.6412
CUBA -2.9474 -1.1426 0.3954 -0.9277
DOMI -1.3739 2.4989 -1.3702 -1.2051
ECUA 0.8663 -0.1604 -0.1621 -0.6905
GUAT 3.6745 0.2178 -0.2500 0.7078
GYAN 0.4861 0.0597 -1.7520 -1.4964
HAIT 6.8861 -1.4888 -1.2774 0.7503
HOND 2.5141 1.0016 1.3571 1.8072
JAMA -2.1439 -0.1162 1.1563 0.2328
MEXI -0.9534 -0.5643 2.0903 -0.0361
NICA 3.3308 0.5226 0.7446 0.8070
PANA -1.3247 1.4697 -0.3087 0.6379
PARA 1.0362 1.7652 0.0189 -0.8321
PERU 0.7821 -1.1935 -0.4901 -1.0464
RDOM 0.7464 -0.3817 0.3822 0.3703
SALV 1.6619 0.4758 0.4989 0.9370
SURI -0.8379 0.1661 -0.7584 -0.2187
TRIN -2.3046 -0.9971 0.4491 -0.1980
URUG -2.0041 -1.3624 -1.1733 0.7379
VENE -1.8004 0.4813 1.3249 -0.2151
25

Fig. 2.5 PROYECCION DE PAISES SOBRE EL PLANO FACTORIAL


2.7

1.7
COMPONENT 2

0.7 1
-0.3

-1.3
2
-2.3

-3.3
-5 -3 -1 1 3 5 7
COMPONENT 1

Una de las utilidades de la proyeccin de los individuos sobre el plano factorial es tratar de formar
grupos de individuos semejantes, en este caso, El grupo 1 est formado por los pases Honduras,
Guatemala, Bolivia, Salvador y Nicaragua. En el biplot se puede observar que este grupo de
pases tienen indicadores altos en ACCR, PRIM Y NAT e indicadores bajos en SEC y PNBH.
26

3. ANALISIS DE FACTORES

El anlisis de factores tiene dos objetivos principales en el anlisis de datos:

Un objetivo consiste en identificar las ideas fundamentales, es decir, identificar las estructuras
fundamentales o dimensiones que subyacen sobre las variables originales. Por ejemplo la
dimensin o factor clase social puede ser atribuida a las altas correlaciones positivas
frecuentemente encontradas entre las variables: Ingreso, educacin y ocupacin.

Un segundo objetivo es, reducir el nmero de variables a un conjunto ms manejable, con una
prdida mnima de informacin.

Es importante aclarar el trmino factor ya que con frecuencia es una fuente de confusin.
Las variables originales con seguridad contendrn una redundancia. Varias pueden estar
midiendo en parte la misma idea fundamental, esta idea fundamental es lo que se denomina
factor. Un factor es, por lo tanto, una variable hipottica o idea que no es directamente observable
(latente). Tambin puede ser visto como un agrupamiento de aquellas variables originales que
miden o son indicadoras del factor, en el ejemplo anteriormente citado, las variables indicadoras
del factor clase social son: ingreso, educacin y ocupacin. En este sentido al trmino factor
tambin denomina factor comn.

MODELO BASICO

Sean p variables observadas X1, X2, ... , Xp con vector de medias y matriz de covarianzas .
Como se indic anteriormente el anlisis factorial intenta explicar este conjunto de variables
mediante un nmero pequeo de variables hipotticas denominados factores F1, F2, ... , Fq con q
p. El modelo se lo expresa mediante:

X1 - 1 = 11F1 + 12F2 + . . . + 1qFq + 1


X2 - 2 = 21F1 + 22F2 + . . . + 2qFq + 2
. . .
. . .
. . .
Xp - p = p1F1 + p2F2 + . . . + pqFq + p

o en notacin matricial

X- = AF+

donde

X = [ X1, X2, . . . , Xp ]

F = [ F1, F2, . . . , Fq ]

= [ 1, 2, . . . , p ]
27

11 12 L 1q

21 22 L 2 q
A =
M M O M

p1 p 2 L pq

ij es la carga factorial de la i-sima variable con el j-simo factor comn

A es la matriz del modelo (consistente de las cargas factoriales desconocidas ij )

Fj es el j-simo factor comn, este factor influye en todas las variables X1, X2, . . . , Xp;
j = 1,2,...,q.

i es el i-simo factor nico, este factor nicamente influye en la variable Xi ; i = 1,2,...,p

Se asume que los factores comunes tienen como media 0 y varianza 1 y no estn correlacionados
entre si. Tambin se asume que los factores nicos tienen como media 0 y varianza 2i ; i =
1,2,...,p. Adems se asume que la parte nica de cada variable no est correlacionada con otra o
con su parte comn.

Bajo stas suposiciones la matriz de varianzas covarianzas de X se la puede expresar como:

= A A +

donde es la matriz diagonal con elementos diagonales 2i ; i = 1,2,...,p

La matriz cuyos elementos son las correlaciones entre las variables originales y los factores
comunes se denomina matriz estructura, sta matriz es equivalente a la matriz del modelo si las
variables originales son estandarizadas. En este caso, los elementos de la matriz A representan
las correlaciones entre las variables originales X1, X2, . . . , Xp , y los factores comunes F1, F2, . . . ,
Fq.

La varianza de cada variable Xi se la puede expresar como:

VAR( Xi ) = i2 = 2i1 + 2i2 + ... + 2iq + 2i

A la primera parte se la denomina comunalidad y es la varianza explicada por los factores


comunes.

A la segunda parte 2i se la denomina varianza nica o varianza especfica.

La covarianza entre las variables Xh y Xk esta dada por

Cov(Xh ,Xk ) = h1k1 + h2k2 + . . . + hqkq


28

Aunque el modelo ha sido desarrollado en trminos de la matriz varianzas-covarianza de la matriz


X, si las variables originales son estandarizadas de tal manera que la matriz de entrada sea la
matriz de correlaciones R, se tiene

R = A A +

Existen varios mtodos para la extraccin de los factores, entre los ms conocidos estn:
Anlisis del factor principal, con o sin iteracin, Anlisis de factores de mnimos cuadrados
pesados, Anlisis de factores de mxima verosimilitud, Anlisis del factor alfa, Anlisis de
componentes imagen, Anlisis de componentes de Harris.

DIFERENCIAS ENTRE ANALSIS DE FACTORES Y COMPONENTES PRINCIPALES

El objetivo del anlisis de componentes principales es reducir el nmero de variables a unas


pocas componentes de tal manera que cada componente forme una nueva variable y el nmero
de componentes retenidas explique la mxima variabilidad de los datos.

El objetivo del anlisis de factores, por otro lado, es identificar el factor o estructuras latentes que
pueden explicar la inter-relacin entre las variables.

El anlisis por componentes principales produce una transformacin ortogonal de las variables y
no depende de un modelo subyacente, en tanto que el anlisis por factores si depende de un
modelo estadstico razonable. En el anlisis por factores el foco de inters es la explicacin de la
estructura de covarianza o de correlacin entre las variables medidas, mientras que en el anlisis
por componentes principales el inters se centra en la explicacin de la variabilidad de las
variables.

Una componente principal es una combinacin lineal de las variables originales


F = U11X1 + U12X2 + . . . + U1pXp .

En este caso a las variables originales X1, X2, . . . , Xp se las denomina indicadores formativos del
componente.

En el anlisis de factores, las variables X1, X2, . . . , Xp son funciones de los factores comunes y de
los factores nicos, en otras palabras, stas reflejan la presencia de factores no observables y por
lo tanto se denominan indicadores reflectivos.

ANALISIS FACTORIAL EXPLORATIO Y ANALISIS FACTORIAL CONFIRMATORIO.

En el anlisis factorial exploratorio el investigador tiene un leve o ningn conocimiento sobre la


estructura del factor y lo que hace es explorar o buscar estructuras que puedan explicar las
correlaciones entre variables.

En el anlisis factorial confirmatorio, se asume que la estructura es conocida o supuesta a priori.


El objetivo es verificar empricamente o confirmar la estructura del factor.
29

INTERPRETACION DE LOS FACTORES

Despus de que los factores han sido estimados, es necesario interpretarlos. La interpretacin se
basa fundamentalmente en los coeficientes de la matriz del modelo, es decir, en las cargar
factoriales, las cuales como ya se dijo anteriormente son las correlaciones ordinarias entre las
variables originales y los factores (cuando las variables originales son estandarizadas). De este
modo, stas cargas nos indican que variables originales estn correlacionadas con el factor y el
grado de correlacin.

El anlisis factorial revela los factores comunes en trminos de sus cargas factoriales, pero no
nos da el nombre del factor. Para identificar o determinar el nombre del factor es necesario
interpretar las cargas, esto se realiza viendo que variables tienen cargas ms altas en el factor y
el signo de stas. En otras palabras, el examen de las variables con cargas ms altas en los
factores y el signo de stas, debe conducir a conjeturar el carcter del factor descubierto y darle
el nombre apropiado.

EXPLICACION DE LA VARIANZA

El porcentaje de la varianza explicada es una medida global que indica la cantidad de la varianza
total de las variables originales explicada por los factores.

COMUNALIDAD

Cada una de las variables originales tiene asociada con ella una varianza. La proporcin de
varianza de la variable original que es explicada por los factores comunes se denomina
comunalidad.

ROTACION DE LOS FACTORES

Con frecuencia es difcil interpretar los factores iniciales. Por consiguiente la solucin inicial se
rota con el propsito de generar una solucin que permita la interpretacin. Existen dos tipos de
rotacin. Rotacin ortogonal, que mantiene a los factores no correlacionados entre s y la rotacin
oblicua, que permite que los factores se correlacionen entre s. Cada vez que los factores son
rotados, el patrn de cargas cambia, del mismo modo, lo hace la interpretacin. En la
determinacin del ngulo de rotacin, se debe tender a lograr estructuras simples, que son
aquellas en las que las variables presentan cargas solo en algunos factores, siendo en los dems
cero o prximos a cero, esto evita tener el problema de factores que tengan todas las variables
con correlaciones de rango intermedio y, por lo tanto, permite una interpretacin ms fcil. El
varimax y el quartimax son los dos tipos de rotacin ortogonal mas comunes.

El objetivo del varimax es obtener una estructura en la que cada variable tengas cargas altas en
un solo factor, es decir, una variable dada debe tener una carga alta en un factor y cargas
cercanas a cero en los dems factores. Esta rotacin produce factores que presentan estructuras
distintas.
30

El objetivo del quartimax es obtener una matriz del modelo con cargas tales que:

Todas las variables tengan cargas altas en un factor.

Cada variable debe tener una carga alta en un factor y cargas cercanas a cero en los factores
restantes.

Esta estructura produce un factor que puede ser considerado como un factor global y otros
factores que podran ser las estructuras especficas. De esta manera, la rotacin quartimax es
apropiada cuando el investigador sospeche la presencia de un factor general. La rotacin varimax
destruye el factor general y no debe usarse cuando la presencia de un factor general es
sospechosa.

NUMERO DE FACTORES A RETENER

Existen varios mtodos para determinar el nmero de factores a retener, el mtodo ms popular
y el que utilizan varios paquetes estadsticos por defecto; es retener aquellos factores cuyos
valores propios sean mayores que uno (si los datos son estandarizados).

Otro criterio es la interpretabilidad de los factores, es decir, detener la factorizacin cuando los
factores dejen de tener sentido.

Ejemplo

Los siguientes datos corresponden a una submuestra de 93 estudiantes de los primeros


semestres de la Facultad de Ciencias Naturales y Matemticas de la Universidad de Nario. Las
variables analizadas son:

X1 = Rendimiento promedio universitario


Rendimiento promedio en el bachillerato en las reas de:
X2 = Ciencias Naturales
X3 = Ciencias sociales
X4 = Lenguaje
X5 = Matemticas
Puntaje en las pruebas de estado o tarjeta ICFES en las reas de:
X6 = Ciencias Naturales
X7 = Ciencias Sociales
X8 = Lenguaje
X9 = Matemticas

El objetivo es analizar el rendimiento universitario:


31

NOTAS PROMEDIO DE 93 ESTUDIANTES

X1 X2 X3 X4 X5 X6 X7 X8 X9 X1 X2 X3 X4 X5 X6 X7 X8 X9
1 3 3 3 3 5 2 3 2 2 48 2 3 1 3 5 2 2 2 3
2 2 3 2 3 4 2 2 2 2 49 2 4 3 3 4 2 2 2 2
3 3 3 3 3 4 1 1 2 2 50 1 4 1 4 5 2 2 2 3
4 2 2 5 4 4 1 2 2 2 51 1 3 1 2 3 1 1 1 1
5 2 2 5 4 2 3 3 2 3 52 2 3 2 1 4 1 1 2 2
6 1 5 2 2 5 1 1 1 1 53 3 2 3 3 5 2 2 2 2
7 2 2 1 1 4 2 1 1 2 54 1 2 2 3 3 1 2 2 1
8 2 4 3 4 3 2 2 3 2 55 2 1 1 2 1 2 2 3 2
9 2 2 3 4 4 2 2 2 2 56 3 5 3 3 3 2 2 2 2
10 2 2 4 2 4 3 2 3 2 57 1 3 2 2 2 2 2 2 1
11 3 2 2 1 3 2 3 2 2 58 2 4 4 3 1 1 1 2 1
12 3 3 1 2 4 3 3 3 3 59 2 2 4 2 2 1 1 2 2
13 3 3 4 3 4 2 3 3 3 60 1 1 1 2 1 1 2 1 1
14 2 3 4 3 5 1 2 1 2 61 3 3 2 2 1 2 2 2 3
15 2 3 6 2 2 2 2 2 2 62 1 3 4 4 4 2 1 1 1
16 3 4 3 3 4 2 2 2 2 63 2 2 1 2 3 2 2 2 2
17 2 3 4 4 4 1 1 2 2 64 2 2 1 4 4 1 2 2 2
18 1 3 3 2 3 1 2 1 1 65 3 3 3 2 3 3 3 3 3
19 2 3 4 3 2 2 2 1 2 66 1 3 3 3 3 2 3 2 2
20 2 1 4 1 3 1 2 2 2 67 2 5 2 4 2 2 1 2 1
21 1 4 4 4 3 1 2 2 2 68 2 4 3 5 3 1 1 1 2
22 3 4 4 3 3 2 2 2 2 69 2 4 4 3 1 2 2 1 1
23 2 3 3 3 4 1 2 2 2 70 3 4 2 3 4 1 2 3 3
24 2 4 4 4 3 1 2 1 2 71 3 3 3 3 3 2 2 2 3
25 2 2 2 2 1 1 2 1 2 72 3 4 3 4 1 1 2 1 3
26 1 2 2 3 3 1 2 2 1 73 3 1 3 2 1 1 1 2 3
27 3 2 1 2 2 2 2 2 2 74 3 1 2 2 1 2 2 3 3
28 1 1 2 3 1 1 2 1 1 75 3 2 3 2 1 2 2 2 3
29 3 3 2 3 3 1 2 3 3 76 3 3 1 4 2 2 3 3 3
30 2 3 2 3 3 1 1 2 2 77 3 2 3 3 3 2 3 3 2
31 3 2 4 2 2 2 2 1 3 78 3 1 6 3 2 1 1 2 2
32 3 1 2 2 1 1 2 2 3 79 3 3 2 2 1 1 2 2 2
33 3 1 1 1 1 1 1 2 3 80 3 2 3 1 1 2 2 2 3
34 3 2 1 2 2 1 2 2 3 81 3 3 5 3 2 2 2 3 3
35 3 2 1 1 1 1 1 2 3 82 3 1 2 3 1 1 2 2 3
36 1 3 3 2 2 1 2 2 1 83 1 3 6 5 2 1 1 1 1
37 2 2 1 3 2 2 2 2 2 84 3 2 4 4 1 2 3 2 2
38 3 2 2 1 1 1 1 2 2 85 3 4 4 3 2 2 2 2 2
39 2 2 4 3 2 1 1 1 1 86 3 3 3 4 3 1 2 2 3
40 2 1 5 3 4 2 2 3 2 87 2 2 4 3 1 1 2 1 2
41 2 3 4 4 3 1 2 2 2 88 2 3 3 3 1 1 2 2 2
42 3 4 3 3 2 2 2 2 2 89 2 3 3 5 2 2 3 2 2
43 3 3 3 2 5 1 2 1 3 90 2 2 2 2 4 2 2 3 2
44 1 2 3 3 3 2 2 2 2 91 2 2 3 2 3 1 2 2 2
45 1 3 4 4 4 2 2 2 1 92 3 4 5 3 2 2 2 2 2
32

46 1 5 2 2 3 1 1 1 1 93 2 4 4 4 1 2 2 3 2
47 3 4 1 3 5 2 2 3 3

Para el anlisis factorial se utiliz el paquete estadstico STATGRAPHICS

A continuacin se presenta la salida de los valores propios y la varianza explicada por los factores
( se utilizaron datos estandarizados )

FACTOR Valor propio Porcentaje Porcentaje


de Varianza acumulativo
1 2.553 28.364 28.364
2 1.826 20.291 48.655
3 1.145 12.726 61.381
4 0.996 11.065 72.445
5 0.686 7.620 80.065
6 0.643 7.141 87.206
7 0.562 6.246 93.452
8 0.355 3.950 97.402
9 0.234 2.598 100.00

Si se utiliza en criterio de retener nicamente los factores cuyos valores propios sena mayores
que uno, el paquete por defecto retiene 3 factores; los tres factores en conjunto explican 61.381 %
de la variabilidad total:

En la siguiente tabla se muestra la matriz de cargas factoriales para los tres factores retenidos:

MATRIZ DE CARGAS FACTORIALES ANTES DE LA ROTACIN

VARIABLES F1 F2 F3
CIENCIASBATO 0.5934 0.4542 -0.1278
CIENCIASICFES -0.2113 0.6249 -0.1461
LENGUAJEBATO 0.7327 0.1660 -0.1169
LENGUAJEICFES -0.1775 0.7295 0.3261
MATEMATICASBATO 0.7932 -0.1630 0.1032
MATEMATICASICFES -0.0237 0.5224 -0.5998
RENDUNIVERSITARIO 0.7337 -0.2134 0.2743
SOCIALESBATO 0.6279 0.3768 0.0132
SOCIALESICFES -0.1592 0.4274 0.7361

Analizando las cargas se puede ver que las variables que ms contribuyen en la conformacin del
primer factor F1 son:

Rendimiento promedio universitario


Matemticas de Bachillerato
Lenguaje de Bachillerato
33

Sociales de Bachillerato
Ciencias de Bachillerato

A este factor se lo podra llamar Rendimiento Universitario. Se puede apreciar que este est
fuertemente correlacionado con las notas de bachillerato y no con los puntajes ICFES. Se podra
pensar que las notas de bachillerato son mejores predictores del rendimiento universitario que el
puntaje ICFES.

De la tabla de COMUNALIDADES estimadas se puede apreciar que, por ejemplo, los tres
primeros factores retenidos explican al rendimiento universitario en 65.911 %.

VARIABLES COMUNALIDAD ESTIMADA


CIENCIASBATO 0.57479
CIENCIASICFES 0.45647
LENGUAJEBATO 0.57806
LENGUAJEICFES 0.66993
MATEMATICASBATO 0.66643
MATEMATICASICFES 0.63324
RENDUNIVERSITARIO 0.65911
SOCIALESBATO 0.53641
SOCIALESICFES 0.74981

Mediante una rotacin VARIMAX se obtiene la siguiente solucin:

MATRIZ DE CARGAS FACTORIALES DESPUES DE LA ROTACIN

F1 F2 F3 F4
CIENCIASBATO 0.8259 0.0752 0.0437 0.1078
CIENCIASICFES -0.1192 0.0057 0.3071 0.7740
LENGUAJEBATO 0.6218 0.4199 -0.1229 0.0593
LENGUAJEICFES 0.0975 -0.1158 0.7179 0.3801
MATEMATICASBATO 0.2291 0.8654 -0.1256 -0.0365
MATEMATICASICFES 0.1813 -0.1257 -0.1587 0.7827
RENDUNIVERSITARIO 0.1014 0.9198 -0.0051 -0.1163
SOCIALESBATO 0.8335 0.1049 0.1015 -0.0595
SOCIALESICFES 0.0039 -0.0437 0.8575 -0.1233

Analizando el segundo factor, se observa que el rendimiento universitario est bastante


correlacionado con el rendimiento promedio de matemticas en el bachillerato, se puede pensar
que la nota promedio de matemticas en el bachillerato es un buen predictor del rendimiento
universitario.
34

4. CLASIFICACION

El objetivo de las tcnicas de clasificacin es dividir un conjunto de individuos en grupos o clases,


de tal manera que los individuos de una misma clase sean semejantes entre s, en tanto que
aquellos que pertenezcan a clases diferentes no sean semejantes a los de los otros grupos. La
formulacin matemtica y estadstica a este problema se basa en modelos probabilsticos, teora
de grafos o criterios de optimizacin y algoritmos.

La realizacin de una clasificacin reposa sobre toda una serie de elecciones fuertemente
convencionales. Todo el arte de la clasificacin consiste, de una parte, en seleccionar las
conveniencias de tal suerte que los individuos sean bien clasificados, segn experiencias previas
a la clasificacin. De otra parte saber utilizar las clasificaciones existentes, con una clara
conciencia de las onvenciones sobre las cuales estn fundadas y por lo tanto los lmites que se
imponen para su uso. L (Volle,Michel, 1985. Pag. 267).

Las principales decisiones para realizar una clasificacin son las siguientes:

1. Definir el conjunto de individuos, sus lmites y lo que se considera como sus


individuos ( los individuos a clasificar).

2. Seleccionar las variables a observar sobre cada individuo.

3. Definir una distancia entre individuos d(x,y), la cual se calcula a partir de las variables
observadas (eleccin de un criterio de clasificacin).

4. Definir una distancia entre subconjuntos D(X,Y) de manera que se pueda dar un sentido
a las distancias entre grupos de individuos ( eleccin de una estrategia de agregacin).

En la seleccin de las variables a observar, el criterio de clasificacin y la estrategia de


agragacin, es donde el investigador interviene con sus objetivos propuestos y su percepcin
personal del problema. Una vez se seleccionan la variables y el mtodo, el resultado no depende
en lo sucesivo del investigador, la clasificacin se hace sin intervencin humana. (Volle, Michel,
1985. Pag. 267).

Las tcnicas de clasificacin recurren a mtodos algortmicos y no a clculos formalizados


usuales. Bsicamente se consideran dos tipos de mtodos de clasificacin: los mtodos
jerrquicos y los mtodos no jerrquicos.

Las tcnicas de clasificacin jerrquica presentan una estructura de rbol, es decir, todos los
individuos forman una clase, luego aparecen formando, dos, tres, etc. clases y finalmente cada
individuo forma una clase. Si se parte de n clases formadas cada una por un individuo y se van
agrupando por pasos sucesivos hasta formar una sola clase, las tcnicas se denominan
aglomerativas, en caso contrario se denominan tcnicas divisivas. En los mtodos de
clasificacin no jerrquicos el nmero de clases se establece a priori y el algoritmo de
clasificacin asigna los individuos a las clases, partiendo de algunos valores iniciales (puntos
semillas) y buscando optimizar algn criterio establecido de antemano.
35

MEDIDAS DE SIMILARIDAD Y DISIMILARIDAD ENTRE INDIVIDUOS

Uno de los aspectos importantes en clasificacin es la eleccin de medidas o ndice que de algn
modo expresen la semejanza o desemejanza entre los individuos de un grupo. Estos ndices
dependen de la naturaleza de las variables que describen a los individuos (discretas, continuas o
binarias) y de la escala ( nominal, ordinal, intervalo y razn).

MEDIDAS DE DISIMILARIDAD

Dados dos individuos r y s , d rs es una medida de disimilaridad si satisface las siguientes


propiedades.

1. d rs 0 para todos los individuos r y s;


2. d rs = 0 si y solo si r y s son idnticos;
3. d rs = d sr

Entre los ndices de disimilaridad o lejana entre individuos estn:

DISTANCIA EUCLIDEA

Dados dos individuos u observaciones

Xr = ( Xr1, Xr2, ... , Xrp) y Xs = (Xs1, Xs2, ... , Xsp)

p
d rs = (X rj X sj ) 2
j =1

Esta distancia es muy sensible a cambios de escala por ejemplo, supongamos que tenemos la
altura y peso de 3 individuos.

Objeto Altura (cm) Peso (gr.)


1 7 10
2 2 20
3 10 30

La distancia entre el individuo 1 y 2 viene dada por

d12 = [ (7 - 2)2 + (10 - 20)2 ]1/2 = 11.2

de la misma forma d13 = 20.2 y d23 = 12.8, Los individuos 1 y 2 son los ms cercanos, pero si la
altura es medida en milmetros, se tiene que las distancias son:
36

d12 = 51.0, d13 = 36.1 y d23 = 80.6 . As que los individuos ms cercanos son 1 y 3.

Para evitar esto cada variable se divide por su desviacin estndar muestral y se obtiene la
distancia eucldea estandarizada

p
( X rj X sj ) 2
d rs = sj
j =1

Donde sj es la desviacin estndar de la variable j. Esta medida, debida a Pearson es invariante


a cambios de escala.

Otra medida comnmente usada es la mtrica city-block o mtrica de Manhattan:

p
d rs = | X rj X sj |
j =1

Esta medida es menos sensible a datos atpicos que la distancia eucldea.

Existen otras medidas de disimilaridad como la familia de mtricas de Minkowski. La distancia


eucldea y la mtrica city block son casos especiales.

MEDIDAS DE SIMILARIDAD

Dados dos individuos r y s , d rs es una medida de similaridad si satisface las siguientes


propiedades.

4. 0 d rs 1 para todos los individuos r y s;


5. d rs = 1 si y solo si r y s son idnticos;
6. d rs = d sr

Los ndices de similaridad son conocidos como coeficientes de asociacin. El ndice de


similaridad ms conocido es el coeficiente de correlacin.

Cuando los individuos u observaciones no pueden ser representados por puntos en el espacio p-
dimensional Rp, pares de individuos son representados en base a presencia ausencia de ciertas
caractersticas. Individuos similares tienen ms caractersticas en comn que individuos
disimilares. La presencia o ausencia de una caracterstica puede ser descrita matemticamente
introduciendo una variable binaria, la cual asume el valor 1, si la caracterstica est presente o el
valor 0, si la caracterstica no est presente. Por ejemplo, si el nmero de variables o
caractersticas es p=5, una variable binaria para los individuos X r y X s se representa como
sigue:
37

VARIABLES

1 2 3 4 5

Individuo r 1 0 0 1 1
Individuo s 1 1 0 1 0

Se puede apreciar que existen dos empates del tipo 1-1, un empate del tipo 0-0 y dos
desempates.

Arreglando las frecuencias de empates y desempates para los individuos X r yX s , en una tabla
de doble entrada:

Individuo s TOTAL

1 0

Individuo r 1 a b a+b

0 c d c+d

TOTAL a+c b+d p=a+b+c+d

a representa el nmero de empates 1-1


d representa el nmero de empates 0-0
b representa el nmero de veces en que las caractersticas estn presentes en r pero
ausentes en s
c representa el nmero de veces en que las caractersticas estn presentes en s pero
ausentes en r

De esta manera se pueden definir los siguientes ndices de similaridad:

1. (a+d)/p igual peso a los empates


2. 2( a + d ) / [ 2(a + d ) + b + c ] doble peso a los empates 0-0 y 1-1
3. ( a + d ) / [ 2(b + c ) + a + d ] doble peso a los casos 1-0 y 0-1
4. a/p
5. a / ( a + b + c) Coeficiente de Jaccard
6. 2a / ( 2a + b + c) Coeficiente de Czekanowski
7. a / ( b + c)

Cuando los individuos estn descritos por variables nominales, donde cada individuo puede
poseer una y solo una de las modalidades para cada variable. En el caso de dos variables, se
38

puede construir una tabla de contingencia y utilizar medidas como ji-cuadrado, Cramer, Pearson,
etc.

METODOS DE CLASIFICACION JERARQUICA

Las tcnicas de clasificacin jerrquica consisten en una serie de uniones sucesiones


denominadas tcnicas aglomerativas o en una serie de divisiones sucesivas denominadas
tcnicas divisivas.

Como se mencion anteriormente, las tcnicas aglomerativas parten de n clases cada una
formada por un individuo y por agrupaciones sucesivas se llega a formar una sola clase de n
individuos. En las tcnicas divisivas, el procedimiento es sentido opuesto.

Los resultados de las tcnicas jerrquicas pueden ser visualizados en un diagrama de rbol o
dendograma, en el cual, las ramas terminales representan a cada uno de los individuos y el tronco
es la clase formada por todos los individuos. Un dendograma representa una serie de particiones
embebidas, en donde el nmero de clases decrece a medida que se aumenta la altura del rbol.
Para obtener una clasificacin en particular, se hace un corte en el rbol segn el nmero de
clases deseado.

Entre los mtodos de clasificacin jerrquica aglomerativos ms conocidos estn:

Mtodo de enlace simple ( Single linkage o Nearest Neighbor)


Mtodo de enlace completo ( Complete linkage o Furthest Neighbor)
Mtodo de enlace promedio
Mtodo del centroide
Mtodo de Ward

PROCEDIMIENTO AGLOMERATIVO CENTRAL

Los mtodos aglomerativos jerrquicos pueden ser tratados como variantes de una tcnica
general:

Sea d rs una distancia o similaridad entre los individuos r y s, todas las posibles combinaciones
de stas pueden ser dispuestas en una matriz triangular inferior denominada matriz de distancias
o similaridades:

1 2 3 ... n
1 d11 ...
2 d21 d22 ...
3 d31 d32 d33 ...
. . . . ...
n dn1 dn2 dn3 ... d nn
39

Una vez la matriz de similaridades est, establecida el procedimiento es como sigue:

1. Se empieza con n grupos, cada uno compuesto por un solo individuo. Sean los grupos
numerados del 1 a n.
2. En la matriz se busca el par de grupos ms similares. Sean p y q los grupos escogidos y d pq
su similaridad asociada.
3. Uniendo los grupos p y q, se reduce el nmero de grupos e uno. De la matriz de similaridades
se eliminan las filas y las columnas correspondientes a los grupos p y q, y se le adiciona la fila
y columna correspondiente al grupo (pq).
4. Repetir los pasos 2 y 3 un total de n-1 veces. ( en este punto todos los individuos estarn en
un solo grupo).

Diferentes mtodos aglomerativos jerrquicos, son implementados variando los procedimientos


usados para definir el par de grupos ms similares en el paso 2 y para volver a calcular la matriz
de similaridades en el paso 3.

ENLACE SIMPLE (Single linkage o Nearest Neighbor )

Este mtodo es le ms sencillo de todos. En cada etapa, despus de que los grupos p y q han
sido unidos en un solo grupo (pq), la similaridad entre el grupo (pq) y el grupo r viene dada por:

d (pq) r = min { d pr , d qr } , si se trata de disimilaridades o

d (pq) r = max { d pr , d qr } , si se trata de similaridades.

El mtodo se denomina enlace simple puesto que los grupos son unidos por la disimilaridad ms
pequea o por la mayor similaridad.

Ejemplo.

Se tienen 7 individuos cada uno caracterizado por 3 variables X, Y y Z.

INDIVIDUO X Y Z
I1 2 4 5
I2 5 7 2
I3 0 3 7
I4 5 9 6
I5 9 5 7
I6 2 3 7
I7 8 2 9

Utilizando como disimilaridad la distancia eucldea, la matriz es la siguiente:


40

MATRIZ DE DISIMILARIDADES O DISTANCIAS

I1 I2 I3 I4 I5 I6 I7
I1 0
I2 5.196 0
I3 3 8.124 0
I4 5.916 4.472 7.834 0
I5 7.349 6.708 9.219 5.745 0
I6 2.237 7.071 2 6.782 7.780 0
I7 7.463 9.111 8.307 8.185 3.742 6.403 0

De esta matriz, se observa que la mnima distancia entre todos los pares de individuos es 2, por
lo tanto se unen los individuos 6 y 3 par formar el grupo (63) a una distancia de 2.

A continuacin se calculan las distancias entre el grupo (63) y el resto de individuos. La matriz es
la siguiente

MATRIZ DE DISTANCIAS

(36) I1 I2 I4 I5 I7
(36) 0
I1 2.236 0
I2 7.071 5.196 0
I4 6.782 5.916 4.272 0
I5 7.280 7.348 6.708 5.745 0
I7 6.403 7.483 9.110 8.185 3.742 0

En esta matriz, la distancia ms pequea es 2.236, por lo tanto, se une el grupo (63) con 1 para
formar el grupo (631) a una distancia de 2.236. se prosigue de la misma manera hasta formar un
solo grupo. En el dendograma, se puede apreciar todo el procedimiento de la conformacin de
grupos.

fig. 4.1 Dendograma


Nearest Neighbor Method,Euclidean
6

5
Distance

0
1

7
41

Mirando de abajo hacia arriba, en primer lugar se unen 3 y 6 para formar el grupo (63), luego se
une (63) con 1 para formar el grupo (631). Se unen los individuos 5 y 7 para formar el grupo (75) y
as sucesivamente, hasta que por ltimo, se unen los grupos { 3, 6, 1, 2, 4} y {5, 7} para formar un
solo grupo.

Si se realiza un corte a la altura de 4.472 se pueden identificar claramente tres grupos.


{3,6,1} , {2,4} y {5,7}. A una altura de 5.196 se obtienen dos grupos {3,6,1, 2,4} y {5,7}.

METODO DE WARD

El mtodo de Ward no calcula distancias entre grupos, este forma grupos, maximizando la
homogeneidad dentro de cada grupo, es decir, minimiza la variabilidad dentro de cada grupo y
maximiza la variabilidad entre grupos.

METODOS DE CLASIFICACION NO JERARQUICOS

Los mtodos no jerrquicos, comienzan con una particin inicial de objetos o con un conjunto de
puntos semillas, alrededor de los cuales pueden formarse los grupos, mediante un criterio
previamente establecido. El uso de particiones requiere que el nmero de grupos sea conocido a
priori.

Estos mtodos a diferencia de los mtodos jerrquicos pueden ser usados para clasificar gran
cantidad de individuos, puesto que no es necesario calcular ni almacenar una matriz de
distancias.

Las tcnicas no jerrquicas bsicamente siguen el siguiente algoritmo:

1. Se seleccionan los k centros de gravedad de los grupos provisionales ( o se dan k puntos


semilla)
2. Se asigna cada observacin al grupo cuya distancia al centro de gravedad sea el ms
cercano.
3. Se determinan los nuevos centros de gravedad de los grupos formados y se reasignan las
observaciones.

El algoritmo se detiene cuando el proceso converja, es decir, cuando dos iteraciones conducen a
la misma particin o cuando se cumpla un criterio previamente determinado, por ejemplo, el
nmero de iteraciones.

Uno de los mtodos ms utilizados es el mtodo K-MEANS, bsicamente sigue el algoritmo


anterior y utiliza la distancia eucldea.

Ejemplo

A los pases de Amrica Latina caracterizados por algunos de sus indicadores, los clasificamos
mediante el mtodo K-means (se utiliz la distancia eucldea y 3 clases). Para esto, utilizamos los
componentes principales obtenidos anteriormente:
42

PAISES DE AMARICA LATINA Y ALGUNOS DE SUS INDICADORES

PAISES Urb Po93 Evh Evf Nat Mort Accr Morti Poph Pnbh Prim Sec Alpha
ARGE 86 33387 68 74 20 9 11 31 10243 2093 15 35.5 95
ARUB 53 65 72 80 15 6 8 8 32000 13172 2 15.6 95
BELI 50 245 67 72 38 5 33 35 19000 1386 22 21.2 91
BOLI 50 7505 59 64 34 9 25 83 17893 581 23 25.9 78
BRAS 75 160999 62 68 26 7 18 68 53362 2582 9 36.2 81
CHIL 84 13689 70 77 21 6 16 18 65132 1780 10 38.5 93
COLO 68 35212 68 74 26 5 21 37 35706 1213 19 34.2 87
COST 45 3268 75 79 27 4 23 15 79769 1657 19 29.6 93
CUBA 73 10948 73 78 18 7 11 12 41119 2458 16 55.8 94
DOMI 40 89 73 79 26 5 21 13 1792 1651 30 16.1 94
ECUA 55 11252 64 68 30 7 23 60 31905 1036 16 31.6 86
GUAT 39 9735 58 62 35 8 27 58 58277 880 26 20.7 55
GYAN 35 744 61 68 23 7 16 51 13636 364 26 23 95
HAIT 28 6580 52 55 43 15 28 106 72264 404 33 22.2 53
HOND 43 5240 64 68 38 7 31 56 107587 941 19 21.2 73
JAMA 51 2534 72 76 24 6 18 18 69139 1193 6 40.7 98
MEXI 71 94011 68 76 29 5 24 29 57147 1916 9 35.7 87
NICA 57 3965 60 65 37 7 30 60 72154 754 24 27.9 57
PANA 52 2581 72 76 26 5 20 21 42690 1776 11 14.1 88
PARA 47 5081 67 72 35 6 30 47 33559 914 27 25 90
PERU 69 23265 62 67 28 8 20 66 16394 1050 11 34.6 85
RDOM 58 7683 65 69 27 7 20 60 71699 759 16 30.6 83
SALV 43 5698 63 68 34 7 27 47 66085 980 13 22.7 73
SURI 48 413 66 71 26 6 20 39 23647 2988 10 27.1 95
TRIN 64 1313 68 73 21 6 16 18 41452 2762 3 47.1 95
URUG 89 3159 69 76 17 10 7 22 62420 2539 11 28.9 96
VENE 83 21170 71 78 28 4 24 26 37318 2350 6 39.9 88

A continuacin se presentan algunas salidas del paquete estadstico STATGRAPHICS:

Grupo Nmero de Porcentaje


Individuos
1 10 37.04
2 12 44.44
3 5 18.52

CENTROIDES

Cluster Comp1 Comp2


1 2.38 -0.13
2 -1.77 -0.72
3 -0.51 1.98
43

La conformacin de los grupos es la siguiente:

GRUPO1 = { BOLI, ECUA, GUAT, GYAN, HAIT, HOND, NICA, PERU, RDOM, SALV }
GRUPO2 = { ARG, ARUB, BRAS, CHIL, COLO, CUBA, JAMA, MEXI, SURI, TRIN,
URUG, VENE }
GRUPO3 = { BELI, COST, DOMI, PANA, PARA }

fig. 4.2 CLASIFICACION DE PAISES DE AMERICA LATINA


Method of k-Means,Euclidean
2.7 Cluster
COMPONENT 2

1
1.7 2
0.7 3
Centroids
-0.3

-1.3

-2.3

-3.3
-5 -3 -1 1 3 5 7

COMPONENT 1
44

BIBLIOGRAFIA

Anderson, T. W. (1984). An introduction to multivariate statistical analysis (2nd ed.). New


York: Wiley.
Bautista, L. (1986). Curso de anlisis de datos multivariados. Tercer Coloquio de Matemticas y
Estadstica. Bogot.
Hair, J., Anderson, R., and Tatham, R. 1992. Multivariate data analysis, Third edition. Englewood
Cliff, NJ: Prentice-Hall.
Dillon, W. R., and Goldstein, M. 1984. Multivariate analisys: Methods and applications. New York.
Wiley.
Hartigan, J. A. (1975). Clustering algorithms. New York: Wiley.
Johnson, R. A. And Wicherrn, D. A. 1998. Applied Multivariate statistical anlisys( 4th ed.).
Englewood Cliffs, NJ: Prentice Hall.
Morrison, D. (1967). Multivariate statistical methods. New York: McGraw-Hill.
Volle, M. (1985). Analyse des donnes. Econmica. Paris.

Das könnte Ihnen auch gefallen