Beruflich Dokumente
Kultur Dokumente
Resumen
La complejidad de los fenómenos de las ciencias en general hace que los investi-
gadores se vean obligados a enfrentarse a problemas donde intervienen múltiples
variables y grandes volúmenes de datos que requieren conceptos avanzados y
herramientas para su tratamiento e interpretación integral. Por esta causa, desde
hace mucho tiempo se han desarrollado las técnicas multivariadas, pero sólo con
la evolución de los computadores y diversos paquetes de so�ware que procesan
amplios conjuntos de datos ha llegado a ser notoria la potencia de la estadística
multivariada. Se ha tomado como pretexto el problema del desplazamiento de
personas del campo a la ciudad para consolidar el concepto y la aplicación de
la técnica de componentes principales (ACP). En este artículo se presenta esta
técnica dada su utilidad como paso previo a todos los análisis multivariados que
se requiera aplicar.
Para el estudio del ACP primero se desarrollan los conceptos fundamentales del
Fecha de aceptación: 29 de noviembre de 2007
álgebra matricial, para luego simular una situación problemática escogida como
Fecha de recepción: 5 de febrero de 2007
una forma de llevar a la práctica el marco teórico referente a la técnica objeto del
artículo. Por otro lado, el desarrollo de la simulación mediante esta técnica conlleva
el uso de otros conceptos relativos al ACP, los cuales se explican e interpretan a
partir del análisis de los resultados obtenidos en los diferentes procesos.
En el análisis de los resultados se ha concluido que, a pesar de que el gobierno
está tomando medidas para mejorar el bienestar de los desplazados, que es la
situación escogida, todavía faltan mayores esfuerzos que conlleven a una solución
integral de esta problemática.
Palabras claves: Componentes principales, autovalores, autovectores,
matriz de componentes, comunalidad
1
PhD. Gestión Industrial. Grupo de Investigaciones Productividad y Competitividad, Universidad
del Norte. Profesor asociado de la Universidad del Norte. agonzale@uninorte.edu.co
2
Dr. rer. nat. Estadística. Grupo de Investigaciones en Estadística e Investigación Operativa (GEIO),
Universidad del Norte. Profesor asociado de la Universidad del Norte. hllinas@uninorte.edu.co
3
Esp. Estadística. Grupo de Investigaciones en Estadística e Investigación Operativa (GEIO),
Universidad del Norte. Profesor catedrático de la Universidad del Norte. jtilano@uninorte.edu.co
Dirección: Angel León González, Departamento de Ingeniería Industrial, Bloque B, segundo piso,
Universidad del Norte Km 5, antigua vía a Puerto Colombia.
INGENIERÍA
& DESARROLLO
Número 23
Enero-Junio, 2008
ISSN: 0122-3461
Ángel León González, Humberto Llinás Solano, Jorge Tilano
Abstract
INTRODUCCIÓN
Según Peña [1] y Dallas [2] existen diversas definiciones acerca de las
técnicas de análisis de datos multivariados, pero los dos coinciden en a
conceptualizarla como “una herramienta que tiene como objetivo princi-
pal resumir grandes cantidades de datos por medio de pocos parámetros
(simplificación), además busca encontrar relaciones entre:
120 Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008
A������� ������������ ��������� ����������� ����������� �� ���� �� ��� �����������
Variables de respuesta
Unidades experimentales
Variables de respuesta y unidades experimentales” 1
Por ser tan amplio el tema, este artículo sólo trata del análisis de com-
ponentes principales debido a su importancia dentro del desarrollo de las
diversas técnicas de análisis de datos multivariados.
1. COMPONENTES PRINCIPALES
1
D�����, E. Johnson. Métodos multivariados aplicados al análisis de datos. Thomson editores S.A.
México. 2000.
Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008 121
Ángel León González, Humberto Llinás Solano, Jorge Tilano
Para Peña [1], el ACP tiene una utilidad doble; por un lado, permite
hacer representaciones de los datos originales en un espacio de dimensión
pequeña y, por el otro, transformar las variables originales correladas en
nuevas variables incorreladas que puedan ser interpretadas.
De igual manera, García y Gil [5] afirman que el ACP es un criterio fun-
damental para hacer conjeturas sobre el numero de factores que se deben
determinar en el análisis factorial y para probar si, en realidad, un grupo
de variables p > 2 cae dentro de un espacio de dos o tres dimensiones que
permita ser observado dentro del análisis de clúster.
122 Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008
A������� ������������ ��������� ����������� ����������� �� ���� �� ��� �����������
2. NOTACIONES Y SÍMBOLOS
Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008 123
Ángel León González, Humberto Llinás Solano, Jorge Tilano
Vectores de datos
σ 11 σ 12 K σ 1 p
σ 21 σ 22 K σ 2 p
′
∑ =Cov( X ) = E (X − µ )(X − µ ) = ⋅
⋅
⋅
σ p1 σ p 2 K σ pp
Con
σ jj = Var ( X j ) = E[ X j − µ j ]2 , para j = 1, 2,..., p, y
[ ]
σ ij = Cov( X i , X j ) = E (X i − µ i )( X j − µ j ) , para i ≠ j = 1, 2,..., p,
σ ij
El coeficiente de correlación entre Xi y Xj se denota por ρ ij : ρ ij =
σ iiσ jj
124 Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008
A������� ������������ ��������� ����������� ����������� �� ���� �� ��� �����������
1 ρ 12 L ρ 1p
ρ 1 L ρ 2 p
ρ =
21
M M O M
ρ p1 ρ p2 L 1
Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008 125
Ángel León González, Humberto Llinás Solano, Jorge Tilano
2.
F1
0.
-1.
-2.
-2 -1. 0 1 2.
F2
Figura 1. Figura 2.
Diagrama de dispersión divariado Diagrama de dispersión rotado
Fuente: Elaboración propia
126 Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008
A������� ������������ ��������� ����������� ����������� �� ���� �� ��� �����������
con λ1, la segunda sea un vector propio asociado con λ2 y así sucesiva-
mente. En particular, dichas columnas pueden estar formadas por vecto-
res propios normalizados, es decir, perpendiculares entre sí y de longitud
igual a la unidad. De esta manera se construye una matriz que produce
la rotación deseada ya que, como puede probarse, el primer vector propio
a1 = (a11, a12 ,... a1p )' apunta en la dirección de máxima variabilidad de la
nube centrada. Esta dirección se llama primera dirección principal. El se-
gundo vector propio a2 = (a21, a22 ,... a1p )' apunta en la siguiente dirección
de máxima variabilidad de la nube centrada, llamada segunda dirección
principal y así sucesivamente.
Resulta claro que E(Yj) = 0 para j = 1,2..., p. Si todas las variables ori-
ginales Xi son normales, entonces todas las componentes principales son
normales. Como puede deducirse de lo anterior, la varianza total se des-
compone en un número finito de partes disjuntas λj de tamaños cada vez
menores, lo que en la práctica proporciona un mecanismo para estudiar la
posibilidad de reducir la dimensionalidad de representación de las p varia-
Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008 127
Ángel León González, Humberto Llinás Solano, Jorge Tilano
128 Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008
A������� ������������ ��������� ����������� ����������� �� ���� �� ��� �����������
λ j a ji
cij = , para i = 1, 2,..., p y j = 1, 2,..., m
V (Xi )
Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008 129
Ángel León González, Humberto Llinás Solano, Jorge Tilano
▪ Criterio 2. Otro criterio, quizás más natural, consiste en retener tantos fac-
tores como sean necesarios para lograr un alto porcentaje de explicación
de la varianza total. Para ello se usan los porcentajes acumulados de los
valores propios con base en la varianza total del problema, junto con un
criterio personal acerca de qué se considera un buen porcentaje de explica-
ción. Los diversos investigadores sugieren que para datos tipo de labora-
torio puede ser fácil explicar más del 95% de la variabilidad total con sólo
dos o tres componentes principales y, que para datos de tipos de personas,
negocios, estudios de mercados, etc., puede ser entre el 70% y el 75% de la
variación total.
Porcentaje acumulado
75%
Porcentaje individual
ACP normado
Hay varios criterios. Tal vez los dos más extendidos son el criterio de Kaiser,
según el cual se deben retener tantos factores como valores propios de la
matriz ∑ estén por encima del promedio VT/p y los diagramas de ������� [7].
Siendo VT : variabilidad total y p el número de variables originales. Todo
lo mencionado anteriormente tiene un sentido geométrico y matemático
muy claro pero en la práctica tiene un problema de interpretación. Por un
lado, no tiene significado la combinación de variables cuyas naturalezas
son diferente; por ejemplo las variables que representan la edad, ingreso,
peso, etc., para la creación de un único factor. Por otra parte, el peso de
cada variable original, traducido fundamentalmente en variabilidad,
puede ser muy diferente para cada variable. Una variable muy dispersa
puede contribuir enormemente a la varianza total mientras que una
variable más homogénea contribuye menos. Esto finalmente determina
la participación de cada variable en la conformación de un factor. Las
130 Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008
A������� ������������ ��������� ����������� ����������� �� ���� �� ��� �����������
Resulta claro que el ACP normado debe ser la técnica a seguir en cualquier
caso, a menos que se quieran explorar algunas otras posibilidades de tipo
teórico o que se tengan variables muy similares tanto en su naturaleza
como en su escala de medida.
Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008 131
Ángel León González, Humberto Llinás Solano, Jorge Tilano
Según la ley 387 de 1997, “Es desplazado toda persona que se ha visto
forzada a migrar dentro del territorio nacional abandonando su localidad
de residencia o actividades económicas habituales, porque su vida, su
integridad física, su seguridad o libertad personales han sido vulneradas
o se encuentran directamente amenazadas, con ocasión de cualquiera de
las siguientes situaciones: Conflicto armado interno, disturbios y tensiones
interiores, violencia generalizada, violaciones masivas de los Derechos
Humanos, infracciones al Derecho Internacional Humanitario u otras cir-
cunstancias emanadas de las situaciones anteriores que puedan alterar o
alteren drásticamente el orden público”2.
2
h�p://www.derechoshumanos.gov.co/modules.php?name=informacion&file=article&sid=120
132 Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008
A������� ������������ ��������� ����������� ����������� �� ���� �� ��� �����������
Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008 133
Ángel León González, Humberto Llinás Solano, Jorge Tilano
Estadísticos descriptivos
Determinante = 0,000469886
134 Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008
A������� ������������ ��������� ����������� ����������� �� ���� �� ��� �����������
Comunalidades
Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008 135
Ángel León González, Humberto Llinás Solano, Jorge Tilano
3 3 3 3
c1 c2 c3 ∑ c 2 ij ci21 / ∑ cij2 ci22 / ∑ cij2 ci23 / ∑ cij2
j =1 j =1 j =1 j =1
La Figura 5 permite ver con mayor claridad los datos estimados en la tabla
anterior.
136 Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008
A������� ������������ ��������� ����������� ����������� �� ���� �� ��� �����������
120
100
Porcentajes
80
Serie1
60
Serie2
40
20
0
0 2 4 6 8
Número de autovalores
Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008 137
Ángel León González, Humberto Llinás Solano, Jorge Tilano
138 Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008
A������� ������������ ��������� ����������� ����������� �� ���� �� ��� �����������
Tabla 9. Autovectores aj
a1 a2 a3
HPM 0,38086158 -0,38793105 0,06329544
NPM 0,39981727 0,31655861 -0,33405951
NHS 0,26460466 0,54323226 0,79328794
ATR 0,32837686 -0,37309524 0,192552
NBC 0,37700205 -0,47425596 0,22325813
CCD 0,4233134 0,25407953 -0,32754718
NTC 0,44257247 0,16087012 -0,24672797
Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008 139
Ángel León González, Humberto Llinás Solano, Jorge Tilano
Siendo r= 1,....., 25. Las otras dos columnas se estiman de igual forma
utilizando como coeficientes los valores de las columnas dos y tres de la
matriz de autovectores.
5. CONCLUSIONES
140 Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008
A������� ������������ ��������� ����������� ����������� �� ���� �� ��� �����������
Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008 141
Ángel León González, Humberto Llinás Solano, Jorge Tilano
Referencias
[1] D. P���. Análisis de datos multivariados. Madrid: Mac Graw Hill, 2002, pp.
133-158.
[2] E. J. D�����. Métodos multivariados aplicados al análisis de datos. México:
Thomson, 2000, pp. 93-396.
[3] C. P����. Técnicas de análisis multivariante de datos. Aplicaciones con SPSS.
Madrid; Pearson, 2004, pp. 121- 154.
[4] S. J. B�������. Estrategias para el análisis de datos en la caracterización de re-
cursos fitogenéticos. Tesis doctoral, Unversidad Politécnica de Valencia, Va-
lecia, 2000, p 47-52.
[5] G����� J������ y J. G�� F�����. Análisis factorial. Cuadernos de estadística,
Valencia, España: La Muralla, 2001.
[6] J. G�� F�����. Análisis discriminante. Cuadernos de estadística, Valencia, Espa-
ña: La Muralla, 2000.
[7] R. C������. The screen test for the number of factors. Multivariate Behavio-
ral Research, 1, pág. 245-276, 1966.
142 Ingeniería & Desarrollo. Universidad del Norte. 23: 119-142, 2008