Sie sind auf Seite 1von 16

ESTADISTICA ESPANOLA

Vol. 30, Nm. 1 17, 1988, pgs. 99 a 1 14

La difcil realizacin de un Anlisis de Componentes Principales mediante los programas estadsticos ms difundidos en el mercado
por FELIX APARICIO PEREZ
Jefe del Servicio de Proyectos y Anlisis Centro de Investigaciones Socioldgicas

RESUMEN
EI objeto del presente artculo es profundizar en la problemtica relacionada con la utilizacin de programas estadsticos de los disponibles en el mercado a la hora de efectuar un Anlisis de Componentes Principales (A.C.P.). Se incide, sobre todo, en la confusin que crea entre los investigadores el que determinados paquetes de programas estadsticos no efectan un verdadero A.C.P.; sino un Anlisis Factorial con Extraccin de Componentes Principales (A.F.E.C.P.). Se explica cmo transformar este ltimo tipo de anlisis en genuino A.C.P. Finalmente, se dan referencias de programas que si efectan un autntico A.C.P. y se aconseja a los investigadores aplicados que deseen realizar un A.C.P. sobre la mejor forma de hacerlo. Palab^as clave: Anlisis de Componentes Principales. Anlisis Factorial. Factor Principal. Anlisis Factorial con Extraccin de Componentes Principales. Componentes Principales. Paquetes de programas estadsticos.

Clasificacin A. M. S. .^ 62H99, 62H25, 68-D4.

FSTADISTIC"A ESPA!^t)l_A

1.

INTRODI^CCION

Con frecuencia me ha sucedido que un investigador aplicado se dirige a mi para comunicarme su extraeza tras realizar un Anlisis de Componentes Principales con alguno de los paquetes estadsticos ms conocidos. El investigador en cuestin ha tenido la curiosidad de calcular la varianza de los Componentes Principales resultantes, y ve como estas valen uno, en vez de valer lo mismo que los respectivos autovalores asociados a cada una de ellas, que es lo que dicen los libros que deben valer. Tras explicarle que lo que l ha hecho no ha sido en realidad un Anlisis de Componentes Principales, sino un Anlisis Factorial, manifiesta su incredulidad, alegando que el manual del paquete de programas habla de Componentes Principales. Tras unos minutos, le he detallado todo minuciosamente. En este punto, el investigador est convencido de que lo que le digo es cierto, pero no comprende por qu el fabricante del prograrna que l ha usado le sustituye el modelo de Anlisis de Componentes Principales por un sucedneo y, sobre todo, por qu en el manual no se aclara esto. Se supone que el fabricante del paquete tiene como asesores a buenos estad^sticos que no haran semejante cosa. Desgraciadamente es un hecho conocido por los matmaticos que trabajamos en Estadstica Computacional, el que los fabricantes de programas estadsticos distribuyen modelos y algoritmos deficientes junto con otros buenos en sus paquetes. Esto, sin embargo, no es detectado por el investigador aplicado, normalmente debido a su dbil base matemtica. Tan solo, a veces, se extraa de los resultados, pero no puede Ilegar ms lejos. No es solo en Anlisis de Componentes Principales donde los programas estadisticos flaquean, tambin lo hacen en atros modelos, como es el caso del Anlisis de Conglomerados. Los algoritmos que para este modelo suministran Is paquetes de programas son, en general, anticuados, poco eficier^tes y Ilenos de restricciones. Pero tal vez el punto ms dbil de los paquetes estadsticos sea el contraste previo de que se cumplen las hiptesis necesarias para poder aplicar cada modelo de los suministrados por el paquete, por ejemplo seria necesario contrastar la linealidad o la normalidad de los datos en los modelos que emplean estas hiptesis. Este hecho hace que los investigadores aplicados se lancen a una alegre utilizacin de modelos y algoritmos, Ilegando, a veces, a conclusiones totalmente errneas. Algunos, incluso, utilizan el programa coma argumento en favor de sus conclusiones: si el paquete ms reputado del mercado da esos resultados, no puede estar mal.

LA DIFICIL REAL17_ACION DE UN ANALISIS DE COMPONENTES PRINCIPALES

^U!

Para mayor profundidad sobre las principales deficiencias de los paquetes de programas estadsticos se pueden consultar las pgnas 308-312 del libro de Maindonald (1984). Es esta publicacin tratar de verter algo de claridad sobre el uso del Anlisis de Componentes Principales, tai y como est implementado en 1a mayora de los paquetes de progrmas. La notacin empleada en el artculo es la siguiente: Las letras maysculas representa matrices. Las letras maysculas en negrita representan vectores. Se supone que son vectores-columna. Las letras minsculas representan escalares. E1 resto de la notacin es autoexplicativa.

2.

DEL A.C.P. Y DIFERENCIAS CON EL A.F.E.C.P.

Sea X una variable aleatoria ( v.a.) n-dirnensional, a la que supondremos, sin p^rdida de generalidad, centrada, y sea ^ su matriz de ,,^ovarianzas, es decir, E [X] = 0, COV[X] _ ^ Por ser ^ matriz de covarianzas, es simtrica y definida no negativa y, por tanto, existe A matriz ortogonal (A ,AT = I) tal que ^A=AD Luego, por ser A ortogonal ^ = ADAT Donde D = Diag(d,, . . , d) [2.3]

[2 . 1]

[ 2.2 ]

d; son los autovalores de ^, suponemos que estn ordenados de mayor a menor, o sea, d, > d2 >> d A es la matriz de autovectores asociados a las d; normalizados y por columnas. Se Ilaman componentes principales tC.P. ^ asociadas a X a la v.a. n-dimensional y = ATX [2.4]

A^r^ se le Ilama primera componente principal, pues est^ asociada al mayor autovalor, a y2 segunda C.P., etc. ^

l0?

E^.^^^^^^^D1ST1(^A FSP4^(:)L_A

Las C.P. est^n incorreladas dos a dos y la varianza de cada una de ellas coincide con su autovalor asociado. En efecto COv[Y] = COv[^1^X] = nTCUv[Xjn = nT^n = ArnDATA = D [2.5] Las C.P. como queda claro de [2.4J, son combinaciones lineales ( c.l.) normalizadas de las variables originales. Su utilidad radica en los siguientes hechos: ^)
2)

Como hemos visto estn incorreladas dos a dos


Se demuestra que cada componente principal es 1a que mayor varianza tiene, entre todas las combinaciones lineales normalizadas posibles de X que estn incorreladas con las anteriores. Es decir, la primera C.P. es la de mayor varianza entre todas las c.l. normalizadas de X, la segunda es la de mayor varianza entre todas las c.l. normaiizadas de X que estn incorreladas con la primera C.P. y as sucesivamente.

3)

Las C.P. cumplen otras propiedades de optirnalidad, en las cuales no entraremos ahora, como la de mejor ajuste en norma eucldea a la matriz ^ o la de mejor prediccin lineal de X. EI lector interesado en estas propiedades puede consultar las pginas 429-433 del libro de Kshirsagar (1972).

Adems, como ^ Var(x;)=tr(^)=tr(ADA^= r^


n n

= tr (DATA) = tr ( D) _ ^ var (y;^ r^

[2.6]

la segunda propiedad nos dice que si entendemos que la informacin esencial de la v.a. X est en la suma de varianzas de sus componentes, tomando las k primeras C.P. de X mantendremos mayor proporcin de esta suma de varianzas que tomando cualesquiera otras k c.^. normalizadas de X. Esto es til si queremos reducir la dimensin de un problema con muchas variables, pues perdemos poca informacin, entendida sta como suma de varianzas, si susttuimos a X por sus k primeras C.P., donde k sea lo bastante grande para que la suma de las varianzas de esas componentes principales se acerque "suficientemente" a la suma de varianzas de X. Si en vez de trabajar con la v.a. X trabajamos con una muestra aleatoria lm.a.1 de la misma, todo funciona igual, con la nica diferencia de que, habida cuenta de que no conocemos ^, la tendremos que estimar, y diagonalizaremos a la matriz que la estima, En concreto, sea X una m.a. de tamao (V de X, es decir, X es una matriz de n filas y N columnas, cada columna de X es un elemento de la muestra aleatoria.

L_A [)IFI(.'IE. RF.^LILA('ION L)E. l'^I ,AtiALISlS DE ('O!^1f'OtiE ti"TF:S PRI`^( IF'AE.ES

I^ ^

Se Ilaman C.P. muestrales de X a la v.a. Y* ! n*TX [^.7)

Donde es ^* = A*TD*A* [2. ^ ]

Es decir, D* es la matriz de autovalores de ^*, y A* es la matriz de autovectores normalizados por columnas asociados a D*. .
^* es el estimador de mxima verosirnilitud de ^. Se demuestra que es, bajo la hiptesis de normalidad. XX T

L^ _ ^ Esto si X est centrada , si no hay que centrarla previamente .

[2 . 9]

En el caso de C.P. muestrales, se puede proyectar X, la m.a. de X en ias C.P., es decir, medir las C.P. en la m.a., basta para ello con hacer: Y = A*T X [2.10]

Y ser, pues, una matriz de n filas y N columnas con la med^da de las C.P. muestrales en los N puntOS de la m.a.; a Y tambin se le Ilama matriz de puntuaciones de los individuos en las C.P. Con esto queda visto, en esencia, el modelo de A.C.P. A continuacin veremos el modelo del Anlisis Factorial ( A.F.j, incidiendo en la parte de l que nos interesa, por ser la que algunos fabricantes de software incluyen como sucedneo del A.C.P. EI modelo del A.F. es, al igual que el A.C.P., un modelo de reduccin de la dimensin, pues nos simplifica la informacin contenida en muchas variables a la de unos pocos factores. Se diferencia del A.C.P. en la forma en que nos simplifica la informacin. Si el A.C.P. se quedaba con unas pocas C.P., cuya suma de varianzas fuera casi tan grande como la suma de varianzas de las variables originales, el A.F. se queda con unos pocos factores (as se Ilaman en A.F. al equivalente de las C.P.1 que reproduzcan satisfactoriamente la matriz de correlaciones de las variables originales segn el modelo que a continuacin explicaremos. EI modelo es X= AF + CU [2.1 1]

Donde X es la misma v.a. n-dimensional del modelo del A.C.P., A es una matriz de n filas y rr^ columnas Ilamada matriz factorial, F es una v.a. m-dimensional que est compuesta por los Ilamados factores comunes, C es una matriz diagonal de orden n, a cuyos elementos diagonales Ilamare-

104

ESTAD[ST1CA ESPAOLA

rnos c, y U es una v.a. n-dimensional compuesta por los Ilamados factores especficos. EI nombre de factores camunes a los F se debe a que, al no s^r A matriz diagonal, cada f; influye en todas las variables X, mientras que, al ser C matriz diagonal, cada u; influlye salo en x^, segn se ve en [2.1 1], por eso a los U se les Ilama factores especificos.
Mientras que las C.P. son una simple rotacin de las variables originales X(por ser A ortogonal), el A.F. es algo distinto, se pasa del espacio n-dimensional de X a otro espacio n+m-dimensional de los F y los U. A su vez, de este espacio solo nos interesa el subespacio de m dimensiones asociado a los F. En general, no se puede expresar F en funcin de X, pues los F estn indeterminados. Se puede, eso s, obtener una estimacin de la forma ^ F = BX.

A es la matriz factorial, aqu A no es una matriz ortogonai, al contrario que en A.C.P., donde 11 s lo era. Otras hiptesis del modelo son:
1) 2) X est centrada, al igual que lo estaba en el A.C.P. Las X est^in tipificadas, esta hiptesis no la hacemos en A.C.P.

3) 4) 5) 6)

Los F estn centrados, incorrelados y tipificados, en A.C.P. las componentes estn centradas e incorreladas, pero no tipificadas. Los U estn centrados, incorrelados y tipificados. Los F estn incorrelados con los U. Los c; son parmetros no negativas.

Teorema de Thurstone COR R (X) = AAT + C^ En efecto, del modelo [2.1 ^] se deduce que
CORR IX) = A CORR (X) AT+ C CORR IU) CT= AAT+ C2 Donde hemos usado las hiptesis del modelo factorial expuestas ms arriba. Aplicando [2.12] a Corr(x; x;) - 1, queda 1 =a;+. . +am+c?=h?+c? [2.13]

"

[2.12)

A h? se le Ilama comunalidad de la variable x;, pues es la parte de la varianza (1 por estar tipificadaj de x; que explican los factores comunes.

LA DIF'ICIL REALIZACION DE UN ANALISIS DE COMPONENTES PRINCIPALES

I US

A c? se le Ilama especificidad de xr pues i la parte de su varianza que explica el factor especfico u^

Se supone en A.F. que los factores comunes retienen la informacin bsica de las variables X. ^ Una vez planteado el modelo y conocida COR R(X), o estimada igual que se haca con ^ en el modelo A.C.P., se trata de obtener A, C y m. No existe una nica forma de hacerlo, en este artculo solo veremos el Mtodo del Factor Principal, pues el Anlisis Factorial con Extraccin de Componentes Principales, que es el que nos interesa distinguir del A.C.P., es un caso particular del mismo.

METODO DEL FACTOR PRINCIPAL Es el ms semejante al A.C.P., pues se obtienen los factores F que expliquen mxima varianza. Pero difiere del A.C.P. en que los factores estn tipificados, mientras que las C.P. no lo estn, y en que el modelo es distinto, en A.F. estn las especifidades y el Mtodo del Factor Principal rnaximiza la varianza que explica cada factor dejando aparte la especifidad de las variables. Como caso particular de este modelo, si forzamos a que todas las comunalidades valgan uno nos queda algo an ms parecido al A.C.P. Es precisamente a esto a lo que Ilaman algunos fabricantes de software A.F.E.C.P. Pero an as no se obtienen autnticas C.P. porque: 1) 2) 3) La matriz A obtenida es una matriz factorial, na una matriz ortogonal de C.P. Los factores estn tipificados, mientras que las C.P. no lo estn. En Anlisis Factorial se trabaja, casi siempre, con las variables X tipificadas, mientras que en C.P. se trabaja tanto con ellas tipificadas como sin tipificar. Por tanto, si queremos hacer el A.C.P. con las variables sin tipificar y ei programa que usamos efecta solo A.F. y con las variables tipificadas ( como sucede con la mayora de los programas de A.F.) no podremos ni siquiera obtener !a aproximacin del A.C.P. por el A.F.E.C.P.

i o+^
3.

E ST :1[^f^ Tl( ^ E:SP.^ti(^l. 1

CONVERSION DEL A.F.E.C.P, EN A.C.P.

Como acabamos de ver, en caso de querer efectuar el A.C.P. sobre las variables sin tipificar, no hay posible conversin, salvo que el programa de A.F. permita trabajar sobre la matriz de covarianzas. En cambio, si se trabaja con las variables tipificadas, s se puede pasar de una a otra solucin. A continuacin veremos el crno. Sea R = CORR(X) EI Mtodo del Factor Principal lo que hace es diagonalizar la matriz RR=R--C2

[3.1 ]

[3.2]

Si Ilamamos ^^; a sus autovalores y u; a sus autovectores, se demuestra que la matriz factorial obtenida por el mtodo del Factor Principal tiene por columnas a a; _ ^,; '2 u; , i = 1 , . . , m 0 bien, en notacin matricial A = U Diag (^.;'^, . . , ^.m2) Donde U es la matriz que tiene en sus columnas a los u;. Como caso particular, para efectuar el A.F.E.C.P. se fuerza a que las comunalidades valgan uno, es decir, se hace C= 0. Por tanto, en [3.2] queda la diagonalizacin de R misma. Esta rnatriz R es tambin la que se diagonaliza en A.C.P. cuando se trabaja con las variables tipificadas, de ah el nombre de Extraccin de Componentes Principales. Por tanto, suponiendo que hubiramos efectuado el A.C.P. con las variables tipificadas, los u; son iguales a los autovectores normalizados que forman las columnas de A, a los que Ilamaremos ^; y los autovalores ^; son tarnbin iguales a los d; que obtenamos en el A.C.P. La diferencia entre ambos modelos est entonces en que, en A.F., la matriz factorial que resulta no es 1^, sino la dada en la expresin [3.3], es deci r, su pon iendo rrr-n A= A D i a g ( d;'? .., d"2)

[3.3]
[3.3 bis]

[3.4]

Est claro que expresin [3.4] nos permite pasar de A.F.E.C.P. a A.C.P. y viceversa. Deduciremos a continuacin la relacin entre las puntuaciones de los individuos en A.C.P. y en A.F.E.C.P.:

l.A C)IFI('IL RE-:AI.Il.A(1Oti DE: l'ti Ati^^I.ISIS C^E C^O!^1POtiE:tiTES PRIti( IP^^I_E.S

^^^

Como se ve en [2.10], las puntuaciones de {os individuos en las C.P. son Y=n*TX Mientras que, el modelo de A.F.E.C.P. es, poniendo C= 0 en [2.1 1] X = AF [3.5J

Dijimos antes que el modelo de A.F. est ndeterminado, y que no se pueden despejar los factores comunes F en funcin de las variables X, esto es cierto con la excepcin del modelo del A. F. E.C.P., en efecto, si en [3.5] es n=m y A es una matriz regular, queda F = A-'X [3.6]

Si, en cambio, m< n, no se puede despejar F, sin embargo en este caso, suponiendo que A es de rango mximo m, se puede estimar F en funcin de X por regresin, para lo cual solo tenemos que premultiplicar [3.5] por AT y luego premultiplicar la expresin resultante por (ATA)^' ( que existe por ser A de rango mximo), queda

F"= ATA)-' ATX Por supuesto, [3.7J abarca a[3.6J como caso particular si n=m.

[3.7J

Ahora aplicaremos [3.7] a la muestra, en vez de la v.a. y tendremos en cuenta [3.4J, queda
^ F _ Diag (^^^z, . . , ^m ^Zj , Y [3.8]

Donde F son las puntuaciones de la muestra en los factores comunes y Y son las puntuaciones de la muestra en las C.P. La expresin [3.8] nos permite pasar de unas a otras puntuaciones. Como caso particular, si rr-m, la expresin [3.8J ser exacta. Por tanto, el investigador que desee utilizar el A.F.E.C.P. como sustituto de{ A.C.P. deber especificar que se obtengan exactamente n factores, pues de lo contrario, tendr resultados solo aproximados (con algunos programas esto no es cierto, se obtienen resultados exactos aunque el algoritmo, aparentemente, solo retenga m< n factores, debido a que el fabricante dei programa ya ha tenido en cuenta lo dicho en este prrafo y ha actuado en consecuencia). En cualquier caso, el investigador ha de ser cauto y, si el prograrna lo permite, especificar n como el nmero de factores a retener ^ . Siempre puede efectuar un segundo anlisis para saber cual es el nmero de factores que retendr el algoritmo mediante sus contrastes de hiptesis, pero, si hay diferencia en las puntuaciones o en la matriz factorial obtenidas en el anliss completo ( n = m) y en el segundo con m< n, el investigador deber tomar como buenos los datos del aniisis completo, aunque solo tome estos referidos al nmero de factores que le diga el segundo anlisis.

10$

ESTADISTICA ESPAOLA

Como se ve, el hecho de utilizar un modelo inadecuado, complica enormemente la realizacin de algo tan sencillo como es un A.C.P. Debe decirse que la realizacin de un A.F.E.C.P. no tiene mucho sentido ms que como aproximacin al A.C.P., pues el modelo en s es una restriccin del Modelo del Factor Principal de A.F., como ya hemos visto. Por otra parte, tampoco puede considerarse que el A.F.E.C.P. sea un modelo de An^lisis Factorial restringido, porque, para lo que fuera, deberia contrastar su restriccin (C = 0) en una primera etapa, cosa que no hace. Parece claro, que el A.F.E.C.P. es un sucedneo que algunos fabricantes de sotfware incluyen a los solos efectos de ahorrarse un procedimiento que efecte el A.C.P. y que sea distinto al del A.F. Afortunadamente, esta situacin est cambiando y, como se ve en la seccin siguiente, algn fabricante de sotfware ya incluye un procedimiento separado para el A.C.P.

Para mayor claridad, a continuacin expondremos un ejemplo muy simplificado en el que se ve la diferencia entre los dos modelos y la forma de pasar de uno al otro.
Ejemplo Tenemos N=9 individuos y rr-2 variables. Los datos estn tipificados. La matriz de datos es

0.851 183 1.741955 -0.930363 -1.732058 0.138565 XT= 0.227642 -0.217744 0.316719 -0.395899

0.844$47 1.708894 -0.883249 -1.747296 0.240013 0.153608 -0.278415 -0.4 512 2 5 0.412823

La estimacin, a partir de esta muestra, de la matriz de covarianzas (o correlaciones, es igual, por estar los datos tipificados) es: R* = 1 0.92082 0 . 9 i 082 1 ^

Ahora se trata de diagonalizar R*. Es un sencillo problema de lgebra el


encontrar que

D*

1 . 92082 0 0 . 07918 , 0

A _

r 0 . 707107 0 . 707107 1

^o.^o^^o^ -o.^o^io^^

LA DII~IC'IL REALILACION DE UN ANALISIS DE COMPO^tiF.NTES PR1tiC'IF'ALES

lU9

Por tanto, la medida de las C. P. en los individuos es la dada por [2 .10], es decir, Y= A*T x, que d , 0.004 5 1.20 0.02 34 2.44 -0.0333 -1.28 O.o1 os -2.46 -0.0 717 YT = 0.27 0.0 5 2 3 0.27 0.042 9 -0.3 5 0.5430 -0.10 -0.5719 0.01
Esta es la solucin correcta por A.C.P. del problema que hemos puesto como ejemplo.

En cambio, la solucin que obtiene un paquete de programas estadisticos de los ms extendidos en el mercado, empleando A.F.E.C.P., es la que damos a continuacin. Los autovalores los calcula correctamente, como es lgico, y coinciden con los dados ms arriba en la matriz D*.

La matriz Factorial estimada es A . _ ^ 0 . 98001 -0 . 19897 1 0 . 98001 0 . 19897^ Como vemos, esto no es una matriz ortogonal de C.P., ahora bien, podemos pasar de ella a A aplicando la frmula [3.4], ser entonces

^* = A* . D*-^^z
Y, efectivamente, multiplicando Y^ = 1.92082"'^2 a^ = [0.707107 , 0.707107]r

y2 = 0.07918-'^2 a2 = [-0.707107 , 0.707107]r


Que coincide con A* obtenida al principio, salvo el signo de la segunda C.P., lo cual carece de importancia, pues tan C.P. es una combinacin lineal de X como su opuesta. Por tanto, en caso de trabajar con las variables tipificadas, se puede transformar el A.F.E.C.P. en A.C.P., realizando el proceso anterior. Tambin habr que recalcular la medida de los individuos en las C.P., se puede hacer

110

FtiT^^F)I^TI( A E^,P^ti(t1.^1

sin ms que multiplicar la medida que nos de el paquete, cornponente a componente, por d,*"^, como se deduce de [3.8] despejando Y Y= D i a g ( d;'2, ..,,or^'2 j. F

[3.9]

En nuestro ejemplo, la medida que nos daba el paquete de programas era Ia siguiente

, 0.86531 ^ 1.7 6062 -0.92531 -1.7751 7 0.19319 0.19451 -0.2 531 5 -0.06863 0.00863

0.0159 5 0.08312
-0.1 1838 0.03831 -0.25514 0.18607 0.1 5249 1.92984 -2.03226

Multiplicando cada columna de FT por la raz cuadrada del autovalor correspondiente queda, efectivamente, la YT de ms arriba.
De todas formas, el proceso que acabamos de describir aqu puede resultar costoso si se trabaja con cientos o miles de individuos y decenas o centenas de variables. En todo caso, el poder efectuarlo o no depender de las facilidades que tenga el programa que utilicemos para guardar en un fichero la matriz A obtenida y la medida de los individuos en los factores, pues si esto no se puede hacer, tendramos que reintroducir la salida del programa manualmente en el ordenador para hacer los clculos que acabamos de efectuar en este ejemplo sencillo. Esto podra resultar muy tedioso.

4.

VISION DEL SC}FTWARE ESTADISTICO MAS EXTENDIDO De los paquetes de programas estadsticos ms difundidos que conoce el

autor, solo uno, el SAS ', efecta un verdadero A.C.P., pues incluye un procedimiento distinto al del A.F. que lo hace. EI resto de paquetes no lo incluyen. Sin embargo, alguno de los que no lo incluye, permite efectuar un A.F. sobre la matriz de covarianzas, con lo cual, siempre es posible pasar la solucin de A.F.E.C.P. a A.C.P., al menos en teora. En la prctica, si tenemos muchas variables e individuos, esto puede requerir un gran volumen de trabajo, como se dijo en la seccin anterior.

(1 }

SAS^ es marca registrada del SAS Institute Inc., Cary N.C. USA

[_A [.)IFIC'IL FtF^:ALII_AC'1(:)N I)E^ l'N Atir^LIS1S [)E^. (`ORiF'OtiF^.ti1 F:S F'RI`^C INA[_F ^

La biblioteca de subrutinas IMSL ^ 2 tambin incluye una subrutina que efecta un genuino A.C.P. No se trata de un paquete de programas, sino de una biblioteca de subrutinas, pero igualmente se efecta un perfecto A.C.P. con ella.

A continuacin detallar en una tabla lo que hacen y no hacen los distintos paquetes de programas y lo que se puede hacer con la biblioteca I.M.S.L.. A.C.P. SI
SI

SASV 5 (G.S.) SAS V 6 ( DOS^ BMDP 1984 (G.S.)

A.F.COV SI
SI

Facil. SI
SI

S PSSx 3 SPSS/PC+ (DOS^ IMSL^ (G.S.i

NO NO NO SI

SI NO NO SI

NO NO NO Sl

La lectura de la tabla es la siguiente:

G.S. quiere decir Grandes Sistemas, es decir, que es una versin del programa creada para este tipo de sistemas. DOS significa que es una versin del programa creada para funcionar en ordenadores personales bajo DOS. En la columna A.C.P. se indica si el programa efecta o no el verdadero A.C.P.
En la columna A.F. COV se indica si el programa permite efectuar un A.F.E.C.P. sobre la matriz de Covarianzas.

La ltima columna, Facil. indica si el programa tiene facilidades de programacin como para que, sin salir de l, y mediante programa, el usuario pueda convertir la solucin A.F.E.C.P. en genuino A.C.P. (Independientemente de que el paquete tenga o no A.C.P.).
En cada paquete se incluye la versin o el ao de creacin a su lado. Estas son las versiones a que el autor ha tenido acceso. Es posible que, con nuevas versiones, la situacin de la tabla anterior cambie ligeramente.

(2^
(3)

I MSL^ es marca registrada de I MSL lnc., Houston Texas USA


SPSSx y SPSS/PC + son marcas registradas de SPSS. Inc. Chicago Illinois USA

112

ESTADISTICA ESPAOLA

5.

SUSTITUCION DEL A.C.P. POR EL A.F.E.C.P.

En esta seccin dar algunos consejos prcticos a los investigadores que deseen realizar un A.C.P. En primer lugar, se debe intentar utilizar un programa que efecte el verdadero A.C.P. EI investigador aplicado no siempre sabe si su programa efecta o no el A.C.P., si ste es el caso, puede comprobarlo dndole como datos los del ejempio de la seccin 3 y viendo si la salida de su programa es la de C.P. o la de A.F. que se mencionan en esa seccin. Como regla ms sencilla, si se debe Ilamar al Anlisis Factorial para obtener las C.P., entonces el programa no efectuar, en general, un genuino A.C.P.

En caso de no tener acceso a un programa que efecte el verdadero A.C.P., el investigador puede hacer lo siguiente:
A) Bj Si va a trabajar con las variables tipificadas, utilizar la salida de A.F.E.C.P. y convertirla en A.C.P. como se dijo en la seccin 3 Si va a trabajar con las variables sin tipificar, deber tener, al menos, un programa que obtenga la solucin de A.F.E.C.P. sobre la matriz de covarianzas de las variables. Si no dispone de este programa, no podr realizar el A.C.P. En ningn caso debe decidir trabajar con las variables tipificadas si pensaba antes que deba hacerlo con ellas sin tipificar. Una posible solucin es programar o rnandar programar el modelo de A.C.P. La programacin de este modelo es relativamente sencilla, solamente es necesario disponer de una rutina de diagonalizacin ^e matrices simtricas.

En caso de que se utilice el A.F.E.C.P. y no se convierta luego en A.C.P. debido, por ejemplo, a que el programa utilizado no permita escribir la matriz factorial en un fichero de salida, el investigador debera resear en la publicacin o informe que se derive de su trabajo que el mtodo utilizado es el A. F. E.C.P., y no el A.C. P. Como se dijo en la seccin 3, el investigador debe, si ello es posible, especificar que el nmero de factores retenidos en A.F.E.C.P. sea igual al nmero de variables, para evitar trabajar con aproximaciones. Incluso puede efectuar dos anlisis, uno con los n factores y otro con los que retenga el algoritmo a partir de sus contrastes de hiptesis. Me remito a lo dicho en la seccin 3 a este respecto. Finalmente dir que no es ortodoxo rotar las C.P. Algunos investigadores lo hacen, aprovechando que lo que han realizado es un A.F. y no un A.C.P. Lo que sucede es que, en este caso se est rotando una solucin factorial y esto si es correcto. Ahora bien, debo puntualizar dos aspectos:

LA DIFICIL REALIZACION DE UN ANALISIS DE COMPUNENTES PRItiC:'IPALES

1 13

1)

EI A.F.E.C.P. es una mala aproximacin al modelo del Factor Principal del A.F., como se vi en la seccin 3, por tanto, el investigador obtendra mejores resultados rotando la solucin que el programa da por el modelo del Factor Principal.

2)

Si se utiliza el A.F.E.C.P. como aproximacin o sucedneo del A.C.P., entonces carece de sentido rotar la solucin factorial obtenida, pues^ las C.P. a las que se aproxima dejan de serlo si se rotan. En efector, las componentes principales cumplen unas propiedades de optimalidad que vimos en la seccin 2, y son nicas (salvo si hay autovalores repetidos en ^ y aun as no tienen el nivel de indeterminacin que las soluciones factoriales), y si se rotan con una rotacin factorial, dejan de ser C.P. En cambio, las soluciones factoriales s se pueden rotar, pues estn indeterminadas y no tienen propiedades de optimalidad. Precisamente al rotarlas, se hace por criterios que les confieren estas propiedades.

En resumen, tanto en 1), como en 2), vemos que no se debe rotar !a solucin obtenida por el A.F.E.C.P. ni, mucho menos,si obtenemos las verdaderas C.P. deben stas ser rotadas.

l ^^

f.S^T1f)1^^T^1( A f^tiP,At)1_,:^^

^IBLIOGRAEIA

GUTTMAN, L. (1975). What is Not What in Statistcs. The Statistician, VOIumen 26. Nm. 2, pags. 81-107.
HARMAN ,

H.H. (1980). Anlisis FactorialModerno. Ed. Salts, Madrid.

KSHIRSAGAR , MAINDONALD ,

A.M. (1972). Multivariate Analysis. Marcel Dekker, New York.

J.H. (1984). Statistical Computation. John Wiley. MoRR^soN, D.F. (1976). Multivariate Statistical Methods. McGraw Hill, (2nd. editionf . ^

SUMMARY
THE DIFFICULT TASK OF DOING A PRINCIPAL COMPONENTS ANALYSIS WHEN USING STANDARD

STAT I ST I CA L S O FTWA R E
The objective of this paper is to study in depth the problems related to doing a Principal Components Analysis when using standard statistical software. Its main topic is the confusion created among researchers by the use of statistical software that does not perform a true Principal Components Analysis but a Factor Analysis Using Principal Components Extract'ron Method. It is also explained how to translate this kind of analysis into Principal Components Analysis. Finally, references are given about software that performs a true Principal Components Analysis as^ we11 as some advices to applied researchers who wish to do a Principal Components Analysis regarding the best way to perform it. Keywords: Principal Components Analysis. Factor Analysis. Principal Factor. Factor Analysis whit Principal Components Extraction. Principal Components. Statistical Software.

A.M.S.: 62H99, 62H25, 68-04.

Das könnte Ihnen auch gefallen