Sie sind auf Seite 1von 25

ndice

1. Introduccin
2. Aspectos bsicos
3.Anlisis de correspondencias

1. Introduccin
Como se vio en temas anteriores, las tcnicas de anlisis multivariantes se clasifican en torno a
dos grandes categoras:

Mtodos de dependencia: en los que se parte de la hiptesis de existencia de una


relacin de dependencia o causalidad entre las variables objeto de anlisis
Mtodos de interdependencia: en las que no se asume la hiptesis de causalidad alguna
y por el contrario slo se persigue evaluar las asociaciones existentes entre las variables
analizadas.

Al igual que las dos tcnicas estudiadas en los temas perecederos (anlisis factorial y anlisis
clster), el anlisis de correspondencias constituye un mtodo de interdependencia de anlisis
multivariable.

Para tener una nocin inicial de la utilidad de esta tcnica, consideraremos un sencillo ejemplo
ilustrativo:

Supongamos que cierto mercado est compuesto por tres marcas principales: A,B y C y
suponemos tambin que el producto objeto de anlisis est tambin esencialmente definido por
tres atributos: Bueno, Bonito y Barato.
En esta situacin sera posible debido a una muestra de consumidores que nos indicaran con
cul de las tres marcas asocian ms claramente cada uno de estos atributos.

Imaginemos que la encuesta ofreciera los siguientes resultados:

Marca atributo Marca A Marca B Marca C TOTAL

Bueno 20 20 20 60

Bonito 40 10 40 90

Barato 20 10 40 70

TOTAL 80 40 100 220

La tabla anterior muestra un nmero de ocasiones en las que algn individuo asoci cada
marca con algn atributo. Por ejemplo, en este caso, se observa que la marca B ha sido
asociada 10 veces con el atributo bonito.

El objetivo principal del anlisis de correspondencias consiste en determinar un nmero


reducido de dimensiones que nos permita representar grficamente del modo ms simple
posible las asociaciones existentes entre las marcas, los atributos y entre las marcas y los
atributos. Mediante distancias en el espacio.

En este sentido, esta aplicacin concreta resulta de especial utilidad por ejemplo, en estudios de
imagen y posicionamiento de marca.

No obstante, las aplicaciones de esta tcnica son mucho ms amplias en el campo del marketing.
As por ejemplo, si en lugar de atributos tuviramos grupos de consumidores y las frecuencias
representaran el nmero de individuos de cada grupo que prefieren o han comprado cada marca,
los resultados del anlisis seran de gran valor como instrumento de segmentacin de mercado.

En general, el anlisis de correspondencias permite representar grficamente las


asociaciones derivadas de cualquier tipo de tabla de correspondencias.

2. Aspectos bsicos
% columnas % filas

Supongamos que contamos con una tabla de correspondencias en las que representan las
frecuencias cruzadas u observadas correspondientes a tres grupos de consumidores y a su
marca preferida entre un conjunto de posibles marcas.

En este caso, la muestra objeto de estudio est formada por 100 individuos que pertenecen a los
grupos 1 y 3, y 300 individuos que pertenecen al grupo 2. Es decir, la muestra est formada por
500 individuos.

Marca grupo Marca A Marca B Marca C TOTAL

Grupo 1 80 5 15 100

Grupo 2 100 90 110 300

Grupo 3 20 5 75 100

TOTAL 200 100 200 500

En este ejemplo, 90 individuos del grupo 2 tuvieron una preferencia o compraron la marca B.

En esta situacin, el propsito habitual en una investigacin sera averiguar si cada uno de los
grupos muestra o no una preferencia especialmente acusada por alguna de las marcas en
particular, o dicho de otro modo, si existe alguna relacin entre la pertenencia de un individuo a
un grupo y la pertenencia a alguna de estas tres marcas. Sera pues un ejemplo de estudio de
segmentacin.

Marca grupo Marca A Marca B Marca C TOTAL

Grupo 1 16% 1% 3% 20%

Grupo 2 20% 18% 22% 60%

Grupo 3 4% 1% 15% 20%

TOTAL 40% 20% 40% 100%


Normalmente, un anlisis de este tipo de datos estara basado en un estudio visual, bien de las
frecuencias observadas en trminos absolutos, bien de sus valores relativos.

Por ejemplo, si calculamos los valores porcentuales en relacin con los valores de la muestra
veramos que un 18% de la misma pertenece al grupo 2 y prefiri la marca B. Sin embargo, este
modo de afrontar el anlisis carece de inters ya que los valores calculados se ven afectados por
el tamao desigual de los grupos, lo que nos impedira extraer conclusiones en relacin con la
asociacin al grupo y la preferencia por la marca.

Marca grupo Marca A Marca B Marca C TOTAL

Grupo 1 40% 5% 8% 20%

Grupo 2 50% 90% 55% 60%

Grupo 3 10% 5% 38% 20%

TOTAL 100% 100% 100% 100%

Algo parecido pasara si calculramos los porcentajes en relacin con el total de cada columna,
en este caso el valor de 90% correspondiente a la combinacin grupo2, marca B que podra
llevarnos a sobrevalorar la preferencia de este grupo por esta marca, si tenemos en cuenta que su
tamao es tres veces mayor que los grupos restantes.

Marca grupo Marca A Marca B Marca C TOTAL

Grupo 1 80% 5% 15% 100%

Grupo 2 33% 30% 37% 100%

Grupo 3 20% 5% 75% 100%

TOTAL 40% 20% 40% 100%

Mucho ms ilustrativo sera calcular los porcentajes en relacin al total de la fila, as


observaramos que un 30% de los miembros del grupo 2 prefieren la marca B, dado que este
porcentaje no resulta muy distinto de los correspondientes a las marcas a y c, diramos que este
grupo no muestra una especial preferencia por ninguna de las marcas.

Al contrario ocurrira con el grupo 1 que prefiere la marca A y el grupo 3 que prefiere la marca
C.

Este resultado nos permite extraer conclusiones referentes a este anlisis.


No obstante, hay que aclarar que este ejemplo es muy simple, ya que ha medida que aumenten
el nmero de filas o columnas o que las relaciones sean menos evidentes, ser ms difcil esta
opcin. Sera conveniente contar con un indicador sinttico que nos proporciona una medida
simple de asociacin entre grupos y marcas

Frecuencia esperada

Por otra parte tenemos que sealas que trabajamos con datos muestrales por lo que cualquier
extrapolacin de resultados a un mbito poblacional requiere previamente de una evaluacin de
la significacin estadstica de los mismos.

Para solventar estos problemas (la necesidad de un indicador sinttico de asociacin y la


evaluacin de estadstica de la significacin de estos resultados) , generalmente se hace uso para
este tipo de datos del estadstico Chi-cuadrado.

El clculo de este estadstico requiere de la determinacin de las frecuencias esperadas, se trata


de las frecuencias tericas que corresponderan al reparto de las observaciones por filas y
columnas de forma proporcional al total de dichas filas y columna, es decir, aquellas frecuencias
tericas que corresponden a la hipottica situacin de ausencia total de asociacin entre las filas
y columnas, es decir, grupos y marcas para este caso.

Su clculo se basa en la frecuencias marginales observadas, es decir, en los totales de las filas,
columnas y el total de la muestra.
As la frecuencia esperado correspondiente a la celda 1.1 ser igual al producto de los totales de
su fila y su columna y divididos por el total de la muestra.

En este caso, lo valores de frecuencia resultantes sern 7

Marca grupo Marca A Marca B Marca C TOTAL

Grupo 1 40 20 40 100

Grupo 2 120 60 120 300

Grupo 3 40 20 40 100

TOTAL 200 100 200 500

Como vemos el valor de frecuencia esperada correspondiente al grupo 2 y a la marca B es de


60.

Insistiendo en que estos valores son referencias tericas con las que compararemos los
valores observados, cuanto mayores sean las diferencias entre ellos, mayor ser la
dispersin o heterogeneidad de cada caso, grupo o marca, en relacin con el
comportamiento general de la muestra.
Cuanto mayores son estas diferencias mayor es la varianza o dispersin de la muestra en
relacin a su media.

Chi-cuadrado

Partiendo de estos valores, calcularemos las contribuciones al estadstico chi-cuadrado de cada


celda ij como la diferencia al cuadrado entre su frecuencia observada/ esperada dividido entre la
frecuencia esperada.

Sumando los valores de estas contribuciones, obtendremos el estadstico chi-cuadrado.


Marca grupo Marca A Marca B Marca C TOTAL

Grupo 1 40,00 11,25 15,62 66,87

Grupo 2 3,33 15,00 0,83 19,17

Grupo 3 10,00 11,25 30,62 51,87

TOTAL 53,33 37,50 47,08 137,92

Segn los resultados anteriores, podemos decir que la combinacin grupo 2, marca C tendr un
comportamiento muy similar a la media y la combinacin grupo 1, marca A tendr un
comportamiento muy diferente al resto de la poblacin.

Por filas, el grupo 1 es el que tendr un comportamiento ms diferente a la media, mientras qye
el grupo 2 tendr un comportamiento ms similar.

Finalmente, el valor resultantes de Chi-cuadrado es de 137,92

Si conocemos el valor de Chi-cuadrado para 4 gl y deja a su derecha 5% de significacin, que es


9,48. En este caso al ser el valor experimental mayor que el terico (137,92 mayor que 9,48),
podemos rechazar la inexistencia de asociacin y admitir con seguridad la existencia de
asociacin entre marcas y grupos en este caso.

Hasta ahora, ni el estudio de las frecuencias esperadas ni del estadstico chi-cuadrado han
servido para lograr el objetivo inicial de hacer el anlisis de correspondencias.
3. Anlisis de correspondencias
El anlisis de correspondencias permite representar grficamente en un eje de coordenadas,
formado a partir de un nmero reducido de dimensiones, un conjunto de puntos representativos
de las filas y las columnas de la tabla de contingencia, de modo que las distancias entre dichos
puntos en el sistema de coordenadas reproduzcan lo ms fielmente posible las distancias
derivadas de la tabla de contingencias.

En el ejemplo que venimos desarrollando el grfico resultante sera el siguiente:

Como puede verse, en el aparecen representados en dos dimensiones las tres marcas
consideradas y los tres grupos de consumidores definidos en la muestra.

En este tipo de grficos o mapas , la interpretacin se basa en el estudio tanto de la ordenacin


de los puntos respecto a las dimensiones como de las distancias geomtricas existentes entre los
mismos y entre estos y el origen de coordenadas.

En relacin con este ltimo aspecto, debemos considerar que el origen de coordenadas
representa en este caso la preferencia general o preferencia media de la muestra. Por lo tanto,
una mayor distancia entre un grupo y dicho origen indicara que el grupo es tanto ms diferente
del conjunto de la muestra y viceversa.

En este caso comprobamos grficamente lo que ya anticipbamos al evaluar las contribuciones


de cada grupo al estadstico chi-cuadrado: que el grupo 2, el ms numeroso, es ms parecido a la
media de la muestra que los grupos 1 y 3.

Las tres marcas se encuentran casi equi-distantes del origen por lo que en este caso no parece
que ninguna de ellas tiene un comportamiento irregular.
Por otra parte, en algunos casos resulta tambin interesante analizar las distancias existentes
entre los propios puntos.

Se observa tambin cierta relacin entre los grupos con las diferentes marcas, que a vista del
planteamiento de este anlisis estara reflejando las preferencias de cada grupo por una marca.

En general, estas agrupaciones entre puntos filas y puntos columna sern ms evidentes cuanto
ms dispares sean sus respectivos perfiles.

Imagines un caso en el que la tabla de correspondencia tuviera 5 filas y 5 columnas como las
siguientes:

CA CB CC CD CE TOTAL

F1 35 30 5 18 5 93

F2 25 40 5 22 15 107

F3 20 15 20 25 20 100

F4 15 10 30 15 25 95

F5 5 5 40 20 35 105

TOTAL 100 100 100 100 100 500

En este caso tendramos que distinguir tres patrones diferentes de frecuencias entre las
columnas.
La columna D, se reparte de forma homognea para todas las filas. Es el caso tpico de un
punto con un comportamiento similar a la muestra.

Las columnas A y B, observamos frecuencias mayores en las primeras filas y menores en las
ltimas, diramos por tanto, que estas columnas tienen perfiles similares entre s.

Las columnas C y F, observamos que las frecuencias son mayores en las ltimas filas.

Si desarrollramos un anlisis de correspondencias para estos datos y trazamos un mapa de


correspondencias, obtendramos:

En primer lugar, el punto representativo de la columna D se encuentra muy cerca del origen de
coordenadas como cabra esperar a la vista de su perfil.

En segundo lugar comprobamos que el resto de los puntos se alejan del origen como
corresponde a perfiles en los que se observa un reparto heterogneo de la muestra.

Los puntos A y B estn ms cerca el uno del otro al menos en referencia con su proyeccin
sobre la dimensin primera. Esto es un reflejo de la similitud de estos dos perfiles.

Lo mismo ocurre con los puntos E y C cuyos perfiles son bastantes parecidos.
Las filas 1 y 2 se encuentran, al menos en lo que se refiere a la dimensin 1, ms cerca de las
columnas A y B como corresponde a las mayores frecuencias observadas para estos dos casos.

Mientras que por el mismo motivo, las filas 4 y 5 estn ms cerca de las columnas E y C.

En relacin con esta grfica y para aclarar cualquier duda hay que destacar que la dimensin
1 explica un 92,41% de la informacin contenida en la tabla de correspondencias original. Esto
puede leerse en la leyenda de dicha dimensin.

Por lo tanto, las distancias representadas en esta dimensin son mucho ms importantes que
las representadas en la dimensin 2 que slo explica un 5,62%.

Masa y centro de gravedad

Analizamos ahora dos nuevos conceptos que nos ayudan a comprender mejor la lgica que
subyace al anlisis de correspondencias: la masa de los puntos y su centro de gravedad.

Masa de un punto es la frecuencia marginal de la categora que representa. En otras


palabras, la masa de un punto de su categora es el nmero de casos que engloba.

Centro de gravedad de un conjunto de puntos es la media de los perfiles de los puntos fila
ponderados por sus respectivas masas que coincide con la media de los perfiles de los
puntos columna ponderados por sus respectivas masas.

El centro de gravedad es un punto de referencia terico que representa el comportamiento medio


o comportamiento general de la muestra.

Para comprender mejor la relacin entre estos dos conceptos y su impacto sobre la solucin
final del anlisis de correspondencias, analizaremos una serie de ejemplos presentados de forma
esquemtica.
Supongamos que en una dimensin de -9 a 10 se representaran dos puntos ubicados
respectivamente en -2 y +2.

Dado que cada uno de ellos representa un 50% de la masa total, es decir, como ambos tienen la
misma masa su centro de gravedad estar equi-distanteen ambos puntos. En este caso, el centro
de gravedad coincidir con el centro geomtrico y se situara en el punto 0.

Imaginemos ahora el punto situado en -2 engloba un 75% de la muestra, mientras que el punto
situado en 2 engloba nicamente un 25% de la misma.

En esta ocasin, el centro de gravedad estar 3 veces ms cerca del primero de los puntos ya
que su masa es 3 veces mayo, es decir, el centro de gravedad se desplazar hasta la
coordenada -1.

Si ahora tuviramos dos puntos situados en las coordenadas -2 y 10 con un 75 y un 25% de la


masa respectivamente el centro geomtrico se situara en la coordenada 4.

Sin embargo, si tenemos en cuenta las masas, el centro de gravedad debera estar en 1, es
decir, 3 veces ms cerca del punto con 3 veces ms masa.

Por ltimo si la distribucin de masas fuera inversa, 75% en 10 y 25% en -2, el centro de
gravedad debera desplazarse hasta ubicarse 3 veces ms cerca del punto que tiene 3 veces ms
masa, es decir, hasta la coordenada 7.

Para simplificar la interpretacin de los mapas resultantes la mayora de los paquetes de


software estadstico estandarizan las coordenadas de los puntos para hacer coincidir su centro
de gravedad con el origen de coordenadas manteniendo siempre las distancias relativas entre
los puntos.
En conclusin, podemos decir que el centro de gravedad es al anlisis de correspondencias lo
que una media es a un anlisis mtrico.

Concepto de Inercia

Anlogamente, si tuviramos que encontrar un equivalente a la varianza en el anlisis de


correspondencias ste sin duda sera el concepto de inercia.

En este sentido la inercia ofrece una medida de la dispersin de las categoras en relacin con el
centro de gravedad.

No obstante en este caso representa tambin un indicador del grado de asociaciones existentes
entre las variables analizadas.

Matemticamente como el coeficiente del estadstico Chi-cuadrado y el tamao total de la


muestra.

Definido as se deduce que para un tamao muestral determinado un incremento de la inercia


indicara un incremento de Chi-cuadrado que a su vez indicara un incremento de la dispersin.

Una mayor dispersin indica la existencia de mayores diferencias entre los perfiles de las filas y
entre los perfiles de las columnas que a su vez sugiere una mayor asociacin entre las variables
analizadas.

En conclusin, un incremento de la inercia estara reflejando un incremento de las


asociaciones existentes entre las variables representadas en filas y columnas.

Como en el caso de estadsticos chi-cuadrado tambin en este caso tiene sentido plantarse la
contribucin parcial de cada celda a la tabla de correspondencias a la inercia total de la muestra.

Su valor en este caso ser igual a su respectiva contribucin al estadstico chi-cuadrado dividido
por el tamao total de la muestra.

Tambin resulta de inters calcular la contribucin de cada fila o columna a la inercia total cuyo
valor ser tambin igual a su respectiva contribucin a chi-cuadrado dividido por el tamao de
la muestra.
Relacin entre masa, distancia e inercia

En el ejemplo anterior, chi-cuadrado 137,92 y el tamao de la muestra era de 500 individuos.


Dividiendo todos los elementos de la tabla de contribuciones chi-cuadrado por 500
obtendremos los valores de contribucin a la inercia.

En este caso, que la inercia total es de 0,2758. En realidad este valor representa la variabilidad
que pretende ser representada a travs del mapa de correspondencias

Marca grupo Marca A Marca B Marca C TOTAL

Grupo 1 0,0800 0,0255 0,0313 0,1338

Grupo 2 0,0067 0,0300 0,0017 0,0383

Grupo 3 0,0200 0,0225 0,0613 0,1038

TOTAL 0,1067 0,0750 0,0942 0,2758

Para ilustrar la relacin existente entre estos tres nuevos conceptos, vamos a mostrar una serie
de ejemplos que tienen como base el ejemplo que venimos desarrollando a lo largo de este tema.

Sin embargo, en esta ocasin sustituimos las frecuencias originales que reflejan la existencia de
una clara relacin de pertenencia a los grupos y la preferencia de los individuos por cada una de
las marcas, por las frecuencias esperadas derivadas de dichos valores.

Marca grupo Marca A Marca B Marca C TOTAL

Grupo 1 40 20 40 100

Grupo 2 120 60 120 300

Grupo 3 40 20 40 100

TOTAL 200 100 200 500

Tal y como se definieron, estas frecuencias esperadas representan una referencia terica al caso
de ausencia de relacin entre filas y columnas, si calculamos el estadstico chi-cuadrado
correspondiente a esta tabla es 0 y corresponde a la ausencia de relaciones, si calculamos la
inercia tambin es igual a 0.

Si desarrollamos el mapa de correspondencias para el grupo con estos datos, vemos que los tres
aparecen en el origen de coordenadas. Esto es lgico, el perfil de los grupos son proporcionales
entre s y proporcionales a los perfiles de la muestra.
Como vemos en la anterior tabla, los tres perfiles de las filas mantienen las proporciones 2,1,2
que se repite los totales de las columnas.

Sobre la base de esta tabla, realizaremos una serie de cambios en ciertas celdas de modo que se
mantengan siempre constantes los totales de las filas y las columnas.

Comenzaremos sumando 10 unidades en la celda grupo 1- marca A, restaremos en la celda


grupo 1- marca C para volver a sumarlas en la celda grupo 3-marca C y volver a restarlas en la
celda grupo 3-marca A.

Marca grupo Marca A Marca B Marca C TOTAL

Grupo 1 50 20 30 100

Grupo 2 120 60 120 300

Grupo 3 30 20 50 100

TOTAL 200 100 200 500

Con estos nuevos datos el valor de chi-cuadrado asciende en esta ocasin a 10.

Marca grupo Marca A Marca B Marca C TOTAL

Grupo 1 2.5 0,0 2,5 5,0

Grupo 2 0,0 0,0 0,0 0,0

Grupo 3 2,5 0,0 2,5 5,0

TOTAL 5,0 0,0 5,0 10,0


Sin embargo, comprobamos que dicho ascenso es nicamente debido a la contribucin
ocasionada por la variacin introducida en las cuatro celdas. Hay que destacar que tanto las dos
filas como las dos columnas que han sido modificadas tienen exactamente la misma masa. Esto
da lugar a que los incrementos en las contribuciones chi-cuadrado de los dos grupos
modificados sean iguales.

Veamos grficamente las consecuencias producidas por estos cambios sobre la solucin del
anlisis de correspondencias.

En esta ocasin, los puntos representativos de los grupos 1 y 3 se han distanciado del centro. Sin
embargo, es necesario destacar algunos matices importantes.

En primer lugar, observamos que el distanciamiento de los grupos 1 y 3 con respecto al origen
de coordenadas o centro de gravedad tiene lugar en sentidos opuestos.

Este hecho es el reflejo de la magnitud y el sentido de los cambios introducidos en la tabla de


correspondencias original. Dichos cambios han decantado al grupo 1 hacia la marca A en la
misma magnitud que lo han distanciado de la marca C. Justamente al contrario que lo que le ha
ocurrido al grupo 3.

En segundo lugar, la separacin de los dos grupos con respecto al centro de gravedad es
idntica. Esto es un reflejo de la confluencia de dos hechos:

- Que ambos grupos tienen la misma masa, un 20%.


- Que su contribucin a la inercia es idntica porque representan desviaciones idnticas
respecto a la media de la muestra ya que en ambos casos la inercia se deriva de un
cambio de 10 elementos respecto al valor original.

Por tanto, en este caso observamos que un cambio de la misma magnitud en dos puntos por la
misma masa ocasiona un distanciamiento de la misma magnitud aunque en sentido contrario
entre dichos puntos y el centro de gravedad.
Ahora vamos a realizar un cambio diferente respecto a la tabla original. En esta ocasin el
cambio es de nuevo de 10 observaciones, pero en esta ocasin afecta a dos filas y a dos
columnas con masas diferentes. El cambio afecta al grupo 2 que tiene 3 veces ms masa que el
grupo 1 que se ve tambin afectado.

Marca grupo Marca A Marca B Marca C TOTAL

Grupo 1 50 10 40 100

Grupo 2 110 70 120 300

Grupo 3 40 20 40 100

TOTAL 200 100 200 500

En este caso, el valor de chi-cuadrado coincide con el de el ejemplo anterior, 10. Sin embargo,
el reparto de las contribuciones es muy distinto.

Marca grupo Marca A Marca B Marca C TOTAL

Grupo 1 2.5 5,0 0,0 7,5

Grupo 2 0,8 1,7 0,0 2,5

Grupo 3 0,0 0,0 0,0 0,0

TOTAL 3,3 6,7 0,0 10,0

Grficamente esto se refleja en un distanciamiento desigual de los dos grupos con repecto al
origen de coordenadas.
El grupo 1, tres veces ms pequeo tiene una contribucin a chi-cuadrado y a la inercia tres
veces mayor y se separa tres veces ms del centro.

En definitiva, podemos concluir que la distancia de un punto al origen de coordenadas es


inversamente proporcional a su masa, que es inversamente proporcional a su contribucin a la
inercia de la muestra.

Una vez que hemos analizado algunos de los conceptos esenciales sobre los que se sustenta el
anlisis de correspondencias, ha llegado el momento de conocer los fundamentos del proceso
de extraccin de los factores que compondrn el sistema de coordenadas sobre los que se
representarn los puntos filos y columna.

Todo este proceso se basa en el clculo previo de la matriz x.

Se trata de una matriz de dimensin pxq, es decir, nmero de filas por nmero de columnas de
la tabla de correspondencias formada por los elemento xij . Cada uno de dichos elementos se
calcula como el cociente de su frecuencia relativa menos el producto de las frecuencias
marginales de su fila y su columna entre la raz cuadrada de dicho producto.

En esta matriz los elementos de la diagonal principal tienen la particularidad de valer la raz
cuadrada de la contribucin a la inercia de la casilla ij correspondiente.

A partir de esta matriz x se calculan las matrices de inercia de las filas Vf y de las columnas Vc.

La primera de ellas, la matriz de inercia de las filas, se calcula como el producto de X por su
transpuesta (X)

La segunda, la matriz de inercia de las columnas, se calcula como el producto de la transpuesta


de X por X.
En el ejemplo que venimos desarrollando la inercia total es de 0,2758 y la contribucin a la
inercia de cada uno de los grupos es de 0,13; 0,3 y 0,10 respectivamente.

En este caso, la matriz X estara formada por los siguientes nueve elementos:

Marca grupo Marca A Marca B Marca C

Grupo 1 0,2828 -0,1500 -0,1768

Grupo 2 -0,0816 0,1732 -0,0408

Grupo 3 -0,1414 -0,1500 0,2475

Multiplicando esta matriz por su traspuesta, obtenemos la matriz de inercia de las filas, de los
grupos en este caso:

Marca grupo Marca A Marca B Marca C

Grupo 1 0,1338 0,0419 -0,0613

Grupo 2 -0,0419 0,0383 -0,0245

Grupo 3 -0,0613 -0,0245 0,1038

0,2758

La diagonal principal representa los valores de contribucin a la inercia de cada uno de los
grupos, la traza o suma de los valores de su diagonal principal es igual a la inercia total de la
tabla.

Anlogamente, el producto de X` x X nos proporciona la matriz de inercia de las columnas, es


decir, de las marcas.

Marca grupo Marca A Marca B Marca C

Grupo 1 0,1067 -0,0354 -0,0817

Grupo 2 -0,0354 0,0750 -0,0177

Grupo 3 -0,0817 -0,0177 0,0942

0,2758

Nuevamente, la diagonal principal representa la contribucin a la inercia de cada una de las


marcas y la traza o suma de valores de su diagonal principal es igual a la inercia total de la tabla.
Extraccin de los factores

De esta manera podemos proceder a extraer los factores que contribuyen la verdadera solucin
del anlisis de correspondencias.

De forma parecida al proceso seguido en el anlisis factorial se trata de diagonalizar la matriz de


filas Vf resolviendo el sistema de ecuaciones determinado por sus ecuaciones caractersticas.
Las soluciones a este sistema nos proporcionaran los valores y vectores propios que permitirn
calcular las coordenadas de las filas en el espacio formado por los r vectores de la solucin final.

Anlogamente, la resolucin del sistema de ecuaciones formado por las ecuaciones


caractersticas de la matriz de inercia de las columnas nos proporcionaran los valores y vectores
propios que permitirn calcular las coordenadas de las columnas en el espacio formado por las r
dimensiones de la solucin final.

Vamos a centrarnos en la interpretacin de los resultados.

SPSS o Statistica nos ofrecer el valor propio de cada factor resultante de los sistemas de
ecuaciones anteriores.

El cuadrado de estos valores nos proporciona una indicacin de la inercia explicada por cada
uno de los factores de la solucin final. Cada uno de estos valores nos proporciona una
indicacin de la capacidad explicativa de cada uno de los factores o dimensiones.

La suma de la inercia explicada por todos los factores posibles es igual a la inercia total de la
tabla de correspondencias. No obstante, la interpretacin directa de estos valores resulta poco
aclaratoria. Mucho ms ilustrativo resultan los valores relativos de inercia explicada.

Dim. Valor propio Inercia % inercia %inercia Chi-cuadrado


acumulada

Dim 1 0,4293 0,1842 66,79 66,79 92,12

Dim 2 0,3026 0,0916 33,21 100,0 45,79

TOTAL 0,7318 0,2758 100,0 137,91

En este caso el primero de los factores indica un 66,79% de la inercia total frente al 33,21%
explicado por el segundo factor.

Estos valores son equivalentes a los porcentajes de varianza explicada. En este caso,
comprobamos que la capacidad explicativa de l primer factor o dimensin es el doble que el
segundo.
Debemos aclarar que el nmero mximo de factores o dimensiones que pueden extraerse en un
anlisis de correspondencias es igual al menor de los dos valores siguientes: nmero de filas -1
u nmero de columnas -1.

En este caso, el valor es de 3-1 igual a 2. 2 es el mximo nmero de posibles dimensiones. Con
una solucin tan sencilla no tiene demasiado sentido plantearse la posibilidad de desechar una o
varias de las dimensiones para reducir la complejidad del modelo resultante. En este caso
retendramos las dos dimensiones, lo que nos permitira reproducir el 100% de la inercia total
inicial, es decir, toda la informacin derivada de la tabla de correspondencias.

En problemas ms complejos, es decir, con mayor nmero de filas y columnas, lo normal es que
tratemos de simplificar la solucin final renunciando a aquellas dimensiones que ofrecen una
menor capacidad explicativa.

Esta tabla nos ofrecer en estos casos una indicacin de las dimensiones a desechar y de la
cantidad de inercia que dejamos de explicar como consecuencia de esta decisin.

La ltima columna de esta tabla, Chi-cuadrado, es el resultado de multiplicar el valor de inercia


explicada por cada dimensin por el tamao de la muestra. Este valor considerado junto con sus
grados de libertad nos proporciona la posibilidad de contrastar la significacin de las diferencias
existentes entre las coordenadas de los puntos en relacin con cada una de las dimensiones.

Una vez extraidos los factores es posible calcular los valores de las coordenadas de los puntos
respecto a los mismos. En la tabla siguiente, se muestran los valores de dichas coordenadas de
las filas, grupos en este caso, calculadas por el paquete estadstico. As como los valores de las
coordenadas de las columnas, marcas en este caso.

PUNTO Dim 1 Dim 2 Dim3

Grupo 1 0,7754 -0,2597 0,20

Grupo 2 -0,0705 0,2414 0,60

Grupo 3 -0,5505 -0,4645 0,20

Marca A 0,5070 -0,0979 0,40

Marca B -0,1310 0,5982 0,20

Marca C -0,4415 -0,2012 0,40

Se trata de valores estandarizados, de modo que la suma de dichas coordenadas ponderadas por
su masa es igual a 0 para cada una de las dimensiones.

En este caso tan simple podra tener sentido detenernos a analizar los valores numricos de estas
coordenadas, lo lgico, abordar la interpretacin de su representacin grfica.
En este caso, y aunque ya hemos hecho previamente esta interpretacin, comprobamos que el
grupo 2 es tres veces ms numeroso que los dos restantes, muestra una pauta de preferencias
ms parecida a la pauta media de la muestra. Este hecho resulta lgico si pensamos que el
impacto de este grupo sobre la configuracin del comportamiento medio de la muestra es tres
veces mayor que el ocasionado por el grupo 1 y 3.

Por marcas no se observa, al menos en el grfico, que ninguna de ellas tenga un comportamiento
especialmente diferente al resto ya que todas ellas se encuentran casi equidistantes del centro.

La conclusin ms evidente de este ejemplo se deriva de las agrupaciones observadas entre


grupos y marcas.
En este caso, observamos que el grupo 1 muestra una preferencia especial por la marca A y que
el grupo 3 muestra tambin una gran preferencia por la marca C. La marca B encuentra en el
grupo 2 su principal foco de demanda.

Se trata de un sencillo ejemplo por lo que nos e pueden extraer conclusiones ms ricas.

La interpretacin de los resultados del anlisis de correspondencias puede apoyarse tambin en


el anlisis de los indicadores de calidad y en las contribuciones de las filas y las columnas.

Normalmente, los diferentes paquetes estadsticos ofrecen una tabla resultante en la que cara
cada fila y columna nos proporciona los indicadores siguientes.

Punto Calidad Inercia Contribucin Contribucin Contribucin Contribucin


relativa absoluta 1 absoluta 2 relativa 1 relativa 2

G1 1,0000 0,4849 0,6527 0,1473 0,8992 0,1008

G2 1,0000 0,1390 0,0183 0,3817 0,0880 0,9120

G3 1,0000 0,3761 0,3289 0,4711 0,5841 0,4159

Marca 1,0000 0,3869 0,5581 0,0419 0,9614 0,0359


A

Marca 1,0000 0,2719 0,0186 0,7814 0,0458 0,9542


B

Marca 1,0000 0,3414 0,4232 0,1768 0,8281 0,1719


C

Nos proporciona una indicacin de la inercia relativa de cada punto, este valor se interpreta
como la proporcin de la inercia total que es debida a cada uno de los puntos. Esto nos da una
idea del comportamiento de cada punto en relacin con el comportamiento general de la
muestra. Cuanto mayor sea este valor ms diferente ser el comportamiento del punto
correspondiente en relacin con la muestra de la media y viceversa.

Estos valores suman 1 para el total de las filas y para el total de las columnas.

Tambin se muestra un indicador de calidad. Este valor representa la proporcin de la


contribucin a la inercia de cada punto que es reflejada por las dimensiones retenidas en la
solucin final.

Se trata de un indicador semejante a la comunalidad del anlisis factorial.

Cuando se han retenido todas las posibles dimensiones este valor ser igual 1 para todos los
puntos.

Cuando se haya desechado alguna dimensin, el valor de la calidad se acercar tanto ms a 1


cuanto mayor sea la capacidad de la solucin resultante de representar correctamente la inercia
introducida por el punto en cuestin.
Llamamos contribucin absoluta a la proporcin de la inercia explicada por el factor k que es
debida al punto x. Este valor nos ofrece una indicacin de la importancia de cada dimensin
para explicar correctamente la informacin relativa a determinado punto.

En este caso comprobamos que la dimensin 1 es mucho ms importante para representar las
diferencias entre los grupos 1 y 3 que para explicar el comportamiento del grupo 2. Los valores
suman 1 para el total de las filas y para el total de las columnas en cada una de las dimensiones.

Finalmente, llamamos contribucin relativa de la dimensin k al punto x a la proporcin de


inercia debida al punto x que es explicada por la dimensin k. Este valor nos ofrece una
indicacin de la relacin existente entre cada punto y cada una de las dimensiones.

Por este motivo, y siempre que la naturaleza de los puntos nos proporcionen informacin
adicional este indicador resulta de gran inters a la hora de interpretar el significado intrseco de
cada una de las dimensiones. Podra decirse que se trata del equivalente a las cargas factoriales
en el anlisis de correspondencias.

En este caso, la dimensin 1 permite fundamentalmente distinguir el comportamiento de los


grupos 1 y 3 y de las marcas A y C , mientras que la dimensin 2 tiene como utilidad principal
diferenciar el comportamiento del grupo 2 y de la marca B.

La suma de estas contribuciones para cada punto y para el total de las dimensiones es igual a la
calidad de la solucin. Por lo tanto si se han retenido las dimensiones este valor ser igual a 1.
En caso contrario, esta suma ser tanto ms cercana a 0 cuanto mayor sea la prdida de
informacin que la informacin resultante suponga en relacin con el punto en cuestin.

Das könnte Ihnen auch gefallen