Sie sind auf Seite 1von 17

UNIVERSIDAD CENTRAL DEL ECUADOR

Facultad de Ingeniera Escuela de Ciencias Fsicas y Matemticas ANALISIS DE DATOS

Anlisis de Correspondencia Simple

Integrantes: Castro Andrea

Pgina 1

ANALISIS DE DATOS

CONTENIDO
Pg.

I. II. III. IV.

Introduccin.................................................................................3 Objetivos .........................................................................................3 Conclusiones....5 Bibliografa......5

Pgina 2

ANALISIS DE DATOS

ANALISIS DE CORRESPONDENCIA SIMPLE


I. INTRODUCCION

El anlisis de Correspondencias Simple, es un mtodo que nos permite describir sistemticamente una tabla de contingencia, donde recogemos las frecuencias de aparicin de dos variables cualitativas, constituye el equivalente de componentes principales para variables cualitativas. La informacin de partida es una matriz de dimensiones I x J, que representa las frecuencias absolutas observadas de dos variables cualitativas de n elementos. La primera variable se representa por filas y suponemos que toma I valores posibles. En general una tabla de contingencia es un conjunto de nmeros positivos dispuestos en una matriz, donde el nmero de cada casilla representa la frecuencia absoluta observada para esa combinacin de las dos variables. El Anlisis de Correspondencias es una tcnica estadstica que se aplica al anlisis de tablas de contingencia y construye un diagrama cartesiano basado en la asociacin entre las variables analizadas. En dicho grfico se representan conjuntamente las distintas modalidades de la tabla de contingencia, de forma que la proximidad entre los puntos representados est relacionada con el nivel de asociacin entre dichas modalidades. Preguntas de investigacin que se pueden resolver mediante ACS Existe alguna relacin entre la opinin de los padres acerca de ser hijo nico y el nivel cultural Estn determinados atributos de los coches relacionados con determinadas marcas. Existe alguna relacin entre tener o no estrs laboral y el sector al que se pertenece en la universidad.

Pgina 3

ANALISIS DE DATOS

II.OBJETIVOS Analizar simultneamente todas las variables para encontrar una estructura de menor dimensin que explique el comportamiento de los individuos segn la estructura de las modalidades de las variables. Descubrir y describir las dimensiones fundamentales de un fenmeno que trabaje con variables categricas y nos proporcione mapas perceptuales que permitan una representacin fcilmente comprensible.

Permite estudiar las formas que adoptan las relaciones entre las variables cualitativas. Reducir a travs de factores las dimensiones de las variables de estudio.

III.PROCEDIMIENTO PARA REALIZAR EL ANALISIS DE CORRESPONDENCIA SIMPLE ETAPAS BASICAS Preparar tablas de contingencia: Perfiles filas y columnas Distancias chi-cuadrado entre filas y columnas Valores propios e inercia de valores propios Contribuciones absolutas y relativas Coordenadas de filas y columnas Representacin factorial de filas y columnas .

COMO SE REALIZA EN ANALISIS DE CORRESPONDENCIA SIMPLE En principio, las debemos hacer una tabla de contingencia ( tabla cruzada) con las dos variables cualitativas (ests estn clasificadas en factores). Debemos luego calcular una medida de homogenizacin, en estadstica se utiliza chi-cuadrado, que no es otra cosa que la diferencia elevada al cuadrado de la frecuencia observada menos la frecuencia esperada dividida sobre el total de datos observados. Ahora toca la parte ms importante, definir el nmero de dimensiones a utilizar. Como estamos estudiando el anlisis de correspondencia simple, el numero de dimensiones es dos (k = 2). Pgina 4

ANALISIS DE DATOS

Como estamos trabajando con una tabla cruzada, cada fila puede ser considerada como un punto dotado de masa, en un espacio de f dimensiones. De igual manera, cada columna puede ser considerada como un punto dotado de masa, en un espacio de c dimensiones. Con esto obtendremos un nuevo espacio conformado por C dimensiones: C = min (f,c) 1 Teniendo en cuenta que cada punto tiene un peso o ponderacin igual a su masa, un estadstico adecuado para medir la dispersin de la nube de puntos ser la inercia. La inercia es el promedio de las distancias de los distintos puntos a su centro de gravedad, estando cada distancia ponderada por la masa del punto correspondiente. La inercia total ser la misma tanto si la nube de puntos corresponde a la representacin de la filas como si corresponde a las columnas. Luego obtenemos los cuadros de pesos, distancia al origen e inercia de los puntos-filas y de los puntos-columnas. En estos cuadros identificamos que factores son los ms determinantes. UTILIDAD DEL ANALISIS DE CORRESPONDENCIAS Como lo decimos en la definicin: el anlisis de correspondencia es una tcnica para analizar la homogeneidad entre las categoras de cada una de las variables. Con la prueba de chi-cuadrado de independencia, se poda ver si dos variables eran independientes o no, hasta se podra saber el grado de dependencia de las mismas. Pero, dichas medidas no permitan detectar en que consistan las similitudes entre las categoras de cualquiera de las dos variables o la dependencia entre ellas. El anlisis de correspondencia, si me permite identificar esta similitud.

Pgina 5

ANALISIS DE DATOS

1. Tabla de contingencia Los elementos del anlisis de correspondencias se ilustran a continuacin utilizando una tabla lxica agregada pequea (tabla 3.1), construida a partir de las respuestas a la pregunta abierta: En su opinin porque le ha ido bien con el caf?., de una encuesta a fincas cafeteras. Los textos se han conformado con la variable: tipologa del productor, con las modalidades: 1. Empresarios tecnificados modernos. Em.Te.Mo. 2. Tecnificados modernos: Te.Mo. 3. Campesinos tecnificados modernos: Ca.Te.Mo. 4. Campesinos tradicionales: Ca.Tr

Las ocho palabras son utilizadas en 351 respuestas. Cada celda representa el nmero de utilizaciones de la palabra de la fila por el grupo de cafeteros de la columna. Por ejemplo la palabra agricultor fue utilizada cuatro veces por el grupo de cafeteros tecnificados modernos. La ltima columna es la marginal de las palabras, es decir el nmero de veces que es utilizada cada palabra por todos los cafeteros encuestados. La ltima fila es la marginal que representa el nmero de veces que cada grupo de cafeteros utilizaron las ocho palabras. 2. Tablas de perfiles fila y columna Pgina 6

ANALISIS DE DATOS

La lectura ms interesante de la informacin contenida en una tabla de contingencia es la comparacin entre filas y entre columnas. En la tabla de frecuencias relativas las filas y las columnas estn influenciadas por el peso relativo de sus marginales. La comparacin se facilita obteniendo las distribuciones condicionales o perfiles de cada una de las filas y de cada una de las columnas. Para obtener la distribucin condicional de una fila, se dividen todas las celdas de esa fila por el valor total de la fila. De manera anloga se obtienen las condicionales de las columnas. Se llega entonces a dos tablas: una de perfiles fila y otra de perfiles columna. La tabla de perfiles fila es la tabla 3.2, en donde se incluye la distribucin marginal, es decir la frecuencia relativa con que fueron utilizadas las ocho palabras en conjunto por los cuatro grupos de cafeteros. En la figura 3.1 aparece la misma informacin en forma de histograma de barras.

Pgina 7

ANALISIS DE DATOS

Cada perfil fila representa la distribucin de frecuencias con que cada palabra es utilizada por los cuatro grupos de agricultores. Por ejemplo la palabra propietario fue utilizada con mayor frecuencia por los cafeteros tcnificados modernos (41.2%) y con menor frecuencia por los cafeteros empresarios tecnificados modernos (4.7%). La distribucin marginal es la distribucin de la frecuencia de uso de todas las ocho palabras entre los cuatro grupos de agricultores. Se observa una frecuencia de uso muy similar.

Pgina 8

ANALISIS DE DATOS

En el anlisis de correspondencias simples (ACS) se busca una representacin ms adecuada para analizar simultneamente los perfiles fila y columna obtenidos a partir de una tabla de contingencia. Cuando se tienen tablas de contingencia de gran tamao es muy difcil obtener una sntesis apropiada de forma como se hizo en el ejemplo. Para el ACS se parte de la representacin de los perfiles lnea en un espacio multidimensional, donde las columnas son los ejes y simtricamente de otra nube de perfiles columna, donde las lneas son los ejes. Para ello se requiere del uso de una distancia apropiada: la distancia jicuadrado entre distribuciones. Podemos hacer lecturas fciles para representaciones geomtricas en dos dimensiones, pero es imposible leer ms de tres dimensiones, entonces es necesario hacer proyecciones sobre planos, buscando que se conserven lo mejor posible el conjunto de las distancias originales.
Representacin geomtrica de los perfiles A partir de la tabla de contingencia se obtiene la tabla de frecuencias relativas dividiendo cada celda por el total de la tabla. Esta tabla representa la distribucin de frecuencias conjunta de las palabras y los textos, en el caso de la tabla lxica agregada. Para el ejemplo esta tabla es la 3.4, que se obtiene dividiendo cada celda de la tabla 3.1 por 351. El valor 7.4 de la celda (1,1) significa que el 7.4% de las formas grficas corresponden a la palabra administracin y pertenecen al texto de los cafeteros empresarios tcnicos modernos. La ltima fila (columna) es la distribucin marginal.

Pgina 9

ANALISIS DE DATOS

Una notacin generalizada de una tabla de frecuencias relativas es la siguiente:

donde n es el nmero de filas y p el nmero de columnas; i y j son los ndices para las filas y las columnas, respectivamente; fi. y f.j son las marginales fila y columna, respectivamente. Las tablas de perfiles tambin se pueden obtener de la tabla de frecuencias de la misma forma que de la tabla de contingencia.

Pgina 10

ANALISIS DE DATOS

Nube de perfiles fila


En el espacio Rp se representan los n perfiles fila, dotados del peso pi = fi.

Nube de perfiles columna En el espacio Rn cada punto representa un perfil columna y esta dotado de un peso igual a la marginal la respectiva columna.

La distancia ji-cuadrado entre perfiles La distancia ji-cuadrado entre dos perfiles lnea i e i viene dada por:

Para el caso de dos lneas, esta distancia, es la suma de la diferencia de cada una de las respectivas componentes de los dos perfiles, ponderadas por el inverso de las frecuencias marginales de las columnas respectivas (ver figura 3.3).

Figura 3.3: Significado de la distancia ji-cuadrado


Pgina 11

ANALISIS DE DATOS

Con este peso las diferencias se amplifican cuando se deben a columnas de baja frecuencia, es decir tiende a destacar los casos raros. De manera simtrica, la distancia entre perfiles columna es:

La distancia ji-cuadrado se puede escribir como una distancia euclidiana convencional, lo cual se ha ilustrado en el ejemplo:

Solucin del anlisis de correspondencias simples ACS Lo que se tiene hasta ahora son dos representaciones que contienen la informacin de la tabla de contingencia: la nube de perfiles fila y la nube de perfiles columna, con puntos ponderados, centradas y con una inercia asociada. Esta informacin es apta para llevar a cabo dos anlisis de componentes principales con ponderacin, que consiste en la proyeccin de la nube de puntos fila (columna) sobre subespacios de dimensin reducida
escogidos de forma que la proyeccin conserve la mayor dispersin posible. La solucin tiene propiedades particulares derivadas de la propiedades de las tablas de perfiles. Para encontrar el subespacio (plano de proyeccin, en el caso de dos dimensiones), que se aproxime lo mejor posible a la nube de n puntos (perfiles fila i), dotados de los pesos fi., se hace un anlisis en componentes principales de la matriz Y, cuyo trmino general est dado en la ecuacin 3.9, con la mtrica N = diag(fi.), es decir la matriz diagonal que contiene las marginales fila de la tabla de frecuencias, asociada a la tabla de contingencia. La matriz a diagonalizar es A = ZZ, donde

Pgina 12

ANALISIS DE DATOS

El vector de coordenadas de todos los individuos sobre el eje individuo i la coordenada es, entonces:

es: . Para un

el vector de coordenadas de los individuos sobre un eje est centrado y tiene como norma el valor propio asociado:

Para todos los perfiles y se verifica:

El anlisis de los perfiles columna en Rn se obtiene de la misma manera, intercambiando los papeles de los subndices i y j. Las coordenadas sobre los ejes factoriales son, entonces:
y el vector de coordenadas sobre un eje factorial es:

y el vector de coordenadas sobre un eje factorial es:

Relaciones entre los espacios fila y columna El anlisis tiene propiedades que permiten obtener la solucin para la nube de puntos columna a partir de la solucin de la nube de puntos fila o viceversa, mediante las siguientes relaciones de transicin entre los espacios fila y columna:

Pgina 13

ANALISIS DE DATOS

Vectores propios de un espacio en funcin del otro

Coordenadas en funcin de los vectores propios del otro espacio

Pgina 14

ANALISIS DE DATOS

Las palabras cercanas (si estn bien representadas en el plano) tienen perfiles similares. Las ms cercanas son: CULTIVO y PROPIETARIO, es necesario verificar la calidad de representacin en el plano, es decir la suma de cosenos cuadrados de los dos primeros ejes,esta son: 83% y 71%, para las dos palabras respectivamente. En parte la cercana se debe a la proyeccin. La palabra ms cercana al perfil medio es MANEJO, lo cual es tambin cierto en el espacio original pues tiene la menor distancia al origen (0.01), esto se haba observado directamente en los perfiles.

Pgina 15

ANALISIS DE DATOS

CONCLUSIONES El anlisis de correspondencia Simple nos permite encontrar las similitudes, disimilaridades y distancias entre las variables cualitativas y los individuos. Al evaluar la distancia entre los individuos de la Tabla de Datos, implica producir un mensaje que da cuenta de las informaciones elementales contenidas en dicha Tabla. Podemos representar grficamente la informacin , ndices de similitud y distancias. El ACS nos ayuda a evaluar el nivel de asociacin, que existe entre las caractersticas observadas, de los individuos en estudio. La idea fundamental del ACS es Observar para comparar, luego Analizar donde se produce un mensaje, y finalmente obtenemos los Resultados es decir interpretamos el mensaje.

Pgina 16

ANALISIS DE DATOS

BIBLIOGRAFIA Analisis de Datos Multivariantes ,Daniel Pea PRESTA, Eduardo Crivisqui Dillon W., M. Goldstein; Multivariate Anlisis. John Wiley & Sons. (1984)

Pgina 17

Das könnte Ihnen auch gefallen