Sie sind auf Seite 1von 12

Análisis de Correspondencias

y Análisis de Correlación
canónico

Integrantes: Karen Cáceres, Fernando Cuevas Juan José Prieto


Introducción

En el presente trabajo se tratará de nuestra investigación del análisis de correspondencia y el análisis


de correlación canónica. En donde describiremos que son estos análisis, para que se utilizan,
mostraremos ejemplos de estos análisis en el programa R, entre más cosas.

Para empezar, les contaremos de que se trata cada análisis. El análisis de correspondencia es una
técnica de reducción de dimensiones, una técnica para visualizar una nube de puntos
multidimensional en dos dimensiones. Consiste, como las demás técnicas de reducción de
dimensiones, en un procedimiento de traslado de una nube de puntos definida en un espacio de
muchas dimensiones a un espacio de dos dimensiones donde poder visualizar la posición relativa de
unos puntos. Este traslado se hará respetando al máximo las posiciones relativas de los puntos en
la nube de puntos original.

El análisis de correlación canónica se utiliza para identificar y medir las asociaciones entre dos
conjuntos de variables. La correlación canónica es apropiada en las mismas situaciones donde la
regresión múltiple sería, pero donde hay múltiples variables de resultado interrelacionadas. El
análisis de correlación canónica determina un conjunto de variables canónicas, combinaciones
lineales ortogonales de las variables dentro de cada conjunto que explican mejor la variabilidad
tanto dentro como entre conjuntos.
Análisis de Correspondencia

El Análisis de Correspondencias es una técnica descriptiva o exploratoria cuyo objetivo es resumir


una gran cantidad de datos en un número reducido de dimensiones, con la menor pérdida de
información posible. En este aspecto su objetivo es similar al de los métodos factoriales, salvo que
en el caso del análisis de correspondencias el método se aplica sobre variables categóricas u
ordinales.

Este análisis se enfoca a construir un modelo espacial que muestra las asociaciones entre un
conjunto de variables categóricas, el análisis de correspondencia tiene una historia relativamente
larga (ver de Leeuw 1983) pero durante un largo período solo se usó de forma rutinaria en Francia,
en gran parte debido a los esfuerzos casi evangélicos de Benzécri (1992). Pero hoy en día el
método se usa bastante más ampliamente y a menudo se aplica para complementar, digamos, una
prueba de independencia de Chi cuadrado para dos variables categóricas que forman una mesa de
contingencia.

Fig. 1.1 Escalamiento multidimensional no métrico de las distancias percibidas los lideres de la
segunda guerra mundial.

La tabla general de contingencia bidimensional en la que hay “r” filas y “c” columnas se pueden
escribir como:
Ejemplo:
Considere los datos que se muestran en la Tabla 1.2 relacionados con la influencia de las niñas edad
en su relación con su novio. En esta tabla, cada una de las 139 chicas tiene ha sido clasificado en uno
de tres grupos:

ˆ no novio;

ˆ novio / sin relaciones sexuales; o

ˆ novio / relaciones sexuales.

Además, se registró la edad de cada niña y se usó para dividir a las niñas en cinco grupos de edad

Tabla 1.2: datos de teensex. La influencia de la edad en las relaciones con novios

El cálculo de la solución de escalamiento multidimensional clásico bidimensional. basado en la fila y


en la columna chi-cuadrado la medida de distancia puede ser computado vía cmdscale (); Sin
embargo, primero tenemos que calcular lo necesario. matrices de distancia de fila y columna, y lo
haremos configurando una pequeña función de conveniencia de la siguiente manera:
La aplicación de MDS clásico a cada una de estas matrices de distancia proporciona las coordenadas
bidimensionales con las que construir nuestro “mapa” de los datos. Trazar aquellos con etiquetas
adecuadas y con los ejes adecuadamente escalados. para reflejar la mayor variación en la dimensión
uno que en la dimensión dos (ver Greenacre 1992) se logra utilizando el código R presentado.

El escalamiento multidimensional y el análisis de correspondencia apuntan a ayudar en


comprensión de tipos particulares de datos mediante la visualización gráfica de los datos.

Fig. 1.2 Análisis de correspondencia para datos de relaciones adolescentes


Los puntos que representan los grupos de edad en la Figura 1.2 dan una dimensión bidimensional.
Representación en la que la distancia euclidiana entre dos puntos representa la distancia chi-
cuadrado entre los grupos de edad correspondientes (y de manera similar para los puntos que
representan el tipo de relación). Para una tabla de contingencia. con “r” filas y “c” columnas, se
puede mostrar que las distancias chi-cuadradas se puede representar exactamente en min r - 1, c -
1 dimensiones; aquí, ya que r = 3 y c = 5, esto significa que las distancias euclidianas en la Figura
1.2 en realidad igual a las distancias chi-cuadradas correspondientes (a los lectores les gustaría
revisar que este es el caso como ejercicio). Cuando tanto r y c son mayores que tres, una
representación bidimensional exacta de las distancias chi-cuadradas no es posible. En tales casos,
las coordenadas bidimensionales derivadas se dan solo una representación aproximada, y así la
cuestión de la adecuación del ajuste tendrá que ser abordado. En algunos de estos casos, más de
dos dimensiones pueden ser requeridas para dar un ajuste aceptable. Al examinar la trama de la
Figura 1.2 vemos que cuenta la historia histórica de chicas que viajan en su adolescencia,
inicialmente sin novio, luego adquiriendo un novio, y luego teniendo sexo con su novio, una
historia que ha roto los corazones de los padres en todas partes, al menos temporalmente, hasta
sus esposas sugieren que se reflejan en el momento en que ellos mismos eran adolescentes.

El escalamiento multidimensional aplicado a matrices de proximidad suele ser útil para descubrir
las dimensiones sobre las cuales se hacen los juicios de similitud, y la correspondencia. El análisis a
menudo permite una mayor comprensión del patrón de relaciones en una tabla de contingencia
que una simple prueba de chi-cuadrado.
Análisis de correlación canónica

El análisis de correlación canónica es un tipo de análisis estadístico linear de múltiples variables,


descrito inicialmente por Hotelling (1935). Actualmente se usa en química, biología, meteorología,
demografía, inteligencia artificial, ciencias del conocimiento, ciencias políticas, sociología,
psicometría, investigaciones de educación y ciencias de administración para analizar relaciones
multidimensionales entre múltiples variables independientes y múltiples variables dependientes.
Aunque el ACC está documentado en libros de texto, y se encuentra en paquetes computacionales,
existen ciertos problemas técnicos y de interpretación que impiden su uso rutinario por los
investigadores.

El análisis de correlación canónica (CCA) es un método estadístico exploratorio multidimensional


que funciona según el mismo principio que el análisis de componentes principales. El propósito
principal del enfoque de correlación canónica es la exploración de correlaciones de muestras entre
dos conjuntos de variables cuantitativas observadas en las mismas unidades experimentales. Por
otro lado, el método PCA trata con un solo conjunto de datos e intenta reducir la dimensionalidad
general del conjunto de datos utilizando una combinación lineal de las variables iniciales.

En esta sección consideramos dos conjuntos de variables con una distribución conjunta y analizamos
las correlaciones entre las variables de un conjunto y las del otro conjunto.

Encontramos un nuevo sistema de coordenadas en el espacio de cada conjunto de varía de tal


manera que las nuevas coordenadas muestran sin ambigüedad el sistema de correlación. Más
precisamente, encontramos combinaciones lineales de variables en los conjuntos que tienen
máxima correlación; estas combinaciones lineales son las primeras coordenadas en los nuevos
sistemas. Luego una segunda combinación lineal en cada conjunto se busca de tal manera que la
correlación entre estos es el máximo de correlaciones entre tales combinaciones lineales que no
están correlacionadas con las primeras combinaciones lineales. El procedimiento continúa hasta
que os nuevos sistemas de coordenadas están completamente especificados.

El método estadístico esbozado es de particular utilidad en la exploración estudios. El investigador


puede tener dos grandes conjuntos de variables y puede querer estudiar las interrelaciones. Si los
dos conjuntos son muy grandes, él puede querer para considerar solo unas pocas combinaciones
lineales de cada conjunto. Entonces querrá estudia esas combinaciones de cerca más altamente
correlacionadas. Por ejemplo, un conjunto de variables pueden ser medidas de características
físicas, tales como varias largos y anchuras de cráneos; las otras variables pueden ser medidas de
características mentales, como las puntuaciones en las pruebas de inteligencia.
Ejemplo:
A continuación, los datos consisten en dos conjuntos de datos donde cada conjunto de datos
representa mediciones en algunas localidades fluviales específicas (64-65) en la República Checa. El
primer conjunto de datos contiene mediciones de métricas biológicas para cada localidad (17
métricas y taxones diferentes) el cual llamaremos “bioData” y el conjunto de datos de la segunda
sección contiene mediciones sobre concentraciones químicas y valores en las mismas localidades (7
covariables registradas) el cual llamaremos “chemData”.
La idea es relacionar de alguna manera ambos conjuntos de datos para explicar qué bio métricas
pueden correlacionar con qué concentraciones químicas. Una forma de responder a esto es aplicar
el enfoque de correlación canónica que se explica a continuación:

> bioData <- read.csv("http://msekce.karlin.mff.cuni.cz/~maciak/NMST539/bioData.csv", header = T)


> chemData <- read.csv("http://msekce.karlin.mff.cuni.cz/~maciak/NMST539/chemData.csv", header
= T)

Hay una localidad a la que le falta el conjunto de datos de mediciones químicas. Identificamos esta
localidad y no la consideramos para un análisis más detallado. Ambos conjuntos de datos están
alineados con respecto a los nombres de la localidad, la primera columna de cada conjunto de datos.
Una buena herramienta gráfica para ver ambos conjuntos de datos con respecto a su estructura de
correlación general (dentro y entre ellos) está disponible dentro del paquete R “CCA” (Análisis de
correlación canónica).

Primero se deben instalar los paquetes “CCA” y luego se pueden usar las funciones “matcor” y
“img.matcor” para mostrar gráficamente la matriz de corrección:

> correl <- matcor(X, Y )


> img.matcor(correl, type = 2)
X correlation Y correlation

Cross-correlation

-1.0 -0.5 0.0 0.5 1.0


> ccxy <- cc(X, Y)
>
> ccxy$cor
[1] 0.87496109 0.70496586 0.64579693 0.48750752 0.24205299 0.11563830 0.04481277
>
> ccxy$xcoef [,1] [,2] [,3] [,4] [,5]
SaprInd -1.29215593 -0.71208465 -1.28375231 -3.90455380 -1.48327854
Lital 0.03016713 -0.01426461 -0.24578343 -0.05726539 0.13904193
RETI -2.57333615 0.43796849 5.50118696 -10.18802625 -19.90373428
EPTAbu 0.01706380 0.04030396 -0.07165399 0.06624389 0.04656845
Marg 0.09455561 0.30083342 -0.07672439 -0.52294063 -0.20351082
Metaritr 0.09700644 -0.01231092 0.34133200 0.09666181 -0.02392126
JepAbu -0.04102657 -0.05007014 0.03213722 -0.07578209 -0.15711118
Epiritral -0.08280877 -0.18566767 -0.11093592 -0.16911362 0.14860557
[,6] [,7]
SaprInd -0.78470889 0.54743742
Lital 0.03544229 -0.10535158
RETI 24.19083206 9.07796019
EPTAbu -0.04287297 0.10142843
Marg -0.23787363 0.08750829
Metaritr -0.21922842 -0.39397046
JepAbu -0.04243728 -0.02011427
Epiritral -0.18065638 0.37623175
>
> ccxy$ycoef
[,1] [,2] [,3] [,4] [,5]
Tepl_max -0.021655562 0.25072104 -0.17597710 0.12359074 -0.21175146
X.O2 -0.009091381 0.03290426 0.04675311 -0.09883567 -0.07574285
BSK5 -0.119397849 -0.42977239 -0.22221500 0.98831837 -0.21279604
Kond -0.020200461 -0.01131786 -0.03398730 0.01066252 0.01434420
N.NH4 -2.438456583 -3.43262261 8.98226493 0.69723729 -6.49286301
N.NO3 0.083091342 0.24553537 0.42427365 0.25099867 0.18130960
Pcelk -3.275677981 7.77348979 1.55608323 -24.38314016 6.41181959
[,6] [,7]
Tepl_max 0.19283168 0.0574292361
X.O2 -0.16732142 -0.0009230045
BSK5 -0.97352834 -0.9939598209
Kond -0.02806672 0.0306370503
N.NH4 0.98300520 4.4906473759
N.NO3 -0.09184423 0.0365071542
Pcelk 11.49104203 -9.0898757913
>

Se pueden aprovechar las herramientas gráficas disponibles (del paquete ”CAA”) para el análisis de
correlación canónica. La idea es mostrar las correlaciones maximizadas entre las variables
transformadas del conjunto de datos X y el conjunto de datos Y.
> plt.cc(ccxy, var.label = TRUE, ind.names = data[,1])

Representaciones de
variables (arriba) y
unidades (abajo) :
Bibliografía
 Links:

http://www.karlin.mff.cuni.cz/~maciak/NMST539/cvicenie11.html

https://cran.r-project.org/doc/contrib/rdebuts_es.pdf

https://estadisticaorquestainstrumento.wordpress.com/2013/07/06/tema-27-analisis-de-
correspondencias/

http://www.fuenterrebollo.com/Economicas/ECONOMETRIA/REDUCIR-
DIMENSION/CORRESPONDENCIAS/correspondencias.pdf

 libros

An Introduction to Multivariate Statistical Analysis (T. W. ANDERSON)

Multi_Brian Everitt, Torsten Hothorn-An Introduction to Applied Multivariate Analysis with R (Use R)-
Springer(2011).

Das könnte Ihnen auch gefallen