Análisis Multivariante en La Investigación Comercial

Anlisis Multivariante en la Investigacin Comercial
Asignatura: Investigacin de Mercados II Centro: Universidad Autnoma de Madrid
...............................................................................................1 TEMA 1: EL ANALISIS MULTIVARIANTE EN INVESTIGACION COMERCIAL...............................................................................4 Introduccin..............................................................................................4 Definicin del AM......................................................................................4 Diseos y conceptos bsicos del AM........................................................5 Tratamientos previos de los datos. ..........................................................9 Supuestos del AM...................................................................................11 Clasificacin de los mtodos del AM.......................................................13 Programas Informticos..........................................................................14 Ejercicio 1...............................................................................................14 TEMA 2: EL ANALISIS FACTORIAL..............................................16 Definicin y objetivo del AF. ..................................................................16 Conceptos bsicos..................................................................................17 Distincin entre AF y ACP.......................................................................18 Supuestos del ACP. (Son especficos del ACP)........................................19 Diseo del ACP. (Procedimientos)...........................................................20 Caso practico..........................................................................................25 Tratamiento de los datos con DYANE y SPSS.........................................38 Ejercicio 2...............................................................................................45 TEMA 3: EL ANALISIS FACTORIAL DE CORRESPONDENCIAS ........50 Introduccin............................................................................................50 Definicin y objetivo del AFC. ................................................................51 Conceptos bsicos del AFC.....................................................................52 Supuestos del AFC. ................................................................................53 Diseo del AFC........................................................................................53 Casos prcticos con DYANE....................................................................54 Ejercicio 3...............................................................................................65 TEMA 4: EL ANALISIS CLUSTER.................................................69 Introduccin............................................................................................69 Definicin y objetivo del AC....................................................................70 Conceptos bsicos del AC.......................................................................70 Supuestos del AC. ..................................................................................70 Diseos del AC........................................................................................72 Casos prcticos con DYANE....................................................................76 Ejercicio 4...............................................................................................77 TEMA 5: LA REGRESIN MULTIPLE............................................82 Introduccin............................................................................................82 Definicin y objetivo de la RM................................................................84 Trminos y conceptos bsicos de la RM.................................................85 Supuestos de la RM. ..............................................................................88 Tamao muestral....................................................................................89 Diseo de la RM......................................................................................89
Casos prcticos con DYANE y SPSS........................................................90 Anlisis de Supuestos de la RM............................................................104 Ejercicio 5.............................................................................................116 TEMA 6: EL ANLSIS DISCRIMINANTE......................................119 Introduccin..........................................................................................119 Definicin y objetivo.............................................................................120 Conceptos y trminos bsicos del AD...................................................120 Supuestos del AD..................................................................................123 Diseo del AD.......................................................................................123 Casos prcticos.....................................................................................124 Ejercicio 6.............................................................................................155 TEMA 7: EL ANLSIS multivariante de la varianza (MANOVA)....160 Introduccin..........................................................................................160 Definicin y objetivo.............................................................................162 Trminos y conceptos bsicos del MANOVA.........................................164 Supuestos bsicos del MANOVA. .........................................................169 Diseo del estudio con el MANOVA......................................................170 Casos prcticos con SPSS.....................................................................171 Ejercicio 7.............................................................................................182 TEMA 9: LA REGRESIN LOGSTICA (MODELO LOGIT)................187 Introduccin..........................................................................................187 Objetivo de la RL..................................................................................187 Modelo de la RL....................................................................................187 Diseo del estudio con la RL. ...............................................................188 Medicin de la variable dependiente....................................................188 Estimacin del modelo.........................................................................188 Supuestos bsicos de la RL. ................................................................188 Bondad de ajuste..................................................................................189 Interpretacin de los resultados...........................................................190 Comparacin de los modelos: regresin, discriminante y logit............192 Casos prcticos con SPSS.....................................................................193 Ejercicio 9.............................................................................................199
TEMA 1: EL ANALISIS MULTIVARIANTE EN INVESTIGACION COMERCIAL
Estructura de la clase: 1. Introduccin. 2. Definicin del AM. 3. Diseos y conceptos bsicos del AM. 4. Tratamientos previos de los datos. 5. Supuestos del AM. 6. Clasificacin de los mtodos del AM. 7. Programas informticos. Introduccin. En primer lugar, cuando queremos examinar un sistema complejo de actividades comerciales, muchas veces no es suficiente utilizar tcnicas univariantes y hay que ir al empleo del AM. Cuando el nmero de variables que influyen simultneamente y de forma importante en el problema que queremos tratar es elevado (no solamente una o dos, sino un nmero elevado de variables), entonces tenemos que utilizar el AM. Debemos reflexionar que sera mejor emplear: anlisis univariante, anlisis bivariante o anlisis multivariante. Si queremos analizar por separado variables utilizaremos el anilisis univariante y bivariante. En el caso de necesitar un anlisis en conjunto, emplearemos tcnicas multivariantes. Con esta tcnica determinaremos si las variables estn influyendo en los grupos que estudiamos y por lo tanto nos sirve para analizar las relaciones mltiples. Si queremos utilizar /analizar mltiples variables simultneamente, tenemos que utilizar tcnicas multivariantes. Definicin del AM. El AM se puede definir como: Las tcnicas estadsticas utilizadas para tratar mltiples variables que se deben analizar simultneamente, y cuyos efectos no tienen sentido si se interpretan por separado. Son las tcnicas estadsticas que miden, explican y predicen relaciones entre ms de dos variables cuando sus efectos no tienen sentido si se interpretan por separado. Valor terico: Es el elemento esencial del AM. Combinacin de todas las variables. Debemos sintetizar todas las variables en un solo valor terico. (Muchas veces hay que ponderar mltiples variables de modo emprico).
Diseos y conceptos bsicos del AM. (Diseo de una investigacin de mercados---flujo del AM) Los pasos a seguir al realizar una investigacin se pueden resumir como sigue: Definir el objetivo a travs de un estudio previo. Establecer las hiptesis. Seleccionar variables y escalas. Establecer la metodologa (instrumentos, muestreo, etc.) Seleccionar la tcnica multivariante ms apropiada. Determinar el nivel de significacin (alpha). Coleccionar datos. Evaluar los supuestos bsicos de la tcnica multivariante. Estimacin del modelo multivariante y valoracin del ajuste del modelo. Interpretar el valor terico (rechazar o no las hiptesis). Validacin e interpretacin de los resultados. 1) Definir el objetivo a travs de un estudio previo Primeramente, tenemos que determinar el objetivo del estudio. A continuacin, investigaremos la literatura existente para establecer el estado del arte. Definir para qu queremos realizar el trabajo: objetivos. Para ello analizamos los estudios realizados anteriormente sobre el tema. Determinamos as qu queremos realizar en el trabajo, es decir, justificar la pretensin del trabajo. Hay dos cosas importantes Conocimiento y creatividad. Hay que establecer un objetivo pero justificarlo a travs de la revisin bibliogrfica. 2) Establecer las hiptesis Establecemos las hiptesis que queremos validar o rechazar mediante el estudio. 3) Seleccionar variables y escalas Despus, tenemos que determinar el tipo de variables y escalas a emplear. La palabra variable se refiere a una magnitud cuyos valores son objeto de estudio. Estos valores pueden tomar dos tipos bsicos de datos, no mtricos (cualitativos) o mtricos (cuantitativos). Segn el tipo de datos, tendremos que determinar el tipo de escalas que queremos utilizar para el estudio. Hay cuatro tipos de escalas. Escalas Nominal Caractersticas Identifica por categoras mutuamente excluyentes Los nmeros no tienen valor matemtico Ordenacin de las categoras. Los nmeros no dan informacin de la distancia
Ordinal
entre categoras. Intervalo Identifica una distancia constante entre categoras. Tiene un origen arbitrario. Razn Se puede realizar comparacin proporcional entre categoras. Tiene un origen absoluto. A la hora de determinar las preguntas del cuestionario, tener en cuenta los cuatro tipos de escalas porque cada tcnica multivariante requiere un determinado tipo de variables (mtricas y no mtricas). Respecto al primer trabajo, es aconsejable incluir entre 15-20 "atributos" que se puedan medir en una escala de intervalo que tenga 5 o 7 grados, para de esta manera poder utilizar el ACP o el AC. Tambin, os conviene incluir variables que se puedan medir en una escala nominal para poder utilizar el AFC. Finalmente, si incluimos variables mtricas con una escala de razn, tales como gastos mensuales (de una determinada marca, etc.), ingresos, tiempo, etc., podremos utilizar algunas tcnicas de dependencia, por ejemplo, regresin mltiple y anlisis discriminante, para el segundo trabajo. Para convertir valores no mtricos en mtricos:
Desacuerdo opiniones
Acuerdo
Ordenamos las
Escala de Likert: Con 5 grados, tambin lo hay con 7 grados. Siempre es mejor tener ms grados. Completamente en desacuerdo -2 Ms o menos en desacuerdo No sabe, no contesta Ms o menos de acuerdo Completamente de acuerdo -1 0 +1 +2
4) Establecer la metodologa (instrumentos, muestreo, etc.) Tras seleccionar variables y escalas, ahora tendremos que establecer la metodologa. 5) Seleccionar la tcnica multivariante ms apropiada. Despus, seleccionaremos la tcnica multivariante ms adecuada, y a continuacin, determinaremos el nivel de significacin.
6) Determinar el nivel de significacin (alpha). El nivel de significacin est fuertemente relacionado con el llamado error de medida. Debemos aumentar el nivel de significacin para aumentar el valor del estudio y para ello hay que disminuir el error de medida. Cuanto mayor nivel de significacin mejor. El error de medida es el grado en que los valores observados no son representativos de los valores verdaderos. (Se pueden cometer errores, no coincidiendo x con X). El error de medida es importante porque cuando calculamos correlaciones o medias, normalmente el efecto verdadero est parcialmente camuflado por este error de medida, causando la perdida de precisin. Es decir, la presencia del error de medida produce distorsiones en las relaciones observadas y debilita el poder de las tcnicas multivariantes. Para valorar el grado de error de medida, hay que considerar dos factores importantes, que son la fiabilidad y la validez. (conceptos que hay que incluir en trabajo) La fiabilidad es el grado en que la variable observada mide el valor verdadero y est libre de error. Si la misma medida se realiza muchas veces, las medidas fiables llegarn a los mismos resultados. La fiabilidad puede verse perjudicada por el error aleatorio. El error aleatorio es el sesgo transitorio que no es necesariamente idntico en todas las mediciones. Ejemplos de este tipo de error son errores de codificacin, sesgos de entrevistadores, caracteres de los entrevistados, etc. La validez se define como el grado en que la medida representa con precisin lo que se supone que representa. Por ejemplo, si queremos medir los gastos en actividades de ocio, no preguntaremos por los gastos totales de las economas domsticas. La validez puede verse perjudicada tanto por el error aleatorio como por el error sistemtico. El error sistemtico es el sesgo permanente en todas las mediciones. Por ejemplo, errores en los tems de la escala, ausencia de claridad en el cuestionario, etc. Por ello, el investigador debe minimizar el error de medida maximizando tanto la fiabilidad como la validez del instrumento de investigacin.
Todas las tcnicas multivariantes, excepto el anlisis cluster y el anlisis multidimensional, se basan en la inferencia estadstica de los valores de una poblacin o la relacin entre variables de una muestra. Si estamos realizando un censo de toda la poblacin, entonces no tenemos que preocuparnos de la inferencia estadstica por que lo que medimos es la media verdadera. Pero muchas veces no podemos utilizar la poblacin total, y por lo tanto, nos vemos obligados a hacer inferencias de una muestra y aceptar el nivel de error estadstico
Para interpretar las inferencias estadsticas, tenemos que determinar el nivel aceptable de error estadstico. Se tienen que establecer hiptesis nula Ho. Se suelen comparar las medias determinando que una o dos medias sean iguales o distintas. El modo de aproximacin ms comn es determinar el nivel de error de Tipo I, que tambin se llama alfa. El error de Tipo I es la probabilidad de rechazar la hiptesis nula cuando es cierta. O dicho de otra manera, la probabilidad de que la prueba estadstica muestre significacin estadstica cuando en realidad no est presente. Al determinar el nivel de error de Tipo I, tenemos que fijar tambin el segundo tipo de error, que es el error de Tipo II o beta. El error de Tipo II es la probabilidad de fallar en rechazar la hiptesis nula cuando es realmente falsa. Dicho de otra manera, nuestro objetivo es minimizar estos dos tipos de errores, el error de Tipo I y Tipo II, y maximizar el nivel de confianza (1-alfa) y la potencia (1-beta). Realidad Decisin Rechazar H0 No rechazar H0
Aceptar H0
Cierta Error Tipo I Potencia 1-
Falsa Nivel de Confianza 1- Error Tipo II
Error tipo 1 : Probabilidad de rechazar la Ho cuando a es cierta al tener que rechazarse cuando es falsa Error tipo 2: Probabilidad en fallar en rechazar la Ho cuando es realmente falsa, es decir, no rechazar la Ho cuando es falsa. Debemos minimizar estos dos tipos de errores y al mismo tiempo estamos maximizando el nivel de confianza y potencia. Si no tenemos el suficiente nivel de confianza y potencia, el estudio no tiene valor. Establecer el nivel de significacin es importante y por ello, tenemos que seguir determinados pasos para poder determinarlo: a. Establecer la Ho (Hiptesis nula) y la H1 (Hiptesis alternativa) b. Elegir la prueba estadstica c. Fijar el nivel de significacin (alfa) d. Calcular estadstico. e. Se compara el estadstico calculado con el terico. Si es mayor se rechaza H0. Si es menor no se rechaza Ho. 7) Recopilar datos 8) Evaluar los supuestos bsicos de la tcnica multivariante.
9) Estimacin del modelo multivariante y valoracin del ajuste del modelo. 10) Interpretar el valor terico (rechazar o no las hiptesis). 11) Validacin e interpretacin de los resultados: (en el trabajo esta ltima parte debe tener implicaciones para el mundo real. Ej: para qu sirven los resultados para la empresa, para la vida real ----lo valorar mucho en el trabajo)
Tratamientos previos de los datos. Antes de procesar los datos es importante saber que hemos conseguido cumplir una serie de supuestos. Existen dos razones que explican la importancia de realizar un buen anlisis de los datos: - Cuanto ms cuidado tengamos en analizar los datos, mejor ser la prediccin y podremos determinar ms fcilmente las relaciones entre las variables. - Las tcnicas multivariantes requieren muchos ms datos y supuestos ms complejos que las tcnicas univariante o bivariantes. Hay que ver si cumplen una serie de supuestos. Muchas veces los efectos del incumplimiento de los supuestos no se representan directamente en los resultados, sino que tienen un efecto importante sobre la naturaleza e interpretacin de los datos. Es fundamental observar las variables individualmente, pero tambin hay que ver las relaciones entre las variables conjuntamente. Para ello. Hacemos los siguientes tratamientos: Examinar grficamente los datos para saber la forma de la distribucin, analizar las relaciones entre variables, y analizar las diferencias entre grupos. Tratar datos ausentes mediante mtodos de imputacin Detectar casos atpicos y eliminarlos si no son aleatorios. Examinar grficamente: Hay que examinar la forma de la distribucin y para ello podemos utilizar: Histograma: Representacin grfica de los datos que muestra la frecuencia de los datos en categoras. Es una forma muy til de averiguar si existe una distribucin normal, si los datos siguen una distribucin normal. Es el primer mtodo de examen grfico. Grfico de dispersin: Se analizan las relaciones bivariantes. Es un conjunto o representacin grfica de los puntos de datos basados en dos
variables. Se investiga si la relacin entre las dos variables es aproximadamente lineal. Grfico de cajas y bigotes: Se analiza las diferencias entre grupos, es el anlisis para detectar casos atpicos. Se transforma la distribucin normal en cajas y bigotes. La lnea de la caja representa el valor de la mediana La lnea de fuera de la caja se llama bigote y representa un cuartil. Con este podemos distinguir diferencias entre grupos. Es una forma til de identificar casos atpicos porque, al transformar la distribucin, los datos que queden fuera de un cuartil sern los casos atpicos. Se representan con asteriscos o crculos. Datos ausentes: Hay que determinar si existen datos ausentes, ya que son una molestia para nosotros. Tenemos dos opciones: Eliminar casos para evitar el sesgo. Por lo que eliminamos y no utilizamos esos datos. Hay que averiguar si los datos son decisorios o no. A veces, el eliminar datos no es bueno porque tendramos menos datos, y no conseguimos un nivel de significacin aceptable. No eliminar casos y sustituir datos ausentes. Tres mtodos: a) Sustitucin por la media: la media es el valor ms representativo de una poblacin, por ello sustituimos los datos por la media. b) Sustitucin por valor constante: hay que buscar algn valor que creamos que representa esta poblacin, igual es necesario buscar estudio semejante. c) Imputacin por regresin: para predecir el valor ms representativo
Casos atpicos: Hay que decidir si emplearlos o eliminarlos. Hay que eliminarlos si no son aleatorios. Podemos emplear: Procedimientos univariantes: el concepto de la distribucin normal para ello tenemos que tipificar o estandarizar los datos. Si podemos aplicar el proceso de estandarizacin de datos: media igual a cero, desviacin estndar igual a 1
Si el tamao de la muestra n< 80, podemos eliminar los datos fuera de 2.5 Si el tamao n>80: > 4 Procedimientos bivariantes: diagramas cajas y bigotes.
Procedimientos multivariantes: D2 Mahalanovis. Es una forma de medir la distancia con la media estandarizada. Si tenemos un conjunto de datos, en primer lugar hay que determinar el punto o centroide de todas las variables (x) y luego medir la distancia para cada variable con una media estandarizada. Por ello, cuando existe un caso atpico podemos medir su distancia y podemos decir en comparacin con otras distancias si es o no atpico.
Supuestos del AM. Para evitar los sesgos ms importantes, por qu debemos saber si los datos cumplen los supuestos. Hay dos razones principales: 1. Las relaciones entre una gran cantidad de variables son muy complejas, hablamos de muchos datos, y para estudiar estas relaciones utilizamos las tcnicas multivariantes. Y cuando no cumplen los supuestos, los sesgos sern ms potentes, al igual que las distorsiones. 2. Los procedimientos multivariantes estiman el modelo multivariante y producen resultados estadsticos an cuando no cumplen los supuestos. Podemos estar analizando cosas que no tienen que ver con la realidad. Las tcnicas multivariantes tienen que cumplir los supuestos doblemente: tienen que cumplir los supuestos como variables aisladas, y tienen que cumplir los supuestos de las variables multivariantes. Entonces, para poder aplicar las tcnicas multivariantes, se suponen las siguientes condiciones o supuestos: Normalidad: cumplirlo es importante porque muchas tcnicas multivariantes tiene que utilizar las estadsticas de la prueba T y la F, y para emplearlas es necesario que la distribucin sea normal.
Homocedasticidad: consiste en suponer que las variables dependientes tengan los mismos niveles de dispersin desde el punto de vista de la variable independiente. Es importante para muchas tcnicas multivariantes que utilizan las mtricas de varianza ya que es necesario que existan iguales niveles de dispersin ( como ejemplo anlisis discriminante )
Linealidad: Es importante porque muchas tcnicas multivariantes tienen que utilizar el concepto de correlacin. Es necesario que exista una relacin lineal entre las dos variables. En las tcnicas multivariantes hay que calcular las correlaciones, para lo cual se debe cumplir el supuesto de linealidad.
Ausencia de errores correlacionados: consiste en suponer que cualquiera de los errores de prediccin es independiente del resto. Son errores que no estn correlaciones, que son independientes.
Clasificacin de los mtodos del AM.

TCNICAS DE DEPENDENCIA
A D
N e
T p
A e
S n
V d
A R I A B i e n t e s
I L
I Z
A R
R e
I A S D E P E l a c i n s i m
D p
I E l e
SU R
N e
A l a
D c
E P E N D i n s i m
I E N p l e
I E
TE
ES
SC
I E
I C
I C
I C
I N
E E P S E C N A D L IAE
NI N T D E
E SE P S E C N A D L I A E
NI N T D E
ES
I E
I NC
OA
T MR
EI C T A R
I NC
OA
T MR
EI C T A R
I NC
OA
I C
r r . c
a n M
A n
iN c Oa
VR
AE
E CS
OI O N N J U
ND T I S O C
I ML
O .
I T
TCNICAS DE INDEPENDENCIA
I O
I A
J E
I S
I S
R A I AN L A
I S
I S
L U
S T C E Rm
s e
i d
e n
l o s
a t r i b
u t o
I C NA O
I C
F C
Para realizar una investigacin comercial multivariante hay que realizar los siguientes preguntas: podemos dividir las variables en dependientes o independientes? cuntas de estas variables son tratadas como dependientes? cmo son las variables medidas ( el tipo de escala ) ?
Programas Informticos. Vamos a utilizar dos programas : SPSS y Dyane Ejercicio 1 1. Define el anlisis multivariante con sus propias palabras. 2. Por qu es importante el conocimiento de las escalas de medida para planificar una investigacin de datos multivariante? 3. Relaciona, distingue, y explica los siguientes trminos: nivel de significacin, potencia, error de Tipo I y error de Tipo II. 4. Cules son los mtodos bsicos para examinar las caractersticas de los datos en el anlisis multivariante? Por qu son necesarios e importantes? 5. Discute la siguiente afirmacin: para utilizar la mayora de las tcnicas multivariantes no es necesario que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y ausencia de errores correlacionados. 1. Define el anlisis multivariante con sus propias palabras. Son aquellas tcnicas estadsticas que nos van a ayudar a analizar al mismo tiempo un conjunto de variables. El efecto de cada una de estas variables independiente de las otras no tiene sentido, pero analizadas simultneamente su efecto tiene interpretacin. 2. Por qu es importante el conocimiento de las escalas de medida para planificar una investigacin de datos multivariante? Existen dos tipos de escalas: mtricas y no mtricas. Si los datos son no mtricos, no dan valores matemticos, sin embargo, si son mtricos si que dan valores matemticos. Por tanto, es crucial conocer que escala para determinar que tcnica multivariante es ms apropiada en funcin de la escala.
3. Relaciona, distingue, y explica los siguientes trminos: nivel de significacin, potencia, error de Tipo I y error de Tipo II. Nivel de significacin: me indica en que medida el valor observado es representativo de la muestra. Error tipo I: se define como la probabilidad de que se rechace la hiptesis de un posible valor cundo este es cierto. Error tipo II: se define como la probabilidad de que se acepte la hiptesis de un posible valor cundo este es falso.
4. Cules son los mtodos bsicos para examinar las caractersticas de los datos en el anlisis multivariante? Por qu son necesarios e importantes? Existen tres mtodos: Primero hay que saber la forma de la distribucin, para ello hacemos un histograma que nos va a indicar la frecuencia de los datos, esto nos indicar si existe una distribucin normal. El segundo mtodo es el grfico de dispersin, este nos va a servir para indicar si la relacin entre dos variables es lineal. El tercer mtodo son los grficos de cajas y bigotes. Este grfico est dividido en cuartiles y nos sirve para detectar casos atpicos. 5. Discute la siguiente afirmacin: para utilizar la mayora de las tcnicas multivariantes no es necesario que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y ausencia de errores correlacionados. Las tcnicas multivariantes nos sirven para estudiar la relacin simultnea entre el comportamiento de ms de dos variables. La afirmacin es falsa ya que esta relacin debe cumplir todos los supuestos: el supuesto de normalidad nos servir para poder usarse los estadsticos de la t- Student y de la f- Snedecor. Linealidad: nos indica la relacin existente entre las variables y nos permitir hallar correlaciones. Homocedasticidad: las variables dependientes deben exhibir igual nivel de dispersin de la varianza en todas las variables independientes. El ltimo supuesto que debe cumplir es que cualquier error de prediccin sea independiente del resto.
TEMA 2: EL ANALISIS FACTORIAL
Estructura de la clase: 1. Definicin y objetivo del AF. 2. Conceptos bsicos del AF. 3. Distincin entre el AFC y ACP. 4. Supuestos del ACP. 5. Diseo del ACP. Estimacin del nmero de factores a ser extrados. Mtodos de rotacin de los factores. Criterios para determinar el nivel de significacin de las cargas factoriales. 6. Caso prctico. 7. Tratamiento de los datos con DYANE y SPSS. Definicin y objetivo del AF. El anlisis factorial (AF) se puede definir como la tcnica estadstica multivariante (de interdependencia) cuyo objetivo principal es resumir las variables y extraer informacin (los factores ms importantes) de grandes bases de datos, procurando una mejor comprensin de la estructura de los mismos. El AF es una tcnica de interdependencia en la que se consideran todas las variables simultneamente, y que permite extraer un nmero reducido de los factores (es decir, los valores tericos) con los cuales se intenta explicar al mximo todo el conjunto de variables originales. Dichas variables deben ser mtricas. El AF tiene dos objetivos: La reduccin y sintetizacin de los datos para identificar sus estructuras bsicas (de las grandes BBDD). La creacin de una nueva serie de variables (los llamados factores) que pueden ser utilizados posteriormente en otros anlisis multivariantes (por ejemplo la regresin mltiple o el anlisis cluster). El AF se utiliza principalmente para los siguientes tipos de investigacin: Imagen de marca, imagen del establecimiento, imagen de los consumidores sobre una bebida, etc. En definitiva, se enmarca dentro de la segmentacin, factores principales y diferenciacin de nuestro producto, estudio de aptitudes, etc Para el AF buscaremos los ndices de correlacin entre variables, e identificaremos las correlaciones altas. Lo que haremos es juntar aquellas que tengan una correlacin alta entre ellas y formar un factor con ellas.
Conceptos bsicos. Conceptos Factor Definicin Es el valor terico que se extrae con el AF. Es una combinacin lineal (Y=1X1+ 2X2+...+ nXn)de las variables originales. Los factores representan las dimensiones subyacentes (extraccin del Factor1) que resumen la serie original de variables. El factor es una relacin lineal. Calcularemos 1, 2, ..., n para hallar el factor (Y=1X1+ 2X2+...+ nXn). Los factores no son directamente observables. Por ello usamos la tcnica del AF. Es la correlacin entre las variables originales (el peso de cada variable en el factor) y los factores, y la clave para entender la naturaleza de un factor especfico. Las cargas de los factores al cuadrado indican qu porcentaje de la varianza en una variable original se atribuye a un determinado factor. Dicho de un modo mejor, Las cargas son el peso de cada variable en el Factor. Las (Cargas)2 es la proporcin de varianza de la variable que contribuye a las correlaciones con otras variables. Las (Cargas)2 = Comunalidad Es una varianza compartida con otras variables. Es la proporcin de varianza de la variable que contribuye a su vez con correlaciones con otras variables. Es una medida de la cantidad de varianza contenida en la matriz de correlacin de tal forma que la suma de los autovalores debe ser igual al nmero de variables. Otra definicin- Es la cantidad de informacin explicada por el modelo AF y su varianza asociada con cada factor.
Cargas
Comunalidad Autovalor (eigenvalue)
Reglas de extraccin
1.- Factores con cargas > 50% 2.- Factores tipo autovalor > 1
Distincin entre AF y ACP. En investigacin comercial se suelen utilizar mtodos o modelos bsicos para obtener soluciones factoriales: anlisis factorial comn (AFC) y anlisis de componentes principales (ACP). La diferencia entre estos dos mtodos consiste en el tipo de varianza que analizan. En el AFC los factores se basan solamente en la varianza comn. En el ACP los factores se basan en la varianza total (que incluye la varianza comn y la varianza especfica y error).
Nota: En Investigacin de Mercados (IM), cuando se menciona AF, se est refiriendo en realidad al ACP.
AFC ACP
Varianza comn
Varianza especfica y error Distorsionan los procesos de extraccin Varianza total
La Varianza Total se divide en: 1.- Varianza Comn: es aquella varianza donde una variable se comparte con todas las dems variables. 2.- Varianza Especfica: es aquella varianza asociada nicamente con una variable especfica. 3.- Varianza del Error: es aquella varianza debida al error de medicin. En este curso, nos centramos slo en el ACP. En AFC no se usa la Varianza Especfica y la Varianza de Error porque se supone que distorsiona. Pero se supone que tiene varios inconvenientes: - Puede proporcionar mltiples soluciones en lugar de una, como sucede en el ACP. - Es muy difcil estimar slo la varianza comn. Por ello, los investigadores prefieren usar el ACP, ya que presenta menos inconvenientes. Este ser el que nosotros usemos.
Supuestos del ACP. (Son especficos del ACP) Supuestos generales: Normalidad, Linealidad y Homocedasticidad. Supuesto especfico: Se asume que existe un nivel suficientemente elevado de correlacin entre las variables (En caso contrario, no podemos extraer factores). Este nivel de correlacin se puede examinar de tres maneras: Examen visual de la matriz de correlaciones: Seleccionamos las correlaciones altas. Para considerar una correlacin alta, esta tiene que ser > 0,30. Contraste de esfericidad de Bartlett: Esta prueba es ms objetiva y eficaz. Es una prueba estadstica para examinar la existencia de correlaciones significativas. El resultado a esta prueba sera Significativo o No significativo. La prueba de Bartlett slo prueba la presencia de relaciones significativas, pero no indica el nivel de correlacin. Esto se consigue con el tercer anlisis: ndice KMO ndice K-M-O (la adecuacin muestral de Kaiser-MeyerOlkin): Es una prueba ms completa an que la anterior. Se trata de cuantificar, mediante un ndice estadstico, el grado de intercorrelacin entre variables, y la conveniencia del Anlisis de Componentes Principales (ACP). Examina la presencia de correlaciones significativas indicando solamente si existen, no cuales son. Los ndices obtenidos pueden ser: Si Si Si Si Si KMO KMO KMO KMO KMO es mayor que 0,80: Sobresaliente est entre 0,70 y 0,80: Regular est entre 0,60 y 0,70: Mediocre est entre 0,50 y 0,60: Despreciable, y es menor que 0,50: Inaceptable
Pero siempre ha de ser mayor de 0,50 para que sea conveniente hacer el ACP.
Diseo del ACP. (Procedimientos) Seleccin de variables Seleccionamos variables mtricas. En caso contrario, necesitamos realizar una transformacin de no mtricas a mtricas. Tamao muestral El criterio a seguir para determinar el tamao muestral ptimo a utilizar con ACP, la muestra no debe ser inferior a 50 observaciones. Lo aconsejable es que sea >= 100. Examen de los supuestos generales (y especficos) Concepto: Consistencia Interna. Est relacionado con la fiabilidad y se utiliza para asegurar la fiabilidad de la escala que estamos utilizando. Asegura que los items de las escalas o las preguntas de la escala estn midiendo las mismas contrucciones y stas estn altamente intercorrelacionadas entre s. Por ej: En el comportamiento de compra hacia una marca determinada, examinamos la actitud hacia el producto, precio, establecimiento, etc. Para ello creamos una serie de preguntas para cada dimensin. Estas preguntas deben estar altamente correlacionadas entre s. La consistencia interna se mide mediante el test de Cronbach (alpha de Cronbach) y tiene que ser superior a 0,60. Este test aparece en DYANE. Matriz de correlaciones Como ya se ha comentado, se considera que existen correlaciones altas cuando stas son > 0,30. Test de Bartlett Aplicamos el test de Bartlett y el ndice KMO. Estimacin del nmero de factores a ser extrados Ver pgina siguiente. Rotacin de factores Ver grfico. Interpretacin de los factores Proceso de etiquetacin de factores. Atribuir un significado a cada factor, es decir: poner un patrn de cargas a cada factor. Validacin Un mtodo para efectuar una validacin a nuestro ACP es dividir la muestra en dos partes independientes y aplicar a cada una de ellas el ACP. Si obtenemos los mismos factores/dimensiones, es decir: si coinciden ambas la muestra sera representativa y por tanto, el ACP sera vlido. Usos adicionales de los factores
Regresin mltiple o Cluster.
Estimacin del nmero de factores a ser extrados
Con el fin de decidir cuntos factores se deben extraer, el investigador empieza generalmente con alguno de los siguientes criterios predeterminados. Criterio de raz latente DYANE AUTOVALOR Criterio a priori Criterio de porcentaje de la varianza Slo se consideran los factores que tienen autovalores mayores que 1, ya que cualquier factor individual debera explicar por lo menos una variable. Ya se sabe de antemano cuntos factores hay que extraer sobre la base de un estudio previo. Resultado del Pre-Test. Se obtienen los factores que representan un porcentaje acumulado especificado de la varianza total extrada (aproximadamente un 60% de la varianza total en las ciencias sociales). Se suelen utilizar cargas y estas deben ser >50% del factor. Se identifica el nmero ptimo de factores que contienen una proporcin de la varianza comn sustancialmente alta.
Criterio de contraste de cada
CRITERIO DE CONTRATE DE CAIDA (Grfico realizado con SPSS)
Grfico de sedimentacin
8
Curva con inclinacin descendente. Indica que la varianza comn domina la Pto. de corte. La curva se convierte en una lnea horizontal. Este sera el criterio de contraste de cada
0 1 3 5 7 9 11 13 15 17 19 21
Otra tcnica sera utilizar el criterio de Raz Latente o Autovalor y comprobar con valor 1 del Autovalor que punto corta del grfico. Sera otra forma obtener factores. Con esta tcnica se obtienen ms factores que con la de
Autovalor
Nmero de componente
Mtodos de rotacin de los factores. Consiste en rotar o girar los ejes de referencia de los factores para lograr un patrn de factores ms simple y ms significativo.
Si este fuera el pto. de corte elegido, tendramos que seleccionar 6 factores
Rotacin ortogonal: Es una rotacin ortogonal ya que se realiza en un ngulo de 90 (tipos) QUARTIMAX VARIMAXDYANE (utilizada en el curso) EQUIMAX
GRAFI CO DE ROTACI ON
factor II (no rotado) factor II (rotado)
V1 V2
factor I (no rotado)
Al rotar los ejes, podemos captar ms variables que en un principio estaban alejadas de los ejes originales.
V3 V4
factor I (rotado)
Rotacin oblicua: Cuando nos es una rotacin con un ngulo de referencia de 90
Criterios para determinar el nivel de significacin de las cargas factoriales. (Interpretacin de los factores)
Al interpretar los factores, se debe determinar qu cargas factoriales merece la pena considerar. Para ello hay dos criterios importantes. a) Asegurar la significacin prctica. Muestra >= 100 observaciones, seleccionamos cargas factoriales>0,55
Muestra < 100 observaciones, seleccionamos cargas factoriales>0,75
b) Valorar la significacin estadstica. Utilizar un nivel de significacin de 0,5 y potencia de 0,8.
Caso practico. El caso TeleSake X1 : Velocidad de entrega X2 : Nivel de precios X3 : Presentacin de la comida X4 : Imagen del logotipo X5 : Eficacia del servicio X6 : Atencin al cliente X7 : Calidad de la comida El punto 6, Caso prctico, lo realizaremos con el SPSS y el Dyane, con lo que el punto 7 quedar cubierto. El punto 7 lo trataremos primero, pero slo con el Dyane y simplemente para ver los criterios a utilizar y la interpretacin y el anlisis de los datos. Hay que tener en cuenta que el programa Dyane ofrece tres opciones de aplicacin del AFC: (1) mdulo de tablas de frecuencias, (2) mdulo de tablas de medios, y (3) mdulo de tablas especficas (DYANE, pp.318-337). Si vuestros cuestionarios se basan en variables categricas, normalmente es recomendable utilizar el primer mdulo (es decir, las variables tanto filas como columnas son categricas). Sin embargo, si los cuestionarios usan variables numricas con escalas de Likert, podramos elegir el segundo mdulo (es decir, las variables filas son numricas mientras que las variables columnas son categricas). Si tenis alguna duda o pregunta, mandad un mensaje al foro o pasad por mi despacho con vuestros datos.
Haremos otra prctica con la BD de Telesake: 6.1 Con Dyane.
A N L I S I S D E C O M P O N E N T E S P R I N C I P A L E S ===================================================================== IDENTIFICACIN DE LAS VARIABLES ------------------------------VARIABLE VARIABLE VARIABLE VARIABLE VARIABLE VARIABLE VARIABLE 1 2 3 4 5 6 7 : : : : : : : X1 X2 X3 X4 X5 X6 X7 X1 X2 X3 X4 X5 X6 X7
Matriz de coeficientes de correlacin simple -------------------------------------------X1 -------1,0000 -0,3492 0,5093 0,0504 0,6119 0,0771 -0,4826 X2 --------0,3492 1,0000 -0,4872 0,2722 0,5130 0,1862 0,4697 X3 X4 X5 X6 -------- -------- -------- -------0,5093 0,0504 0,6119 0,0771 -0,4872 0,2722 0,5130 0,1862 1,0000 -0,1161 0,0666 -0,0343 -0,1161 1,0000 0,2987 0,7882 0,0666 0,2987 1,0000 0,2408 -0,0343 0,7882 0,2408 1,0000 -0,4481 0,2000 -0,0552 0,1773 X7 --------0,4826 0,4697 -0,4481 0,2000 -0,0552 0,1773 1,0000
X1 X2 X3 X4 X5 X6 X7
Test de Bartlett ---------------Determinante de la matriz de correlacin = 0,002679 Ji cuadrado con 21 grados de libertad = 567,5407 (p = 0,0000)
Segn el test de Bartlett me sale significativo
FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 FACTOR 6 FACTOR 7 -------- -------- -------- -------- -------- -------- -------VALOR PROPIO: 2,5258 2,1204 1,1811 0,5412 0,4180 0,2044 0,0092 % DE VARIANZA: 36,08% 30,29% 16,87% 7,73% 5,97% 2,92% 0,13% % VAR.ACUMUL.: 36,08% 66,37% 83,25% 90,98% 96,95% 99,87% 100,00% CARGAS DE LOS FACTORES: X1 X2 X3 X4 X5 X6 X7 -0,5280 0,7924 -0,6920 0,5640 0,1858 0,4921 0,7386 0,7515 0,0931 0,3745 0,6020 0,7789 0,6040 -0,2698 -0,2024 -0,5081 0,1727 0,4524 -0,5949 0,5418 0,0054 -0,0312 -0,0055 -0,4761 0,1014 -0,0283 0,0248 -0,5494 -0,3340 0,3195 0,3512 0,0243 -0,0197 0,0238 -0,2820 -0,0047 -0,0255 0,0320 0,3225 -0,0075 -0,3135 0,0185 0,0541 0,0508 0,0010 0,0025 -0,0604 -0,0009 -0,0009 COMUNALIDAD ----------1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
Tambin tenemos 7 factores con valores propios. En esta matriz consideramos todos los factores, por lo que tenemos la Comunalidad igual a1
COEFICIENTES DE PUNTUACIN DE LOS FACTORES: X1 X2 X3 X4 X5 X6 X7 -0,2090 0,3137 -0,2740 0,2233 0,0736 0,1948 0,2924 0,3544 0,0439 0,1766 0,2839 0,3673 0,2848 -0,1272 -0,1714 -0,4302 0,1462 0,3830 -0,5037 0,4587 0,0046 -0,0576 -0,0101 -0,8798 0,1873 -0,0522 0,0459 -1,0151 -0,7991 0,7643 0,8401 0,0582 -0,0470 0,0569 -0,6746 -0,0231 -0,1246 0,1566 1,5778 -0,0368 -1,5340 0,0905 5,9081 5,5418 0,1133 0,2730 -6,5904 -0,0946 -0,1034
Esta matriz, de momento, no tiene importancia
Cargas de los factores retenidos: --------------------------------FACTOR 1 FACTOR 2 -------- --------0,5280 0,7515 0,7924 0,0931 -0,6920 0,3745 0,5640 0,6020 0,1858 0,7789 0,4921 0,6040 0,7386 -0,2698 2,1204 30,29% 66,37% FACTOR 3 --------0,2024 -0,5081 0,1727 0,4524 -0,5949 0,5418 0,0054 1,1811 16,87% 83,25% COMUNALIDAD ----------0,8845 0,8947 0,6490 0,8851 0,9951 0,9005 0,6183
X1 X2 X3 X4 X5 X6 X7
VARIANZA: 2,5258 % DE VARIANZA: 36,08% % VAR.ACUMUL.: 36,08%
Hemos obtenido 3 factores ms importantes. Ahora la Comunalidad es menor que 1, pero bastante alta. Pero con esta matriz es difcil distinguir que variable es ms importante que las otras. Lo que podremos saber es cuanto varianza est explicada con el anlisis de componentes principales. Podemos ver que es muy elevada, y se pueden explicar casi todos los factores.
ROTACIN VARIMAX: ----------------Cargas de los factores retenidos (despus de la rotacin): ---------------------------------------------------------FACTOR 1 FACTOR 2 FACTOR 3 -------- -------- --------0,7524* 0,0711 0,5598 0,7539* 0,1081 0,5609 -0,8055* 0,0063 0,0095 0,1167 0,9210* 0,1525 -0,0620 0,1763 0,9799* 0,0341 0,9452* 0,0766 0,7596* 0,1930 -0,0644 1,8269 26,10% 60,08% 1,6215 23,16% 83,25% COMUNALIDAD ----------0,8845 0,8947 0,6490 0,8851 0,9951 0,9005 0,6183
X1 X2 X3 X4 X5 X6 X7
La interpretacin es mucho ms fcil y significativa. La varianza explicada no ha cambiado. Se mantiene.
COEFICIENTES DE PUNTUACIN DE LOS FACTORES: X1 X2 X3 X4 X5 X6 X7 -0,3037 0,3452 -0,3487 -0,0189 0,0073 -0,0604 0,3094 0,0039 -0,0997 0,0694 0,5227 -0,0665 0,5582 0,0657 0,3262 0,3953 -0,0349 -0,0598 0,6242 -0,1194 -0,0407
Ahora tendremos que interpretar los factores. Tendremos que poner nombre o etiqueta a cada factor. Esto depender. Hay una regla general para atribuir significado a cada factor: Siempre hay que considerar las variables con mayores cargas.
Al final tenemos la interpretacin grfica.
REPRESENTACIN GRFICA DE LOS FACTORES -------------------------------------VARIABLES: Cdigo -----A B C D E F G Significado ---------------X1 X2 X3 X4 X5 X6 X7
FACTORES 1 y 2: FACTOR 2 | 1,0 + + | | |F | 0,9 + + D | | | | 0,8 + + | | | | 0,7 + + | | | | 0,6 + + | | | | 0,5 + + | | | | 0,4 + + | | | | 0,3 + + | | | | 0,2 + E + G | | | | 0,1 + + B | | A | | 0,0 +----+---C---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+----|FACTOR 1 | | | -0,1 + + | | | | -0,2 + + | | | | -0,3 + + | | | | -0,4 + + | | | | -0,5 + + | | | | -0,6 + + | | | | -0,7 + + | | | | -0,8 + + | | | | -0,9 + + | | | | -1,0 + + | |+++++++++++++++++++ -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
6.2
Con SPSS.
Ahora veremos las opciones en el SPSS. Usaremos los mismos datos que antes, para el anlisis con el SPSS. Seleccionamos el elemento datos/Anlisis Factorial de men Analizar/Reduccin de
Y nos aparecer una ventana como la siguiente:
Ahora pulsamos Descriptivos
Matriz de correlaciones depender de lo que queramos, pero chequearemos KMO y prueba de esfericidad de Bartlett para asegurarnos un grado de significacin de variables
Pulsamos ahora Extraccin:
Autovalores mayores que: podemos cambiarlo a 0,8 por ejemplo. Tambin podemos cambiar el criterio a Nmero de factores, porque sepamos el nmero de factores que queremos extraer. Nosotros usaremos el primer criterio Nos interesa seleccionar tambin el Grfico de sedimentacin, y la Solucin factorial sin rotar.
Seleccionamos ahora Rotacin:
Seleccionamos ahora Puntuaciones: Guardar las puntuaciones factoriales para anlisis posteriores.
En botn opciones:
Para ACP podemos seleccionar varios mtodos para sustituir o tratar los valores ausentes. Nosotros usaremos Reemplazar por la media ya que es el valor tericamente mas representativo. En formato de utilizacin, usaremos ordenados por tamao, para ayudar en la visualizacin Suprimir valores absolutos menores que: Opcin muy importante a seleccionar. Pulsaremos Continuar y Aceptar, para pasar al anlisis de los resultados
6.2.1 Anlisis de los datos con SPSS.
A. factorial
Notas Resultados creados Comentarios Entrada Datos 05-MAR-2004 17:48:02 C:\Documents and Settings\ecolab\Escritorio\Rafa\TeleSa ke.sav <ninguna> <ninguna> <ninguna> 100 MISSING=EXCLUDE: Los valores definidos como perdidos por el usuario son considerados como perdidos. MEAN SUBSTITUTION: Para cada variable utilizada, los valores perdidos son sustituidos por la media de las variables.
Filtro Peso Segmentar archivo Nm. de filas del archivo de trabajo Manipulacin de los valores perdidos Definicin de los perdidos
Casos utilizados.
Sintaxis FACTOR /VARIABLES x1 x2 x3 x4 x5 x6 x7 /MISSING MEANSUB /ANALYSIS x1 x2 x3 x4 x5 x6 x7 /PRINT INITIAL KMO EXTRACTION ROTATION /FORMAT SORT BLANK(.50) /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /CRITERIA ITERATE(25) /ROTATION VARIMAX /METHOD=CORRELATION .
Recursos
Tiempo transcurrido Memoria mxima necesaria
0:00:00,16 7204 (7,035K) bytes
KMO y prueba de Bartlett Medida de adecuacin muestral de Kiser-MeyerOlkin. Prueba de esfericidad de Bartlett Chi-cuadrado aproximado gl Sig.
,446 567,541 21 ,000
Vemos que es inaceptable: segn KMO sale 0,446. Segn nuestro criterio, si KMO < 0,5 es inaceptable. Sin embargo la segunda prueba, Test de Bartlett, sale significativo. Para un estudio exploratorio, podemos aceptar este test, puesto que ha salido significativo para el test de Bartlett.
Comunalidades Inicial 1,000 1,000 1,000 1,000 1,000 1,000 Extraccin ,884 ,895 ,649 ,885 ,995 ,901
Velocidad de entrega Nivel de precios Presentacin de la comida Imagen del logotipo Eficacia del servicio Atencin al cliente Calidad de la comida
1,000 ,618 Mtodo de extraccin: Anlisis de Componentes principales.
Este cuadro muestra cuanta varianza esta explicada con este modelo. Inicialmente est a 1, porque tiene todos los factores. Despus de la extraccin, baja; pero podemos ver que estamos con niveles muy altos.
Varianza total explicada Sumas de las saturaciones al cuadrado de la extraccin Total 2,526 2,120 1,181 % de la varianza 36,082 30,291 16,873 % acumulado 36,082 66,374 83,246
Autovalores iniciales Componente 1 2 3 4 5 6 7 Total 2,526 2,120 1,181 ,541 ,418 ,204 ,009 % de la varianza 36,082 30,291 16,873 7,731 5,972 2,920 ,131 % acumulado 36,082 66,374 83,246 90,977 96,949 99,869 100,000
Suma de las saturacion la rotac Total 2,379 1,827 1,622
% de la varianza 33,984 26,098
23,165
Informacin de la varianza Informacin de antes de la rotacin despus de la ro

Mtodo de extraccin: Anlisis de Componentes principales.
La varianza total explicada, tenemos autovalores iniciales.
Grfico de sedimentacin
3,0
2,5
2,0
1,5
1,0
Autovalor
,5
0,0 1 2 3 4 5 6 7
Nmero de componente
El grfico de sedimentacin. Para determinar factores, observamos la curva, y vemos el punto de corte donde cambia la inclinacin. Ms o menos a partir del punto 4 cambia la inclinacin. Segn este criterio podemos determinar 4 factores. Pero tambin hemos usado otro criterio para seleccionar factores.
Matriz de componentes(a) Componente 1 Nivel de precios Calidad de la comida Presentacin de la comida Eficacia del servicio Velocidad de entrega Atencin al cliente Imagen del logotipo ,564 -,528 ,792 ,739 -,692 ,779 ,752 ,604 ,602 -,542 ,595 2 3 ,508
Mtodo de extraccin: Anlisis de componentes principales. a 3 componentes extrados
Matriz de componentes rotados(a) Componente 1 Presentacin de la comida Calidad de la comida Nivel de precios Velocidad de entrega Atencin al cliente Imagen del logotipo Eficacia del servicio -,806 ,760 ,754 -,752 ,945 ,921 ,980 ,561 ,560 2 3
Mtodo de extraccin: Anlisis de componentes principales. Mtodo de rotacin: Normalizacin Varimax con Kaiser. a La rotacin ha convergido en 5 iteraciones.
Despus de la rotacin VARIMAX hemos obtenido 3 factores, y hemos seleccionado la opcin que ordena de mayor a menor; de este modo es mas fcil identificar la importancia de las variables. Hemos suprimido las variables con menor importancia, as solo salen las variables importantes.
Matriz de transformacin de las componentes Componente 1 2 3 1 ,865 -,452 ,218 2 ,477 ,602 -,641 3 ,159 ,658 ,736
Mtodo de extraccin: Anlisis de componentes principales. Mtodo de rotacin: Normalizacin Varimax con Kaiser.
Tratamiento de los datos con DYANE y SPSS.
7.1 Tratamiento de los datos con DYANE.
Vamos a ir viendo seleccionaremos.
las
opciones
que
tiene
el
Dyane
cules
Medias y desviaciones estndar de las variables no nos interesan Test de Bartlett si que nos interesa, para ver si existe un nivel significativo de correlacin de los factores. Valores propios mayores que 1 (tambin llamados autovalores).- Es el criterio para seleccionar las cargas. Representacin Grfica de los factores: representar 2 factores Rotacin VARIMAX.- Girar los ejes de referencias para captar mas variables o hacer la Interpretacin ms fcil. Es el mtodo mas frecuentemente utilizado. Ahora seleccionamos: Guardar los factores retenidos como variables.- Se guardarn para su uso posterior Y seleccionamos las variables a estudiar.
A N L I S I S D E C O M P O N E N T E S P R I N C I P A L E S ===================================================================== IDENTIFICACIN DE LAS VARIABLES ------------------------------VARIABLE 1 : EPU_OBEC - La empresa pblica puede cumplir los objetivos econmicos mejor que la privada. VARIABLE 2 : EPU_OBSO - La empresa pblica puede cumplir los objetivos sociales mejor que la privada VARIABLE 3 : DIRE_SUF - La direccin de la empresa debe ser elegida por sufragio universal, por todos los trabajadores de la empresa. VARIABLE 4 : ECME_PLA - La economa de mercado proporciona una asignacin de recursos mejor que la obtenida con la economa planificada por el estado. VARIABLE 5 : DESP_LIB - La posibilidad de despido libre, con indemnizacin, permitira la creacin de puestos de trabajo. VARIABLE 6 : LIBERAL - El liberalismo es la mejor doctrina econmica. VARIABLE 7 : ECSOLMER - La economa social de mercado es la mejor doctrina econmica. VARIABLE 8 : SOCIALIS - El socialismo es la mejor doctrina econmica. VARIABLE 9 : COMUNISM - El comunismo es la mejor doctrina econmica. VARIABLE 10: EMPR_CRE - El empresario debe ser admirado por la sociedad porque crea riqueza. VARIABLE 11: EMPR_EXP - El empresario slo explota a los trabajadores. VARIABLE 12: BEN_OBJ1 - El beneficio deber ser el primer objetivo de la empresa VARIABLE 13: BENSOLAC - En la distribucin de los beneficios deben participar slo los accionistas. VARIABLE 14: BAL_SOCI - Todas las empresas deberan realizar el balance social. VARIABLE 15: MARK_NEC - El marketing es slo un mtodo para vender ms, creando necesidades aparentes. Matriz de coeficientes de correlacin simple -------------------------------------------EPU_OBEC EPU_OBSO BENSOLAC BAL_SOCI MARK_NEC -------- --------------- -------- -------EPU_OBEC 1,0000 0,3784 -0,1036 0,2605 0,1421 EPU_OBSO 0,3784 1,0000 0,0630 0,2315 0,1735 DIRE_SUF 0,1999 0,1924 -0,2475 0,0956 0,0868 ECME_PLA -0,2255 -0,1953 0,2121 -0,1738 -0,0510 DESP_LIB -0,0908 0,0014 0,2368 -0,1042 -0,0474 LIBERAL -0,1247 -0,1089 0,1302 -0,0298 -0,1059 ECSOLMER -0,0758 0,0015 0,0728 0,0730 -0,0039 SOCIALIS 0,2727 0,3173 -0,1582 0,2379 0,1737 COMUNISM 0,2396 0,1915 -0,0565 0,1844 0,0425 EMPR_CRE -0,1537 -0,0873 0,2381 0,0103 -0,2078 EMPR_EXP 0,1265 0,2423 -0,1190 0,0427 0,2745 BEN_OBJ1 -0,1001 0,0438 0,2255 -0,0848 0,0044 BENSOLAC -0,1036 0,0630 1,0000 -0,2184 0,1432 BAL_SOCI 0,2605 0,2315 -0,2184 1,0000 0,0568 MARK_NEC 0,1421 0,1735 0,1432 0,0568 1,0000 DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1
-------- -------- -------- -------- -------- -------- -------- -------- -------- -------0,1999 0,1924 1,0000 -0,1988 -0,2233 -0,1370 -0,2437 0,2056 0,2433 -0,3528 0,0969 -0,2935 -0,2475 0,0956 0,0868 -0,2255 -0,1953 -0,1988 1,0000 0,2622 0,3202 0,1476 -0,3499 -0,2504 0,3204 -0,2196 0,1111 0,2121 -0,1738 -0,0510 -0,0908 0,0014 -0,2233 0,2622 1,0000 0,1614 -0,0097 -0,0722 0,0048 0,2775 -0,1296 0,1412 0,2368 -0,1042 -0,0474 -0,1247 -0,1089 -0,1370 0,3202 0,1614 1,0000 -0,0326 -0,2995 -0,0833 0,3533 -0,1459 0,1391 0,1302 -0,0298 -0,1059 -0,0758 0,0015 -0,2437 0,1476 -0,0097 -0,0326 1,0000 0,0671 -0,0438 0,0826 0,0802 0,1621 0,0728 0,0730 -0,0039 0,2727 0,3173 0,2056 -0,3499 -0,0722 -0,2995 0,0671 1,0000 0,3728 -0,1305 0,3378 0,0782 -0,1582 0,2379 0,1737 0,2396 0,1915 0,2433 -0,2504 0,0048 -0,0833 -0,0438 0,3728 1,0000 -0,1362 0,1437 -0,0371 -0,0565 0,1844 0,0425 -0,1537 -0,0873 -0,3528 0,3204 0,2775 0,3533 0,0826 -0,1305 -0,1362 1,0000 -0,2662 0,2522 0,2381 0,0103 -0,2078 0,1265 0,2423 0,0969 -0,2196 -0,1296 -0,1459 0,0802 0,3378 0,1437 -0,2662 1,0000 -0,0860 -0,1190 0,0427 0,2745 -0,1001 0,0438 -0,2935 0,1111 0,1412 0,1391 0,1621 0,0782 -0,0371 0,2522 -0,0860 1,0000 0,2255 -0,0848 0,0044
Test de Bartlett ---------------Determinante de la matriz de correlacin = 0,083411 Ji cuadrado con 105 grados de libertad = 385,4297
(p = 0,0000)
FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 FACTOR 6 FACTOR 7 FACTOR 8 FACTOR 9 FACTOR 10FACTOR 11FACTOR 12FACTOR 13FACTOR 14FACTOR 15 -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- --------------- -------- -------VALOR PROPIO: 3,2405 1,7250 1,3244 1,2098 1,0196 0,8867 0,8399 0,7805 0,7488 0,6977 0,6449 0,5856 0,4829 0,4305 0,3830 % DE VARIANZA: 21,60% 11,50% 8,83% 8,07% 6,80% 5,91% 5,60% 5,20% 4,99% 4,65% 4,30% 3,90% 3,22% 2,87% 2,55% % VAR.ACUMUL.: 21,60% 33,10% 41,93% 50,00% 56,80% 62,71% 68,31% 73,51% 78,50% 83,15% 87,45% 91,36% 94,58% 97,45% 100,00% CARGAS DE LOS FACTORES: COMUNALIDAD ----------EPU_OBEC 0,5235 -0,2539 -0,3078 0,0583 -0,1261 -0,0672 1,0000 EPU_OBSO 0,4599 -0,5037 -0,1297 -0,0869 0,2857 0,0846 1,0000 DIRE_SUF 0,5558 0,3156 -0,2000 0,1921 -0,1694 -0,2282 1,0000 ECME_PLA -0,6326 -0,0655 -0,0066 -0,3768 -0,0358 0,1230 1,0000 DESP_LIB -0,3886 -0,3667 -0,1716 0,1676 -0,0666 -0,0680 1,0000 LIBERAL -0,4859 -0,0979 -0,3679 0,2381 -0,0248 0,1845 1,0000 ECSOLMER -0,1293 -0,3579 0,3078 0,2597 0,0423 -0,0689 1,0000
-0,1587 -0,2161 -0,3165 -0,1343 -0,2977 -0,1718 0,6023
0,2203 0,1656 0,0293 0,3373 -0,2463 0,3171 0,2343
0,3032 0,2151 -0,1671 -0,2615 -0,2601 -0,3404 -0,1425
-0,1221 -0,0248 0,0560 -0,1896 -0,4710 0,4629 -0,2820
-0,0158 -0,0679 0,3367 0,1941 -0,3336 0,0215 0,3566
-0,1707 -0,4190 -0,1606 -0,1253 0,0556 -0,0804 -0,1785
-0,0888 0,0512 0,3340 0,3251 0,1731 -0,1739 -0,0531
0,5343 -0,2850 -0,2229 0,0878 0,0756 0,0935 0,0370
-0,1992 0,1913 -0,0357 -0,1849 0,2433 0,1465 0,0767
SOCIALIS 0,6155 -0,4176 0,0023 0,1358 -0,1155 0,3621 1,0000 COMUNISM 0,4659 -0,2567 -0,3055 -0,2054 0,1879 -0,0644 1,0000 EMPR_CRE -0,5846 -0,3547 -0,3682 0,0744 0,1519 -0,2551 1,0000 EMPR_EXP 0,4822 -0,2042 0,4300 -0,1632 -0,1802 -0,1824 1,0000 BEN_OBJ1 -0,3065 -0,5474 0,1019 -0,1032 -0,0947 -0,1472 1,0000 BENSOLAC -0,3973 -0,4402 0,2320 -0,0095 -0,3004 0,0461 1,0000 BAL_SOCI 0,3693 -0,2191 -0,4648 -0,1529 -0,2128 -0,0306 1,0000 MARK_NEC 0,2894 -0,2858 0,4681 0,1179 0,2181 -0,0491 1,0000
0,1880 -0,0738 0,1180 0,0150 0,1645 -0,4285 0,3434 -0,3941
-0,2698 -0,3725 0,0106 0,1403 -0,2882 -0,0773 0,4072 0,3559
-0,1501 -0,3833 0,0046 -0,4342 0,1820 0,2299 0,0610 -0,0255
0,0423 -0,0276 0,0817 0,1567 0,4669 -0,0797 -0,0662 0,0850
-0,0571 0,3765 -0,1426 -0,3592 0,0961 0,2804 -0,0473 0,0344
0,0572 0,1497 0,0438 -0,2127 -0,0266 0,0452 0,3952 0,4789
0,2131 -0,2632 -0,0410 -0,1938 0,3418 -0,3367 0,0199 0,1499
-0,0855 0,1242 -0,2209 -0,0337 0,1750 -0,2389 -0,1953 0,0801
-0,3036 0,0362 -0,4579 -0,0508 0,1899 -0,0467 0,2028 -0,0472
Despus de esta matriz, salen coeficientes de puntuacin de los factores.
Se tienen que multiplicar cada coeficiente de correlacin por las variables originales para comprobar los resultados de los factores
COEFICIENTES DE PUNTUACIN DE LOS FACTORES: EPU_OBEC 0,1615 -0,1472 0,1207 -0,2928 -0,1755 EPU_OBSO 0,1419 -0,2920 -0,1800 0,6636 0,2208 DIRE_SUF 0,1715 0,1829 0,3979 -0,3934 -0,5957 ECME_PLA -0,1952 -0,0379 -0,7803 -0,0831 0,3212 DESP_LIB -0,1199 -0,2126 0,3470 -0,1546 -0,1774 LIBERAL -0,1499 -0,0568 0,4932 -0,0575 0,4817 ECSOLMER -0,0399 -0,2075 0,5378 0,0983 -0,1799 SOCIALIS 0,1899 -0,2421 0,2812 -0,2684 0,9453 COMUNISM 0,1438 -0,1488 -0,4253 0,4363 -0,1681 EMPR_CRE -0,1804 -0,2056 0,1541 0,3527 -0,6659 EMPR_EXP 0,1488 -0,1184 -0,3379 -0,4185 -0,4763 BEN_OBJ1 -0,0946 -0,3174 -0,2137 -0,2200 -0,3843 BENSOLAC -0,1226 -0,2552 -0,0196 -0,6978 0,1204 BAL_SOCI 0,1140 -0,1270 -0,3167 -0,4941 -0,0799 MARK_NEC 0,0893 -0,1657 0,2442 0,5066 -0,1283 -0,2324 -0,0979 -0,1510 -0,0050 -0,1296 -0,2778 0,2324 0,0017 -0,2307 -0,2780 0,3247 0,0769 0,1752 -0,3509 0,3535 -0,1312 -0,1786 -0,2616 -0,1110 -0,2460 -0,1420 0,4978 0,1554 -0,0610 0,0975 0,0124 0,1359 -0,3542 0,2838 -0,3258 0,2161 0,1624 0,0287 0,3308 -0,2416 0,3110 0,2298 -0,2646 -0,3653 0,0104 0,1376 -0,2827 -0,0758 0,3994 0,3490 0,3419 0,2425 -0,1884 -0,2949 -0,2934 -0,3839 -0,1607 -0,1693 -0,4323 0,0052 -0,4897 0,2052 0,2593 0,0687 -0,0288 -0,1454 -0,0295 0,0667 -0,2258 -0,5607 0,5511 -0,3358 0,0504 -0,0329 0,0973 0,1865 0,5558 -0,0949 -0,0788 0,1012 -0,0202 -0,0870 0,4314 0,2487 -0,4275 0,0276 0,4569 -0,0731 0,4824 -0,1828 -0,4602 0,1231 0,3592 -0,0606 0,0441 -0,2280 -0,5596 -0,2144 -0,1673 0,0743 -0,1074 -0,2383 0,0764 0,2000 0,0585 -0,2840 -0,0355 0,0604 0,5278 0,6396 -0,1273 0,0733 0,4787 0,4659 0,2481 -0,2492 -0,0760 0,3054 -0,3772 -0,0588 -0,2777 0,4899 -0,4825 0,0285 0,2149 0,8284 -0,4420 -0,3457 0,1362 0,1172 0,1449 0,0574 -0,1326 0,1926 -0,3426 -0,0522 0,2714 -0,3705 -0,3029 0,1242 -0,3402 0,3267 -0,0610 -0,3158 0,4154 0,2502 0,1310 -0,5184 0,0618 -0,7819 -0,0868 0,3242 -0,0798 0,3463 -0,0806
Cargas de los factores retenidos: ---------------------------------
Aqu han salido 5 factores sin rotacin. Pero esta matriz es difcil de interpretar porque tiene las cargas muy altas para el factor 1 y para el factor 2. Aunque hemos extrado varios factores, como tienen elevados nmeros en las cargas, no sabemos que factor es ms importante que otro. Qu variable es ms importante que las otras?
EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC
FACTOR 1 -------0,5235 0,4599 0,5558 -0,6326 -0,3886 -0,4859 -0,1293 0,6155 0,4659 -0,5846 0,4822 -0,3065 -0,3973 0,3693 0,2894
FACTOR 2 --------0,2539 -0,5037 0,3156 -0,0655 -0,3667 -0,0979 -0,3579 -0,4176 -0,2567 -0,3547 -0,2042 -0,5474 -0,4402 -0,2191 -0,2858 1,7250 11,50% 33,10%
FACTOR 3 --------0,3078 -0,1297 -0,2000 -0,0066 -0,1716 -0,3679 0,3078 0,0023 -0,3055 -0,3682 0,4300 0,1019 0,2320 -0,4648 0,4681 1,3244 8,83% 41,93%
FACTOR 4 --------0,1587 -0,2161 -0,3165 -0,1343 -0,2977 -0,1718 0,6023 0,1880 -0,0738 0,1180 0,0150 0,1645 -0,4285 0,3434 -0,3941 1,2098 8,07% 50,00%
FACTOR 5 -------0,2203 0,1656 0,0293 0,3373 -0,2463 0,3171 0,2343 -0,2698 -0,3725 0,0106 0,1403 -0,2882 -0,0773 0,4072 0,3559 1,0196 6,80% 56,80%
COMUNALIDAD ----------0,5069 0,5561 0,5496 0,5363 0,4641 0,5111 0,6571 0,6613 0,5205 0,6172 0,4791 0,5142 0,5951 0,6842 0,6666
Haremos la rotacin VARIMAX para ver que factor es ms importante. Vemos la carga de los factores retenidos despus de la rotacin
ROTACIN VARIMAX: ----------------Cargas de los factores retenidos (despus de la rotacin): ---------------------------------------------------------FACTOR 1 -------0,6423* 0,6071* 0,2243 -0,1229 0,0016 0,1713 0,0430 0,3894 0,3778 0,1379 0,1228 -0,0410 -0,1448 0,7363* 0,1288 FACTOR 2 --------0,2070 -0,0684 -0,5989* 0,1505 -0,0427 -0,0204 0,7964* 0,1308 -0,2174 0,2998 0,1348 0,4525 0,0489 0,1809 -0,0408 1,4793 9,86% 21,78% FACTOR 3 -------0,1735 0,3417 0,1106 -0,0201 -0,1408 -0,2113 0,1099 0,1344 -0,1094 -0,4190 0,5702* -0,0771 0,2802 -0,1301 0,8009* 1,5096 10,06% 31,84% FACTOR 4 --------0,0520 0,1791 -0,3031 0,2360 0,6551* 0,2424 -0,0929 0,0421 0,1771 0,4494* -0,1584 0,5322* 0,6738* -0,3038 0,0731 1,7740 11,83% 43,67% FACTOR 5 -------0,1368 0,1845 0,1910 -0,6652* -0,1158 -0,6147* -0,0163 0,6876* 0,5359* -0,3617 0,3091 0,1362 -0,1977 -0,0112 -0,0396 1,9690 13,13% 56,80% COMUNALIDAD ----------0,5069 0,5561 0,5496 0,5363 0,4641 0,5111 0,6571 0,6613 0,5205 0,6172 0,4791 0,5142 0,5951 0,6842 0,6666
Tres efectos de la rotacin VARIMAX: La cantidad total de varianza es la misma. Con este modelo factorial hemos explicado un 56.80% de la varianza total. Ahora hemos mejorado la interpretacin de los datos y podemos distinguir que variable tiene mas peso en cada factor.
Sin embargo, la varianza es de cada factor es menor. Hemos redistribuido la varianza, para que cada factor tenga niveles semejantes de varianza. Tercer efecto de la rotacin es que hemos mejorado la interpretacin de los datos, Ahora podemos ver que variable tiene mas peso para cada factor (las que tienen *).
COEFICIENTES DE PUNTUACIN DE LOS FACTORES: EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC 0,3741 0,3335 0,0843 0,0629 0,0263 0,2499 0,0500 0,1054 0,1320 0,1950 -0,0122 -0,0419 -0,0738 0,4980 0,0440 -0,1147 -0,0433 -0,3752 0,0363 -0,1343 -0,0804 0,5974 0,1396 -0,1461 0,1332 0,1491 0,2583 -0,0735 0,1964 -0,0282 0,0637 0,1866 0,0237 0,1126 -0,0756 -0,0564 0,0906 -0,0401 -0,1957 -0,2445 0,3597 -0,0649 0,2591 -0,1385 0,5907 0,0151 0,1552 -0,0790 0,0240 0,4103 0,0559 -0,1776 0,1183 0,2286 0,1822 -0,0655 0,3009 0,4030 -0,2336 0,0566 -0,0909 -0,0352 -0,0170 -0,3779 0,0492 -0,3802 -0,0119 0,3777 0,3223 -0,1141 0,0678 0,2253 -0,0409 -0,1791 -0,1829
REPRESENTACIN GRFICA DE LOS FACTORES -------------------------------------VARIABLES: Cdigo -----A B C D E F G H I J K L M N O Significado ---------------EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC
FACTORES 1 y 2:
FACTOR 2 | 1,0 + + | | | | 0,9 + + | | | | 0,8 + + G | | | | 0,7 + + | | | | 0,6 + + | | | | 0,5 + + | | L | | 0,4 + + | | | | 0,3 + + J | | | | 0,2 + + N | | D | K H | 0,1 + + | | M | | 0,0 +----+---+---+---+---+---+---+---+---+---+---+--F+---+---+---+---+---+---+---+----|FACTOR 1 | E O B | -0,1 + + | | | | -0,2 + + I A | | | | -0,3 + + | | | | -0,4 + + | | | | -0,5 + + | | | | -0,6 + + C | | | | -0,7 + + | | | | -0,8 + + | | | | -0,9 + + | | | | -1,0 + + | |+++++++++++++++++++ -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Tenemos una representacin grfica para los factores 1 y 2 despus de la rotacin VARIMAX.
Ejercicio 2 1. Define y relaciona los siguientes trminos: factor, cargas, y comunalidad. 2. Cules son los criterios que podemos emplear para determinar el nmero de factores a extraer? 3. Para qu usaramos una rotacin ortogonal en el ACP? 4. Construye un diseo adecuado para el siguiente estudio con el ACP: La imagen juega un papel de gran importancia en el marketing. Una imagen de marca se puede examinar desde la interaccin de varias dimensiones o construcciones que caracterizan a dicha marca. En el presente estudio, nos centraremos en identificar la imagen de BMW que motiva a los consumidores potenciales hacia la compra... 5. Tras realizar una investigacin sobre la imagen de BMW, se consiguieron los siguientes resultados. Interpreta lo que indica la tabla y prepara un informe: ---------------------------------------------------------Cargas de los factores retenidos (despus de la rotacin): FACTOR 1 FACTOR 2 COMUNALIDAD Prestigio 0.6132* 0.2328 0.5302 Estatus social 0.4509* 0.0857 0.5106 Calidad 0.3287* 0.0595 0.4516 Sofisticacin 0.6605* -0.2364 0.5963 Tecnologa -0.0930 0.5690* 0.5477 Extravagancia -0.4916 -0.7263* 0.5692 VARIANZA: % DE VARIANZA: % VAR.ACUMUL.: 1.6780 27.97% 27.97% 1.5875 26.46% 54.43%
1. Define y relaciona los siguientes trminos: factor, cargas, y comunalidad.
2. Cules son los criterios que podemos determinar el nmero de factores a extraer?
emplear
para
Para el ltimo criterio es posible que se quiera explicar grficamente con el grafico de sedimentacin. Tendramos que explicar como determinar el punto de corte.
3. Para qu usaramos una rotacin ortogonal en el ACP? La rotacin es una manipulacin matemtica del ACP que facilita la interpretacin de factores. Se utiliza para lograr un patrn de factores ms simple y tericamente ms significativo. Tcnicamente, la rotacin consiste en girar los ejes de referencia de los factores hasta alcanzar una determinada posicin para redistribuir la varianza de los mismos. Si se mantiene un ngulo de 90 grados, se llama rotacin ortogonal, y sino se denomina rotacin oblicua. En el ACP, normalmente se usa la rotacin ortogonal. En el libro de AM, vienen explicados todos estos sistemas de rotacin 4. Construye un diseo adecuado para el siguiente estudio con el ACP: La imagen juega un papel de gran importancia en el marketing. Una imagen de marca se puede examinar desde la interaccin de varias dimensiones o construcciones que caracterizan a dicha marca. En el presente estudio, nos centraremos en identificar la imagen de BMW que motiva a los consumidores potenciales hacia la compra... En el apartado de objetivo del estudio se puede escribir algo como lo de arriba. En la introduccin habra que intentar convencer de porque el profesor tiene que leer ese trabajo. Normalmente la introduccin es para resumir las partes ms importantes y convencer de porque leer el trabajo. Primeramente, investigaremos la literatura existente para establecer el estado del arte. A continuacin, establecemos las hiptesis que queremos validar o rechazar mediante el estudio.
Por qu queremos efectuar este estudio? Es una de las preguntas a responder. Diferentes a objetivos. Ahora estableceremos y concretaremos las partes tcnicas: variables y escalas. En el ACP se pueden utilizar solo variables mtricas. Si tenemos variables categricas, las tenemos que convertir en variables mtricas. Este tipo de variables se llaman variables ficticias. Dependiendo de la tcnica multivariante, podemos utilizar estas variables ficticias para el anlisis. Ahora determinamos el tamao muestral. Como regla general, el tamao de la muestra debe ser por lo menos 50, y preferiblemente superior a 100 observaciones. Ventaja de realizar revisin bibliogrfica: saber como se disean los estudios, saber que variables, que escalas, que tcnicas multivariantes se han realizado. As tendremos mejor informacin para saber tipo de variables y tipo de escalas. Despus de determinar el tamao muestral, hay que concretar los mtodos de la investigacin, instrumentos, coleccin de datos, muestreo, etc. Ahora examinamos los supuestos. Ahora ya tenemos datos, y tenemos que examinar los supuestos. Hay dos tipos de supuestos a examinar: Aparte de los supuestos principales como la normalidad, la linealidad y la homocedasticidad, hay que examinar el supuesto especfico: ver si existe un alto nivel de correlacin entre las variables. Para examinarlo: Examen visual de la matriz de correlaciones, Test de Bartlett, Indice KMO Despus determinamos el nmero de factores a ser extrados. Ver el criterio: Criterio Criterio Criterio Criterio de raz latente a priori de porcentaje de la varianza de contraste de cada
Si seleccionamos varios criterios (como hoy), una regla general, emprica; cuando seleccionamos Criterio de contraste de cada, normalmente salen uno o dos factores ms que cuando se selecciona el Criterio de Valores Propios mayores que uno. Es lgico, ya que el Criterio de Contraste de Cada es un simple examen visual, y el otro es mucho ms emprico y objetivo.
Har una revisin bibliogrfica, y si salen los factores que espero despus de mi revisin bibliogrfica, me puedo quedar con ese criterio Tambin se realiza normalmente la rotacin ortogonal de los factores para su mejor interpretacin. Despus de esto, tenemos que atribuir significado a cada factor asignndole una etiqueta adecuada. Finalmente, realizaremos una interpretacin y validacin de los factores
5. Tras realizar una investigacin sobre la imagen de BMW, se consiguieron los siguientes resultados. Interpreta lo que indica la tabla y prepara un informe: ---------------------------------------------------------Cargas de los factores retenidos (despus de la rotacin): FACTOR 1 FACTOR 2 COMUNALIDAD Prestigio 0.6132* 0.2328 0.5302 Estatus social 0.4509* 0.0857 0.5106 Calidad 0.3287* 0.0595 0.4516 Sofisticacin 0.6605* -0.2364 0.5963 Tecnologa -0.0930 0.5690* 0.5477 Extravagancia -0.4916 -0.7263* 0.5692 VARIANZA: % DE VARIANZA: % VAR.ACUMUL.: 1.6780 27.97% 27.97% 1.5875 26.46% 54.43%
Dos puntos a tener en cuenta: 1. No se deben repetir, sino interpretar los datos Cuando ya se tienen los datos, no importan las respuestas que repiten datos: ya se pueden ver en la tabla! 2. Realizar recomendaciones: a) para la empresa, y b) para los investigadores Entonces: Diremos que variable tiene mayor importancia en cada factor. Pe Luego diremos como interpretar estos datos. En el cuadro no dice nada sobre la interpretacin. Entonces, para FACTOR 1 y FACTOR 2 tendremos que interpretar.
Para poner una etiqueta al FACTOR 1, pensaremos en alguna palabra que tenga que ver con sofisticacin, prestigio, estatus social y calidad. Los elementos determinantes de la imagen implican una relacin coherente entre todos los factores extrados. El primer factor se puede etiquetar como Estatus, e indica la imagen de prestigio que da la marca BMW. La Sofisticacin ha sido percibida como la imagen principal de dicha marca. Esta imagen parece ser una percepcin general de BMW. El segundo factor es ms difcil interpretar, ya que existen dos elementos contradictorios, es decir, Tecnologa y Extravagancia. Probablemente, la marca BMW ha sido evaluada de tal manera debido al elevado nivel de precio que no necesariamente compensa el nivel de tecnologa percibida..Shintaro. Uno de los peligros del ACP es la subjetividad a la hora de interpretar los factores. Con esta tcnica no se puede evitar la interpretacin subjetiva. Otro de los peligros es la interpretacin de las etiquetas. Deberamos explicar que significa cada etiqueta. Desde el punto de vista empresarial, nuestra recomendacin seria realizar acciones filantrpicas con el fin de aumentar su imagen social, tales como patrocinar partidos deportivos, llevar a cabo actividades culturales, etc. Tambin habra que hacer una publicidad comparativa entre la marca BMW y otras marcas competidoras para convencer a los consumidores de que la relacin entre precio y calidad es equilibrada o incluso superior a la de otras marcas. Metodolgicamente, hay dos advertencias que merecen nuestra atencin. Primero, el hecho de que el estudio ha extrado solo dos factores implica que el nmero de tems incluidos en el cuestionario probablemente no era suficiente. Segundo, como los factores explican solo la mitad (un 54%) de la varianza total, existiran otras dimensiones o construcciones que explican la otra mitad de la varianza. En un futuro estudio, se deben considerar e incorporar estas dos limitaciones para aumentar la significacin tanto prctica como estadstica.. Shintaro.
TEMA 3: EL ANALISIS FACTORIAL DE CORRESPONDENCIAS
Estructura de la clase: 1. Introduccin. 2. Definicin y objetivo del AFC. 3. Conceptos bsicos del AFC. 4. Supuestos del AFC. 5. Diseo del AFC. 6. Casos prcticos con DYANE.
Introduccin. En el pasado, las tcnicas de descomposicin del anlisis multidimensional (AM) han sido frecuentemente utilizadas. El AM es un conjunto de procedimientos para desplegar las relaciones (de similitud o preferencia) mediante un mapa perceptual. Sin embargo, en las ltimas pocas, se han combinado aspectos del anlisis factorial o del anlisis discriminante y del anlisis multidimensional para configurar una nueva tcnica llamada anlisis factorial de correspondencias. El AM es una tcnica de descomposicin de datos y stos se representan mediante un mapa perceptual, donde Es una tcnica para analizar tablas de contingencia. Requiere de una matriz de datos con entradas NO negativas. Se utilizan variables categricas nominales, de ah que no puedan haber datos negativos. Se tienen que identificar correctamente los objetos y los atributos. Ejemplo: Analizamos las cervezas ms representativas del mercado espaol. Queremos saber el posicionamiento de las marcas existentes en la actualidad para introducir una nueva marca de cerveza extranjera:
SanMiguel A Amstel OBJETOS (marcas representativas) CruzCampo Heineken Mahou
Sabor Pr ecio ATRIBUTOS Envase
Otro ejemplo: Imaginemos que tenemos una serie de marcas de bebidas alcohlicas (A, B, C y D) y queremos saber la existencia de similitud entre marcas. Existen varios mtodos para medir la similitud entre marcas. Podramos por ejemplo, comparar por parejas, es decir A con B, luego A con C, etc.
Para poder realizar este estudio, creamos una tabla de doble entrada y determinamos un orden de similitudes, por ejemplo: Marca A Marca Marca Marca Marca A B C D Marca B 1 Marca C 3 4 Marca D 5 6 2
Una vez asignadas las similitudes, comprobamos que esta ordenacin es difcil de apreciar una vez dispuesta esta informacin en forma de tabla. Podramos utilizar un ndice estadstico para ordenar los datos, colocando el orden de similitud entre las marcas, midiendo stas de una forma ms objetiva mediante las distancias entre marcas: D -2 C -1 0 A 1 B 2
En el grfico anterior, si se puede apreciar mejor las distancias existentes entre similitud de marcas. Por ejemplo, la B y la D son las marcas mas distanciadas tal y como se puede comprobar en la tabla de doble entrada anterior, ya que tienen un valor igual a 6. En el grfico anterior, estaramos observando una nica dimensin al estar las marcas dispuestas horizontalmente. Si quisiramos utilizar dos dimensiones, podramos incluso mejorar el nivel de percepcin: Dimensin 2 A B Dimensin 1 C D Resumiendo: Encuesta con escala nominal (dicotmicas), es decir, mutuamente excluyentes Definicin y objetivo del AFC. Determinaci n de Atributos y Objetos Mapa de posicionamiento. Colocar atributos grficamente.
El anlisis factorial de correspondencias (AFC) es una tcnica de interdependencia descriptiva que representa grficamente mediante filas
y columnas una tabla de contingencia, basndose en la descomposicin de la Chi-cuadrado. Otra definicin: Es una representacin grfica y podemos ver esa representacin grfica entre objetos y atributos de una forma muy sencilla. La Chi-cuadrado (X2) es una medida estandarizada de las frecuencias observadas de cada celda con las frecuencias esperadas de celdas. Los valores de la X2 pueden convertirse en medidas de similitud. El objetivo principal del AFC es identificar afinidades entre categoras de filas y columnas presentadas en forma de tabla, tanto de frecuencias como de valores medios. Las ventajas principales del AFC son: 1. su capacidad para representar relaciones entre categoras de datos nominales con filas y columnas en un mismo espacio. 2. El AFC difiere de otras tcnicas de interdependencia en su capacidad para utilizar tanto datos no mtricos como relaciones no lineales. Conceptos bsicos del AFC. A partir de la tabla de contingencia, se calcula una matriz de covarianzas de las variables columna, que luego se factoriza aplicando el Anlisis de Componentes Principales. Las races y los vectores caractersticos que se obtienen permiten calcular las coordenadas de las variables filas y columnas. La correlacin de cada variable con cada uno de los ejes factoriales obtenidos depende del valor de la coordenada respecto del eje considerado y las restantes coordenadas con los dems ejes. La medida de la asociacin entre variables filas y columnas viene dada por la inercia (concepto del DYANE)(variacin explicada del modelo) total. La inercia es el resultado de dividir el valor de la X2 de la tabla por la suma total de frecuencias. Cada factor obtenido contribuye a la inercia en forma decreciente, de modo que el primer factor es el que mayor inercia explica, luego el segundo, y as sucesivamente. Dentro de cada eje o factor, la contribucin a la inercia de cada variable est en funcin de los valores de su coordenada y de la frecuencia total de la variable columna o fila correspondiente. Si dos filas (columnas) tienen perfiles prximos, es decir, los porcentajes de las filas (columnas) de ambas son parecidos, aparecern prximos sobre el grafico. Si aparecen alejados tienen perfiles diferentes.
Supuestos del AFC. El uso del AFC tiene una relativa libertad respecto a sus supuestos bsicos. Se pueden utilizar tanto datos no mtricos como relaciones no lineales. Los supuestos del AFC se centran principalmente en la comparabilidad y representatividad de los objetos que estn siendo evaluados y de los encuestados. El proceso de muestreo es clave (a la hora de seleccionar los objetos ms representativos) cuando se aplica en el mundo real. En el ejemplo de las marcas, tenemos siempre que seleccionar las ms representativas.
Diseo del AFC. Determinacin del objetivo del estudio. Comprobacin de los supuestos del AFC. Creacin de una tabulacin cruzada de entradas no negativas. Clculo de la X2 Identificacin del nmero apropiado de dimensiones. El nmero mximo de dimensiones es igual al nmero ms pequeo de filas o columnas menos uno. Por ejemplo, si una variable dispone de cinco categoras y la otra de cuatro, el nmero mximo de dimensiones es tres. Creacin del mapa perceptual. (Con dos ejes para realizar el posicionamiento) Interpretacin y validacin.
Mtodo de validacin: Los investigadores deben evaluar la sensibilidad de los resultados. Como? Con la adicin o sustraccin por ejemplo de un objeto, podemos saber si el anlisis es dependiente de ese objeto en concreto y no de la relacin de este con los dems. Si los datos cambian drsticamente, quiere decir que evidentemente que no hemos elegido los objetos correctamente.
Casos prcticos con DYANE.

ANALISIS FACTORIAL DE CORRESPONDENCIAS AFC1
Para este ejercicio, se ha utilizado el fichero COMPORT.DYT, fichero de ejemplo del DYANE v2.0. Una vez abierto este fichero en DYANE, obtenemos el anlisis factorial por correspondencias (AFC)
Elegimos la opcin TABLA DE FRECUENCIAS:
Despus seleccionamos las variables fila y columna. Las variables fila tienen que seguir una ESCALA NOMINAL. En este caso las variables son DICOTNMICAS (SI o NO). Las variables columna, han de seguir una ESCALA CATEGRICA. El nmero de EJES (DIMENSIONES) difiere de la definicin dada por el profesor. Esto es debido a que DYANE tiene en cuenta otros factores para calcular dichos EJES. Por lo tanto, lo calculado en DYANE tambin es vlido.
En este caso, elegimos como variables fila TARJETA, AUTOMOV y VIVIENDA. Como variables columna, elegimos CLASSOC.
TABLA DE FRECUENCIAS:
1 2 3 4 5 6
TARJETA -S TARJETA -No AUTOMOV -S AUTOMOV -No VIVIENDA-S VIVIENDA-No
CLASSOC ----------------------------------Alta/me Med Me dia alta ia media dia baja Baja -------- -------- -------- -------87 110 54 2 74 198 384 91 94 135 135 17 67 173 303 76 112 183 219 31 49 125 219 62 JI-CUADRADO: EJE 1 EJE 2 EJE 3 249.2178
INERCIA TOTAL:
0.083073
Valores de la
Inercia y la Chi-Cuadrado Dimensiones o ejes

AUTOVALORES
obtenidos
VALORES PROPIOS: CONTRIBUCION A LA INERCIA: VECTORES PROPIOS: -------- -------- -------0.0818 0.0012 0.0000 98.5171 1.6915 0.5720 -0.6902 -1.5723 1.4241 -0.1901 -0.3584 0.8711 -2.5867 0.0588 -1.5211 1.3383 -0.2189 -0.7678
Los ejes 1 y 2 son los

AUTOVECTORES
ms representativos. El eje 3 es ignorable.
Resumiendo: Los ejes 1 y 2 representan el 99,5% de la informacin. En este caso, se puede despreciar la informacin proporcionada por el eje 3, siempre que no se necesite verdaderamente esta informacin para el estudio que queramos elaborar.
ESTUDIO DE LAS COLUMNAS ----------------------3 ----------------------
(% de inercia explicada para cada eje)

E J E 1 E J E 2 E J E ----------------------
----------------------
% INER. EXPLIC. -----1. Alta/media alta 37.25 2. Media media 55.17 3. Media baja 2.10 4. Baja 5.48 ESTUDIO DE LAS FILAS -------------------3 ---------------------% INER. EXPLIC. -----1. TARJETA -S 6.23 2. TARJETA -No 2.11 3. AUTOMOV -S 43.40 4. AUTOMOV -No 26.71 5. VIVIENDA-S 9.80 6. VIVIENDA-No 11.74
COORDENADA -----0.484 0.164 -0.197 -0.450
CORRELACION -----0.999 0.991 0.977 0.962
% INER. EXPLIC. -----46.07 10.08 20.86 22.99
COORDENADA ------0.007 -0.012 0.030 -0.089
CORRELACION -----0.000 0.006 0.023 0.038
% INER. EXPLIC. -----0.58 3.96 33.24 62.23
COORDENADA ------0.011 0.009 -0.002 -0.005
CORRELACION -----0.000 0.003 0.000 0.000
E J E
E J E
E J E
---------------------COORDENADA -----0.671 -0.227 0.305 -0.188 0.173 -0.207 CORRELACION -----0.993 0.993 0.994 0.994 0.940 0.940 % INER. EXPLIC. -----46.35 15.70 14.47 8.90 6.64 7.95
---------------------COORDENADA ------0.056 0.019 0.019 -0.012 0.044 -0.052 CORRELACION -----0.007 0.007 0.004 0.004 0.059 0.059 % INER. EXPLIC. -----22.11 7.49 4.03 2.48 29.07 34.82 COORDENADA -----0.006 -0.002 -0.013 0.008 0.005 -0.006 CORRELACION -----0.000 0.000 0.002 0.002 0.001 0.001
(Codificacin o etiquetacin de las variables para su representacin grafica)

REPRESENTACIN GRFICA DE LOS EJES FACTORIALES ---------------------------------------------VARIABLES COLUMNA: Cdigo Significado ------ ---------------A Alta/media alta B Media media C Media baja D Baja
VARIABLES FILA: Cdigo Significado ------ ---------------1 TARJETA -S 2 TARJETA -No 3 AUTOMOV -S 4 AUTOMOV -No 5 VIVIENDA-S 6 VIVIENDA-No
EJES 1 y 2: nicamente se miran los resultados de stos 2 ejes ya que la informacin proporcionada por el eje 3 es ignorable. En este grfico, medimos la similutud que puedan tener las variables aplicando un criterio
subjetivo, dado que somos nosotros los que tenemos elegir dicha simulitud, observando las variables directamente del grfico. No tenemos que olvidar que la tcnica del AFC mide el posicionamiento de las variables.
EJE 2 | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | 5 | | 2 C | 3 | --------------------------------------4------------+-----------B---------------------A---------EJE 1 | | | | 6 | 1 | | D | | | La var. D est relacionada con la 6 | | | | | | | | | | | | | | | | | | | | | | | | | |
Este ejercicio se ha realizado utilizando el fichero ACTI_TEMP.DYT del DYANE v2.0. Escogemos la opcin de Tabla de Valores Medios del Anlisis Factorial por correspondencias en DYANE:
Escogemos 10 variables fila y 1 variable columna. Las variables fila siguen una escala de Likert. El nmero de ejes o dimensiones es 3.
TABLA DE VALORES MEDIOS: PROMOC_A ----------------------------------Tercera Cuarta Quinta Sexta (81/82) (82/83) (83/84) (84/85) -------- -------- -------- --------
1 2 3 4 5 6 7 8 9 10
LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC
2.38 3.62 2.66 1.45 2.21 2.10 2.90 2.14 4.31 2.76 0.007384
2.77 3.40 2.67 1.53 3.27 1.83 2.57 2.00 4.47 2.23
2.78 3.39 2.68 1.56 2.76 1.73 3.37 2.27 4.20 2.07
3.18 3.34 2.37 1.68 3.19 1.76 2.63 2.05 4.21 2.02 0.7862
INERCIA TOTAL:
JI-CUADRADO: EJE 1 EJE 2 EJE 3 -------- -------- -------0.0052 0.0017 0.0004 70.4465 1.5854 -0.5541 0.0608 -1.0923 23.6515 0.5292 0.9535 -1.6594 0.1877 5.9020 0.4711 -1.3292 -0.4635 1.3423
VALORES PROPIOS: CONTRIBUCION A LA INERCIA: VECTORES PROPIOS:
Se puede despreciar la
informacin del tercer eje
ESTUDIO DE LAS COLUMNAS ----------------------3 ---------------------% INER. EXPLIC. -----1. Tercera (81/82) 5.53 2. Cuarta (82/83) 44.36 3. Quinta (83/84) 5.41 4. Sexta (84/85) 44.71 ESTUDIO DE LAS FILAS -------------------3 ---------------------% INER. EXPLIC. -----1. LIBERAL 34.25 2. ECSOLMER 1.47 3. SOCIALIS 26.09 4. COMUNISM 10.30 5. EMPR_CRE 16.17 6. EMPR_EXP 3.61 7. BEN_OBJ1 1.14 8. BENSOLAC 0.57 9. BAL_SOCI 5.01 COORDENADA ------0.096 0.030 0.029 -0.047 -0.143 0.068 0.044 0.022 0.001
E J E
E J E
E J E
---------------------COORDENADA -----0.114 -0.040 0.004 -0.079 CORRELACION -----0.957 0.404 0.004 0.880 % INER. EXPLIC. -----62.59 7.71 0.09 29.60
---------------------COORDENADA -----0.022 0.040 -0.069 0.008 CORRELACION -----0.036 0.402 0.977 0.009 % INER. EXPLIC. -----6.97 22.83 69.32 0.87 COORDENADA -----0.010 -0.028 -0.010 0.028 CORRELACION -----0.007 0.195 0.019 0.111
E J E
E J E
E J E
---------------------CORRELACION -----0.855 0.833 0.419 0.726 0.936 0.692 0.169 0.218 0.001 % INER. EXPLIC. -----18.35 2.27 1.62 2.46 42.09 6.17 3.99 0.71 0.00
---------------------COORDENADA ------0.011 0.012 -0.006 -0.008 0.027 0.043 -0.097 -0.040 0.021 CORRELACION -----0.011 0.121 0.016 0.019 0.033 0.275 0.827 0.768 0.772 % INER. EXPLIC. -----0.70 0.98 0.18 0.19 4.48 7.30 58.03 7.41 4.25 COORDENADA -----0.038 0.007 -0.034 0.028 -0.026 0.015 -0.007 0.006 -0.012 CORRELACION -----0.134 0.045 0.565 0.255 0.030 0.034 0.004 0.015 0.227
10. MARK_NEC 1.39
0.117
0.798
22.34
0.058
0.198
16.47
0.008
0.004
REPRESENTACIN GRFICA DE LOS EJES FACTORIALES ---------------------------------------------VARIABLES COLUMNA: Cdigo Significado ------ ---------------A Tercera (81/82) B Cuarta (82/83) C Quinta (83/84) D Sexta (84/85)
VARIABLES FILA: Cdigo Significado ------ ---------------1 LIBERAL 2 ECSOLMER 3 SOCIALIS 4 COMUNISM 5 EMPR_CRE 6 EMPR_EXP 7 BEN_OBJ1 8 BENSOLAC 9 BAL_SOCI 10 MARK_NEC
EJES 1 y 2: EJE 2 | | | | | | | | | | | | | | | | | | | | | | | | 10 | | | | | B | 6 | | | | | 5 9 A | | | | | D | 2 | --------------------------------------------------+--------------------------------------------EJE 1 | 1 4 | 3 | | | | | | | | | | | | 8 | | | | | | | | | | | |C | | | | | | | | | 7 | | | | | | | | | | | |
Utilizamos el fichero ACTI_EMP.DYT con el fichero AFC1.TBL, ambos vienen con DYANE v2. En este ejercicio, elegimos TABLA ESPECFICA (AD HOC).
En entrada de datos, elegimos la tabla AFC1.TBL, que est definida previamente.
TABLA: Ideal HPravia Sanex Tacto -------- -------- -------- -------9.00 3.00 4.00 6.00 9.00 3.00 4.00 5.00 9.00 2.00 6.00 5.00 9.00 5.00 5.00 5.00 9.00 5.00 5.00 6.00
1 2 3 4 5
Hidratan Natural Dermopro No deter Pielsuav
6 7 8
Recambio Olor agr Econmic
6.00 8.00 7.00 0.055297
3.00 5.00 2.00
1.00 2.00 1.00
2.00 5.00 1.00 8.6817
INERCIA TOTAL: VALORES PROPIOS:
JI-CUADRADO: EJE 1 EJE 2 -------- -------0.0351 0.0157 63.4315 0.5563 1.2074 -1.6970 -0.6573 28.4557 -0.9980 1.3685 -0.2915 1.0204
CONTRIBUCION A LA INERCIA:
Escogemos las dos
dimensiones
VECTORES PROPIOS:
ESTUDIO DE LAS COLUMNAS -----------------------
1. 2. 3. 4.
Ideal HPravia Sanex Tacto
E J E 1 ---------------------COORCORRE- % INER. DENADA LACION EXPLIC. ------ ------ -----0.104 0.404 13.01 0.226 0.592 26.00 -0.318 0.921 51.36 -0.123 0.374 9.63
E J E 2 ---------------------COORCORRE- % INER. DENADA LACION EXPLIC. ------ ------ ------0.125 0.584 41.87 0.172 0.341 33.40 -0.037 0.012 1.52 0.128 0.404 23.21
ESTUDIO DE LAS FILAS --------------------
1. 2. 3. 4. 5. 6. 7. 8.
Hidratan Natural Dermopro No deter Pielsuav Recambio Olor agr Econmic
E J E 1 ---------------------COORCORRE- % INER. DENADA LACION EXPLIC. ------ ------ ------0.096 0.427 3.65 -0.069 0.522 1.81 -0.275 0.811 30.18 -0.030 0.058 0.40 -0.055 0.201 1.39 0.329 0.996 23.59 0.190 0.537 13.16 0.359 0.557 25.81
E J E 2 ---------------------COORCORRE- % INER. DENADA LACION EXPLIC. ------ ------ -----0.004 0.001 0.01 -0.045 0.221 1.71 -0.131 0.185 15.39 0.063 0.247 3.82 0.101 0.669 10.32 -0.011 0.001 0.06 0.169 0.423 23.08 -0.320 0.441 45.60
REPRESENTACIN GRFICA DE LOS EJES FACTORIALES ---------------------------------------------VARIABLES COLUMNA: Cdigo Significado ------ ---------------A Ideal B HPravia C Sanex D Tacto VARIABLES FILA: Cdigo Significado ------ ---------------1 Hidratan 2 Natural 3 Dermopro 4 No deter 5 Pielsuav 6 Recambio 7 Olor agr 8 Econmic
EJES 1 y 2: EJE 2 | | | | | | | | | | | 7 B | | | | | | | | D | | | | | | 5 | | | | | | 4 | | | | | | | | | | | ---------------------------------------1----------+--------------------------------------------EJE 1 | | 6 | | C | | | 2 | | | | | | | | | | | | | | | 3 | A | | | | | | | | | | | | | | | | | | | | | | | | 8 |
Ejercicio 3 1. Explica dos ventajes principales del uso del AFC. 2. Menciona una de las precauciones que hay que tener en el uso del AFC. 3. Define y relaciona los siguientes trminos: la Chi-cuadrado y la inercia. 4. Cmo se puede determinar el nmero mximo de dimensiones en el AFC? 5. Se efectu un estudio emprico sobre la relacin entre las diversas clases sociales y la posesin de tarjeta de crdito, automvil, y vivienda. La clase social se clasific en cuatro tipos, (1) alta/media alta, (2) media media, (3) media baja, y (4) baja. Respecto a la posesin de cada atributo (es decir, de tarjeta de crdito, automvil o vivienda), se asign una de las dos categoras siguientes: s tengo (nmero 1) o no tengo (nmero 0). Interpreta lo que indican los siguientes datos y explica cmo se crea una representacin grfica.
6. Interpreta lo que indica la siguiente Representacin grfica.
1. Explica dos ventajes principales del uso del AFC. 2. Menciona una de las precauciones que hay que tener en el uso del AFC. 3. Define y relaciona los siguientes trminos: la Chi-cuadrado y la inercia. 4. Cmo se puede determinar el nmero mximo de dimensiones en el AFC? 5. Se efectu un estudio emprico sobre la relacin entre las diversas clases sociales y la posesin de tarjeta de crdito, automvil, y vivienda. La clase social se clasific en cuatro tipos, (1) alta/media alta, (2) media media, (3) media baja, y (4) baja. Respecto a la posesin de cada atributo (es decir, de tarjeta de crdito, automvil o vivienda), se asign una de las dos categoras siguientes: s tengo (nmero 1) o no tengo (nmero 0). Interpreta lo que indican los siguientes datos y explica cmo se crea una representacin grfica.
El eje 1 explica el 98% de la inercia, casi su totalidad. Prescindimos del tercero porque aporta poco a la inercia. De las categoras, la clase media/alta explica mayor Representa de la inercia (46,07%).
6. Interpreta lo que indica la siguiente Representacin grfica.
A la hora de interpretar u n mapa de posicionamiento debemos tener en cuenta si los datos estn en la parte positiva o negativa, no tiene importancia. En lo que hay que fijarse es en la distancia entre los datos y agrupar los objetos que estn ms cerca. Los atributos explican las caractersticas de esas agrupaciones. Si estn prximos los perfiles son similares. Si estn alejados, los perfiles son distintos. Si su valor es la media, se proyectar sobre el eje de ordenadas Si est alejado el origen, su comportamiento ser distinto del resto y su contribucin a la inercia ser mayor.
Hay que justificar las interpretaciones, ese es el peligro que tenemos al usar tcnicas interdependientes. En el grfico podemos ver 4 grupos. Se comprueba la asociacin de los atributos observados a los encuestados con las diversas marcas de automvil. 1. 2. 3. 4. Polo Asociacin con los atributos ms cercanos. Ibiza y Clo Punto, Saxo y Corsa. Fiesta y P106 no puedo captar suficientes atributos para describirlos.
En concreto, este mapa no es muy fiable, no nos podemos fiar de los resultados de este estudio ya que el atributo amplitud est muy cercano al corsa, punto y saxo, que son coches pequeos. Por lo que el cliente no estara de acuerdo con los resultados.
TEMA 4: EL ANALISIS CLUSTER
Estructura de la clase: 1. Introduccin. 2. Definicin y objetivo del AC. 3. Conceptos bsicos del AC. 4. Supuestos del AC. 5. Diseo del AC. 6. Casos prcticos con DYANE. Introduccin. En estadstica, la bsqueda de objetos relativamente homogneos se denomina anlisis cluster (Conglomerados o grupos. Tienen que ser homogneos internamente y heterogneos entre los grupos). Las aplicaciones del anlisis cluster al marketing son mltiples. Por ejemplo, se utiliza mucho en el campo de la segmentacin. El origen de esta tcnica multivariante se encuentra en la biologa y la botnica. Los investigadores de estas reas de conocimiento tenan que agrupar las distintas especies de animales y vegetales en familias que fueran lo ms homogneas posibles. Por ello, a esta tcnica tambin se la denomina construccin de tipologa, taxonoma numrica o anlisis de clasificacin. Ejemplo ilustrativo: Imaginemos que hemos realizado una serie de encuestas para saber una/s caracterstica/s de consumidores de grandes superficies ms representativas en la CCAA de Madrid. Al representar grficamente los datos obtenidos, lo haremos sobre dos ejes donde cada eje tenga sus medidas estandarizadas.
Bsicamente consiste en agrupar, en este caso, los consumidores en grupos homogneos entre s y para formar los grupos o clsters , y para ello vamos encontrando las distancia mnima entre los puntos o consumidores.
Definicin y objetivo del AC. El anlisis cluster se puede definir como una serie de tcnicas estadsticas (grupo de tcnicas) que sirven para determinar grupos internamente homogneos (heterogneos), pero distintos entre s. El objetivo principal del AC es la obtencin de grupos internamente homogneos y distintos entre s basndose en su similitud para un conjunto de caractersticas especificadas. A cada uno de estos grupos se le denomina conglomerado o cluster. Con estos grupos homogneos, podemos conseguir los siguientes objetivos especficos: (1) Simplificacin de los datos e identificacin de las relaciones entre los conglomerados o clusters. (2) Confirmacin de una taxonoma o tipologa propuesta. El AC funciona mejor cuando tenemos una teora especfica. Por ejemplo: consumidores divididos en cinco grupos. Y se hace as por estudios previos. Conceptos bsicos del AC. El anlisis cluster es la nica tcnica multivariante que no estima el valor terico empricamente sino que utiliza el valor terico especificado por el investigador. MUY IMPORTANTE: Somos nosotros los que estimamos el valor terico. Se debe incluir slo aquellas variables que caracterizan los objetos que se estn agrupando y que son coherentes con el objetivo del estudio. Dicha coherencia debe basarse en una teora explcita, investigacin previa o suposicin propia. Para formar los conglomerados o clusters homogneos hay que seguir tres pasos: (1)determinacin del mtodo de medicin de la similitud entre los objetos. (Medir la distancia entre dos puntos) (2)determinacin del mtodo de conglomeracin jerrquica o no jerrquica. (Conglomeracin significa agrupacin) (3)determinacin del nmero de conglomerados o clusters en la solucin final. Supuestos del AC. Las variables a utilizar en el AC son mtricas. Los supuestos generales (linealidad, normalidad y homocedasticidad) tienen en general poco peso en el AC. No obstante, hay dos supuestos especficos que s son importantes:
a) La representatividad de los datos: La bondad del AC depende mucho de la representatividad de la muestra, y es muy sensible a los casos atpicos. b) El nivel de multicolinealidad: La multicolinealidad es (una medida por la cual una variable puede ser explicada por otras variables. El nivel de multicolinealidad implica ver el nivel de independencia entre las variables. ). Cuanto mayor es la multicolinealidad del anlisis, ms difcil es interpretar los resultados del anlisis, porque es ms difcil saber cul es el efecto de una variable aislada debido a las interrelaciones entre las variables. Hay dos mtodos para evaluar el nivel de multicolinealidad: (1)VIF (factor de inflacin de la varianza). (2)Tolerancia. Estos dos ndices se vern mejor en el modelo de regresin lineal mltiple.
Diseos del AC. Para disear un AC hay que seguir los siguientes pasos: Determinar objetivos del AC. (Revisin bibliogrfica) Seleccionar las variables y asegurar su representatividad. Examinar los supuestos. Detectar los atpicos. Examinar el nivel de multicolinealidad. Determinar el mtodo de medicin de distancia o similitud. Determinar el procedimiento de obtencin de conglomerados o clusters. Determinar el nmero de conglomerados o clusters. Interpretacin y validacin de los resultados. Determinar objetivos del AC: Qu queremos averiguar de esta tcnica.
Seleccin de variables relevantes (representativas): Existen fundamentalmente tres mtodos de seleccin de variables: inductivo, deductivo y cognitivo. En el mtodo inductivo (intuitivo), ni las variables ni el nmero de grupos tienen un nexo con una teora. Se utiliza ms en estudios exploratorios. En el mtodo deductivo, la seleccin de variables se apoya en la literatura terica existente. La consistencia interna de los grupos resultantes es mayor ya que no se incluyen variables irrelevantes. En el mtodo cognitivo se utilizan las predicciones de determinados expertos de la industria para definir las variables. Utilizacin de los factores. Se pueden utilizar los factores del ACP.
Examinar los supuestos: Detectar los atpicos Nivel de multicolinealidad. Determinar el mtodo de medicin de similitud:
El concepto fundamental del anlisis cluster es la similitud. Los casos pueden ser agrupados conforme a la similitud o distancia entre objetos. Existen varias medidas de distancia. La ms utilizada es la distancia Eucldea. La distancia Eucldea entre los puntos es la longitud de la hipotenusa de un tringulo, calculada por la frmula:
D istancia
= ( x2 1 ) 2 + y 2 1 ) 2 x ( y
La distancia Eucldea al cuadrado tiene la ventaja de no tener que tomar la raz cuadrada lo que acelera notablemente los clculos, y es la medida de distancia recomendada para los mtodos de anlisis cluster del centroide y Ward. * Distancia de Mahalanobis
Determinar el conglomerados:
procedimiento
de
obtencin
de
Se trata de cmo elegir formas de combinar los objetos. Globalmente, hay dos procedimientos: 1) Procedimientos jerrquicos: Consisten en la construccin de una estructura en forma de rbol. 2) Procedimientos no jerrquicos (Anlisis Cluster K-means): Asignan los objetos a conglomerados una vez que el nmero de conglomerados a formar est especificado, basndose en la bsqueda de la mejor solucin. 1 ver las distancias y despus incluir los puntos de esa distancia. Es un procedimiento matemtico. IMPORTANTE: En DYANE slo est el (1). En SPSS estn el (1) y el (2). Dentro del procedimiento jerrquico, existen varios agrupacin:
mtodos
de
1) Mtodo aglomerativo o modelo ascendente (por ejemplo, Algoritmo de Johnson): Cada objeto empieza dentro de conglomerado. Los objetos ms cercanos se combinan en conglomerados agregados reduciendo as el nmero de conglomerados. Est implementado as en DYANE.
2) Mtodo divisivo o modelo descendente (por ejemplo, Algoritmo de Howard-Harris): Empezamos con un gran conglomerado que contiene todas las observaciones con los objetos. En pasos sucesivos, los objetos se van dividiendo donde despus se constituyen conglomerados ms pequeos hasta quedar los conglomerados bsicos, diferenciados entre s.
Dentro del mtodo aglomerativo o modelo ascendente, hay varios mtodos de encadenamiento. Los mtodos ms importantes son los tres primeros. 1) Encadenamiento simple: Se basa en la distancia mnima entre los dos casos. 2) Encadenamiento completo: Se basa en la distancia mxima entre los dos casos. Entre todas las distancias mximas existentes. 3) Encadenamiento promedio: Se basa en la distancia media de todos los casos.
4) Encadenamiento de Ward: Calcula la media de todas las variables de cada cluster, y luego calcula la distancia eucldea al cuadrado entre cada indiviuo y la media de su grupo, etc. 5) Encadenamiento del centroide: Distancia entre los centroides de los conglomerados.
Determinar el nmero de conglomerados: El resultado de la agrupacin se suele resumir en una matriz de distancias. En la matriz de distancias, podemos decidir cuantos clusters se necesitan comparando las distancias entre los casos. Otra forma de visualizar la representacin de los pasos en un anlisis jerrquico es el dendrograma. El dendrograma muestra el cluster que es combinado y los valores de los coeficientes en cada caso. El dendrograma se lee de izquierda a derecha. Existen tres criterios que pueden ayudar al investigador a tomar una decisin relativa al nmero ptimo de grupos a formar: (1) Dendograma.
(2) Matemticamente determinar el nmero de conglomerados.
(3) Base terica. Revisar estudios previos. Con esta base terica (estadstica de fuentes secundarias) podemos dividir las observaciones para obtener un determinado nmero de clusters.
Interpretacin y validacin de los resultados: La validacin del AC, de la misma manera que en el ACP, se puede realizar escindiendo la muestra en dos grupos. Cada conglomerado se analiza por separado y se comparan despus los resultados. Tambin, Hair et al. (1998) explica que "la aproximacin ms directa es realizar el AC para muestras distintas. Esta aproximacin, sin embargo, a menudo no es prctica debido a las restricciones de tiempo o de costes o a la no disponibilidad de objetos..." (pp. 517).
Casos prcticos con DYANE.
Ejercicio 4 1. 2. 3. 4. 5. Explica dos ventajas principales del uso del AC. Cules son los pasos bsicos en la obtencin de clusters? Define y relaciona los siguientes trminos: la similitud y la distancia Eucldea. Explica cmo elegir formas de combinar los objetos. Explica en qu consiste el encadenamiento completo utilizando el siguiente cuadro.
Matriz de distancias eucldeas A B A B C D E 0 1 20 12 7 0 14 11 18
0 5 25 0 23 0
1. Explica dos ventajas principales del uso del AC. 1) Simplificar los datos e identificar las relaciones entre los conglomerados o clusters 2) Confirmar una taxonoma o tipologa propuesta El Anlisis Cluster funciona mucho mejor cuando tenemos una base terica. Tengo una taxonoma clasificable, como por ejemplo una taxonoma en la que se puedan dividir en grupos del tipo Alumnos que no han entregado el trabajo de ITM, Alumnos que han entregado el trabajo la semana pasada, Alumnos que han entregado el trabajo la ltima semana
2. Cules son los pasos bsicos en la obtencin de clusters? Por definicin el AC es un conjunto de tcnicas de clasificacin de objetos y no una sola. Por eso nos centramos en tres pasos. 1.- Nos centramos en la determinacin del mtodo de medicin de la similitud entre los objetos. Aqu nos hemos marcado la distancia eucldea como indicador 2.- Determinacin del mtodo de Conglomeracin Jerrquica o No Jerrquica (el No Jerrquico no lo estudiaremos este ao). El procedimiento ideal del AC es utilizar el mtodo Jerrquico y obtener los resultados, y luego validar estos resultados con el mtodo No Jerrquico. 3.- Determinar el n de conglomerados o clusters en la solucin final. Cmo? Hay 3 mtodos para determinar el n de clusters: a) En los mtodos Jerrquicos, el criterio ms usado es la observacin del dendograma. b) Podemos utilizar medidas matemticas. Calcular matemticamente el n de conglomerados, pero esto no lo hemos visto. c) Recomendado: La existencia de una teora previa. Podemos proponer un modelo mediante estudios previos o datos estadsticos de la industria o los artculos de expertos del rea. Con esto proponemos la base terica.
3. Define y relaciona los siguientes trminos: la similitud y la distancia Eucldea.
Son conceptos principales del Anlisis Cluster.
Distancia=Similitud
Para medirlo se utiliza la distancia eucldea: Distancia = Bsicamente hablamos de objetos para clasifica y agrupar un conglomerado. Tenemos que medir la distancia, y esta distancia es sinnimo de similitud,. Para medir la distancia matemticamente usamos el concepto de distancia eucldea. La similitud es un concepto fundamental del anlisis cluster, en base a los cual pueden ser agrupados. Esencialmente, la similitud es sinnimo de distancia entre objetos. La ms utilizada es la distancia Eucldea. La Distancia Eucldea entre dos puntos es la longitud de la hipotenusa de un triangulo, y se calcula as: Distancia =
( X 2 X 1) 2 +(Y 2 Y 1) 2
4. Explica cmo elegir formas de combinar los objetos. Globalmente, hay dos procedimientos del anlisis cluster: Procedimientos jerrquicos y Procedimientos No jerrquicos: Dentro del jerrquico, existen varios mtodos de agrupacin: 1) Mtodo aglomerativo o modelo ascendente (Algoritmo de Johnson en Dyane). En este mtodo, cada objeto o observacin empieza dentro de su propio conglomerado. En etapas ulteriores los dos conglomerados ms cercanos se combinan en un nuevo conglomerado agregado, reduciendo as el nmero de conglomerados paso a paso 2) Mtodo divisivo o modelo ascendente (Algoritmo de Howard-Harris en Dyane) Empezamos con un gran conglomerado que contiene todas las observaciones y en los pasos sucesivos las observaciones que son mas diferentes se dividen y se construyen conglomerados ms pequeos. Etc. . (Esto esta en el esquema del tema 4)
5. Explica en qu consiste el encadenamiento completo utilizando el siguiente cuadro.

Matriz de distancias eucldeas
A B C D E
A 0 1 20 12 7
B 0 14 11 18
C 0 5 25
0 23
1) Primeramente hay que identificar entre que variables la distancia es mnima: En este ejemplo, la distancia mnima se da entre A y B. Por ello, se agruparan estos dos casos. 2) Despus de agrupar los dos casos, hay que formar una nueva matriz de combinaciones como la siguiente: AB 0 ? ? ? C 0 5 25 D 0 23 E
AB C D E
3) Ahora hay que calcular las distancias mnimas con la nueva matriz de combinaciones mediante el encadenamiento completo: D(AB)C = Max (dA C, dB-C) = Max (20, 14) = 20 D(AB)D = Max (dA D, dB-D) = Max (12, 11) = 20 D(AB)E = Max (dA E, dB-E) = Max (7, 18) = 18 4) La nueva matriz de distancias es AB C D E AB 0 20 12 18 C 0 5 25 D 0 23 E
Ahora repetimos el proceso con esta nueva tabla. La distancia mnima se da ente C y D. Por ello, se agrupan estos dos casos. AB CD E
AB CD E
0 ? 18
0 ?
D(AB)(CD) = Max (dAB-C, dAB-D) = Max (20, 12) = 20 D(CD)E = Max (dC-E, dD-E) = Max (25, 23) = 25 (Siempre hay que calcular las distancias para agrupar los casos. Y esto siempre mirando la matriz anterior) 7) La nueva matriz de distancias es: AB CD E AB 0 20 18 CD 0 25 E 0
La distancia mnima se da entre AB y E, que es 18. La matriz final es: ABE CD ABE 0 CD 25 0 Nota: El encadenamiento simple es igual pero con las distancias mnimas en lugar de las distancias mximos
Grfico Dendograma
18
20
5 1
TEMA 5: LA REGRESIN MULTIPLE
Estructura de la clase: 1. Introduccin. 2. Definicin y objetivo. 3. Trminos y conceptos bsicos de la RM. 4. Supuestos de la RM. 5. Tamao muestral. 6. Diseo de la RM. 7. Casos prcticos con DYANE y SPSS. Introduccin. 1.1 Introduccin General Cuando queremos predecir una variable dependiente en funcin de unas variables independientes: Y = Variable dependiente X1 + X2 ++ Xn Variables independientes
1. Cuando tenemos variables dependientes METRICAS, y variables independientes METRICAS, tenemos que utilizar Regresin Mltiple. Tenemos solamente UNA variable dependiente mtrica y varias independientes METRICAS. 2. Cuando tenemos una variable dependiente NO METRICA, y variables independientes METRICAS, usaremos el Anlisis Discriminante. 3. Cuando tenemos VARIAS variables dependientes METRICAS, y tenemos una serie de variables independientes NO METRICAS, aqu usaremos MANOVA. Regresin Logstica se usa cuando tenemos una variable dependiente nominal. Para Anlisis Discriminante podemos utilizar una variable categrica, no tiene que ser dicotmica. En la regresin logstica se usa cuando la variable categrica es nominal, es decir dicotmica, con dos valores, por ejemplo SI o NO.
1.2 Introduccin Regresion Multiple
Es bsicamente una tcnica de prediccin. 1. Hasta ahora hemos estudiado la prediccin sin variables independientes, como son la utilizacin de la media y la tcnica ANOVA para la comparacin de medias. 2. Tambin hemos hecho prediccin con una nica variable independiente. En este caso estamos utilizando la tcnica de Regresin Simple, que tiene una variable independiente y una variable dependiente. Es una regresin lineal para predecir la tendencia de una poblacin. Un concepto importante en la regresin simple es la distancia entre el valor y la prediccin. A esto se le llama Error de Prediccin. La Regresin Mltiple es la continuacin de la Regresin Simple, por eso usaremos los mismos conceptos.
Error de Prediccin
En la Regresin Mltiple, tenemos que minimizar los errores de prediccin.
Definicin y objetivo de la RM. Qu es la Regresin Mltiple? Usar las variables independientes cuyos valores son conocidos para predecir la nica variable criterio seleccionada por el investigador Y Variable Mtrica Dependiente = X1 + X2 ++ Xn Variables Mtricas Independientes
La RM es una tcnica estadstica que puede utilizarse para analizar la relacin entre una nica variable dependiente y varias variables independientes. Objetivos: (1) Maximizar la potencia conjunta de prediccin de las variables independientes. (2) Explicar la relacin entre las variables dependientes e independientes al formar el valor terico.
Trminos y conceptos bsicos de la RM. Vamos a estudiar los trminos y conceptos bsicos de la RM con un ejemplo. Supongamos que queremos predecir el porcentaje de paro sobre la poblacin (que es la variable dependiente Y), a partir del porcentaje de variacin de la poblacin en el perodo 1991-98, el nivel econmico, y la cuota de mercado de la provincia (que son las variables independientes X1 X2 y X3 , respectivamente.
Variable Dependiente Variable Independiente
Coeficiente de determinacin: 0.4219 Coeficiente de correlacin mltiple: 0.6495 Coeficiente de regresin alfa: 6.4077
DESVIACIN ESTNDAR COEFICIENTE REGRESIN ERROR ESTNDAR T DE STUDENT COEFIC. CORREL. PARCIAL SUMA DE CUADRADOS AADIDA PROPORC. VARIANZA AADIDA
Coeficiente de Regresin Beta
Coeficiente de Correlacin Mltiple R
VARIABLE
MEDIA
-------- -------------- -------------- ----------- ---------- -------- ------- -------------------- -------% Paro (Y) 3.9000 1.1071 NivelEco (X1) 5.1800 1.4098 2365.4349 4.2977 -0.5167 0.0001 -0.0200 0.0900 0.0001 0.0294 -5.7435 p=0.0000 1.8958 p=0.0643 -0.6823 p=0.4985 -------------------- -------25.8521 0.4219 ANLISIS DE LA VARIANZA ----------------------FUENTE DE VARIACIN GRADOS LIBERTAD SUMA CUADRADOS ---------------------- --------------- --------------------- --------------------Debida a la regresin: 3 25.8521 Residuo: 46 35.4279 ------------------------Varianza total: 49 61.2800 F de Snedecor con 3 y 46 grados de libertad = 11.1889 (p= 0.0000) MEDIA CUADRADOS 8.6174 0.7 -0.6462 0.2692 -0.1001 22.9909 2.5026 0.3585 0.3752 0.0408 0.0059
CuotaMer ( X2) 1993.9200 %VarPobl ( X3) 1.8300
El coeficiente de determinacin y el coeficiente de correlacin mltiple son coeficientes muy importantes para valorar el Anlisis de Regresin Mltiple Mediante el valor de t de Student podemos rechazar o aceptar las variables independientes. Aceptar o rechazar las variables, depender del nivel de significacin.
Los criterios para establecer el nivel de significacin dependen de nuestra base terica. En nuestro modelo, si queremos aceptar nuestro modelo para un nivel de significacin de p = 0.10, tendremos que justificar porque usamos este nivel de significacin. Sobre todo en estudios EXPLORATORIOS (No confirmatorios), este nivel de significacin es aceptable. La tercera parte de esta tabla habla del Anlisis de la varianza. La F de snedecor, trata la hiptesis de que el porcentaje de variacin explicada por el modelo es mayor que la explicada por la media. Para realizar esta prediccin suponemos que Y se puede expresar como una combinacin lineal de las variables independientes X1 X2 y X3 de este tipo: Y = +1 X1 +2 X2 + .... +n Xn + e [Supongamos que queremos predecir el % de paro sobre la poblacin (Y como variable dependiente). Usaremos variables independientes para predecir esta variable dependiente que hemos seleccionado. Para hacer regresin mltiple sobre el Dyane:
Y nos saldrn los valores de la tabla de arriba.]
Coeficientes de regresin alpha (): Es el valor constante que toma la variable dependiente Y si las variables independientes X1 X2 y X3 valiesen
cero. Coeficiente de regresin beta (1, 2,, n): Expresa el cambio estimado en la variable dependiente Y debido a un cambio unitario de la variable independiente.
Error de prediccin (Residuo, e): Es la diferencia entre los valores reales y el valor de prediccin de la variable dependiente Y.
Error estndar: Es la desviacin tpica de los errores de prediccin.
Importante: El error estndar implica la precisin de la prediccin. Un nivel de error estndar ms pequeo implica una prediccin ms segura o correcta. Los dos siguientes ndices son quizs los ms importantes para la interpretacin de los datos. Coeficiente de correlacin mltiple (R): Es el coeficiente de correlacin de la regresin mltiple de las variables independientes y la variable dependiente. Vara entre 0 y 1. Se utiliza para la interpretacin de los datos.
Coeficiente de determinacin (R2): Es el coeficiente de correlacin mltiple al cuadrado.
Este ndice expresa la proporcin de la varianza de la variable dependiente explicada por el modelo de regresin mltiple. Vara entre 0 y 1. Este coeficiente esta influenciado por el nmero de variables independientes relativas al tamao muestral. Por ello se ajusta la infraccin del coeficiente de determinacin y se calcula el Coeficiente de Determinacin Ajustado (R2 Ajustado).
t de Student: El coeficiente de regresin dividido por su error estndar. El valor t mide la significacin de la correlacin parcial de la variable reflejada en el coeficiente de regresin. La t de Student se utiliz en el primer semestre para ver diferencias significativas entre poblaciones. La parte ms importante de la t de Student es que tenemos que utilizar este ndice para determinar si una variable independiente debera salir de la ecuacin una vez que se ha aadido. Estableceremos un nivel de significacin.
En la tabla de ejemplo tenemos el valor de la t de Student, aunque el valor realmente importante es el valor de la p (probabilidad, significacin estadstica). [Si fijamos un nivel de significacin de p = 0.00001 slo fijaremos una sola variable independiente, aunque nuestro planteamiento inicial es que el % de paro depende de las otras variables tambin. As, podemos cambiar nuestro nivel de significacin, , para fijar un alfa =0.01, 0.05, 0.1, y poder aceptar ms variables independientes. Por eso, para saber que variables rechazar es muy importante mirar estudios anteriores. Por ejemplo nosotros creemos que son los tres factores muy influyentes en el nivel de paro, y nosotros queremos demostrar que las 3 influyen y las queremos incluir en nuestro modelo para hacer la previsin. A pesar de eso, podemos observar los siguientes valores: p = 0.0000 significativo p = 0.4985 no significativo] F de Snedecor: Se utiliza el anlisis de la varianza para contrastar la hiptesis de dependencia lineal entre la variable dependiente y las variables independientes. Es decir, el ratio F se utiliza para contrastar la hiptesis de que la cantidad de variacin explicada por el modelo de regresin es ms que la variacin explicada por la media (Hair et al., pp. 174). Queremos saber si la variacin explicada por el modelo es mayor que cero R2>0. Supuestos de la RM. Supuestos generales: Linealidad, Independencia de los residuos. 1. 2. 3. 4.
Normalidad,
Homocedasticidad,
Linealidad. Normalidad. Homocedasticidad: El test M de Box (Hair et al., 67). Independencia de los residuos.
Supuesto especfico: Ausencia de la multicolinealidad. Pasos a seguir: 1) Primer paso: examinar la matriz de correlacin de las variables independientes para identificar la presencia de una elevada correlacin (generalmente de 0,90 o ms). El observar la matriz de correlaciones es bastante subjetivo, por eso utilizamos ndices objetivos. Para ello utilizaremos dos ndices que
explicamos en el siguiente punto: El valor de tolerancia y El test del factor de inflacin de la varianza (VIF). 2) Segundo paso: utilizar dos medidas estadsticas para evaluar la colinealidad de mltiples variables. Estas dos medidas son: El valor de tolerancia: la cantidad de variabilidad de las variables independientes seleccionadas no explicadas por el resto de las variables independientes. Un valor de tolerancia reducido denota una elevada colinealidad. El test del factor de inflacin de la varianza (VIF): es el inverso del valor de tolerancia. Un valor del VIF elevado denota una elevada colinealidad. Nota: el valor de tolerancia por defecto en el SPSS para excluir una variable es 0,0001. Tamao muestral. El tamao de la muestra siempre es problemtico. No siempre podremos obtener un tamao muestral grande o deseado. Para la regresin mltiple hay una serie de reglas a seguir, que son las que se explican a continuacin: 1) El ratio de observaciones sobre las variables independientes nunca debera caer por debajo de cinco.
NumerodeOb servacione s Numerode var iablesdepe ndientes >5
2) El nivel deseado est entre 15 y 20 observaciones para cada variable independiente. 3) Las muestras muy grandes, de 1.000 observaciones o ms, hacen los test de significacin estadstica demasiado sensibles, indicando que casi cualquier relacin es estadsticamente significativa. Diseo de la RM. Objetivos. Lo primero es establecer el objetivo del estudio, y luego justificar este objetivo. Tamao muestral. Tendremos que justificar el tamao de la muestra.
Supuestos generales y especficos. Estimacin del modelo. Interpretacin. Podemos examinar los coeficientes Beta y averiguar su importancia relativa en el valor terico de la regresin mltiple. Dependiendo del programa informtico, podremos obtener el coeficiente R2 ajustado o corregido. Esto es porque R2 esta influenciado por tamao muestral y por el nmero de variables y nmero de variables independientes. Entonces cuando comparamos el ndice de determinacin y el de determinacin ajustado y ambos son muy parecidos, significa que estamos construyendo el modelo correcto, nuestro modelo predice los valores correctamente. Validacin. Tenemos dos posibilidades de validacin: 1) Podremos obtener otra muestra de la poblacin para evaluar la correspondencia de los resultados obtenidos de las dos muestras. 2) Podemos dividir la muestra en dos submuestras, realizar la regresin mltiple para cada submuestra y comparar los resultados.
Casos prcticos con DYANE y SPSS. DYANE: Especificacin confirmatoria.

7.1. Caso prctico 1 con DYANE.
Con la siguiente base de datos de Dyane, hemos realizado el ejemplo que se muestra a continuacin.
C:\Docum ents and Settings\e97554\Escritorio\Rafa\Est_Prov.dyt
Est_Prov.dyt
Desde el Dyane, hemos seleccionado el Anlisis de Regresin Mltiple, donde nos saldr una ventana como sta.
Pulsaremos el botn Calcular, y nos saldrn los resultados como los que pasaremos a analizar
A N L I S I S D E R E G R E S I N M L T I P L E =========================================================== IDENTIFICACIN DE LAS VARIABLES ------------------------------VARIABLE DEPENDIENTE: % Paro - % Paro s/pob. de derecho
VARIABLES INDEPENDIENTES: 1. %VarPobl - Variacin Poblacin 91-98 (%) 2. NivelEco - Nivel Econmico 3. CuotaMer - Cuota de Mercado Matriz de coeficientes de correlacin simple: -------------------------------------------% Paro -------1,0000 -0,0164 -0,6125 0,0797 %VarPobl --------0,0164 1,0000 -0,0369 0,1689 NivelEco CuotaMer -------- --------0,6125 0,0797 -0,0369 0,1689 1,0000 0,1936 0,1936 1,0000
% Paro %VarPobl NivelEco CuotaMer
Estos son los valores que ms nos interesan de esta parte
Coeficiente de determinacin: 0,4219. Coeficiente de correlacin mltiple: 0,6495 Coeficiente de regresin alfa: 6,4077
Coeficiente de determinacin nos interesa en gran medida, ya que es el porcentaje de la varianza explicada por este modelo. Otro aspecto importantsimo, a la hora de estudiar nuestro modelo, es saber si queremos incluir o no las variables independientes.
COEFIC. PROPORC. SUMA DE
DESVIACIN CUADRADOS VARIANZA VARIABLE MEDIA ESTNDAR AADIDA -------- -------------- --------------------------------- -------% Paro 3,9000 1,1071 %VarPobl 1,8300 4,2977 0,0164 0,0003 NivelEco 23,0676 0,3764 5,1800 1,4098 2365,4349
COEFICIENTE REGRESIN
ERROR ESTNDAR
T DE STUDENT
CORREL. PARCIAL AADIDA
----------- ---------- -------- -------0,0200 -0,5167 0,0001 0,0294 0,0900 0,0001 -0,6823 -0,1001 p=0,4985 -5,7435 -0,6462 p=0,0000 1,8958 p=0,0643 -------------2 0,2692
CuotaMer 1993,9200 2,7681 0,0452 ------ -------5,8521 0,4219
ANLISIS DE LA VARIANZA ----------------------FUENTE DE VARIACIN ---------------------Debida a la regresin: Residuo: Varianza total: GRADOS LIBERTAD --------------3 46 ----49 SUMA CUADRADOS --------------------25,8521 35,4279 --------------------61,2800 MEDIA CUADRADOS --------------------8,6174 0,7702
F de Snedecor con 3 y 46 grados de libertad = 11,1889
(p= 0,0000)
El nivel de F de Snedecor no parece mostrar ningn problema (p=0.0000).
7.2. Caso prctico 2 con DYANE.
Cabe destacar la posibilidad de manejar variables categricas en el anlisis de regresin mltiple. Si tuviramos variables categricas, podramos convertirlas en variables mtricas y trabajar con estas nuevas variables en el anlisis de regresin mltiple. Veamos con otra BD como hacer esto:
C:\Docum ents and Settings\e97554\Escritorio\Rafa\COMPORT.DYT
Comport.Dyt
En la siguiente BBDD las variables que adoptan valores 1 o 2 son variables categricas, por ejemplo la variable 6, que toma los siguientes valores: 1.- Si 2.- No La variable 5 tiene varias categoras. Para convertir las variables categricas en variables mtricas, tendremos que crear variables ficticias (en el men Datos del Dyane). Vemoslo grficamente:
Ahora crearemos otra variable ficticia con la variable Clase Social, y hacemos el anlisis con las variables ficticias creadas.
Con todo ello, las variables ficticias que nos ha creado son:
A N L I S I S D E R E G R E S I N M L T I P L E ===========================================================
IDENTIFICACIN DE LAS VARIABLES ------------------------------VARIABLE DEPENDIENTE: FICTI_01 - Usa tarjeta de crdito: S (1 = S; 0 = No)
VARIABLES INDEPENDIENTES: 1. FICTI_01 - Clase social: Alta/media alta (1 = S; 0 = No) 2. FICTI_02 - Clase social: Media media (1 = S; 0 = No) 3. FICTI_03 - Clase social: Media baja (1 = S; 0 = No)
Matriz de coeficientes de correlacin simple: -------------------------------------------FICTI_01 -------1,0000 0,2896 0,1598 -0,2634 FICTI_01 -------0,2896 1,0000 -0,2922 -0,3867 FICTI_02 -------0,1598 -0,2922 1,0000 -0,5890 FICTI_03 --------0,2634 -0,3867 -0,5890 1,0000 0,1534
FICTI_01 FICTI_01 FICTI_02 FICTI_03
Coeficiente de determinacin:
Si observamos el Coeficiente de Correlacin, notamos que el modelo slo nos esta explicando un 15 %. Es un porcentaje muy bajo, por lo que llegaremos a la conclusin de que no podemos usar slo esta variable, variable que hemos separado en varias ficticias para convertirla en una variable mtrica.
Coeficiente de correlacin mltiple: 0,3917 Coeficiente de regresin alfa: 0,0215 COEFIC. PROPORC. DESVIACIN CUADRADOS VARIANZA VARIABLE MEDIA ESTNDAR AADIDA -------- -------------- --------------------------------- -------FICTI_01 0,2530 0,4347 FICTI_01 0,1610 0,3675 15,8473 0,0839 FICTI_02 12,3477 0,0653 FICTI_03 0,7947 0,0042 ------ -------8,9897 0,1534 0,3080 0,4380 0,4617 0,4961 COEFICIENTE REGRESIN ERROR ESTNDAR T DE STUDENT CORREL. PARCIAL AADIDA SUMA DE
----------- ---------- -------- ------0,5189 0,3356 0,1018 0,0522 0,0474 0,0458 9,9394 p=0,0000 7,0776 p=0,0000 2,2242 p=0,0261 0,3004 0,2188 0,0703 -------------2
Si establecemos un nivel de significacin del 0.05, podemos aceptar todas las variables independientes, ya que la t de Student es menor para todas las variables.
ANLISIS DE LA VARIANZA ----------------------FUENTE DE VARIACIN ---------------------Debida a la regresin: Residuo: Varianza total: GRADOS LIBERTAD --------------3 996 ----999 SUMA CUADRADOS --------------------28,9897 160,0013 --------------------188,9910 MEDIA CUADRADOS --------------------9,6632 0,1606
F de Snedecor con 3 y 996 grados de libertad = 60,1531
(p= 0,0000)
La f de Snedecor es otro indicador que hay que mirar tambin. Es un indicador importante.
7.3. Exportar de Dyane a SPSS.
Ahora trataremos de pasar una BBDD de Dyane a SPSS, ya que el anlisis de regresin mltiple del Dyane es bastante simple, siendo muchsimo ms completo el anlisis del SPSS. Para ello seleccionamos continuacin: el elemento de men que vemos a
Pulsando Aceptar, nos saldr otra ventana, donde guardamos como fichero de datos, es decir .dat:
Ahora ya podemos entrar en SPSS, y desde el podremos trabajar con esta base de datos SPSS: Abrir la BBDD de formato texto.
Men Archivo/Datos,
Abrimos la base de datos que acabamos de crear para el SPSS.
Y pasamos por las siguientes ventanas:
Cuidado! Este parmetro hay que cambiarlo
Ahora quitaremos la opcin Coma y la opcin Espacio:
Una vez hemos hecho la transformacin podemos dar nombre a las variables, tal y como queramos, seleccionando la pestaa Vista de variables:
Una vez hecho esto, hacemos el anlisis de regresin. Para nuestro ejemplo queremos estimar la variable paro en funcin de otras tres, como son varipob, niveleco y cotamer:
El resultado se muestra a continuacin.
Regresin
b Variables introducidas/eliminadas
Modelo 1
Variables introducidas CUOTAMER, VARIPOB, a NIVELECO
Variables eliminadas .
Mtodo Introducir
a. Todas las variables solicitadas introducidas b. Variable dependiente: PARO
Resumen del modelo Modelo 1 R R cuadrado ,650 a ,422 R cuadrado corregida ,384 Error tp. de la estimacin ,87759
a. Variables predictoras: (Constante), CUOTAMER, VARIPOB, NIVELECO
Aqu se explican los ndices ms importantes. R cuadrado es el coeficiente de determinacin. Podemos ver que los resultados son los mismos que el Dyane. Observamos que nuestro modelo explica un 42% del total.
R cuadrado corregida, debera ser muy parecida a R cuadrado. En nuestro caso vemos que es una comparacin muy subjetiva.
b ANOVA
Modelo 1
Regresin Residual Total
Suma de cuadrados 25,852 35,428 61,280
gl 3 46 49
Media cuadrtica 8,617 ,770
F 11,189
Sig. ,000 a
a. Variables predictoras: (Constante), CUOTAMER, VARIPOB, NIVELECO b. Variable dependiente: PARO
En el Anlisis de Varianzas tenemos una F de Snedecor de 11.189. En el Dyane obtuvimos un valor muy parecido.
a Coeficientes
Modelo 1
(Constante) VARIPOB NIVELECO CUOTAMER
Coeficientes no estandarizados B Error tp. 6,408 ,478 -,020 ,029 -,517 ,090 ,000 ,000
Coeficientes estandarizad os Beta -,078 -,658 ,220
t 13,413 -,682 -5,744 1,896
Sig. ,000 ,499 ,000 ,064
a. Variable dependiente: PARO
Aqu metemos todas las variables independientes y vemos las consecuencias. Tenemos diferentes valores de t para cada variable, con distintas significaciones.
SPSS: Estimacin por etapas. Ahora siguiente mtodo seria la regresin lineal con el Mtodo de Pasos Sucesivos. Este mtodo es muy til cuando el nmero de variables independientes es muy elevado. Hasta ahora, con el Dyane y con SPSS, hemos metido slo 3 variables independientes. Normalmente, sern ms. Si tenemos variables independientes elevado, es mejor usar esta segunda opcin para saber si incluimos o eliminamos cada variable independiente:
El resultado se muestra a continuacin.
Regresin
a Variables introducidas/eliminadas
Modelo 1
Variables introducidas
Variables eliminadas
NIVELECO
Mtodo Por pasos (criterio: Prob. de F para entrar <= ,050, Prob. de F para salir >= ,100).
Solo se ha seleccionado la variable nivel econmico
Resumen del modelo Modelo 1 R R cuadrado ,613 a ,375 R cuadrado corregida ,362 Error tp. de la estimacin ,89313
a. Variables predictoras: (Constante), NIVELECO

b ANOVA
Modelo 1
gl 1 48 49
F 28,822
Sig. ,000 a
a. Variables predictoras: (Constante), NIVELECO b. Variable dependiente: PARO
Ahora el nivel de f de Snedecor es totalmente distinto, siendo significativo.
a Coeficientes
Modelo 1
(Constante) NIVELECO
Coeficientes no estandarizados B Error tp. 6,391 ,481 -,481 ,090
Coeficientes estandarizad os Beta -,613
t 13,289 -5,369
Sig. ,000 ,000

b Variables excluidas
Modelo 1
Beta dentro VARIPOB -,039 a CUOTAMER ,206 a
t -,338 1,813
Sig. ,737 ,076
Correlacin parcial -,049 ,256
Estadsticos de colinealidad Tolerancia ,999 ,963
a. Variables predictoras en el modelo: (Constante), NIVELECO b. Variable dependiente: PARO
Anlisis de Supuestos de la RM. Coeficiente estandarizado es importante para interpretar los datos. Cuando metemos las variables independientes en unidades distintas, el coeficiente de regresin beta, no son directamente comparables. Por eso, lo ms til es el coeficiente estandarizado. Lo veremos con el SPSS.
Trabajo con SPSS
Si tenemos valores perdidos en SPSS podremos utilizar la funcin de SPSS de Reemplazar valores perdidos. Es importante reemplazar estos valores con la media o con el valor estimado de regresin. Para realizar la regresin mltiple tenemos que cumplir varios supuestos: Supuestos generales Linealidad.- Para esto podramos visualizar grficamente grficos de dispersin.. Normalidad.- Aqu tenemos dos opciones. o Podemos examinar histograma. Mediante el SPSS podemos examinar el Histograma de residuos o Podemos examinar grficos de dispersin. En este caso examinamos variables Homocedasticidad.- Tendremos que aplicar el Anlisis basado en t de Student. Usamos el valor t de Student para estandarizar los residuos (luego lo estudiamos) Ausencia de errores correlacionados.- Dos opciones: o Usar el Anlisis anterior basado en t de Student o Usar el test de Durban-Watson
Examinar Normalidad
Para examinar la normalidad:
Estudiaremos las siguientes tres variables:
Ahora seleccionamos estadsticos, seleccionando solo descriptivos
Tambin en la parte Grficos, muy importante seleccionar Grficos con pruebas de Normalidad
Nos salen una serie de datos, pero lo que realmente nos interesara en el grfico Q-Q normal de varpobl:
Grfico Q-Q normal de varpobl

3
Normal esperado
-1
-2
-3 -10 0 10 20
Valor observado
Se puede ver que la variable sigue una distribucin normal
Grfico Q-Q normal de nivel economico

2
Normal esperado
-1
-2 1 2 3 4 5 6 7 8 9
Valor observado
Se puede ver que la variable sigue una distribucin normal
Grfico Q-Q normal de cuotamer

3 2
Normal esperado
-1
-2 -3 -4000 -2000 0 2000 4000 6000 8000 10000 12000 14000
Valor observado
Se puede ver que la variable tiene una no tiene una distribucin exactamente normal, pero las tres variables concurren en una distribucin normal. Para ver la linealidad se puede comprobar mediante Generar todos los grficos parciales en SPSS (Regresin Lineal Grficos Seleccionar esta opcin)
Examinar Linealidad
Una vez analizado el supuesto de normalidad, nos lanzaremos a hacer la Regresin Lineal. Lo que queremos es predecir el paro en funcin de unas variables independientes (varpobl, nivel econmico y cuota mercado). Para ello seleccionamos la variable paro como nica variable dependiente, y varias variables independientes (varpobl, niveleco y cuotamer). Mtodo = Introducir, que quiere decir que vamos a aplicar la Estimacin Conjunta En el botn Estadsticos, seleccionaremos: Diagnsticos de colinealidad.- Nos saldr el ndice VIF y el valor de la tolerancia. Durbin-Watson.- En la parte de Residuos. Para ver Ya que nuestro inters es ver los supuestos generales y especficos En el botn Grficos, Seleccionaremos para podremos ver la homocedasticidad.
ZRESID significa residuo tipificado ZPRED significa regresin valor tipificado pronosticado Seleccionamos Histograma para ver normalidad de los residuos, y generamos todos los grficos parciales para ver linealidad
Regresin
b Variables introducidas/eliminadas
Modelo 1
Variables introducidas cuotamer, varpobl, nivel a economico
Variables eliminadas .
Mtodo Introducir
a. Todas las variables solicitadas introducidas b. Variable dependiente: paro

b Resumen del modelo
Modelo 1
R R cuadrado ,650 a ,422
R cuadrado corregida ,384
Error tp. de la estimacin ,87759
Durbin-W atson 1,895
a. Variables predictoras: (Constante), cuotamer, varpobl, nivel economico b. Variable dependiente: paro
El Test Durbin-Watson no lo hemos tenido hasta ahora, para ver la ausencia de errores correlacionados. Como regla general, este ndice tiene que ser alrededor de 2. Si obtenemos el nmero cerca de 2 podremos interpretar la variable independiente como que no tienen errores correlacionados. (Ver la parte de grficos)
b ANOVA
Modelo 1
gl 3 46 49
F 11,189
Sig. ,000a
a. Variables predictoras: (Constante), cuotamer, varpobl, nivel economico b. Variable dependiente: paro
a Coeficientes
Modelo 1
(Constante) varpobl nivel economico cuotamer
Coeficientes no estandarizados B Error tp. 6,408 ,478 -,020 ,029 -,517 ,090 ,000 ,000
Coeficientes estandarizad os Beta -,078 -,658 ,220
t 13,413 -,682 -5,744 1,896
Sig. ,000 ,499 ,000 ,064
Estadsticos de colinealidad Tolerancia FIV ,966 ,958 ,932 1,035 1,044 1,074
a. Variable dependiente: paro
Una regla general es que VIF tiene que ser menor que 2. El valor de tolerancia reducido denota elevada colinealidad. Cuando tenemos un valor de tolerancia 0.2 o 0.3 denota elevada colinealidad.
El valor del VIF es el inverso del valor de tolerancia. Si VIF es elevado, significa elevada colinealidad. Si ambos valores estn cerca de 1, podemos decir que no existe la multicolinealidad. Si el valor de tolerancia es muy bajo y el del VIF es muy alto, lo que tenemos es problema de multicolinealidad. Existen correlaciones muy altas entre las variables independientes. Lo que podemos hacer es un Anlisis de Componentes Principales y utilizar los factores que resulten como variables independientes para realizar el anlisis de regresin. Coeficientes (de beta) no estandarizados y Coeficientes (de beta) estandarizados. Los coeficientes no estandarizados no son comparables directamente. Sin embargo, para comparar la importancia de las variables, tenemos el Coeficiente Estandarizado, para ver que variable es mas importante.
a Diagnsticos de colinealidad
Modelo 1
Dimensin 1 2 3 4
Autovalor 2,765 ,763 ,437 ,034
Indice de condicin 1,000 1,903 2,515 8,964
Proporciones de la varianza nivel (Constante) varpobl economico ,01 ,04 ,01 ,00 ,93 ,01 ,02 ,02 ,02 ,97 ,01 ,97
cuotamer ,05 ,00 ,94 ,01

a Estadsticos sobre los residuos
Valor pronosticado Residuo bruto Valor pronosticado tip. Residuo tip.
Mnimo 2,3130 -1,6133 -2,185 -1,838
Mximo 5,5672 2,4318 2,295 2,771
Media 3,9000 ,0000 ,000 ,000
Desviacin tp. ,72636 ,85031 1,000 ,969
N 50 50 50 50
Grficos
Histograma Variable dependiente: paro

10
Frecuencia
2 0
Desv. tp. = ,97 Media = 0,00 N = 50,00

75 2,50 2,25 2,00 2,75 1,50 1,25 1,00 1,5 ,70 ,55 ,200 0, 5 -,20 -,55 -,7,00 -1,25 -1,50 -1,75 -1
Regresin Residuo tipificado
Con este grfico vemos la normalidad de los residuos. Aqu hay algunos valores fuera de la normalidad, pero supongamos que estn dentro del lmite y cumplen el supuesto de la normalidad, y aceptamos la normalidad.
Grfico de dispersin Variable dependiente: paro
3
Regresin Residuo tipificado
-1
-2 -3 -2 -1 0 1 2 3
Regresin Valor pronosticado tipificado
El grfico de la dispersin es el resultado de los valores estandarizados y los valores basados en t de Student. Para cumplir el supuesto de homocedasticidad observaremos esta dispersin. Cuando observamos este grfico tenemos que tener una dispersin uniforme y aleatoria (debe cumplir las dos condiciones). En nuestro grfico vemos que es bastante uniforme (porque cuando estn los puntos AGRUPADOS en los dos extremos del grafico tenemos heterocedasticidad)
Grfico de regresin parcial Variable dependiente: paro

3
-1
paro
-2 -10 0 10 20
varpobl
Este vale para ver que tipo de relacin existe entre dos variables, en el SPSS hacemos doble clic sobre este grfico. Aqu podremos seleccionar:
Opciones del diseo de dispersin:
Y aceptamos
3
-1
paro
-2 -10 0 10 20
varpobl
La lnea es linealidad
3 2 1 0 -1 -2
paro
-3 -4 -3 -2 -1 0 1 2 3 4
nivel economico
Aqu vemos que tienen una relacin lineal

3 2
-1
paro
-2 -4000 -2000 0 2000 4000 6000 8000 10000 12000
cuotamer

3 2
-1
paro
-2 -4000 -2000 0 2000 4000 6000 8000 10000 12000
cuotamer
Puede que aqu tambin exista una relacin lineal. No es que sea muy claro, pero por eso hay que tener una buena base terica, para poder justificar la inclusin de esta variable.
Ejercicio 5 1. Cmo determinara incluir o rechazar variables independientes utilizadas en una ecuacin de regresin mltiple? 2. Por qu es importante examinar el supuesto de linealidad cuando se utiliza la regresin? 3. Explique y relacione los siguientes trminos: error de prediccin y error estndar. 4. Interprete el siguiente tabla: Variable X1 X2 X3 X4 X5 Tolerancia 0,992 0,804 0,187 0,990 0,112 VIF 1,007 1,587 5,337 1,010 8,896
5. Explique la relacin entre el coeficiente de determinacin y el coeficiente de determinacin ajustado.
1. Cmo determinara incluir o rechazar variables independientes utilizadas en una ecuacin de regresin mltiple? Por una parte, con el test t de student mediamos la significacin de la correlacin parcial de las variables independientes. Y la expresaramos mediante el valor del coeficiente del coeficiente t de student. Por otra parte, apoyndonos en una base terica fijaramos el nivel de significacin exigida y con ello determinaramos si una variable debe salir de la ecuacin o mantenerse. Shintaro. La palabra clave es Correlacin Parcial. Hay que buscar la correlacin parcial que tiene significacin
2. Por qu es importante examinar el supuesto de linealidad cuando se utiliza la regresin?
La regresin Mltiple busca una combinacin, mediante el coeficiente de correlacin (que esta basado en una relacin lineal; el concepto de correlacin es el de la combinacin entre dos variables). Porque el concepto fundamental del anlisis de regresin que es el coeficiente de correlacin esta basado en una relacin lineal. Shintaro. 3. Explique y relacione los siguientes trminos: Error de prediccin y error estndar. En la regresin mltiple buscamos una combinacin lineal. Por eso buscamos variables independientes que expliquen la variable independiente. Buscamos una lnea recta. La diferencia entre el valor real y valor predicho es el error de prediccin. Nuestra misin es minimizar todos los errores de prediccin. El error de prediccin es la diferencia entre los valores reales y el valor de prediccin de la variable dependiente Y, mientras que el error estndar es la desviacin tpica de los errores de prediccin. Un error estndar mas pequeo implica una prediccin mas segura. Shintaro. 4. Interprete el siguiente tabla: Variable X1 X2 X3 X4 X5 Tolerancia 0,992 0,804 0,187 0,990 0,112 VIF 1,007 1,587 5,337 1,010 8,896
Cmo podemos interpretar el valor de la tolerancia y el valor del VIF?Qu indican los ndices tolerancia y VIF? Ausencia de multicolinealidad. Podamos observar la matriz de correlaciones, pero es bastante subjetivo. Por eso usamos estos dos ndices. El VIF es la inversa de la tolerancia. Los valores de tolerancia superan todos el valor 0.80 indicando niveles de colinealidad muy reducidos. De la misma manera, los valores del VIF de dichas variables estn muy prximos a 1.0. Sin embargo, las dos variables restantes, es decir X3 y X5, dichos ndices indican lo contrario: altos niveles de multicolinealidad. Si no eliminamos las observaciones altamente correlacionadas la interpretacin de los coeficientes de correlacin podran verse afectados negativamente por la multicolinealidad.Shintaro.
5. Explique la relacin entre el coeficiente de determinacin y el coeficiente de determinacin ajustado. Para determinar el coeficiente de determinacin tenemos que conseguir el coeficiente de correlacin mltiple (R). Para saber el % de la varianza explicada por el modelo, hay que subir al cuadrado, y nos da el coeficiente de determinacin. El coeficiente de determinacin esta afectado por el numero de variables independientes relativas al tamao muestral (relacionada con variables independientes y tamao muestral). Por tanto tenemos que corregir esta infraccin. El valor corregido es el Coeficiente de determinacin ajustado. El coeficiente de determinacin (R ) es el coeficiente de correlacin mltiple al cuadrado. Como dicho coeficiente esta afectado por el nmero de variables independientes relativas al tamao muestral, es necesario corregir la inflacin de la R2. Dicha correccin da lugar al 2 coeficiente de determinacin ajustado CDA. El CDA (R ajustado) se hace mas pequeo a medida que tenemos menos observaciones por variable independiente, y por ello es particularmente til para comparar las diferentes ecuaciones de regresin estimadas con distintas variables independientes o diferentes tamaos muestrales. Shintaro.
2
TEMA 6: EL ANLSIS DISCRIMINANTE
Estructura de la clase: 1. Introduccin. 2. Definicin y objetivo. 3. Trminos y conceptos bsicos del AD. 4. Supuestos del AD. 5. Diseo del AD. 6. Casos prcticos con DYANE. Introduccin. El AD consiste en predecir a que grupo pertenece un determinado individuo. Por regla general, Y = X1 + X2 + X3 + ... + Xn donde Y es la variable dependiente y Xn son las variables independientes. En el AD, las variables dependientes independientes son mtricas. son categricas y las
Queremos encontrar la lnea de corte que separe o diferencie los dos grupos. Cada dispersin est asociada a las variables X1 y X2. Podemos comprobar que ambas dispersiones no estn separadas del todo ya que tienen un solapamiento, es decir, una zona en comn. Para ello, en el AD tenemos que calcular un valor terico D, que es una funcin combinacin lineal de las dos variables X1 y X2, que separe o diferencie claramente cada grupo. En el eje D situamos las dos distribuciones y los puntos medios de cada distribucin proyectados cortan las nubes de puntos en direccin a su eje y coinciden con los puntos medios de cada nube de puntos. Debido a esto ltimo, es por lo que a estos puntos situados en D se les llama centroides.
Como se comprobar ms adelante, para distinguir o discriminar dos grupos estadsticamente, tenemos que calcular sus respectivos valores tericos (por ejemplo medias) y aplicar un test para saber si estos valores son significativamente diferentes. Evidentemente si lo son, podemos separar ambas distribuciones para poder as identificar a que grupo pertenece un individuo cualquiera. Definicin y objetivo. El AD es una tcnica multivariante de prediccin que se emplea cuando la variable dependiente no es mtrica y las variables independientes son mtricas. El AD es el caso contrario al MANOVA donde Y 1 + Y2 + ... + Yn = X1 . Las variables Y tienen que ser mtricas y la X categrica. Los objetivos de esta tcnica son: a) determinar si existen diferencias estadsticamente significativas entre los perfiles de dos (o ms) grupos. b) determinar cul de las variables independientes cuantifica mejor dichas diferencias. c) establecer el nmero y la composicin de las dimensiones de la discriminacin entre los grupos.
Conceptos y trminos bsicos del AD. 1) Funcin discriminante: (FD) El AD clasifica dos (o ms) grupos mediante una funcin discriminante, que es una combinacin lineal de dos (o ms) variables. Esta funcin es la que separa los grupos. La combinacin lineal es de la siguiente forma Z = a + W1X1+ W2X2 + ..... + WnXn
(
a es cte.)
Cada punto del eje D, representa una puntuacin Z Discriminante. Z: puntuacin Z discriminante Son el conjunto de valores que nos van a servir para discriminar los grupos. De estas puntuaciones nos interesa saber el centroide o media de la distribucin para luego comprobar si existen diferencias significativas entre ambas medias. 2) Anlisis de correlaciones cannicas (DYANE): analiza la relacin entre mltiple variables dependientes y mltiple variables independientes. En DYANE se utiliza este test estadstico para calcular la FD y analiza la correlacin entre mltiples variables tanto dependientes como independientes.
MUY IMPORTANTE: Tanto DYANE como SPSS nos proporcionan el mismo nmero de grupos pero los resultados de los test son distintos. 3) Coeficientes estandarizados de las funciones discriminantes cannicas (SPSS): Cuando se ignora el signo, cada coeficiente representa la contribucin relativa de su variable asociada a esa funcin. Son los pesos de la FD, es decir, son los W1, W2, ..., Wn
Funcin 1 q1 q2 q3 q6 q7 q15 q16 q17 q18 .004 .436 -.025 .382 .665 .017 .570 .121 .278 2 .183 -.588 -.352 .104 .266 .497 -.179 -.234 .677
4) Cargas discriminantes (SPSS): Las cargas discriminantes (tambin denominadas correlaciones de estructura) miden la correlacin lineal simple entre cada variable independiente y la funcin discriminante. Son anlogas a las cargas del ACP. Con esta matriz obtenemos las variables asociadas a cada FD (estn marcadas por *).
Matriz de estructura
Funcin 1 q2 q16 q3 q6 q1 q7 q17 q18 q15 .527(*) .462(*) .435(*) .426(*) .348(*) .347(*) .202(*) .334 .335 2 -.450 -.208 -.409 -.106 -.223 .264 .107 .542(*) .391(*)
5) Matriz de confusin (DYANE y SPSS): es una tabla de doble entrada en la que en las filas se indica la pertenencia real al grupo correspondiente, y en las columnas, la estimada por el AD. Grupo 1 Grupo Real 17 1 Grupo Real 1 Grupo 2 1 13 Grupo 3 1 0 Total 19 14
2 Grupo Real 0 3 Total 18
0 14
15 16
15
En DYANE obtenemos el porcentaje de asignaciones acertadas de la siguiente forma:

(17 + 13+ 15) = 93,75% (19 + 14 + 15)
6) Representacin grfica mediante un mapa territorial (SPSS):
funciones discriminantes cannicas

4 3 2 3 1 0 -1 2
country
Centroides de grupo 3
Funcin 2
-2 -3 -4 -2 0 2 4
2 1
Funcin 1
Supuestos del AD. Supuestos generales: - Normalidad - Linealidad. Para comprobar la linealidad en SPSS, nos situamos es Grficos -> Dispersin -> Dispersin simple definiendo en el eje Y (var. Dependiente) y en el eje X (var. Independiente). Supuestos especficos: - Igualdad de dispersin (M de Box). Para comprobar el supuesto de igualdad de las matrices de covarianzas con dispersin uniforme. Ha de ser > 0,05 (no significativo). Atencin: es muy sensible respecto a otros factores como la normalidad de las variables y el tamao muestral. (Debido a esto, hasta 0,03 es aceptable). - Ausencia de la multicolinealidad. En SPSS se utiliza el mtodo de inclusin por etapas (o pasos). Con este mtodo obtenemos una medida del VIF. Para ausencia de multicolinealidad el valor del VIF debe ser menor de 2. Diseo del AD. Determinar objetivos. Hay que expresar los objetivos claramente. Es algo muy breve Seleccionar variables dependientes e independientes. Tendremos que entender los tipo de variables y escalas usados en la encuesta Determinar el tamao muestral. Tendremos que tener al menos 20 observaciones por cada variable independiente. Examinar los supuestos. Tanto generales como especficos Estimar las funciones discriminantes. Utilizamos programas informticos Determinar la influencia global de las funciones discriminantes (Autovalores y Lambda de Wilks en SPSS). Usando una serie de ndices obtenidos por programas informticos, ver si tiene sentido usar esas funciones discriminantes. Determinar el nivel de precisin predictiva de las funciones discriminantes (Matriz de confusin). Tenemos que preparar la matriz de confusin para saber si estamos clasificando los datos correctamente. Veremos como calcular porcentaje de clasificacin. Interpretar los resultados mediante una representacin grfica. Este mapa se llama Mapa territorial. Validar los resultados. Un mtodo de validacin mas popular es dividir la muestra en dos grupos, igual que en los analizas de interdependencia.
Casos prcticos
Casos Prcticos con DYANE
Muy importante saber que los datos del Dyane y SPSS es distinta. La salida del Dyane es muy limitada, y SPSS muestra demasiada informacin. Debemos seleccionar que tipo de datos incluiremos en el trabajo.
La investigacin fue hecha por el creador del Dyane para ver actitudes hacia la empresa y los sistemas econmicos de los estudiantes. Han estudiado 4 generaciones de estudiantes de empresariales. Queremos ver si existen diferencias significativas. Variable dependiente.- Tipo de Promocin independiente.- El resto de variables Variable
Tenemos la salida del Dyane
A N L I S I S D I S C R I M I N A N T E M L T I P L E ============================================================= IDENTIFICACIN DE LAS VARIABLES ------------------------------GRUPOS (VAR.CRITERIO): GRUPO 1. PROMOC_A: Tercera (81/82) GRUPO 2. PROMOC_A: Cuarta (82/83) GRUPO 3. PROMOC_A: Quinta (83/84) GRUPO 4. PROMOC_A: Sexta (84/85) VARIABLES PREDICTORAS: 1. EPU_OBEC. La empresa pblica puede cumplir los objetivos econmicos mejor que la privada. 2. EPU_OBSO. La empresa pblica puede cumplir los objetivos sociales mejor que la privada 3. DIRE_SUF. La direccin de la empresa debe ser elegida por sufragio universal, por todos los trabajadores de la empresa. 4. ECME_PLA. La economa de mercado proporciona una asignacin de recursos mejor que la obtenida con la economa planificada por el estado. 5. DESP_LIB. La posibilidad de despido libre, con indemnizacin, permitira la creacin de puestos de trabajo. 6. LIBERAL. El liberalismo es la mejor doctrina econmica. 7. ECSOLMER. La economa social de mercado es la mejor doctrina econmica. 8. SOCIALIS. El socialismo es la mejor doctrina econmica. 9. COMUNISM. El comunismo es la mejor doctrina econmica. 10. EMPR_CRE. El empresario debe ser admirado por la sociedad porque crea riqueza. 11. EMPR_EXP. El empresario slo explota a los trabajadores. 12. BEN_OBJ1. El beneficio deber ser el primer objetivo de la empresa 13. BENSOLAC. En la distribucin de los beneficios deben participar slo los accionistas. 14. BAL_SOCI. Todas las empresas deberan realizar el balance social. 15. MARK_NEC. El marketing es slo un mtodo para vender ms, creando necesidades aparentes.
Aqu tenemos la tabla de medias para cada variable independiente por cada grupo.
-----------------------------------------------------------------------------VARIABLE MEDIAS MEDIAS MEDIAS MEDIAS MEDIAS PREDICTOR GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 TOTALES ------------ ------------ ------------ ------------ ------------ -----------1.EPU_OBEC 2,2414 2,2333 2,2683 2,0323 2,1667 2.EPU_OBSO 4,1034 3,8333 3,9756 3,5323 3,8025 3.DIRE_SUF 1,9655 2,2000 2,1220 2,1613 2,1235 4.ECME_PLA 3,5862 3,6667 4,0000 4,0968 3,9012 5.DESP_LIB 2,6207 2,3333 2,9756 3,0484 2,8210 6.LIBERAL 2,3793 2,7667 2,7805 3,1774 2,8580 7.ECSOLMER 3,6207 3,4000 3,3902 3,3387 3,4136 8.SOCIALIS 2,6552 2,6667 2,6829 2,3710 2,5556 9.COMUNISM 1,4483 1,5333 1,5610 1,6774 1,5802 10.EMPR_CRE 2,2069 3,2667 2,7561 3,1935 2,9198
11.EMPR_EXP 2,1034 1,8333 1,7317 1,7581 1,8272 12.BEN_OBJ1 2,8966 2,5667 3,3659 2,6290 2,8519 13.BENSOLAC 2,1379 2,0000 2,2683 2,0484 2,1111 14.BAL_SOCI 4,3103 4,4667 4,1951 4,2097 4,2716 15.MARK_NEC 2,7586 2,2333 2,0732 2,0161 2,2037 ------------------------------------------------------------------------------
Una de las caractersticas del Dyane es que utiliza el sistema de correlaciones cannicas, y aparece el anlisis. Segn Shintaro, una mayor limitacin del Dyane, es que no indica que variable tiene significacin estadstica. Solo mirando la salida del Dyane no podemos decir que variable tiene significacin estadstica. Tenemos 3 funciones discriminantes, cada una corresponde a una columna. Estos coeficientes corresponden a W1 W2, etc. Son los coeficientes de una combinacin lineal. Entonces si tiene mayor coeficiente variable significa que tiene mayor contribucin a la capacidad discriminante. La variable cannica 1 explica casi el 56 % de la varianza total. La cannica 2 explica casi el 30% de la varianza. Pero el Dyane no ofrece mas datos, no dice que variable tiene significacin estadstica nos ofrece representacin grafica.
CORRELACIONES CANNICAS: -----------------------VARIABLE CANNICA 1 ---------Coeficiente de correlacin: 0,2750 % varianza explicada: 56,9301% Coeficientes variables: Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC 0,0361 0,3761 -0,2486 -0,0531 -0,0109 -0,3083 0,0734 0,0316 -0,3083 -0,6468 -0,0843 0,3946 0,1213 0,0302 0,1782 0,1425 -0,0407 0,1594 0,4271 0,3986 0,1624 -0,1499 0,1389 0,1342 -0,4968 -0,0842 0,5146 0,1063 -0,1911 -0,4779 0,2216 0,1381 0,2168 0,0285 -0,4873 -0,1929 -0,1978 0,4193 -0,2710 0,4718 -0,2304 0,2939 0,2178 0,1261 -0,3701 VARIABLE CANNICA 2 ---------0,1430 29,6131% VARIABLE CANNICA 3 ---------0,0650 13,4568%
Correlaciones variables es ms difcil de interpretar.
Correlacin variables: Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. Var. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC 0,8034 0,9575 -0,8489 -0,6202 -0,2953 -0,9281 0,8576 0,7767 -0,8850 -0,9484 0,6724 0,6536 0,6657 0,0707 0,7699 -0,0870 -0,0983 0,0663 0,7722 0,8618 0,3537 -0,4188 -0,1495 0,4206 -0,0486 -0,6062 0,6946 0,7224 -0,9038 -0,5617 0,5891 0,2712 0,5243 -0,1382 -0,4125 -0,1164 -0,2985 0,6119 -0,1995 0,3134 -0,4248 0,3006 0,1871 0,4221 -0,3029
Los centros de gravedad, expresan los centroides de cada grupo. Son centroides expresados en puntuaciones Z discriminante. Pero es muy difcil interpretar mirando simplemente estas cifras. Es muy difcil ver la relacin entre los 4 centroides. Sin embargo SPSS ofrece representacin grfica, facilitando la interpretacin.
Centros de gravedad: Grupo Grupo Grupo Grupo 1 2 3 4 0,8475 -0,2146 0,3540 -0,5266 -0,3128 -0,5710 0,4933 0,0964 -0,2895 0,3563 0,2272 -0,1872
En la matriz de confusin tenemos la asignacin segn funciones discriminantes, es decir, clasificacin predicha segn el A D. A la izq. tenemos grupos reales. El grupo 1 esta con 17 miembros, el grupo 2 con 13 y grupo 3 con 15 y el 4 con 27. Sin embargo vemos que hay miembros mal clasificados: En grupo 1: 17 miembros bien clasificados En grupo 2 hay 3 mal clasificados, etc
Matriz de confusin calculada con todas las funciones discriminantes (mayor nmero de aciertos) ASIGNACION SEGUN FUNCIONES DISCRIMINANTES ---------------------------------------------GRUPO GRUPO GRUPO GRUPO 1 2 3 4 TOTAL ---------------------17 3 7 2 29 7 13 3 7 30 8 6 20 7 41 5 15 15 27 62 ---------------------37 37 45 43 162
GRUPOS REALES ------------1 2 3 4 TOTAL
Por tanto nuestra conclusin final es el porcentaje de la calcificacin correcta, que es 47.53%.
Un 47.53% de los encuestados estn correctamente clasificados. Cmo se calcula este nmero? Para ello, tenemos que sumar las cifras en diagonal (17 + 13 + 20 + 27) Despus dividimos el nmero total de grupos reales: (17 + 13 + 20 + 27) ------------------------------ = 0.4753 (29 + 30 + 41 + 62)
PORCENTAJE DE ASIGNACIONES ACERTADAS POR LAS FUNCIONES DISCRIMINANTES: 47,53%
El autor del Dyane recomienda hacer un anlisis de la varianza (ANOVA) para ver que variables son relevantes, ya que el Dyane no ofrece este anlisis en el AD. Cuando queremos averiguar si existen diferencias significativas entre dos medias usamos el test t de Student. Entonces, el A de la varianza es para ver si existe diferencias significativas entre 3 o mas medias. En nuestro caso hablamos de 4 grupos. Cuando tenemos que comparar 4 medias y saber si son estadsticamente distintas, tendremos que utilizar el Anlisis de la varianza o ANOVA
En el Dyane podemos usar este anlisis fcilmente. Para ello:
Variable Dependiente.- EPU_OBEC Variable Tratamiento.- Tipo de grupos
ANLISIS DE LA VARIANZA (Unidireccional) ======================================== VARIABLE DEPENDIENTE: La empresa pblica puede cumplir los objetivos econmicos mejor que la privada. (EPU_OBEC) VARIABLE TRATAMIENTO: Promocin (curso) (PROMOC_A)
Total Grupos variable tratamiento --------------Tercera (81/82) Cuarta (82/83) Quinta (83/84) Sexta (84/85)
Nmero de casos -------162
Media --------------2,1667
Desviacin estndar --------------0,9112
Suma de cuadrados --------------134,5000
29 30 41 62
2,2414 2,2333 2,2683 2,0323
1,0053 0,8825 0,9377 0,8418 Suma .....
29,3103 23,3667 36,0488 43,9355 --------------132,6613 MEDIA CUADRADOS --------------0,6129 0,8396
FUENTE DE VARIACIN --------------------Entre los grupos: Dentro de los grupos: Total:
GRADOS LIBERTAD --------------3 158 ----161
SUMA CUADRADOS --------------1,8387 132,6613 -----------134,5000
Proporcin de varianza explicada por los tratamientos R = 0,0137 F de Snedecor con 3 y 158 grados de libertad = 0,7300 (p= 0,5356)
De aqu nos interesa esto. Sale que no existen diferencias significativas, por tanto las 4 medias son estadsticamente iguales Entonces ahora seleccionamos la 2 variable y variable tratamiento la misma de antes:
ANLISIS DE LA VARIANZA (Unidireccional) ======================================== VARIABLE DEPENDIENTE: La empresa pblica puede cumplir los objetivos sociales mejor que la privada (EPU_OBSO) VARIABLE TRATAMIENTO: Promocin (curso) (PROMOC_A) Nmero de casos -------162 Media --------------3,8025 Desviacin estndar --------------0,9548 Suma de cuadrados --------------147,6790
Total Grupos variable tratamiento
--------------Tercera (81/82) Cuarta (82/83) Quinta (83/84) Sexta (84/85)
29 30 41 62
4,1034 3,8333 3,9756 3,5323
0,6615 1,1571 0,6044 1,0734 Suma .....
12,6897 40,1667 14,9756 71,4355 --------------139,2674 MEDIA CUADRADOS --------------2,8039 0,8814
FUENTE DE VARIACIN --------------------Entre los grupos: Dentro de los grupos: Total:
GRADOS LIBERTAD --------------3 158 ----161
SUMA CUADRADOS --------------8,4116 139,2674 -----------147,6790
Proporcin de varianza explicada por los tratamientos R = 0,0570 F de Snedecor con 3 y 158 grados de libertad = 3,1810 (p= 0,0256)
Ahora si son significativas para esta variable. El Autor recomienda que se haga este anlisis de la varianza para cada variable independiente. La mejor recomendacin es realizar MANOVA, que luego miraremos. Una vez que sepamos las variables independientes tienen diferencias significativas, las seleccionamos y realizamos el A D:
Las medias de las variables seleccionadas son estadsticamente distintas.
A N L I S I S D I S C R I M I N A N T E M L T I P L E ============================================================= IDENTIFICACIN DE LAS VARIABLES ------------------------------GRUPOS (VAR.CRITERIO): GRUPO 1. PROMOC_A: Tercera (81/82) GRUPO 2. PROMOC_A: Cuarta (82/83) GRUPO 3. PROMOC_A: Quinta (83/84) GRUPO 4. PROMOC_A: Sexta (84/85) VARIABLES PREDICTORAS: 1. EPU_OBSO. La empresa pblica puede cumplir los objetivos sociales mejor que la privada
2. 3. 4. 5.
LIBERAL. El liberalismo es la mejor doctrina econmica. EMPR_CRE. El empresario debe ser admirado por la sociedad porque crea riqueza. BEN_OBJ1. El beneficio deber ser el primer objetivo de la empresa MARK_NEC. El marketing es slo un mtodo para vender ms, creando necesidades aparentes.
La 1 variable (EPU_OBSO) esta contestada con escala de likert. Tenemos 4 medias: Grupo 1.- 4.1034 Grupo 2.- 3.833 Grupo 3.- 3.9756 Grupo 4.- 3.5323 . Como podemos saber que las 4 medias son distintas? Tendremos que realizar el Anlisis de la varianza, para ver si existen diferencias significativas entre las 4 medias. Lo que nos interesara de ese anlisis es el nivel de significacin p.
-----------------------------------------------------------------------------VARIABLE MEDIAS MEDIAS MEDIAS MEDIAS MEDIAS PREDICTOR GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 TOTALES ------------ ------------ ------------ ------------ ------------ -----------1.EPU_OBSO 4,1034 3,8333 3,9756 3,5323 3,8025 2.LIBERAL 2,3793 2,7667 2,7805 3,1774 2,8580 3.EMPR_CRE 2,2069 3,2667 2,7561 3,1935 2,9198 4.BEN_OBJ1 2,8966 2,5667 3,3659 2,6290 2,8519 5.MARK_NEC 2,7586 2,2333 2,0732 2,0161 2,2037 ------------------------------------------------------------------------------
Ahora la funcin discriminante 1 explica el 69% de la varianza. La variable cannica 2 explica el 23%. La funcin 1 explica la mayor parte de la varianza. Tiene ms capacidad discriminatoria.
CORRELACIONES CANNICAS: -----------------------VARIABLE CANNICA 1 ---------Coeficiente de correlacin: 0,2249 % varianza explicada: 69,1454% VARIABLE CANNICA 2 ---------0,0750 23,0641% VARIABLE CANNICA 3 ---------0,0253 7,7905%
Coeficientes variables: Var. Var. Var. Var. Var. 1 2 3 4 5 EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC 0,3326 -0,3377 -0,5870 0,5780 0,1747 0,0036 -0,3433 0,2923 -0,6770 0,6940 -0,4848 0,6341 -0,8015 -0,0718 0,2220
Correlacin variables:
Var. Var. Var. Var. Var.
1 2 3 4 5
EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC
0,9464 -0,8898 -0,9445 0,7231 0,7064
0,1219 -0,4037 -0,1257 -0,6792 0,6932
-0,2992 0,2129 -0,3036 -0,1255 0,1431
Centros de gravedad: Grupo Grupo Grupo Grupo 1 2 3 4 0,7168 -0,2558 0,3853 -0,4663 0,3400 0,2914 -0,3868 -0,0442 0,1389 -0,2747 -0,0868 0,1253
Veamos la matriz de confusin. Con esta matriz podemos decir que 14 personas del grupo 1 estn bien clasificadas 13 personas del grupo 2 estn bien clasificadas Calculamos el porcentaje de clasificacin. Ahora hemos bajamos, lo cual es bastante ilgico, ya que deberamos haber mejorado y no ha sido as. Hemos eliminado variables, pero La intencin del autor es que en vez de meter todas las variables, hay que meter las variables que tienen medias distintas estadsticamente, para realizar un anlisis estadstico ms eficaz. Con el Dyane no se puede ofrecer ms informacin.
Matriz de confusin calculada con todas las funciones discriminantes (mayor nmero de aciertos) ASIGNACION SEGUN FUNCIONES DISCRIMINANTES ---------------------------------------------GRUPO GRUPO GRUPO GRUPO 1 2 3 4 TOTAL ---------------------14 3 6 6 29 4 13 6 7 30 6 8 22 5 41 8 14 16 24 62 ---------------------32 38 50 42 162
GRUPOS REALES ------------1 2 3 4 TOTAL
PORCENTAJE DE ASIGNACIONES ACERTADAS POR LAS FUNCIONES DISCRIMINANTES: 45,06%
Casos prcticos con SPSS: Estimacin Simultnea.
Realicemos el mismo Anlisis con el SPSS, desde una perspectiva global. SPSS tiene 2 posibilidades: 1) Estimacin Simultnea (Conjunta) 2) Estimacin por Etapas.- El programa realiza los datos paso a paso para seleccionar las variables independientes que tienen significacin estadstica. Si seleccionamos esta opcin, la salida solo incluira las variables independientes que fueran estadsticamente significativas en las funciones discriminantes. Por eso sabramos que variable independiente tendramos que incluir. En la estimacin simultanea no lo sabramos (el Dyane lo hace con estimacin simultanea y nos inventamos un mtodo para verlo). En SPSS podemos realizar el A de la varianza para todas las variables independientes que seleccionemos. Usaremos las mismas variables que en el Dyane:
Tendremos que definir el rango, as definimos de 1 a 4
Ahora seleccionamos 15 variables independientes, por ejemplo las primeras 15:
Seleccionamos estadsticos, sin seleccionar demasiados para no liarnos: ANOVA M de Box.- Para ver la dispersin uniforme en la matriz de covarianzas
Ahora seleccionamos el tipo de clasificacin
De momento no guardaremos nada
Discriminante
Resumen del procesamiento para el anlisis de casos Casos no ponderados Vlidos Excluidos Cdigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos, el cdigo de grupo y al menos una de las variables discriminantes. Total excluidos Casos Totales N 162 0 0 Porcentaje 100,0 ,0 ,0
,0
0 162
,0 100,0
Pruebas de igualdad de las medias de los grupos Lambda de Wilks ,986 ,943 ,996 ,958 ,953 ,923 ,990 ,979 ,989 ,901 ,978 ,932 ,989 ,982 ,930 F ,730 3,181 ,234 2,328 2,595 4,371 ,534 1,156 ,560 5,771 1,203 3,857 ,562 ,991 3,934 gl1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 gl2 158 158 158 158 158 158 158 158 158 158 158 158 158 158 158 Sig. ,536 ,026 ,873 ,077 ,054 ,005 ,660 ,329 ,642 ,001 ,311 ,011 ,641 ,399 ,010
El valor terico F, puede usarse igual para el anlisis de la varianza. Tenemos el nivel de significacin, entonces podremos saber que variable tiene significacin estadstica, que variable debemos incluir. Para ello incluiremos aquellas que tengan un nivel de significacin menor de 0.05. En nuestro caso sern: EPU_OBSO LIBERAL Si nos fijamos, son las mismas que las que seleccionamos en Dyane. As en lugar de realizar 15 anlisis de la varianza como en el Dyane, podremos saber que variables tienen significacin estadstica.
Anlisis 1 Prueba de Box sobre la igualdad de las matrices de covarianza

Logaritmo de los determinantes PROMOC_A 1 2 3 4 Intra-grupos combinada Rango 15 15 15 15 15 Logaritmo del determinante -9,087 -5,003 -6,691 -3,544 -2,358
Los rangos y logaritmos naturales de los determinantes impresos son los de las matrices de covarianza de los grupos. Resultados de la prueba M de Box F Aprox. gl1 gl2 Sig. 510,813 1,147 360 32104,883 ,029
Contrasta la hiptesis nula de que las matrices de covarianza poblacionales son iguales.
Nos fijaremos en el nivel de significacin de test M de Box. Tenemos 0.029. Ha salido significativo, pero en clase se explico que el examen M de Box es muy sensible respecto a la normalidad de variables y al tamao muestral. Entonces hasta 0.03 es aceptable. Por tanto, ms o menos aceptamos este nivel de significacin.
Resumen de las funciones cannicas discriminantes

Esta es la informacin ms importante. Aqu podemos saber que funcin discriminante tenemos que considerar. Tal y como hicimos en el anlisis de componentes principales, aqu tambin se utiliza el concepto de autovalor (Recordatorio de Autovalor.- ). La funcin 1 tiene mayor nivel de autovalor. La funcin 2 y 3, es menor. La funcin 1 explica un 61 % La funcin 2 explica un 27 % La funcin 3 explica un 11 % Pero que funciona discriminante es estadsticamente significativo? Para saber esto tendremos que hacer un examen estadstico de Lambda de Wilks. Es el examen estadstico mas importante en el A D.
Funcin 1 tiene un nivel de significacin = 0.001 Funcin 2 tiene un nivel de significacin = 0.216 Funcin 3 tiene un nivel de significacin = 0.679 Solo la funcin discriminante 1 tiene nivel de significacin estadstica suficientemente alto. Por eso, slo consideraremos la funcin discriminante 1
Autovalores Funcin 1 2 3 Autovalor % de varianza ,379a 61,6 ,167a 27,1 a ,070 11,3 % acumulado 61,6 88,7 100,0 Correlacin cannica ,524 ,378 ,255
a. Se han empleado las 3 primeras funciones discriminantes cannicas en el anlisis.

Lambda de Wilks Contraste de las funciones 1 a la 3 2 a la 3 3 Lambda de Wilks ,581 ,801 ,935 Chi-cuadrado 82,276 33,564 10,181 gl 45 28 13 Sig. ,001 ,216 ,679
Es muy importante saber interpretar estas dos tablas. Podemos decir que la funcin 1 explica la mayor parte de la varianza, pero mirando los autovalores no sabemos que funcin discriminante tiene significacin estadstica, para eso tenemos que usar la lambda de Wilks. Esto se utiliza tambin para MANOVA. Tenemos 3 niveles de significacin. La Fon discrimnate 1 tiene significacin estadstica suficientemente alta, por eso consideraremos solo la funcin discriminante 1.
Coeficientes estandarizados de las funciones discriminantes cannicas Funcin 2 ,153 -,043 ,172 ,452 ,420 ,169 -,161 ,148 ,144 -,509 -,090 ,537 ,114 -,205 -,498
1 -,042 -,429 ,291 ,061 ,012 ,348 -,086 -,037 ,360 ,721 ,098 -,447 -,142 -,035 -,202
3 ,228 ,139 ,224 ,029 -,492 -,192 -,203 ,429 -,279 ,463 -,236 ,293 ,224 ,129 -,369
Son coeficientes estandarizados, por tanto son anlogos a los coeficientes de regresin beta estandarizados. Por tanto el mayor valor indica el mayor peso. Sabemos que variables independiente tenemos que considerar para el anlisis. Tenemos 5 con medias estadsticamente significativas. La 2 informacin obtenida de la prueba de igualdad entre grupos es que tenemos que incluir en la funcin 1 como variable independiente la EPU_OBSO, luego LIBERAL, EMPR_CRE, BEN_OBJ1 y MARK_NEC Para interpretar la funcin 1 tenemos que tener en cuenta el signo de coeficientes estandarizados.
Matriz de estructura Funcin 2 -,039 ,249 -,059 ,106 -,103 ,468* ,460* ,397* -,376* -,303* ,183* -,054 -,025 -,224 ,011
EMPR_CRE LIBERAL EPU_OBSO COMUNISM ECSOLMER DESP_LIB BEN_OBJ1 ECME_PLA MARK_NEC BAL_SOCI BENSOLAC SOCIALIS EPU_OBEC EMPR_EXP DIRE_SUF
1 ,510* ,434* -,382* ,148* -,140* ,106 -,287 ,212 -,342 -,016 -,112 -,187 -,154 -,165 ,092
3 ,393 -,127 ,253 -,078 -,114 -,347 ,309 -,110 -,314 ,220 ,073 ,344* ,263* -,244* ,133*
Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes cannicas tipificadas Variables ordenadas por el tamao de la correlacin con la funcin. *. Mayor correlacin absoluta entre cada variable y cualquier funcin discriminante.
Tambin se puede ver lo anterior en la matriz de estructura. Tenemos la matriz de cargas, que son anlogas a las cargas del Anlisis de Componentes Principales, expresan pesos.
Funciones en los centroides de los grupos Funcin 2 -,334 -,609 ,526 ,103
PROMOC_A 1 2 3 4
1 -,983 ,249 -,411 ,611
3 -,296 ,364 ,232 -,191
Funciones discriminantes cannicas no tipificadas evaluadas en las medias de los grupos
Hemos obtenido datos parecidos con el Dyane. Pero podemos interpretar estos nmeros observando el signo de cada nmero. Cada promocin tiene centroide distinto. Pero es ms fcil verlo en la representacin grfica, como el Mapa territorial
Estadsticos de clasificacin
Resumen del proceso de clasificacin Procesados Excluidos 162 0 0 162 Cdigo de grupo perdido o fuera de rango Perdida al menos una variable discriminante Usados en los resultados
Probabilidades previas para los grupos Casos utilizados en el anlisis No ponderados Ponderados 29 29,000 30 30,000 41 41,000 62 62,000 162 162,000
PROMOC_A 1 2 3 4 Total
Previas ,250 ,250 ,250 ,250 1,000
Mapa territorial (Asumiendo que todas las funciones excepto las dos primeras son = 0) Discriminante cannica Funcin 2 -3,0 -2,0 -1,0 ,0 1,0 2,0 3,0 3,0 34 34 34 34 34 34 2,0 34 34 3 34 1333 34 11133 34 11333 34 1,0 11133 34 11333 34 11133 34 11333 * 34 11133 34 11333 34 * ,0 11133 34 1133332444 * 1122 222444 12 222444 12 * 2224444 12 2222444 -1,0 12 222444 12 2224444 12 2222444 12 222444 12 2224 12 2 -2,0 12 12 12 12 12 12 -3,0 12 -3,0 -2,0 -1,0 ,0 1,0 2,0 3,0 Funcin discriminante cannica 1
Smbolos usados en el mapa territorial Smbol -----1 2 3 4 Grupo ----1 2 3 4 Etiqu --------------------
Indica un centroide de grupo

3
3 1
4 2
PROMOC_A
Centroides de grupo 4: Sexto 3: Quinto
-1
Funcin 2
-2 2: Cuarto -3 -4 -3 -2 -1 0 1 2 3 4 1: Tercero
Funcin 1
Estamos mirando centroides 1, 2, 3 y 4. Desde el punto de vista de la funcin discriminante 1, los grupos mas discriminados son los grupos 1 y 4. Ahora, depende de las preguntas, tenemos que interpretar la interrelacin entre cada grupo
a Resultados de la clasificacin
Original
Recuento
PROMOC_A 1 2 3 4 1 2 3 4
Grupo de pertenencia pronosticado 1 2 3 4 17 3 7 2 8 12 3 7 8 5 21 7 5 13 16 28 58,6 10,3 24,1 6,9 26,7 40,0 10,0 23,3 19,5 12,2 51,2 17,1 8,1 21,0 25,8 45,2
Total 29 30 41 62 100,0 100,0 100,0 100,0
a. Clasificados correctamente el 48,1% de los casos agrupados originales.
Casos prcticos con SPSS: Estimacin por Etapas.
Ahora veremos el mtodo de inclusin por etapas
Discriminante
Resumen del procesamiento para el anlisis de casos Casos no ponderados Vlidos Excluidos Cdigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos, el cdigo de grupo y al menos una de las variables discriminantes. Total excluidos Casos Totales N 162 0 0 Porcentaje 100,0 ,0 ,0
,0
0 162
,0 100,0
Anlisis 1 Prueba de Box sobre la igualdad de las matrices de covarianza
Logaritmo de los determinantes PROMOC_A 1 2 3 4 Intra-grupos combinada Rango 2 2 2 2 2 Logaritmo del determinante ,118 ,790 ,568 ,467 ,568
Los rangos y logaritmos naturales de los determinantes impresos son los de las matrices de covarianza de los grupos. Resultados de la prueba M de Box F Aprox. gl1 gl2 Sig. 12,297 1,332 9 115498,2 ,214
Contrasta la hiptesis nula de que las matrices de covarianza poblacionales son iguales.
Tiene nivel de significacin distinto que antes. Segn el mtodo nos saldr un resultado u otro. Aqu nos ha salido no significativo, por lo que no tenemos problema sobre la igualdad de las matrices de covarianzas.
Estadsticos por pasos

a,b,c,d Variables introducidas/eliminadas
Lambda de Wilks Paso 1 2 Introducidas EMPR_CRE BEN_OBJ1 Estadstico ,901 ,802 gl1 1 2 gl2 3 3 gl3 158,000 158,000 Estadstico 5,771 6,109 F exacta gl1 gl2 3 158,000 6 314,000
Sig
En cada paso se introduce la variable que minimiza la lambda de Wilks global. a. El nmero mximo de pasos es 30. b. La F parcial mnima para entrar es 3.84. c. La F parcial mxima para eliminar es 2.71 d. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los clculos.
El concepto bsico de la estimacin por etapas es meter una variable independiente, si sale sign, metemos otra variable y as continuamente, metiendo y sacando variables, para quedarnos con aquellas que tienen significacin estadstica.
Variables en el anlisis Paso 1 2 Tolerancia 1,000 ,894 ,894 F para eliminar 5,771 8,477 6,486 Lambda de Wilks ,932 ,901
EMPR_CRE EMPR_CRE BEN_OBJ1
Aparece el nivel de Tolerancia. Aqu no tiene ningn problema, ya que esta prximo a 1.
Variables no incluidas en el anlisis Paso 0 Tolerancia 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 ,980 ,999 ,845 ,904 ,915 ,905 ,986 ,987 ,971 ,939 ,894 ,926 1,000 ,976 ,973 ,999 ,812 ,904 ,913 ,898 ,969 ,977 ,970 ,939 ,910 ,994 ,973 Tolerancia mn. 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 ,980 ,999 ,845 ,904 ,915 ,905 ,986 ,987 ,971 ,939 ,894 ,926 1,000 ,976 ,884 ,893 ,798 ,819 ,831 ,830 ,878 ,877 ,868 ,846 ,850 ,889 ,870 F para introducir ,730 3,181 ,234 2,328 2,595 4,371 ,534 1,156 ,560 5,771 1,203 3,857 ,562 ,991 3,934 ,518 2,782 2,135 1,901 3,055 2,485 ,899 ,913 1,120 ,620 6,486 1,576 ,981 2,801 ,675 2,519 1,410 1,839 2,809 2,741 ,704 ,736 1,155 ,596 ,799 ,864 2,765 Lambda de Wilks ,986 ,943 ,996 ,958 ,953 ,923 ,990 ,979 ,989 ,901 ,978 ,932 ,989 ,982 ,930 ,892 ,856 ,866 ,870 ,852 ,860 ,886 ,886 ,882 ,891 ,802 ,875 ,885 ,855 ,792 ,765 ,781 ,774 ,761 ,762 ,791 ,791 ,784 ,793 ,790 ,789 ,761
EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_EXP BENSOLAC BAL_SOCI MARK_NEC
Lambda de Wilks F exacta gl1 gl2 3 158,000 6 314,000
Paso 1 2
Nmero de variables 1 2
Lambda ,901 ,802
gl1 1 2
gl2 3 3
gl3 158 158
Estadstico 5,771 6,109
Sig. ,00 ,00
Resumen de las funciones cannicas discriminantes

Autovalores Funcin 1 2 Autovalor % de varianza ,212a 87,9 a ,029 12,1 % acumulado 87,9 100,0 Correlacin cannica ,418 ,168
a. Se han empleado las 2 primeras funciones discriminantes cannicas en el anlisis.
La informacin ms importante del AD, aparece a partir de esta tabla. Aqu hemos detectado 2 funciones con nivel de significacin estadstica aceptable, pero la funcin 1 explica el 88 % de a varianza (casi toda). La funcin 2 explica solo el 12%. Par seleccionar las funciones discriminantes con nivel de significacin estadstica aceptable realizamos el examen de Lambda de Wilks. La funcin 1 es estadsticamente significativa, mientras que la 2 no lo es. Por tanto en el anlisis posterior se considerara solo la funcin 1 (notar que hemos obtenido el mismo resultado que en el primer anlisis, pero la diferencia aparece en las tablas posteriores)
Lambda de Wilks Contraste de las funciones 1 a la 2 2 Lambda de Wilks ,802 ,972 Chi-cuadrado 34,888 4,534 gl 6 2 Sig. ,000 ,104
Coeficientes estandarizados de las funciones discriminantes cannicas Funcin EMPR_CRE BEN_OBJ1 1 ,921 -,791 2 ,520 ,702
Hemos incluido dos variables independientes, ya que estadsticamente hablando, en la estimacin por etapas se usa un examen mas sofisticado. Se calcula el nivel de Lambda de Wilks para cada paso de la estimacin y seleccionando nicamente las variables independientes que tienen significacin aceptable para la Lambda de Wilks.
Ahora lo que haremos es, excepto esos resultados, interpretar 2 variables independientes en la funcin discriminatoria 1. Por eso, no hace falta interpretar la segunda parte, ya que la funcin 2 no es significativa La primera variable tiene signo +, y la segunda -. Los encuestados han mostrados percepciones opuestas.
Matriz de estructura Funcin 1 -,150* -,145* -,134* ,062* -,029* -,491 ,664 -,127 ,141 ,088 ,163 ,196 -,159 -,022 -,031
a SOCIALIS a MARK_NEC a COMUNISM a BAL_SOCI a EPU_OBSO BEN_OBJ1 EMPR_CRE DIRE_SUFa a LIBERAL a BENSOLAC a DESP_LIB a ECME_PLA a EMPR_EXP a ECSOLMER a EPU_OBEC
2 -,018 -,078 -,109 -,047 -,012 ,871* ,748* -,414* ,287* ,287* ,245* ,240* -,188* ,176* -,161*
Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes cannicas tipificadas Variables ordenadas por el tamao de la correlacin con la funcin. *. Mayor correlacin absoluta entre cada variable y cualquier funcin discriminante. a. Esta variable no se emplea en el anlisis.
En este caso no tiene mucho sentido porque ya hemos seleccionado las variables independientes. Pasaremos a la representacin grafica
Funciones en los centroides de los grupos Funcin 1 -,586 ,460 -,469 ,362
PROMOC_A 1 2 3 4
2 -,288 -,015 ,231 -,011
Funciones discriminantes cannicas no tipificadas evaluadas en las medias de los grupos
Estadsticos de clasificacin
Resumen del proceso de clasificacin Procesados Excluidos 162 0 0 162 Cdigo de grupo perdido o fuera de rango Perdida al menos una variable discriminante Usados en los resultados
Probabilidades previas para los grupos Casos utilizados en el anlisis No ponderados Ponderados 29 29,000 30 30,000 41 41,000 62 62,000 162 162,000
PROMOC_A 1 2 3 4 Total
Previas ,250 ,250 ,250 ,250 1,000
Mapa territorial (Asumiendo que todas las funciones excepto las dos primeras son = 0) Discriminante cannica Funcin 2 -3,0 -2,0 -1,0 ,0 1,0 2,0 3,0 3,0 32 32 32 32 32 32 2,0 32 32 342 342 3442 3442 1,0 34 42 34 42 34 42 333333 34 42 1111113333333 34 42 111111133333333 * 34 42 ,0 111111113333333 34 ** 1111111334 42 * 114 42 14 42 14 42 14 42 -1,0 14 42 1442 1442 12 12 12 -2,0 12 12 12 12 12 12 -3,0 12 -3,0 -2,0 -1,0 ,0 1,0 2,0 3,0 Funcin discriminante cannica 1 Smbolos usados en el mapa territorial Smbol Grupo Etiqueta ------ ----- -------------------1 2 3 4 * 1 2 3 4 Indica un centroide de grupo

3
1 3 0 4 2 1
PROMOC_A
C n id d g e tro es e rupo 4
Funcin 2
-1
3 2
-2 -3 -2 -1 0 1 2 3
Funcin 1
Con esta informacin usamos la funcin discriminante 1, no podemos usar la 2. Con la funcin discriminante 1: Grupo 1 y grupo 4 se pueden discriminar, ya que estn lejos horizontalmente. Grupo 1 y grupo 2 se pueden discriminar, ya que estn lejos horizontalmente. Grupo 1 y grupo 3 es difcilmente clasificable, ya que estn cerca horizontalmente. Grupo 3 y grupo 4 se pueden discriminar, ya que estn lejos horizontalmente. Grupo 3 y grupo 2 se pueden discriminar, ya que estn lejos horizontalmente.
a Resultados de la clasificacin
Original
Recuento
PROMOC_A 1 2 3 4 1 2 3 4
Grupo de pertenencia pronosticado 2 3 4 14 4 9 2 5 18 7 0 11 10 19 1 12 28 20 2 48,3 13,8 31,0 6,9 16,7 60,0 23,3 ,0 26,8 24,4 46,3 2,4 19,4 45,2 32,3 3,2
Total 29 30 41 62 100,0 100,0 100,0 100,0
a. Clasificados correctamente el 32,7% de los casos agrupados originales.
Una aplicacin prctica del Anlisis Discriminante es validar el Anlisis Cluster. Guardando el resultado del anlisis cluster en una variable, y realizando posteriormente el AD con la nueva variable creada.
Ejercicio 6 1. Qu criterio se podra utilizar para decidir qu variable independiente debe incluirse en las funciones discriminantes? 2. En qu se diferencian el anlisis discriminante mltiple, el anlisis de regresin, el anlisis multivariante de la varianza (MANOVA), y la regresin logstica? 3. Explique los siguientes trminos: funcin discriminante, coeficientes estandarizados, y cargas discriminantes. 4. Se realiz una encuesta a cuatro promociones de estudiantes de la Universidad de Alcal, en la que se midieron las actitudes hacia la empresa y los sistemas econmicos. Interprete la siguiente salida de SPSS del anlisis discriminante: 5. A continuacin, se obtuvieron las siguientes tablas. Plantee una conclusin del anlisis discriminante a partir de la siguiente informacin. 1. Qu criterio se podra utilizar para decidir qu variable independiente debe incluirse en las funciones discriminantes? En el anlisis discriminante (AD) existen dos mtodos de estimacin: la estimacin conjunta o simultnea y la estimacin por pasos o etapas. En el DYANE slo est implementada la estimacin conjunta mientras que en el SPSS estn ambos mtodos de estimacin. La estimacin por etapas produce resultados ms conservadores y se eliminan las variables que no contribuyen a la capacidad discriminatoria. Es decir: es un mtodo para seleccionar las variables que contribuyen y que tienen el nivel de significacin ms importante y son incluidas finalmente en la funcin discriminante. Cuando efectuamos un AD mediante SPSS, nicamente nos salen las variables son suficiente capacidad discriminatoria. Las cargas slo salen para todas las variables independientes. La importancia o pesos de cada variable independiente son los coeficientes de correlacin cannicas. Ventajas: la estimacin conjunta es ms sencilla. Si utilizamos DYANE, hay que realizar un ANOVA univariante (para medir si las medias son significativamente diferentes o distintas) para poder seleccionar las variables con ms significacin estadstica y luego realizar el AD. Cuando tenemos solamente dos grupos, se emplea la t de Student. 2. En qu se diferencian el anlisis discriminante mltiple, el anlisis de regresin, el anlisis multivariante de la varianza (MANOVA), y la regresin logstica? Regresin mltiple (RM) Anlisis discriminante (AD) Y = + 1X1 + 2X2 + ... + nXn Z= a + W1X1 + W2X2 + ... + WnXn
El MANOVA es la inversa del AD, donde la variable dependiente es la independiente. La Regresin Logstica (RL) es un caso particular del AD,
donde la variable dependiente es nominal (dicotmica) y la independiente es mtrica. 3. Explique los siguientes trminos: funcin discriminante, coeficientes estandarizados, y cargas discriminantes. La Funcin Discriminante (FD) es una combinacin lineal de dos o ms variables que contienen una serie de puntuaciones Z. W1, W2, ... ,Wn son coeficientes discriminantes que son anlogos a los coeficientes de la regresin mltiple. Estos coeficientes representan las contribuciones relativas de sus variables asociadas a las funciones discriminantes. Por qu se estandarizan las variables? Se estandarizan por que nos son valores directamente comparables. Las cargas discriminantes son tcnicamente semejantes a las obtenidas mediante el ACP. Miden la correlacin lineal simple entre cada variable independiente y la FD. Reflejan tambin la varianza que existe entre las variables independientes y la FD obtenida. Esta ltima cuestin est muy relacionada con el concepto de Autovalor. 4. Se realiz una encuesta a cuatro promociones de estudiantes de la Universidad de Alcal, en la que se midieron las actitudes hacia la empresa y los sistemas econmicos. Interprete la siguiente salida de SPSS del anlisis discriminante: El M de Box sirve para comprobar el supuesto de la igualdad de las matrices de covarianzas o de dispersin. Entre dos o ms grupos de debe 0,03 es un nivel aceptable. ser significativo. En este caso tenemos 0,029, por lo que podemos Resultados de la prueba M de Box considerarlo vlido. 510,813
F Aprox. gl1 gl2 Sig. 1,147 360 32104,883 ,029
Autovalores Funcin 1 2 Autovalor ,379(a) ,167(a) % de varianza 61,6 27,1 % acumulado 61,6 88,7 Correlacin cannica ,524 ,378
3 ,070(a) 11,3 100,0 ,255 a Se han empleado las 3 primeras funciones discriminantes cannicas en el anlisis.
Esta tabla no contiene informacin significativamente estadstica. El autovalor significa la varianza representada por la FD. Las correlaciones cannicas al cuadrado proporcionan una estimacin de la cantidad de varianza compartida entre las respectivas combinaciones lineales ptimamente estimadas entre las variables independientes y las dependientes. Junto con la informacin proporcionada por la 2 y 3 columna se puede decir que la FD 1 representa el 61,6% de la varianza y que la FD 2 y FD 3, explican slo el 38,4%.
Lambda de Wilks Contraste de las funciones 1 a la 3 2 a la 3 3 Lambda de Wilks ,581 ,801 ,935 Chi-cuadrado 82,276 33,564 10,181 Gl 45 28 13 Sig. ,001 ,216 ,679
El lambda de Wilks es un examen estadstico para ver si las FD tienen significacin estadstica. La nica FD vlida sera la primera por lo que solamente ser utilizada para anlisis posteriores.
5. A continuacin, se obtuvieron las siguientes tablas. Plantee una conclusin del anlisis discriminante a partir de la siguiente informacin. La tabla corresponde a una salida donde se ha efectuado un ANOVA univariante de forma conjunta para comprobar la significacin estadstica de las variables independientes y poderlas as incluirlas en la FD. Las variables a incluir son EPU_OBSO, LIBERAL, EMPR_CRE, BEN_OBJ1 y MARK_NEC.
Coeficientes estandarizados de las funciones discriminantes cannicas Funcin 1 2 3
-,042 -,429 ,291 ,061 ,012 ,348 -,086 -,037 ,360 ,721 ,098 -,447 -,142 -,035 -,202
,153 -,043 ,172 ,452 ,420 ,169 -,161 ,148 ,144 -,509 -,090 ,537 ,114 -,205 -,498
,228 ,139 ,224 ,029 -,492 -,192 -,203 ,429 -,279 ,463 -,236 ,293 ,224 ,129 -,369
Para la FD, dos variables tienen signo positivo y tres negativos. A la hora de interpretar FD tenemos que tener en cuenta estos efectos.
funciones discrim inantes cannicas

3
3 4 1 2
PR M C O O _A
C n id s d g p e tro e e ru o 4 S xta (8 /8 ) : e 4 5 3 Q in (8 /8 ) : u ta 3 4
-1
Funcin 2
-2 2 C a (8 /8 ) : u rta 2 3 -3 -4 -3 -2 -1 0 1 2 3 4 1 T rce (8 /8 ) : e ra 1 2
Fu ncin 1
Para este mapa territorial nicamente debemos considerar la FD 1, ya que es la nica que ha salido estadsticamente significativa.
Resultados de la clasificacin(a) PROMOC_A 1 Original Recuento 1 17 Grupo de pertenencia pronosticado 2 3 3 7 4 2 29 Total
2 3 4
8 8 5
12 5 13
3 21 16
7 7 28
30 41 62
Tenemos que calcular los resultados obtenidos a partir de esta matriz de confusin: (17+12+21+28)/(29+30+41+62)=0,481, es decir que el 48,1% de las variables estn correctamente clasificadas.
TEMA 7: EL ANLSIS multivariante de la varianza (MANOVA)
Estructura de la clase: 1. Introduccin. 2. Definicin y objetivo. 3. Trminos y conceptos bsicos del MANOVA. 4. Supuestos bsicos del MANOVA. 5. Diseo del estudio con el MANOVA. 6. Casos prcticos con SPSS. Introduccin. - El MANOVA es la extensin multivariante de las tcnicas univariantes y sirve para valorar las diferencias entre las medias de varios grupos con mltiples variables. - El MANOVA y el AD son imgenes de espejo. Las variables DEPENDIENTES en el MANOVA (una serie de variables mtricas) son las variables INDEPENDIENTES en el AD y una simple variable DEPENDIENTE (no mtrica) del AD se convierte en la variable INDEPENDIENTE en el MANOVA. - Las diferencias entre el MANOVA y el AD, sin embargo, se centran alrededor de los objetivos de los anlisis y el papel de las variables no mtricas. El AD emplea una variable no mtrica como variable dependiente. Se supone que las categoras de la variable dependiente estn dadas y que se utilizan las variables independientes para formar valores tericos que son diferentes de manera mxima entre los grupos formados por las categoras de la variable dependiente. En el MANOVA por el contrario, la serie de variables mtricas actan ahora como variables dependientes y el objetivo es encontrar grupos de encuestados que exhiben diferencias sobre la serie de variables dependientes. Los grupos de encuestados no son especificados previamente; en su lugar, el investigador utiliza una o ms variables independientes (no mtricas) para formar grupos (Hair et al., 1999, pp.351).
Por qu se usa el MANOVA? Para contrastar las medias de dos grupos se utiliza el test t de Student.
Grupos Valor de t de p* Student A B Variable mtrica Media A Media B xx xx Si p es menor que el nivel de significacin previamente establecido, se debe rechazar la hiptesis nula (Media A = Media B), y por ello, concluir que existe diferencia significativa entre las dos medias (Media A Media B).
Cuando queremos contrastar medias de tres o ms grupos, podemos llevar a cabo mltiples tests t separados para contrastar la diferencia entre cada par de medias de una variable. Sin embargo, los tests t mltiples hinchan el porcentaje del error Tipo I. El ANOVA evita este aumento del error de Tipo I al comparar un conjunto de grupos. Por ello, para contrastar conjuntamente las medias de tres o ms grupos de una variable se utiliza el ANOVA.
Grupos Valor de F p* A B C Variable mtrica Media A Media B Media C xx xx Si p es menor que el nivel de significacin previamente establecido, se debe rechazar la hiptesis nula (Media A = Media B = Media C), y por ello, concluir que existen diferencias significativas entre las tres medias (Media A Media B Media C).
Si queremos examinar las medias de tres o ms grupos respecto a mltiples variables, podramos aplicar el ANOVA varias veces a cada una de las variables por separado. Sin embargo, con la misma lgica aplicada con los tests t mltiples, la repeticin del ANOVA aumenta el error de Tipo I. El MANOVA evita este problema, y es ms adecuado para examinar las medias de mltiples grupos respecto a mltiples variables.
Grupos p* Lambda de F Wilks* A B C Variable mtrica 1 Media A1 Media B1 Media C1 xx xx Variable mtrica 2 Media A2 Media B2 Media C2 xx xx Valor nico Variable mtrica 3 Media A3 Media B3 Media C3 xx xx Si p es menor que el nivel de significacin previamente establecido, se puede decir que existen diferencias univariantes (Media A Media B Media C). Sin embargo, el poder del MANOVA es permitir detectar diferencias multivariantes examinando el Lambda de Wilks.
Sin embargo, los contrastes individuales ignoran las correlaciones entre las variables dependientes (mtricas) y por ello no se emplea toda la informacin disponible para valorar diferencias globales en los grupos. Por ello, el MANOVA computa un valor nico Lambda de Wilks para detectar diferencias multivariantes. Tanto el ANOVA como el MANOVA son particularmente tiles cuando se usan conjuntamente con diseos experimentales en los que el investigador controla o manipula directamente una o ms variables independientes para determinar su efecto sobre una (ANOVA) o ms (MANOVA) variables dependientes (Hair et al., 1999, pp.346).
Definicin y objetivo. El MANOVA es una tcnica de dependencia que mide las diferencias entre dos o ms variables mtricas dependientes basadas en un conjunto de variables categricas independientes. El MANOVA nos permite: 5. detectar diferencias globales debido a la combinacin de las variables dependientes (mtricas) que no se encuentran con los contrastes univariantes (Caso 1). 6. realizar el examen de mltiples variables independientes (no mtricas o categricas) (Caso 2). 7. controlar el porcentaje global del error de Tipo I. Casos en los que es adecuado utilizar el MANOVA : a. Caso 1: Preguntas sobre mltiples variables dependientes (mtricas) y una variable independiente (no mtrica). En este caso el investigador pretende realizar preguntas sobre mltiples variables dependientes (por ejemplo, renta, consumo, etc.) que quiere analizar por separado, controlando el porcentaje de error de Tipo I. En esta situacin, el MANOVA en primer lugar valora si se encuentra alguna diferencia global entre grupos.
Variable independiente (no mtrica) Lambda de Wilks* (valor nico) p
Clase social
El anlisis se continua llevando a cabo contrastes univariantes separados para dar respuestas individuales a cada variable dependiente (mtrica).
Variable independiente (no mtrica) Clase social Alta Media Baja Variables Variable 1 dependientes Variable 2 (mtricas) Variable 3
b. Caso 2: Preguntas sobre mltiples variables dependientes (mtricas) y mltiples variables independientes (no mtricas). En este caso el investigador pretende realizar preguntas sobre dos o ms variables independientes (por ejemplo, sexo, clase social, etc.) y examinar si existen unas determinadas relaciones entre ellas. El MANOVA proporciona un mtodo estructurado para especificar las comparaciones de las diferencias de los grupos sobre un conjunto de medidas dependientes mientras se mantiene la eficiencia estadstica.
Lambda de Wilks* (valor nico) Lambda de Wilks* (valor nico) Lambda de Wilks* (valor nico) p
Variable independiente (no mtrica)
Clase social
Sexo
Variables independientes (no mtrica)
Clase Social X Sexo
Variables independientes (no mtrica) Clase social Alta Media Baja Hombre Mujer Hombre Mujer Hombre Mujer Variables Variable 1 dependientes Variable 2 (mtricas) Variable 3
Trminos y conceptos bsicos del MANOVA. Caso 1: mltiples variables dependientes (mtricas) y una variable independiente (no mtrica). Supongamos, por ejemplo, que identificamos una variable categrica (independiente), clase social, con tres categoras: alta, media y baja. Pretendemos estudiar si existen diferencias importantes entre estas tres clases sociales, teniendo en cuenta tres variables dependientes (mtricas), que son: renta, consumo de refrescos mensual y gasto en agua mensual. Para ello, seleccionaramos tres grupos de personas de clase alta, media y baja, y les pediramos que valorasen en una escala mtrica su renta, su consumo de refrescos y su gasto de agua. A continuacin, calcularamos las medias para cada grupo y para cada valor de la variable dependiente, que se indicaran en las celdas sombreadas de la tabla siguiente.
Alta Variables dependientes (mtricas) Renta Consumo de refrescos mensual Gasto en agua mensual Clase social Media Baja
El MANOVA sigue los siguientes pasos: Paso 1: El MANOVA detecta diferencias combinadas que no se encuentran con los contrastes univariantes. Existen cuatro criterios muy conocidos con los que valorar las diferencias multivariantes entre los grupos: la mayor raz caracterstica de Roy, la traza de Hotelling, el lambda de Wilks, y el criterio de Pillai. Estos criterios valoran las diferencias entre dimensiones de las variables dependientes. El contraste ms comnmente empleado para la significacin global del MANOVA es el lambda de Wilks. Este examen estadstico considera todas las races caractersticas, es decir, compara si los grupos son de algn modo diferentes sin estar afectados por el hecho de que los grupos difieran en al menos una combinacin lineal de las variables dependientes.
Aunque la computacin del lambda de Wilks es compleja, se tienen buenas aproximaciones para contrastar la significacin, transformndolo en un estadstico F.
Lambda de Wilks* (valor nico)
Clase social
Paso 2: A continuacin, el MANOVA detecta las diferencias univariantes mediante el contraste F o el ANOVA univariante.
Variable independiente (no mtrica) Clase social Alta Media Baja Variables Renta dependientes (mtricas) Consumo de refrescos mensual Gasto en agua mensual
Caso 2: mltiples variables dependientes (mtricas) mltiples variables independientes (no mtricas).
Supongamos, por ejemplo, que identificamos dos variables independientes (categricas), lnea de producto y tipo de cliente. Cada una de ellas tiene dos categoras, producto 1 y producto 2 para la variable lnea de producto y cliente anterior y cliente actual para tipo de cliente. Combinando estas dos variables independientes formamos los cuatro grupos siguientes (Tabla 1):
Tabla 1 Variable lnea de producto Variable tipo de cliente Cliente anterior Cliente actual Producto 1 Grupo 1 Grupo 2 Producto 2 Grupo 3 Grupo 4
Pretendemos estudiar cmo stas variables categricas causan diferencias en la manera en que la gente evala la publicidad de una determinada marca, concretamente en recuerdo y compra (variables dependientes). Para ello, preguntaramos a individuos de cada uno de los grupos anteriores que valorasen en una escala mtrica recuerdo y compra. A continuacin calcularamos las medias para cada grupo y para cada valor de la variable dependiente (mtrica) que se indicaran en las celdas sombreadas de la tabla 2.
Tabla 2 Variables independientes (no mtrica) Lnea de producto Producto 1 Producto 2 Cliente Cliente Cliente Cliente anterior actual anterior actual (grupo 1) (grupo 2) (grupo 3) (grupo 4) Variables Recuerdo dependientes Compra (mtricas)
Podemos usar el MANOVA para combinar estas dos variables dependientes (recuerdo y compra) en un nico valor terico, de forma idntica al AD.
Y
MEDIA GRUPO 4
Medias
Medias
Producto 2
MEDIA GRUPO 2 +GRUOP 4 Producto 1 MEDIA GRUPO 2 MEDIA GRUPO 1 +GRUOP 2 Producto 2
d1
d2
Producto 1
MEDIA GRUPO 3 +GRUOP 4
MEDIA GRUPO 3
Cliente anterior MEDIA GRUPO 1 +GRUOP 3
Cliente actual
MEDIA GRUPO 1
Cliente anterior
Cliente actual
El grfico de arriba representa en el eje X el tipo de cliente y en el eje Y la media, y en l se indica con el smbolo las cuatro medias de dicho valor terico para cada uno de los grupos (estos smbolos representaran la media de cada columna de la Tabla 2). Las dos lneas continuas conectan los dos tipos de cliente (cliente anterior y cliente actual) para un mismo tipo de producto (producto 1 y producto 2). Las dos lneas discontinuas verticales conectan los dos tipos de productos para un mismo tipo de cliente. Los smbolos de la figura indican la media para cada categora de una de las dos variables independientes calculada sin distinguir las categoras que adopta la otra variable independiente, es decir, lo que podemos denominar la media de la categora de las variables independientes (categricas). El clculo de dicha media de la categora nos permite evaluar cmo el tipo de producto y/o el tipo de cliente influye en las variables dependientes (mtricas). Siguiendo con el ejemplo, un examen visual del grfico anterior pone de manifiesto que la diferencia entre medias para el tipo de cliente (distancia d1 en el grfico) es mayor que la diferencia entre las medias para el tipo de producto (distancia d2 en el grfico). Todo ello nos permite concluir que ambas caractersticas (tipo de producto y tipo de cliente) causan diferencias significativas, un resultado que no es posible obtener con el anlisis discriminante.
El MANOVA difiere del AD en la manera en que se forman y se analizan los grupos. Slo podra llevarse a cabo el AD sobre los cuatro grupos, sin distincin de las caractersticas del grupo. Con el MANOVA, el investigador analiza las diferencias entre los grupos a la vez que valora si las diferencias se deben al tipo de producto, al tipo de cliente o a ambos. Por tanto, el MANOVA se centra en el anlisis sobre la composicin de los grupos basada en sus caractersticas (es decir, en las variables independientes).
Supuestos bsicos del MANOVA. Tamao muestral: 1) El tamao de cada grupo mnimo debe ser de 20 observaciones. 2) El tamao de cada celda debe ser ms grande que el nmero de variables dependientes incluidas. Supuestos generales: 1) Linealidad. 2) El conjunto de las p-variables dependientes debe seguir una distribucin normal multivariante (en la prctica, este supuesto NO se puede comprobar con SPSS; por ello se debe asegurar que cualquier combinacin de las variables dependientes sigue una distribucin normal). Supuestos especficos: 1) Las observaciones deben ser independientes. 2) Las matrices de varianzascovarianzas deben ser iguales para todos los grupos de tratamiento (M de Box; en SPSS, seleccione Opciones Pruebas de homogeneidad). 3) La ausencia de la multicolinealidad.
Potencia estadstica de los contrastes multivariantes: En trminos sencillos, la potencia es la probabilidad de que el contraste estadstico identifique un efecto del tratamiento si este realmente existe. La potencia puede ser definida como uno menos la probabilidad del error de Tipo II (beta). El investigador debe considerar, no slo el nivel de significacin alfa, sino tambin la potencia resultante, y debe intentar mantener un nivel de significacin alfa aceptable con una potencia cerca de 0,80. El SPSS ofrece una opcin para comprobar el nivel de la potencia (Opciones Potencia observada). Tras realizar el MANOVA, el investigador debe determinar primero si la potencia obtenida fue suficiente, es decir, 0,80 o ms. Si no fuese as, y especialmente si no se han encontrado diferencias significativas, el investigador podra reformular el diseo de anlisis.
Diseo del estudio con el MANOVA. Objetivos del estudio con el MANOVA. Examen de los supuestos. Estimacin del modelo MANOVA y valoracin del ajuste global. Anlisis sobre efectos de interacciones. Interpretacin de los resultados.
Casos prcticos con SPSS. Utilizaremos el archivo AD_SPSS.
Al igual que hicimos en el AD, escogemos las siguientes variables dependientes: EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC
Como variable independiente o Factor Fijo PROMOC_A
En Opciones elegimos Pruebas de Homogeneidad,
Las salidas de SPSS son las siguientes:
Prueba de Box sobre la igualdad a de las matrices de covarianza M de Box 72,140 F 1,501 gl1 45 gl2 36983,674 Significacin ,016 Contrasta la hiptesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos. a. Diseo: Intercept+PROMOC_A
El nivel de significacin obtenido es 0,016 < 0,05, por lo que las matrices de varianzas-covarianzas no son iguales. Podemos decir que no se cumple el test de M de Box.
c Contrastes multivariados
Efecto Intercept
Traza de Pillai Lambda de Wilks Traza de Hotelling Raz mayor de Roy PROMOC_A Traza de Pillai Lambda de Wilks Traza de Hotelling Raz mayor de Roy
a fijar en el lambda de Wilks. En a. Estadstico exacto este caso sale b. El estadstico es un lmite superior para la F el cual ofrece un lmite inferior para el nivel de significativo, por lo que significacin. podemos decir que c. Diseo: Intercept+PROMOC_A existen diferencias multivariantes o globales significativas con las variables seleccionadas.
Valor ,970 ,030 32,499 32,499 ,325 ,699 ,397 ,290
F 1000,978 a 1000,978 a 1000,978 a 1000,978 a 3,794 3,933 4,043 9,053 b
Gl de la hiptesis 5,000 5,000 5,000 5,000 15,000 15,000 15,000 5,000
Gl del error Significacin 154,000 ,000 154,000 ,000 154,000 ,000 154,000 ,000 468,000 ,000 425,528 ,000 458,000 ,000 Slo nos vamos 156,000 ,000
Las pruebas de los efectos inter-sujetos sirven para ver si existen diferencias univariantes. Mediante el MANOVA se pueden ver si existen diferencias univariantes y multivariantes.
Pruebas de los efectos inter-sujetos Suma de cuadrados tipo III 8,412 a 13,468 b 24,093 c 16,408 d 11,836 e 2201,840 1138,098 1204,498 1211,868 761,240 8,412 13,468 24,093 16,408 11,836 139,267 162,267 219,864 224,036 158,441 2490,000 1499,000 1625,000 1558,000 957,000 147,679 175,735 243,957 240,444 170,278 Media cuadrtica 2,804 4,489 8,031 5,469 3,945 2201,840 1138,098 1204,498 1211,868 761,240 2,804 4,489 8,031 5,469 3,945 ,881 1,027 1,392 1,418 1,003
Fuente Variable dependiente Modelo corregido EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC Intercept EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC PROMOC_A EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC Error EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC Total EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC Total corregida EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC
gl 3 3 3 3 3 1 1 1 1 1 3 3 3 3 3 158 158 158 158 158 162 162 162 162 162 161 161 161 161 161
F 3,181 4,371 5,771 3,857 3,934 2498,006 1108,170 865,585 854,661 759,119 3,181 4,371 5,771 3,857 3,934
Significacin ,026 ,005 ,001 ,011 ,010 ,000 ,000 ,000 ,000 ,000 ,026 ,005 ,001 ,011 ,010
a. R cuadrado = ,057 (R cuadrado corregida = ,039) b. R cuadrado = ,077 (R cuadrado corregida = ,059) c. R cuadrado = ,099 (R cuadrado corregida = ,082) d. R cuadrado = ,068 (R cuadrado corregida = ,051) e. R cuadrado = ,070 (R cuadrado corregida = ,052)
MANOVA_1
Mod lineal general multivariante
Opciones:
Resultados:
Prueba de Box sobre la igualdad de las matrices de covarianza(a) M de Box 276,347 F 5,958 gl1 gl2 Significacin 40 1141,882 ,000
Contrasta la hiptesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos. a Diseo: Intercept+EDUCAC
Tenemos que mencionar y justificar tericamente porqu nos ha salido significativo.
Ahora vamos a realizar un Anlisis Discriminante, por lo que tenemos que invertir las VI y las VD.
Primero tenemos que cambiar esta variable a numrica: nivel de educacin. En rango ponemos mnimo 1 y mximo 4.
Y en estadsticos seleccionamos ANOVA y M de Box. Aceptar Tenemos 3 funciones discriminantes pero solo la primera ha salido significativa. Y antes de Box tenemos una tabla que ofrece ex univariante. Hemos obtenido la misma informacin que el MANOVA.
Pruebas de igualdad de las medias de los grupos Lambda de Wilks ,995 ,959 ,986 ,971 F 1,454 12,115 4,105 8,268 gl1 3 3 3 3 gl2 841 841 841 841 Sig. ,226 ,000 ,007 ,000
Edad (aos) Renta anual (en mil) Deuda de tarjeta de credito Otras deudas
MANOVA_2
Fc fijo: Fumador o no. Variables dependientes: las de actitudes (4 variables). M de box no significativo cumple supuesto La VI es fumador o no, lambda de wilks ha salido 0,142, no significativo, por lo que no hay diferencias multivariantes. No son interesa el anlisis posterior. Ahora cambiamos los factores fijos y ponemos sexo porque nos interesa saber si hay diferencias entre hombres y mujeres. Nos sale 0,885 por lo que ya nonos interesa. Cambiamos otra vez fc fijos para saber si hay diferencias globales en los distintos grupos de clase social. M de box cumple el supuesto especfico. Wilks sale 0,082 si tenemos suficiente material bibliogrfico para sostener la hiptesis pues la aceptamos. Pero si es un estudio exploratorio, rechazamos de fijo. No se puede generalizar.
Prueba de Box sobre la igualdad de las matrices de covarianza(a) M de Box 20,067 F 1,369 gl1 gl2 Significacin 10 937,052 ,190
Contrasta la hiptesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos. a Diseo: Intercept+CLASESOC
Contrastes multivariados(d) Efecto Intercept Valor ,927 ,073 12,749 12,749 ,606 ,408 1,414 1,389 F 44,621(b) 44,621(b) 44,621(b) 44,621(b) 1,630 1,978(b) 2,298 5,210(c) Gl de la hiptesis 4,000 4,000 4,000 4,000 8,000 8,000 8,000 4,000 Gl del error 14,000 14,000 14,000 14,000 30,000 28,000 26,000 15,000 Significacin ,000 ,000 ,000 ,000 ,158 ,087 ,052 ,008 Parmetro de no centralidad 178,486 178,486 178,486 178,486 13,040 15,820 18,387 20,840 Potencia observada(a ) 1,000 1,000 1,000 1,000 ,600 ,694 ,762 ,895
CLASESOC
Traza de Pillai Lambda de Wilks Traza de Hotelling Raz mayor de Roy Traza de Pillai Lambda de Wilks Traza de Hotelling Raz mayor de Roy
a b c d
Calculado con alfa = ,05 Estadstico exacto El estadstico es un lmite superior para la F el cual ofrece un lmite inferior para el nivel de significacin. Diseo: Intercept+CLASESOC
MANOVA_3
Como variables dependientes. Luego elegimos 2 VI (categricas): Tenemos que reconstruir el anlisis de las fotocopias del profesor shintaro.
Prueba de Box sobre la igualdad de las matrices de covarianza(a) M de Box 66,430 F ,944 gl1 gl2 Significacin 60 5107,970 ,598
Contrasta la hiptesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos. a Diseo: Intercept+EDAD+TRABAJA+EDAD * TRABAJA
Cumple el supuesto.
Contrastes multivariados(d)
a b c d Calculado con alfa = ,05 Estadstico exacto El estadstico es un lmite superior para la F el cual ofrece un lmite inferior para el nivel de significacin. Diseo: Intercept+EDAD+TRABAJA+EDAD * TRABAJA
Si utilizamos el MANOVA con dos fc fijos la interpretacin es muy complicada a no ser que busquemos alguna interaccin muy especfica. Por lo que no es conveniente usar con dos Fc fijos.
*** Interacciones entre anlisis cluster y MANOVA: MANOVA_4
Para anlisis discriminante
Para MANOVA
Ejercicio 7
1. Por qu se usa el MANOVA en vez del ANOVA? 2. Cules son las diferencias entre MANOVA y el anlisis discriminante? Qu situaciones se adecuan a cada tcnica multivariante? 3. Cmo se pueden valorar las diferencias multivariantes en el MANOVA? Cuntos criterios se aplican? Cul es el criterio ms usado y conocido? 4. Mencione los supuestos especficos del MANOVA. 5. La base de datos MANOVA 3 de la pgina Web trata de una investigacin comercial sobre actitudes hacia la empresa y los sistemas econmicos de los estudiantes de la Universidad de Alcal. Efecta el MANOVA con las siguientes variables y explica qu tipo de informacin se debe obtener para el estudio. Variables dependientes (mtricas; slo cinco): EPU-OBSO: La empresa pblica puede cumplir los objetivos sociales mejor que la privada. LIBERAL: El liberalismo es la mejor doctrina econmica. EMPR_CRE: El empresario debe ser admirado por la sociedad porque crea riqueza. BEN_OBJ1: El beneficio debe ser el primer objetivo de la empresa. MARK_NEC: El marketing es solo un mtodo para vender ms, creando necesidades aparentes. Variable independiente (no mtrica) PROMOC_A: Tercera (81/82), Cuarta (82/83), Quinta (83/84), y Sexta (84/85).
6. Se realiz una investigacin acerca de las percepciones hacia el tabaquismo con 80 muestras
de la Universidad Autnoma de Madrid. Se examinaron estudiantes de tres carreras distintas: Administracin y Direccin de Empresas, Derecho y Bioqumica. Se plantearon las siguientes preguntas: (1) Fumar perjudica la salud; (2) No debe permitirse fumar en lugares pblicos; (3) Deben aumentarse los impuestos sobre el tabaco, y (4) Debe intensificarse la informacin sobre los efectos del tabaco en la salud. Sobre la base de la revisin bibliogrfica, se plante la siguiente hiptesis principal: H1: Existen diferencias significativas globales en dichas percepciones sobre los efectos de tabaquismo generales. Nuestra proposicin es que los estudiantes de ciencias tienden a sealar actitudes ms negativas contra el tabaquismo. Tras efectuar el MANOVA con SPSS, se obtuvieron las siguientes salidas. Haga su interpretacin sobre dichas salidas y concluya el estudio. (Nota: se omiti Potencia observada.)
Contrastes multivariados(c) Efecto Carrera universitaria Valor ,606 ,408 1,414 1,389 F 1,630 1,978 2,298 5,210 Gl de la hiptesis 8,000 8,000 8,000 4,000 Gl del error 30,000 28,000 26,000 15,000 Significacin ,158 ,087 ,052 ,008
Traza de Pillai Lambda de Wilks Traza de Hotelling Raz mayor de Roy
1. Por qu se usa el MANOVA en vez del ANOVA?
Por que se trata de estudiar la varianza de mltiples variables dependientes mtricas. El MANOVA es la extensin multivariante de las tcnicas univariantes y sirve para valorar las diferentas entre las medias de varios grupos con mltiples variables. No podemos saber si existen diferencias globales o diferencias multivariantes o efectos combinados. Cuando queremos examinar las medias de mltiples variables mtricas dependientes podramos aplicar al ANOVA varias veces a cada una de las variables por separado. Sin embargo la repeticin del ANOVA hincha el error de tipo I. Adems las mltiples ANOVAs no pueden detectar las correlaciones entre las variables mtricas dependientes. El MANOVA evita el aumento del error de tipo I y al mismo tiempo permite identificar las diferencias multivariantes respecto a mltiples variables.
2. Cules son las diferencias entre MANOVA y el anlisis discriminante? Qu situaciones se adecuan a cada tcnica multivariante?
Las diferencias entre el MANOVA y el AD se centran alrededor de los objetivos de los anlisis y del papel de las variables no mtricas. Las diferencias entre el MANOVA y el AD se centran alrededor de los anlisis y el papel de las variables no mtricas. El AD emplea una variable no mtrica como variable dependiente. Se supone que las categoras de la variable dependiente estn dadas y que se utilizan las variables independientes para formar valores tericos que son diferentes de manera mxima entre los grupos formados por las categoras de la variable dependiente. En el MANOVA por el contrario la serie de variables mtricas actan ahora como variables dependientes y el objetivo es encontrar grupos de encuestados que exhiben diferencias sobre la serie de variables dependientes. Los grupos de encuestados no son especificados previamente, en su lugar el investigador utiliza una o ms variables independientes (no mtricas) para formar grupos. Ambas tcnicas son complementarias. Tras realizar el MANOVA conseguimos datos estadsticos pero para conocer que variable contribuye a las diferencias multivariantes realizaremos un AD.
3. Cmo se pueden valorar las diferencias multivariantes en el MANOVA? Cuntos criterios se aplican? Cul es el criterio ms usado y conocido?
El MANOVA detecta diferencias combinados que no se encuentran con los contrastes univariantes. Existen cuatro criterios muy conocidos con los que valorar las diferencias multivariantes entre los grupos: la mayor raz caracterstica de Roy, la traza de Hotelling, el lambda de Wilks, y el criterio Pillai. Estos criterios valoran las diferencias entre dimensiones de las variables dependientes. El contraste mas comnmente empleado para la significacin global del MANOVA es el lambda de Wilks. Este examen estadstico considera todas las races caractersticas es decir compara si los grupos son de algn modo diferente sin estar afectados por el hecho de que los grupos difieran en al menos una combinacin lineal de las variables dependientes.
4. Mencione los supuestos especficos del MANOVA.
Supuestos Generales: Linealidad. El conjunto de las p variables dependientes debe seguir una distribucin normal multivariante (en la prctica, este supuesto NO se puede comprobar con SPSS, por ello se debe asegurar que cualquier combinacin de las variables dependientes siguen una distribucin normal). Supuestos especficos: Las observaciones deben ser independientes. Las matrices de varianzas-covarianzas deben ser iguales para todos los grupos do tratamiento (M de Box > 0,03, es decir no significativo; en SPSS: Opciones pruebas de homogeneidad). La ausencia de la multicolinealidad.
5. La base de datos MANOVA 3 de la pgina Web trata de una investigacin comercial sobre actitudes hacia la empresa y los sistemas econmicos de los estudiantes de la Universidad de Alcal. Efecta el MANOVA con las siguientes variables y explica qu tipo de informacin se debe obtener para el estudio. Variables dependientes (mtricas; slo cinco): EPU-OBSO: La empresa pblica puede cumplir los objetivos sociales mejor que la privada. LIBERAL: El liberalismo es la mejor doctrina econmica. EMPR_CRE: El empresario debe ser admirado por la sociedad porque crea riqueza. BEN_OBJ1: El beneficio debe ser el primer objetivo de la empresa. MARK_NEC: El marketing es solo un mtodo para vender ms, creando necesidades aparentes. Variable independiente (no mtrica) PROMOC_A: Tercera (81/82), Cuarta (82/83), Quinta (83/84), y Sexta (84/85).
Al realizar mediante el M de Box nos sale 0,016<0,05 por lo que no ha cumplido el supuesto de igualdad y tenemos que parar el anlisis.
6. Se realiz una investigacin acerca de las percepciones hacia el tabaquismo con 80

muestras de la Universidad Autnoma de Madrid. Se examinaron estudiantes de tres carreras distintas: Administracin y Direccin de Empresas, Derecho y Bioqumica. Se plantearon las siguientes preguntas: (1) Fumar perjudica la salud; (2) No debe permitirse fumar en lugares pblicos; (3) Deben aumentarse los impuestos sobre el tabaco, y (4) Debe intensificarse la informacin sobre los efectos del tabaco en la salud. Sobre la base de la revisin bibliogrfica, se plante la siguiente hiptesis principal: H1: Existen diferencias significativas globales en dichas percepciones sobre los efectos de tabaquismo generales. Nuestra proposicin es que los estudiantes de ciencias tienden a sealar actitudes ms negativas contra el tabaquismo. Tras efectuar el MANOVA con SPSS, se obtuvieron las siguientes salidas. Haga su interpretacin sobre dichas salidas y concluya el estudio. (Nota: se omiti Potencia observada.)
Contrastes multivariados(c) Efecto Carrera universitaria Valor ,606 ,408 1,414 1,389 F 1,630 1,978 2,298 5,210 Gl de la hiptesis 8,000 8,000 8,000 4,000 Gl del error 30,000 28,000 26,000 15,000 Significacin ,158 ,087 ,052 ,008
Traza de Pillai Lambda de Wilks Traza de Hotelling Raz mayor de Roy
Empleando el lambda de Wilks como criterio multivariante pare considerar todas las races caractersticas de las variables dependientes (mtricas) el MANOVA detectar diferencias globales de las variables dependientes (mtricas), el MANOVA detecte diferencias globales entre las distintas carreras universitarias al nivel de 0,087. Se considera aceptable establecer el nivel de significacin en 0,10 debido a que se trata de un estudio con carcter exploratorio. Teniendo en cuenta el hecho de que la hiptesis o proposicin fundamental es que distintas cameras universitarias exhibiran diferencias sobre los efectos del tabaquismo, se concluye que existen diferencias globales entre las distintas carreras universitarias sobre las percepciones del tabaquismo. (Lambda de wills 0,08> 10,10. Es significativo. Cumple la hiptesis de que existen diferencias significativas en la percepcin negativa del tabaco entre alumnos de carreras diferentes.)
Pruebas de los efectos inter-sujetos Suma de cuadrados tipo III 13,075 5,875 5,875 ,800 Media cuadrtica 2 2 2 2 6,538 2,938 2,938 ,400
Fuente Carrera universitaria
Variable dependiente 'Fumar perjudica la salud' 'No debe permitirse fumar en lugares pblicos' 'Deben aumentarse los impuestos sobre el tabaco' 'Debe intensificarse la informacin sobre los efectos del tabaco en la salud'
gl
F 7,868 2,794 2,513 ,313
Significacin ,004 ,089 ,111 ,736
Existen diferencias significativas en la percepcin de los alumnos de las cuatro carreras citadas en cuanto a considerar que fumar perjudica la salud y que no debe permitirse fumar en lugares pblicos. Sin embargo no existen diferencias significativas en las otras variables independientes en funcin de la pertenencia a una carrera de ciencias sociales o cientficas. Los contrastes F multivariantes para cada variable dependiente (mtricas por separado detectaron diferencias significativas univariantes con un nivel de significacin de 0,10 solo para "Fumar perjudica la salud" y "no debe permitirse fumar el lugares pblicos", mientras no identifica ninguna diferencia significativa para "debe aumentarse los impuesto sobre el tabaco" y "debe intensificarse la informacin sobre los efectos del tabaco en la salud". De ello se puede concluir que las diferencias globales se atribuyen a las diferencias univariantes sobre dichas dos preguntas y 2- los efectos combinados de las cuatro variables dependientes (mtricas). Se necesita no slo examinar las medias para cada par de grupos para conocer si efectivamente los estudiantes de la carrera de bioqumica muestran una percepcin ms fuerte contra el tabaquismo. Sin embargo el presente estudio debe considerarse con un carcter exploratorio debido al tamao muestral relativamente pequeo, los resultados del estudio no deben generalizarse. Se necesitara una investigacin futura con un mayor nmero de muestras para obtener conclusiones definitivas.
TEMA 9: LA REGRESIN LOGSTICA (MODELO LOGIT)
Estructura de la clase: 1. Introduccin. 2. Objetivo de la RL. 3. Modelo de la RL. 4. Diseo del estudio con la RL. 5. Medicin de la variable dependiente. 6. Estimacin del modelo. 7. Supuestos bsicos de la RL. 8. Bondad de ajuste. 9. Interpretacin de los resultados. 10. Comparacin de los modelos: regresin, discriminante y logit. 11. Casos prcticos con SPSS. Introduccin. Qu caractersticas del estilo de vida son factores de riesgo de enfermedad cardiovascular? Dada una muestra de pacientes a los que se mide la situacin de fumador, dieta, ejercicio, consumo de alcohol, y estado de enfermedad cardiovascular, se puede construir un modelo utilizando las cuatro variables de estilo de vida para predecir la presencia o ausencia de enfermedad cardiovascular en una muestra de pacientes. El modelo puede utilizarse posteriormente para derivar estimaciones de la razn de las ventajas para cada uno de los factores y as indicarle, por ejemplo, cunto ms probable es que los fumadores desarrollen una enfermedad cardiovascular frente a los no fumadores.
Objetivo de la RL. El objetivo de la RL es (estimar un modelo de dependencia en el que la variable dependiente es cualitativa y binaria mediante una funcin logstica. Buscamos una combinacin lineal entre las variable dependiente e independiente. La variable dependiente ha de ser binaria).
Modelo de la RL.
Diseo del estudio con la RL. 1. Objetivos 2. Seleccionar variable dependiente (categrica) e independientes (mtricas, tambin se puede utilizar variables categricas). 3. Supuestos del anlisis 4. Estimacin del modelo de regresin logstica y valoracin del ajuste global 5. Interpretacin y bondad de ajuste 6. Validacin de los resultados Podemos cambiar el orden de los pasos para realizar el anlisis, realizar primer el 4, despus el 3 y luego el 2. Tambin sera vlido. En la RM intentamos minimizar la suma de los residuos, pero en el LOGIT, no utilizamos este concepto, porque no cumple la linealidad. En vez de utilizar el concepto de residuo, utilizamos el concepto de Chicuadrado.
Medicin de la variable dependiente. En el logit, se predice la probabilidad de ocurrencia. Por ejemplo, si utiliza un determinado producto de limpieza, variable no mtrica a) dicotmica b) multicotmica: logit multinominal
Estimacin del modelo. Variables independientes: categricas o mtricas. Categricas: se transforman en ficticias. Estimacin por mxima probabilidad: estimadores ms probables para los coeficientes (no minimizacin de suma de cuadrados, sino maximizacin de probabilidad de ocurrencia de un suceso).
Supuestos bsicos de la RL. Tienen que cumplir los siguientes supuestos: - Robustez del modelo de la RL. Es muy flexible y poderoso. - Menos restrictivo que el AD (normalidad y homocedasticidad), si no cumple estos supuestos podemos utilizar el Logit. - La RL es adecuada cuando no se cumple el supuesto de igualdad de las matrices de varianzas-covarianzas entre grupos.
Bondad de ajuste. a) -2LL (logaritmo de la probabilidad): 0: ajuste perfecto (probabilidad 1).Cuanto mayor sea peor es el ajuste En RM buscamos un coeficiente de determinacin mucho mejor. En Logit, nos centramos en el valor del logaritmo de la probabilidad, si el valor es 0 el ajuste es perfecto. b) Valor de Hosmer y Lameshow: Un valor Chi-cuadrado no significativo indica un buen ajuste del modelo. Con esto comparamos el modelo real y el modelo predicho (si son iguales ser significativo). c) R2 de Nagelkerke: 0: ajuste malo 1: ajuste perfecto d) Coeficiente estadstico de Wald
Interpretacin de los resultados.

Resumen de los modelos
Paso 1
-2 log de la verosimilitud 48.538(a)
R cuadrado de Cox y Snell .143
R cuadrado de Nagelkerke .217
a La estimacin ha finalizado en el nmero de iteracin 5 porque las estimaciones de los parmetros han cambiado en menos de .001.
Nos interesa el R cuadrado de Nagelkerke, este es anlogo al coeficiente de determinacin de la RM. Estos valores varan entre 0 y 1.
Prueba de Hosmer y Lemeshow Paso 1 Chi-cuadrado 12.132 gl 8 Sig. .145
Esta prueba indica el valor de chi cuadrado, con ella detectamos diferencias significativas. Si sale significativo es incorrecto, porque el modelo tiene que ser parecido al modelo real, por lo que debe salir no significativo, seran muy parecidos. No existe ninguna diferencia significativa. En los datos podemos ver como es no significativo 0,145.
Tabla de clasificacin(a) Observado q21 .00 Paso 1 q21 Porcentaje global a El valor de corte es .500 .00 1.00 40 10 1.00 1 2 Porcentaje correcto 97.6 16.7 79.2 Pronosticado
Esta tabla es similar a la tabla de clasificacin del AD, matriz de confusin o clasificacin. Este es uno de los objetivos principales del AD. Los valores a la derecha de q21 determinan la presencia o no de un determinado fenmeno, es la variable dependiente. El 40% de la muestra est clasificada correctamente como no fumador (por ej). Sin embargo la clasificacin de presencia de fumador est clasificado por un 16.7%
Variables en la ecuacin
I.C. 95.0% para EXP(B) B Paso 1(a) Q1 Q2 Q3 Q6 Q7 Q13 Constante -.484 .144 1.060 -.262 -.493 .273 -1.842 E.T. .487 .566 .532 .458 .444 .502 2.092 Wald .988 .065 3.966 .327 1.232 .295 .775 gl 1 1 1 1 1 1 1 Sig. .320 .799 .046 .568 .267 .587 .379 Exp(B) .616 1.155 2.888 .770 .611 1.313 .159 Inferior .237 .381 1.017 .314 .256 .491 Superior 1.601 3.500 8.200 1.888 1.458 3.511
a Variable(s) introducida(s) en el paso 1: Q1, Q2, Q3, Q6, Q7, Q13.
En este caso hemos utilizado la estimacin conjunta por lo que hemos metido todas las variables a la vez. El examen estadstico en esta tabla ms importante es el test de Wald. Mediante este examen estadstico, podemos incluir o eliminar las variables independientes. Este test, es anlogo al de la t de Student. En RM se utiliza para averiguar si la variable contribuye significativamente al modelo. En este caso slo la variable q3 ha salido significativa aplicando un nivel de significacin de 0.05. INTERPRETACIN Coeficientes negativos: Indican baja probabilidad de ocurrencia. Coeficientes cero: no hay ninguna influencia, es decir, no hay cambio en el ratio. Coeficientes positivos: alta probabilidad de ocurrencia. Para la interpretacin del modelo logit hay que tener en cuenta estos coeficientes beta. ETAPAS: DISEO DE UN MODELO LOGIT Definicin del problema: Objetivos: relacin entre variables Si no cumple el mnimo tamao muestral por variable hay que comentarlo en el trabajo. Deberamos tener 15 o 20 observaciones por variable. Si no se puede generalizar, tambin hay que incluirlo en el trabajo. As como recomendaciones para futuras investigaciones.
Comparacin de los modelos: regresin, discriminante y logit. Diapositiva grficos En la RM, buscamos una combinacin lineal entre las variables mtricas dependientes e independientes. Si utilizamos una variable dicotmica en la RM, no cumple la linealidad. Como esto no es vlido. Buscamos la posibilidad en el RL o logit. Aqu buscamos la probabilidad mxima entre los valores 0 y 1. En AD, buscamos si las medias son distintas. Si no cumple la normalidad no podemos utilizar esta tcnica, al igual que ocurre con la homocedasticidad. Por lo que buscamos la solucin en la Logstica. Hay que seleccionar Regresin insertamos las variables de estudio. logstica binaria. Luego
Casos prcticos con SPSS.

11.1 Casos prcticos con SPSS.
Variable dicotmica que usaremos como dependiente
Para mirar el efecto interaccin de las dos variables. Se introduce pulsando control y seleccionando ambas variables
La primera tabla a la que prestaremos atencin es la Tabla de Clasificacin
Regresin logstica
Resumen del procesamiento de los casos Casos no ponderados Casos seleccionados
a
N Incluidos en el anlisis Casos perdidos Total 70 0 70 0 70
Casos no seleccionados Total
Porcentaje 100,0 ,0 100,0 ,0 100,0
a. Si est activada la ponderacin, consulte la tabla de clasificacin para ver el nmero total de casos.
Codificacin de la variable dependiente Valor original Valor interno No 0 Yes 1
Bloque 0: Bloque inicial

Bloque 0 significa que es el anlisis previo antes de meter las variables predoctoras. Solo tenemos en cuenta el valor constante. No consideramos variables predictoras.
a,b Tabla de clasificacin
Paso 0
Observado El respeto es importante. Porcentaje global
No Yes
Pronosticado El respeto es importante. Porcentaje No Yes correcto 0 29 ,0 0 41 100,0 58,6
a. En el modelo se incluye una constante. b. El valor de corte es ,500
No hay ninguna persona que haya contestado NO. Se han clasificado como si todos contestaran SI. Esto es porque es el paso previo o paso inicial. 100% clasificados a SI.
Variables en la ecuacin Paso 0 Constante B ,346 E.T. ,243 Wald 2,037 gl 1 Sig. ,154 Exp(B) 1,414
Paso 0 porque solo consideramos el valor constante. No consideramos variables predictoras. El coeficiente de Wald, tiene un grado de sig. 0.154. El modelo no tiene significacin estadstica. Si el nivel de significacin en el bloque 0 es significativo, entonces el modelo no vale, ya que hay un sesgo en los datos. Si el nivel de significacin nos saliera 1,000 tambin tendramos que preocuparnos, ya que probablemente existira sesgo. La siguiente Tabla es importante:
Variables que no estn en la ecuacin Paso 0 Variables EDAD NORESP EDAD by NORESP Puntuacin 26,086 24,617 27,778 36,111 gl 1 1 1 3 Sig. ,000 ,000 ,000 ,000
Estadsticos globales
Son las variables no incluidas en la ecuacin. La puntuacin es la de la Chi-cuadrado, pero lo ms importante es la significacin. No salen significativos, todas podran incluirse en la ecuacin, pero aun no estn incluidas. En el siguiente bloque meteremos todas las variables, para ver si el modelo predice correctamente.
Bloque 1: Mtodo = Introducir

Pruebas omnibus sobre los coeficientes del modelo Paso 1 Paso Bloque Modelo Chi-cuadrado 42,892 42,892 42,892 gl 3 3 3 Sig. ,000 ,000 ,000
Hay tres lneas (Paso, Bloque, Modelo). Esto significa distintos mtodos de estimacin. Como nosotros hemos realizado la estimacin conjunta, solo observaremos la ltima fila Modelo con las variables predictoras. (Paso seria estimacin por pasos; Bloque seria estimacin por Bloque. No la estudiaremos este ao) El modelo tiene contribucin significativa (Sig. = 0,000)
Resumen de los modelos -2 log de la R cuadrado verosimilitud de Cox y Snell 52,081 a ,458 R cuadrado de Nagelkerke ,617
Paso 1
a. La estimacin ha finalizado en el nmero de iteracin 6 porque las estimaciones de los parmetros han cambiado en menos de ,001.
2 NL (-2 log de la verosimilitud indica el nivel de ajuste global) Nos fijaremos en el valor de el R cuadrado de Nagelkerke.Vara entre 0 y 1, como vale 0617, parece que el valor esta bien. Es anlogo al coeficiente de determinacin de la regresin mltiple. (Es el mejor ndice para ver)
Prueba de Hosmer y Lemeshow Paso 1 Chi-cuadrado 6,357 gl 8 Sig. ,607
Es una prueba de la Chi cuadrado, fundamentalmente. Ha salido 0,607. Eso esta bien, ya que ha salido no significativo. Esta prueba tiene que ser no significativa, ya que hay que aceptar la hiptesis nula de que fenmeno real y modelo predicho son iguales. Si sale significativo hay que rechazar la hiptesis nula.
Tabla de contingencias para la prueba de Hosmer y Lemeshow El respeto es importante. = No Observado Esperado 7 6,526 7 6,259 5 5,780 3 4,477 4 2,873 2 1,509 0 ,861 1 ,414 0 ,213 0 ,087 El respeto es importante. = Yes Observado Esperado 0 ,474 0 ,741 2 1,220 4 2,523 4 5,127 5 5,491 7 6,139 6 6,586 7 6,787 6 5,913
Total 7 7 7 7 8 7 7 7 7 6
Paso 1
1 2 3 4 5 6 7 8 9 10
En este caso no tiene importancia la tabla de contingencias para la prueba de Hosmer y Lemeshow
a Tabla de clasificacin
Paso 1
Observado El respeto es importante. Porcentaje global
No Yes
Pronosticado El respeto es importante. Porcentaje No Yes correcto 22 7 75,9 5 36 87,8 82,9
a. El valor de corte es ,500
Recordemos que en el Anlisis Discriminante usamos el mismo concepto (Matriz de confusin). El objetivo es el mismo, pero teniendo variable dicotmica.
Variables en la ecuacin Paso a 1 EDAD NORESP EDAD by NORESP Constante B ,106 3,324 -,028 -5,414 E.T. ,041 2,387 ,054 1,775 Wald 6,733 1,939 ,258 9,308 gl 1 1 1 1 Sig. ,009 ,164 ,611 ,002 Exp(B) 1,112 27,767 ,973 ,004
a. Variable(s) introducida(s) en el paso 1: EDAD, NORESP, EDAD * NORESP .
Con esta tabla podemos decir que la variable edad ha salido significativa, mientras que la tercera variable, no respeto, no tiene significacin estadstica. Tanto la interaccin edad con la tercera variable. Por tanto podemos concluir que solo podemos incluir la variable edad en la ecuacin.
b Listado por casos
Caso 60
Estado de a seleccin S
Observado El respeto es importante. N**
Variable temporal Pronosticado ,946 Grupo pronosticado Y Resid -,946 ZResid -4,175
a. S = Seleccionados, N = Casos no seleccionados y ** = Casos mal clasificados. b. Se listan los casos con residuos estudentizados mayores que 2,000.
Vamos a predecir si el individuo es fumador o fumadora en funcin de otras variables
Ejercicio 9 1. Cundo empleara la RL en lugar del AD? Cules son las ventajas y desventajas de esta decisin? 2. Cul es la medida global del nivel de ajuste del modelo logit? Cmo se evala? 3. En la RL, cmo se mide la significacin estadstica para cada coeficiente estimado de la ecuacin? 4. Define los siguientes trminos y explica para qu sirven en el proceso del anlisis de los resultados: el valor de Hosmer y Lameshow y la R de Nagelkerke.
1. Cundo empleara la RL en lugar del AD? desventajas de esta decisin?
Cules son las ventajas y
La RL se puede usar en vez del AD cuando no cumple la linealidad, pero la ms importante es cuando tenemos una variable dicotmica como variable dependiente, ya que muchas veces no se cumple la linealidad. El AD es apropiado cuando la variable dependiente es no mtrica. Sin embargo, cuando la variable dependiente tiene slo dos grupos, puede ser preferible la RL por los siguientes motivos. 1. no se cumplen los supuestos de normalidad multivariante, la linealidad y la igualdad de matrices de varianza-covarianza entre grupos. 2. los resultados obtenidos son muy parecida a los de la regresin mltiple y cuenta con contrastes estadsticos directos, por lo que existe la capacidad para incorporar efectos no lineales y permitir una amplia variedad de diagnsticos. 3. existe una variable dicotmica como variable dependiente
2. Cul es la medida global del nivel de ajuste del modelo logit? Cmo se evala? El trmino modelo de logit es el mismo que la regresin logstica. La medida global de la RL viene dada por el valor de la verosimilitud, que se representa por -2 LL (-2 veces el logaritmo de la verosimilitud). Un modelo con un buen ajuste tendr un valor pequeo, siendo el valor mnimo de -2LL cero (un ajuste perfecto), cuanto mayor sea el valor peor es el ajuste.
3. En la RL, cmo se mide la significacin estadstica para cada coeficiente estimado de la ecuacin? En la regresin mltiple, el valor de la t se utiliza para valorar la significatividad de cada coeficiente. La RL utiliza un estadstico diferente, el estadstico de Wald, que proporciona la significacin estadstica para cada coeficiente estimado de tal forma que se puede contrastar la hiptesis de que un coeficiente sea distinto de cero. Si el valor de Wald es estadsticamente significativo, se incluye dicho coeficiente en la ecuacin, y si no, se excluye.
4. Define los siguientes trminos y explica para qu sirven en el proceso del anlisis de los resultados: el valor de Hosmer y Lameshow y la R de Nagelkerke. 1. Valor de Hosmer y Lameshow: mide la correspondencia de los valores reales y predichos de la variable dependiente, y se expresa con el valor de chi-cuadrado. Por ello, un valor chi-cuadrado no significativo indica un buen ajuste del modelo. Tiene que salir no significativo porque la hiptesis nula es que son iguales y no queremos rechazarla. 2. R de Nagelkerke: es comparable con el coeficiente de determinacin de la RM que indica con los mayores valores un mejor ajuste del modelo. Vara entre 0 y 1.
5. Interpreta la siguiente tabla:

Tabla de clasificacin(a) Observado F1 1 Paso 1 F1 Porcentaje global a El valor de corte es ,500 1 2 258 114 2 79 161 Pronosticado Porcentaje correcto 76,6 58,5 68,5
Es anloga a la matriz de confusin del anlisis discriminante. Esta tabla de clasificacin indica cmo de bien se predice la pertenencia a los grupos. Segn la informacin de la tabla, el modelo logia correctamente clasifica 258 hombres, pero errneamente 79 hombres, por lo tanto un 76,6% de los casos son correctamente clasificados. Respecto a las
mujeres, el modelo clasifica 161 casos pero errneamente 114 casos, por ello, la tasa de clasificacin correcta para las mujeres es un 58,5%. Desde una perspectiva global, un 68,5% de todos los casos estn correctamente clasificados.

Análisis Multivariante en La Investigación Comercial

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Análisis Multivariante en La Investigación Comercial

Hochgeladen von

Copyright:

Verfügbare Formate

Anlisis Multivariante en la Investigacin Comercial

Asignatura: Investigacin de Mercados II Centro: Universidad Autnoma de Madrid

TEMA 1: EL ANALISIS MULTIVARIANTE EN INVESTIGACION COMERCIAL

Cierta Error Tipo I Potencia 1-

Falsa Nivel de Confianza 1- Error Tipo II

Clasificacin de los mtodos del AM.

TEMA 2: EL ANALISIS FACTORIAL

Comunalidad Autovalor (eigenvalue)

Varianza especfica y error Distorsionan los procesos de extraccin Varianza total

Regresin mltiple o Cluster.

Estimacin del nmero de factores a ser extrados

Criterio de contraste de cada

CRITERIO DE CONTRATE DE CAIDA (Grfico realizado con SPSS)

Si este fuera el pto. de corte elegido, tendramos que seleccionar 6 factores

factor I (no rotado)

Rotacin oblicua: Cuando nos es una rotacin con un ngulo de referencia de 90

Muestra < 100 observaciones, seleccionamos cargas factoriales>0,75

b) Valorar la significacin estadstica. Utilizar un nivel de significacin de 0,5 y potencia de 0,8.

Haremos otra prctica con la BD de Telesake: 6.1 Con Dyane.

Segn el test de Bartlett me sale significativo

Esta matriz, de momento, no tiene importancia

VARIANZA: 2,5258 % DE VARIANZA: 36,08% % VAR.ACUMUL.: 36,08%

VARIANZA: 2,3788 % DE VARIANZA: 33,98% % VAR.ACUMUL.: 33,98%

La interpretacin es mucho ms fcil y significativa. La varianza explicada no ha cambiado. Se mantiene.

Al final tenemos la interpretacin grfica.

REPRESENTACIN GRFICA DE LOS FACTORES -------------------------------------VARIABLES: Cdigo -----A B C D E F G Significado ---------------X1 X2 X3 X4 X5 X6 X7

Y nos aparecer una ventana como la siguiente:

Ahora pulsamos Descriptivos

Pulsamos ahora Extraccin:

Seleccionamos ahora Rotacin:

6.2.1 Anlisis de los datos con SPSS.

Tiempo transcurrido Memoria mxima necesaria

0:00:00,16 7204 (7,035K) bytes

,446 567,541 21 ,000

1,000 ,618 Mtodo de extraccin: Anlisis de Componentes principales.

Suma de las saturacion la rotac Total 2,379 1,827 1,622

% de la varianza 33,984 26,098

Informacin de la varianza Informacin de antes de la rotacin despus de la ro

La varianza total explicada, tenemos autovalores iniciales.

Mtodo de extraccin: Anlisis de componentes principales. a 3 componentes extrados

Tratamiento de los datos con DYANE y SPSS.

7.1 Tratamiento de los datos con DYANE.

Vamos a ir viendo seleccionaremos.

-0,1587 -0,2161 -0,3165 -0,1343 -0,2977 -0,1718 0,6023

0,2203 0,1656 0,0293 0,3373 -0,2463 0,3171 0,2343

0,3032 0,2151 -0,1671 -0,2615 -0,2601 -0,3404 -0,1425

-0,1221 -0,0248 0,0560 -0,1896 -0,4710 0,4629 -0,2820

-0,0158 -0,0679 0,3367 0,1941 -0,3336 0,0215 0,3566

-0,1707 -0,4190 -0,1606 -0,1253 0,0556 -0,0804 -0,1785

-0,0888 0,0512 0,3340 0,3251 0,1731 -0,1739 -0,0531

0,5343 -0,2850 -0,2229 0,0878 0,0756 0,0935 0,0370

-0,1992 0,1913 -0,0357 -0,1849 0,2433 0,1465 0,0767

0,1880 -0,0738 0,1180 0,0150 0,1645 -0,4285 0,3434 -0,3941

-0,2698 -0,3725 0,0106 0,1403 -0,2882 -0,0773 0,4072 0,3559

-0,1501 -0,3833 0,0046 -0,4342 0,1820 0,2299 0,0610 -0,0255

0,0423 -0,0276 0,0817 0,1567 0,4669 -0,0797 -0,0662 0,0850

-0,0571 0,3765 -0,1426 -0,3592 0,0961 0,2804 -0,0473 0,0344

0,0572 0,1497 0,0438 -0,2127 -0,0266 0,0452 0,3952 0,4789

0,2131 -0,2632 -0,0410 -0,1938 0,3418 -0,3367 0,0199 0,1499

-0,0855 0,1242 -0,2209 -0,0337 0,1750 -0,2389 -0,1953 0,0801

-0,3036 0,0362 -0,4579 -0,0508 0,1899 -0,0467 0,2028 -0,0472

Despus de esta matriz, salen coeficientes de puntuacin de los factores.

Cargas de los factores retenidos: ---------------------------------