Sie sind auf Seite 1von 41

SEMINARIO DE POSGRADO

METODOLOGA DE
INVESTIGACIN
MDULO 6: TCNICAS ESTADSTICAS DE
ANLISIS MULTIVARIADO

Mtodos multivariados
Su clasificacin

La investigacin EMPRICA se ocupa


de fenmenos multidimensionales

Clasificacin de
los mtodos
multivariados

Problemas de
interdependencia o creacin
de ndices (anlisis factorial,
cluster y escalamiento).
Problemas de causalidad o
asociacin (anlisis de varianza,
regresin y discriminante).

Mtodos multivariados
Mtodos de
interdependencia
Descripcin de Dimensiones: posibilitan la
identificacin de dimensiones o conceptos
complejos subyacentes (Anlisis Factorial,
Componentes Mltiples, etc.).
Clasificacin de unidades o variables:
permiten clasificar unidades individuales o
colectivas o variables con el fin de crear
tipologas, cluster o clases de individuos
(Cluster, Escalamiento, etc.).

Mtodos multivariados
Mtodos de
interdependencia
Utilidad de este tipo de mtodos:
Evalan correlaciones y sintetiza informacin
Muestran la estructura de los datos segn criterio
Establecen clasificaciones y/o genera valores ndices
Tcnicas de Anlisis
ANLISIS FACTORIAL
ANLISIS DE CORRESPONDENCIAS
ANLISIS DE CLUSTER

Anlisis factorial
Busca una sntesis del fenmeno objeto
de estudio. Logra resumir la informacin
e identificar lo fundamental de la misma,
revelando la estructura subyacente de los
datos.
Algunos ejemplos:

Identificar
los
factores
o
componentes
principales
que
intervienen en la construccin de la
imagen de una marca o de una
organizacin, de un comportamiento o
ANLISIS DE CASOS
de una actitud.

Anlisis factorial
EN LA INVESTIGACIN SOCIAL SE TRABAJA
CON MUCHOS CONCEPTOS COMPLEJOS QUE
NO SON DIRECTAMENTE OBSERVABLES

USOS MS FRECUENTES

Reduccin de
informacin

Identificacin de
estructuras
subyacentes

Creacin de
variables
resumen

Anlisis factorial
REQUISITOS PARA SU
UTILIZACIN
Seleccin de variables que formen
conjuntos coherentes (FACTORES)
Variables en escala mtrica
Variables no mtricas (ESTADARIZACIN
DE SUS VALORES)
CANTIDAD DE CASOS: mnimo de 100
casos
CIERTA CORRELACIONES ENTRE LAS
VARIABLES OBSERVABLES

Anlisis factorial
ETAPAS BSICAS
a) FASE DE PREPARACIN DE VARIABLES.
ANLISIS DE CORRELACIN.
b) MTODO DE COMPONENTES. EXTRACCIN
Y SELECCIN DE LOS FACTORES.
c) GRFICO DE SEGMENTACIN. VALORES
PROPIOS Y VARIANZA EXPLICADA. MATRIZ
DE CARGAS FACTORIALES.
d) INTERPRETACIN: ROTACIN VARIMAX Y
REPRESENTACIN GRFICA
e) EVALUACIN Y VALORACIN DEL

Anlisis de Componentes Principales


Caracterizacin de los factores: Saturaciones

Factor 1 Acceso deficitario a la educacin y la vivienda

Anlisis de Componentes
Principales
Extraccin de los factores principales
Grfico de Sedimentacin
8

Eigenvalue

0
1

11

Component Number

13

15

17

19

21

23

25

Anlisis de correspondencia

Busca
descubrir
y
describir
las
dimensiones
fundamentales
de
un
fenmeno pero con la particularidad de que
trabaja con variables categricas que
proporcionan mapas perceptuales que
permiten una representacin fcilmente
comprensible.
Algunos ejemplos:
Posicionamiento de productos y de
atributos.
ANLISIS DE CASOS

Anlisis de correspondencia
RELACIONES ENTRE VARIABLES CATEGRICAS
QUE SE ANALIZAN MEDIANTE MAPAS
PERCEPTUALES Y EFECTOS FACTORIALES
A TRAVS DE FACTORES
REDUCE LAS DIMENSIONES
DE ANLISIS
Permite estudiar las
formas que adoptan
las relaciones entre
las variables

Paso intermedio para la


aplicacin de otras
tcnicas como el
anlisis de cluster,
regresin y anlisis

Anlisis de correspondencia
ETAPAS BSICAS
ANLISIS DE
CORRESPONDENCIAS
SIMPLES

ANLISIS DE
CORRESPONDENCIAS
MLTIPLES

Tablas bidimensionales

Tablas multidimensionales

Preparar tablas de contingencia: Perfiles filas y


columnas
Distancias chi-cuadrado entre filas y columnas
Valores propios e inercia de valores propios
Contribuciones absolutas y relativas
Coordenadas de filas y columnas

Anlisis cluster
Partiendo de un conjunto de variables se
obtienen subconjuntos o grupos, ya sea de
casos ya sea de variables. Se busca
establecer
grupos
HOMOGNEOS
internamente y HETEROGNEOS entre
ellos.
Algunos ejemplos:
En el campo del Marketing es til para
clasificar e identificar segmentos, tipos
de productos, tipos de consumidores,
etc.

ANLISIS DE CASOS

Anlisis cluster
Responde a la necesidad de:
DIFERENCIAR
CLASIFICAR
SEGMENTAR (TIPOLOGAS)

SE PUEDEN AGRUPAR

CASOS /

VARIABLES /

INDIVIDUOS

CARACTERSTICA

Anlisis cluster
CRITERIOS PARA DISTINGUIR
GRUPOS

Criterio
estricto
(dicotmico)

Criterio
estadstico
(probabilidad)

Se busca formar grupos mutuamente


excluyentes y colectivamente exhaustivos,
pero los criterios de agrupamiento y la
medida de distancia pueden producir
cambios en la estructura de los grupos

Anlisis cluster
REQUISITOS y ETAPAS
Representatividad de la MUESTRA
Controlar la MULTICOLINEALIDAD entre
las variables
Definir MTODO y medidas de distancia
para la formacin de grupos
Anlisis de distancias eucldeas
(diagrama en rbol), esquemas de
agrupacin y de la media de los grupos.
Delimitacin del NMERO de grupos
significativos.

Anlisis de
Cluster

Anlisis de
Cluster

Anexo 3. Tasas del Mercado de Trabajo, Bienestar y Desigualdad por grupos y aglomerados.
Variacin Porcentual 1991-2001.
Aglomerados
agrupados por
Grupo
Grupo
1

Grupo
2

Grupo
3

Grupo
5

Empleo
Pleno

Subem
pl

Desem
pl

Ing.
Tot.
Fliar.

Ing. x
Perc.

Ing.
x Eq.
Adul.

Coef.
Sen

Coef.
Gini

Ro Gallegos

9.5

6.8

178.4

-26.0

15.6

11.9

35.1

21.8

-12.2

Media Grupo 1

9.5

6.8

85.7

-26.0

15.6

11.9

35.1

21.8

-12.2

-2.3

-9.8

56.8

8.5

-23.1

-23.6

-13.7

-22.5

-1.7

0.3

-9.6

64.5

37.2

-2.6

4.5

14.5

-12.0

24.4

1.1

-14.7

43.1

58.7

-3.3

0.4

11.3

-1.0

-4.7

Media Grupo 2

-0.3

-11.4

54.8

34.8

-9.7

-6.2

4.0

-11.8

6.0

Gran Crdoba

-2.1

-20.9

53.8

188.2

-20.3

-17.0

-9.7

-21.3

3.1

Gran Mendoza

0.3

-20.0

79.1

207.6

-10.8

-6.5

-3.7

-15.1

10.9

-2.4

-22.5

162.2

124.7

-28.8

-21.3

-20.8

-31.1

7.4

6.1

-19.2

38.6

526.7

-7.4

-7.8

-1.5

-12.8

13.2

0.5

-20.6

83.4

261.8

-16.8

-13.1

-8.9

-20.1

8.7

Ciudad de Bs. As.

10.1

-9.3

116.5

257.8

20.4

21.5

25.2

14.2

10.8

Gran La Plata

13.3

-7.0

90.7

163.9

6.6

10.4

16.9

3.8

7.3

Paran

15.2

-10.3

90.0

264.0

-28.0

-23.0

-20.9

-28.2

0.4

Gran San Juan

12.0

-11.5

80.2

162.3

-11.1

-10.7

-2.0

-13.6

6.2

Media Grupo 4

12.6

-9.5

75.5

212.0

-3.1

-0.4

4.8

-6.0

6.2

Salta

15.9

-17.8

164.0

351.2

-27.4

-27.8

-18.8

-33.1

16.8

Santa Rosa y Toay

11.6

-13.6

300.5

528.4

-4.6

0.4

11.0

-15.0

32.0

Gran Rosario

9.2

-20.5

131.9

164.9

-22.5

-20.9

-16.6

-24.5

5.6

Partidos del
Conurbano

8.5

-24.6

171.2

69.4

-14.3

-12.0

-7.2

-21.5

19.4

Neuqun

10.7

-14.2

217.1

184.3

-19.2

-16.8

-7.6

-16.4

-6.9

Media Grupo 5

11.2

-18.1

196.9

259.6

-17.6

-15.4

-7.8

-22.1

13.4

Ushuaia y Ro
Grande
Comodoro
Rivadavia
Gran San Miguel de
Tuc.-Taf Viejo

San Luis y El
Chorrillo
San Salvador de
Jujuy y Palpal
Media Grupo 3

Grupo
4

Actividad

Fuente: Elaboracin propia, con base en datos de la EPH, INDEC


(Octubre 1991-2001).

Mtodos multivariados
Problemas de causalidad
Diferencian entre variables (a)
explicativas, independientes o predictivas,
(b) variables a explicar o dependientes, y
(c) variables control o intervinientes.
La distincin entre variables
dependientes e independientes debe
efectuarse con arreglo a fundamentos
tericos, por conocimiento o experiencia y
estudios anteriores.
Mtodos de tipo:

Mtodos multivariados
Problemas de causalidad
Utilidad de este tipo de mtodos
Mide la fuerza y sentido de relaciones parciales
Predice valores a partir de una serie de variables
Explica el comportamiento de una o ms variables
Evala la bondad de ajuste de un modelo terico a
los datos
MTODOS
ANLISIS DE VARIANZA (ANOVA)
ANLISIS DE REGRESIN
ANLISIS DISCRIMINANTE
REGRESIN LOGSTICA

Anlisis de regresin
Es suceptible de utilizar cuando contamos con
una variable dependiente mtrica y variables
independientes mtricas categricas (ficticia).
Explica el comportamiento de la variable
dependiente (ej: ventas, gastos, consumo),
Anticipa sus valores en funcin de los
atributos de las variables independientes (ej:
precio,
gasto
en
publicidad,
atributos
personales, segmento de mercado) y
Estima las incidencias que cada una de stas
tiene en la variable dependiente.
ANLISIS DE CASOS

Anlisis de regresin
TIPOS DE DATOS
Los datos que se utilizan en la aplicacin de
esta tcnica pueden ser:
SERIES DE TIEMPO y
DATOS DE CORTE TRASVERSAL
Modelo de Regresin Lineal Simple (MLS)

Figura
una
sola
variable
explicativa,
el
comportamiento de la variable Y se puede explicar a
travs de la variable X

Modelo de Regresin Mltiple


La variable dependiente viene explicada por varias

Anlisis de regresin
HIPTESIS BSICAS

Se supone que la forma funcional que liga


la

variable

explicada

son

las

variables

explicativas es de tipo LINEAL al menos en


los parmetros.

Las

variables

explicativas

deben

ser

linealmente INDEPENDIENTES, es decir, que

Anlisis de regresin
REQUISITOS Y ETAPAS

Control de distribucin de errores


Estimacin de coeficientes e
interpretacin
Intervalos de confianza y prueba de
hiptesis
Bondad de ajuste

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO

El ingreso horario
de los ocupados
(entre 25 y 45 aos)
no se ve afectados
por el sexo sino que
depende de la
cantidad de aos de
instruccin

Ingreso horario de la ocupacin ppal

80

60

40

20

Sexo
Mujer
0

Varn
0

Aos de estudio (aprox.)

10

20

EJEMPLO CORRELACIN
Total Ocupados entre 25 y 45 aos (con ingresos)
Correlationsa

Ingreso horario de la
ocupacin ppal
Aos de estudio (aprox.)
Nivel de Instruccin
Cantidad de hijos
menores de 12 aos

Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)
Pearson Correlation
Sig. (2-tailed)

Ingreso
horario de
Cantidad
la
Aos de
de hijos
ocupacin
estudio
Nivel de
menores
ppal
(aprox.)
Instruccin de 12 aos
1,000
,354**
,365**
-,072**
,
,000
,000
,000
,354**
1,000
,945**
-,223**
,000
,
,000
,000
,365**
,945**
1,000
-,217**
,000
,000
,
,000
-,072**
-,223**
-,217**
1,000
,000
,000
,000
,

**. Correlation is significant at the 0.01 level (2-tailed).


a. Listwise N=10338

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO

BONDAD DE AJUSTE DEL MODELO (R2)


Variables Entered/Removedb
Model
1
2

Variables Entered
Sexo (dummy: 0=Varn)a
Aos de estudio (aprox.)a

Variables
Removed
,
,

Method
Enter
Enter

a. All requested variables entered.


b. Dependent Variable: Ingreso horario de la ocupacin ppal

Model Summary

Model
1
2

R
,014a
,359b

R Square
,000
,129

Adjusted
R Square
,000
,129

Std. Error
of the
Estimate
3,3032
3,0832

a. Predictors: (Constant), Sexo (dummy: 0=Varn)


b. Predictors: (Constant), Sexo (dummy: 0=Varn),
Aos de estudio (aprox.)

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO

ANLISIS DE VARIANZA DE LOS MODELOS


ANOVAc

Model
1

Regression
Residual
Total
Regression
Residual
Total

Sum of
Squares
22,486
112779,9
112802,4
14557,248
98245,112
112802,4

df
1
10336
10337
2
10335
10337

Mean
Square
22,486
10,911
7278,624
9,506

F
2,061

Sig.
,151a

765,683

,000b

a. Predictors: (Constant), Sexo (dummy: 0=Varn)


b. Predictors: (Constant), Sexo (dummy: 0=Varn), Aos de estudio (aprox.)
c. Dependent Variable: Ingreso horario de la ocupacin ppal

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO

COEFICIENTES B Y PRUEBAS T DE SIGNIFICANCIA


Coefficientsa

Model
1
2

(Constant)
Sexo (dummy: 0=Varn)
(Constant)
Sexo (dummy: 0=Varn)
Aos de estudio (aprox.)

Unstandardized
Coefficients
B
Std. Error
3,476
,043
-,0941
,066
,271
,091
-,426
,062
,306
,008

a. Dependent Variable: Ingreso horario de la ocupacin ppal

Standardi
zed
Coefficien
ts
Beta
-,014
-,064
,362

t
80,455
-1,436
2,964
-6,898
39,102

Sig.
,000
,151
,003
,000
,000

Modelos de Regresin Lineal


Control de Supuestos
Deteccin de MULTICOLINEALIDAD a travs de tablas
de
correlacin
simple
entre
las
variables
independientes. Seleccionar las variables con menor
correlacin o transformar en variables ficticias no
correlacionadas.
Deteccin de la HETEROSCEDASTICIDAD /a travs de
grficos de residuos para cada valor de .
Estandarizacin de la variable dependiente Y.
Deteccin de la AUTOCORRELACIN DE ERRORES /
a travs de la prueba Durbin-Watson. El valor 2 indica
no autocorrelacin. Correccin de observaciones o
eliminacin de casos.

Anlisis de regresin
logstica
Es un caso particular de regresin en el cual la
variable dependiente es de naturaleza dicotmica y las
independientes son cuantitativas o categricas y no
exige restricciones tan fuertes sobre la distribucin de
las variables independientes. Estima y explica las
probabilidades de que un evento ocurra.
Estas peculiaridades la hacen interesante para
situaciones en las que no cabe aplicar la regresin
lineal.
Algunos ejemplos:
Identificar los principales factores que pueden influir
en aumentar la probabilidad de que un nuevo producto
ANLISIS DE CASOS
sea introducido con xito en el mercado.

Anlisis de regresin
logstica
Permite construir un MODELO EXPLICATIVO a
partir de un conjunto de variables independientes
de tipo categricas o continuas (estado civil,
ingresos, nivel de estudios, edad y nmeros de
hijos) y una variable dicotmica o binaria que solo
definen opciones (contratar un servicio o no,
consumir determinado producto o no, etc.)
Ejemplo:
En qu medida ciertas caractersticas sociodemogrficas influyen en que un individuo contrate un
nuevo servicio de televisin por cable.
En qu medida la aceptacin de un producto est
relacionado con el nivel de ingresos del cliente?

Anlisis de regresin
logstica
REQUISITOS Y ETAPAS

Proceso de codificacin
independientes categricas

de

las

variables

a) Codificacin de variable dependientes en 0 y 1


b) Significancia de los coeficientes de regresin
c)

Significancia global del modelo

d) Bondad de ajuste y eficacia predictiva


e)

Estimacin
conjuntas

f)

Mtodos

de
de

probabilidades
seleccin

de

parciales
las

variables

Modelos de Regresin Logstica


ANLISIS DE UN EJEMPLO

Classification Table for XCDEA


The Cut Value is ,78

Predicted
Observed

Activo

Inactivo

Percent
Correct

Activo

6.774

5.130

56,91%

Inactivo

458

2.985

86,70%

Overall

63,59%

S.E.

Wald

Df

Sig

Exp(B)

H13(1)

2,1547

,0535

1620,21

,0000

,3147

8,6251

XMEN5(1

,2425

,0424

32,7129

,0000

,0434

1,2744

Constant

-2,7914

,0516

2926,26

,0000

Variable

Modelos de Regresin Logstica


ANLISIS DE UN EJEMPLO
Beginning Block Number 2. Method: Enter
Variable(s) Entered on Step Number
1..
H13 * XMEN5

Variable

S.E.

Wald

Df

Sig

Exp(B)

H13(1)

1,7112

,0626

746,165

,0000

,2301

5,5357

XMEN5

-,8638

,1170

54,4647

,0000

-,0611

,4216

INT_1

1,3302

,1262

,0000

,0881

3,7818

Constant

-2,4388

,0549

,0000

111,185
1974,89

Modelos de Regresin Logstica


ANLISIS DE UN EJEMPLO
Predicted

Observed

Activo

Inactivo

Percent
Correct

Activo

7.557

4.347

63,48%

Inactivo

620

2.823

81,99%

Overall

67,64%

S.E.

Wald

Df

Sig

Exp(B)

H13(1)

-1,7161

,0634

732,350

,0000

-,2290

,1798

XMEN5

1,0891

,1182

84,8889

,0000

,0771

2,9716

INT_1

-1,3462

,1270

112,346

,0000

-,0890

,2602

XQUINTI

,3088

,0168

339,416

,0000

,1556

1,3618

XH12

,2411

,0451

28,5608

,0000

,0437

1,2726

-,0031

,0006

23,1655

,0000

-,0390

,9969

-2,8649

,7656

14,0034

,0002

Variable

XEDAD2
Constant

Das könnte Ihnen auch gefallen