Beruflich Dokumente
Kultur Dokumente
Discriminante
Anlisis Multivariante:
Investigacin que da Resultados
Ing. Amir Madrid Garzn
Aplicaciones
Fiel o no a una marca
Me suscribira o no a un determinado
peridico
Comprador / No comprador
Apoya o no apoya
Televidente o no televidente
Ejemplo 1
Alicia Rodrguez y algunas amigas fueron a un
restaurante de lujo a celebrar el final del primer
ao de universidad. La jefa de meseras, al
darse cuenta de las clientes son universitarias y
que no visten ropa cara, las acomoda en un
rincn con mucha luz situado entre la entrada a
la cocina y los baos de los caballeros. Quiz se
haya equivocado al clasificar a Alicia y a sus
amigas en la categora de clientes que gastan
poco y que dan propinas pequeas.
Ejemplo 2
Rodolfo Ramrez, luego de hacer la
solicitud del seguro del automvil, se da
cuenta de que la pliza anual le costar
casi lo mismo que el coche. Aunque en los
cinco aos que lleva conduciendo nunca
ha tenido un accidente ni una sola
infraccin, la compaa anota que tiene
menos de 25 aos, no est casado y no
ha recibido cursos de manejo.
Ejemplo 3
Alfredo Montealbn, un mariscal de
campo seleccionado para el equipo de
estrellas de la liga colegial, no recibe
ninguna llamada durante el reclutamiento
de jugadores colegiales para la liga
profesional. El servicio de reclutamiento
de los equipos profesionales afirma que
este jugador no tendra xito en el ftbol
profesional por se de baja estatura.
Las revistas
Se cuenta con
informacin sobre la
edad e ingresos
referente a
Suscriptores y no
suscriptores de tres
revistas
1.
2.
3.
Anlisis Discriminante
til si la muestra total puede dividirse en grupos
basndose en una variable de criterio caracterizada por
varias categoras conocidas.
Muchos problemas en marketing implican la
investigacin de diferencias entre grupos de individuos.
Se usa si la nica variable de criterio es dicotmica (es
decir, comprador, no comprador) o multidicotmica ( es
decir, alto-medio-bajo) y por tanto no mtrica.
Cmo sern las ventas potenciales (buenas o malas) en un
territorio dado de mercado, con base en ciertas evaluaciones
sobre el ingreso personal disponible por territorio, densidad de
poblacin, nmero de puntos de venta al detalle y dems?
Un buen vendedor
El gerente de ventas de la CompaaAlloy Steel est
tratando de identificar qu determina a un buen
vendedor, es decir, por qu algunos vendedores cumplen
o rebasan sus cuotas y otros no.
Al tratar de estudiar este asunto, el gerente de ventas
recopila datos sobre los veinte vendedores de la
compaa, incluyendo el cumplimiento o incumplimiento
con la cuota, el nmero de aos de experiencia en
ventas de acero de aleacin y el nmero de aos de
educacin tcnica formal.
El gerente de ventas reuni los datos de experiencia y
educacin porque pens que le podran ayudar a
identificar las caractersticas de un buen vendedor.
Aplicaciones
En trminos de caractersticas demogrficas, cul es la
diferencia entre los clientes que son leales a la tienda y los
otros?
El consumo de alimentos congelados difiere entre los
consumidores de refrescos frecuentes, moderado y
espordicos?
Qu caractersticas de estilo de vida distinguen a los
compradores de abarrotes que se fijan en los precios de los
que se fijan en la marca?
Cules son las caractersticas demogrficas que diferencian
entre los clientes habituales de una cadena de
supermercados y los clientes ocasionales?
De acuerdo a sus perfiles demogrficos y psicogrficos,
Cules son las caractersticas que distinguen a los
innovadores de los no innovadores?
Aplicaciones
Difiere la atencin a los medios en los segmentos de un
mercado?
En trminos de estilo de vida, cules son las diferencias
entre los clientes constantes de las cadenas regionales de
tiendas departamentales y los clientes de las cadenas
nacionales?
Cules son las caractersticas de los consumidores que
responden a los cuestionarios por correo?
Cmo se diferencian, en sus niveles de lectura de ciertas
revistas, los encuestados que muestran alto inters en un
nuevo conjunto de descripciones conceptuales, de los que
muestran poco inters?
Los vendedores de xito hacen ms visitas, ocupan ms
tiempo en las ventas y recorren ms kilmetros que aquellos
sin xito?
Objetivo de ADM
IDENTIFICAR y entender cuales son las
diferencias (caractersticas distintivas) de
los individuos en cada grupo
PRONOSTICAR la probabilidad de que
una persona pertenezca a una clase o
grupo particular de los que se conocen
dichas caractersticas distintivas.
ANLISIS DISCRIMINANTE
Tcnica de clasificacin para agrupar a los clientes y
prospectos en dos o ms categoras diferentes
definidas previamente.
Permite asignar un individuo a un grupo definido a
priori en funcin de una serie de caractersticas del
mismo o de las respuestas dadas a una serie de
preguntas (escalas de calificacin)
NO REQUIERE DE NINGN CUESTIONARIO ESPECIAL
Discriminant Analysis
The purpose of discriminant analysis is to correctly classify
observations or people into homogeneous groups. The
independent variables must be metric and must have a
high degree of normality. Discriminant analysis builds a
linear discriminant function, which can then be used to
classify the observations. The overall fit is assessed by
looking at the degree to which the group means differ
(Wilkes Lambda or D2) and how well the model classifies.
To determine which variables have the most impact on the
discriminant function, it is possible to look at partial F
values. The higher the partial F, the more impact that
variable has on the discriminant function. This tool helps
categorize people, like buyers and nonbuyers.
ANLISIS DISCRIMINANTE
EN LA PRCTICA
What characteristics best distinguish my various
customer segments?
In marketing research this analytical technique is the
study of the differences between two or more groups of
objects with respect to several variables simultaneously.
The objects are individual products or services and the
variables are usually descriptive ratings of each of these
products or services on several attributes. It is commonly
linked to the use of perceptual mapping. A major
application in marketing is to discern which attributes
best distinguish or discriminate among the various
objects.
PREGUNTAS A RESPONDER
PREGUNTAS A REPONDER
Ejemplos ilustrativos
Cereal
Deseamos saber si la cantidad de protena y vitamina D
influye en las evaluaciones que hacen los consumidores
de los cereales.
A cada uno de los diez consumidores que evalan se les
pide solamente clasificar el cereal en una de dos
categoras: gustar versus disgustar.
Los datos aparecen en el archivo cereal.sav
Las variables de pronstico son:
X1: la cantidad de protenas (en gramos) pro 2 onzas
servidas, y
X2: el % de requerimientos diarios mnimos de vitamina
D por dos onzas servidas.
2.
EJEMPLOS ILUSTRATIVOS
EJEMPLOS ILUSTRATIVOS
Seguros y bancos
La tcnica del Anlisis Discriminante aplicada al sector
asegurador se ha dado en llamar "Insurance Scoring".
Consiste en utilizar la experiencia histrica de la empresa para
disear un modelo, aplicable a nuevos clientes, que nos asigna
cada cliente a una cierta categora con una cierta probabilidad,
como por ejemplo predecir si un cliente ser rentable o no para
la compaa de seguros anticipando el riesgo de siniestro,
pudiendo as ajustar la prima de riesgo. (MODULO BASE)
La tcnica del Anlisis Discriminante aplicada al sector
bancario se ha dado en llamar "Credit Scoring ". Consiste en
utilizar la experiencia histrica de la empresa para disear un
modelo, aplicable a nuevos clientes, que nos asigna cada
cliente a una cierta categora con una cierta probabilidad, como
por ejemplo determinar la posibilidad de recobro de un cliente
en base a ciertas variables como, salario, tiempo de
amortizacin del prstamo, n de hijos, etc. (MODULO BASE)
Ejemplo 1
Un ejecutivo de prstamos de una compaa hipotecaria
debe decidir si aprueba un prstamo hipotecario a un
solicitante.
Esta decisin se toma determinando si las
caractersticas del solicitante se apegan ms a las de
personas que en el pasado pagaron debida y
oportunamente sus prstamos que a las de aquellas
personas que no cumplieron con los pagos.
La informacin acerca de estos dos grupos, disponible a
partir de registros pasados, incluira factores como edad,
ingresos, estado civil, deudas pendientes y posesin de
ciertos bienes duraderos.
Ejemplo 2
En el proyecto de tienda departamental se hizo
un anlisis discriminante de dos grupos para
examinar si los entrevistados que estaban
familiarizados con las tiendas (comparados con
los que no lo estaban) asignaban una
importancia relativa diferente a los ocho criterios
de eleccin.
La variable de criterio eran los dos grupos de
familiaridad.
Las variables de pronstico eran la importancia
concedida a los ocho criterios de seleccin.
Resultados
La funcin discriminante fue significativa, seal
de que haba diferencias importantes entre los
dos grupos.
En comparacin con los entrevistados que no
estaban familiarizados, los entrevistados
familiarizados concedan mayor importancia a la
calidad de la mercanca, las polticas de
devoluciones y cambios, el servicio del personal
y las polticas de crdito y facturacin.
Ejemplo 3
Por trmino medio, las personas de los pases
de zonas templadas consumen ms caloras por
da que las de los trpicos, y una proporcin
mayor de la poblacin de las zonas templadas
vive en ncleos urbanos.
Un investigador desea combinar esta
informacin en una funcin para determinar
cmo de bien un individuo es capaz de
discriminar entre los dos grupos de pases.
El investigador considera adems que el
tamao de la poblacin y la informacin
econmica tambin pueden ser importantes.
Resultados
El anlisis discriminante permite estimar los
coeficientes de la funcin discriminante lineal, que
tiene el aspecto de la parte derecha de una ecuacin
de regresin lineal mltiple. Es decir, utilizando los
coeficientes a, b, c y d, la funcin es:
D = a * clima + b * urbanos + c * poblacin + d *
producto interior bruto per capita
Si estas variables resultan tiles para discriminar entre
las dos zonas climticas, los valores de D sern
diferentes para los pases templados y para los
tropicales.
Si se utiliza un mtodo de seleccin de variables por
pasos, quizs no se necesite incluir las cuatro
variables en la funcin.
Objetivos principales de AD
1.
2.
3.
4.
5.
Anlisis Discriminante
Es una tcnica para analizar datos cuando
una variable de criterio es categrica y las
variables de pronstico son de naturaleza
de intervalo.
Ejemplo:
Preferencia de una marca de PC (marca A, B
o C)
Calificaciones de los atributos de las PC en
una escala de Likert de siete puntos.
Anlisis Discriminante
El anlisis discriminante resulta til para construir un
modelo predictivo para pronosticar el grupo de
pertenencia de un caso a partir de las caractersticas
observadas de cada caso.
El procedimiento genera una funcin discriminante (o,
para ms de dos grupos, un conjunto de funciones
discriminantes) basada en combinaciones lineales de las
variables predictoras que proporcionan la mejor
discriminacin posible entre los grupos. Las funciones se
generan a partir de una muestra de casos para los que
se conoce el grupo de pertenencia; posteriormente, las
funciones pueden ser aplicadas a nuevos casos que
dispongan de medidas para las variables predictoras
pero de los que se desconozca el grupo de pertenencia.
REGRESIN
DISCRIMINANTE
# de variables
dependientes (criterio)
Una
Una
Una
# de variables
independientes
Varias
Varias
Varias
Naturaleza de las
variables dependientes
Mtrica
Mtrica
Categrica
Naturaleza de las
variables
independientes
Categrica Mtrica
Semejanzas
Diferencias
Mtrica
Regresin vs Discriminante
La variable de criterio tiene una
distribucin normal.
Las variables de pronstico son
fijas.
Estadsticos
Para cada variable:
medias, desviaciones tpicas, ANOVA univariado.
Datos
La variable de agrupacin debe tener un nmero
limitado de categoras distintas, codificadas como
nmeros enteros.
Las variables de pronstico que sean nominales deben
ser recodificadas, mediante la creacin de nuevas
variables, a valores numricos que correspondan en
algn sentido a las categoras originales. En el caso de
variables con dos categoras, sus valores se pueden
recodificar a valores 0 y 1. el valor 1 indicar la
presencia de la cualidad correspondiente a una de las
dos categoras, y el 0, la ausencia de dicha cualidad (en
consecuencia, la presencia de la otra).
Categora de referencia
Cuando una variable presente ms de dos categoras,
debern generarse tantas variables como el total de
categoras menos uno. Cada nueva variable tomar
valor 1 para una determinada categora y 0 en el resto,
de tal forma que los individuos en una misma categora
tomarn valor 1 en una misma variable y 0 en el resto.
La categora no considerada, o categora referencia,
estar representada por el valor 0 en todas las nuevas
variables. Mediante este esquema de codificacin, los
coeficientes de las nuevas variables reflejarn el efecto
de las categoras representadas respecto al efecto de la
categora de referencia.
Supuestos
Las variables de pronstico o estn altamente
correlacionadas entre s.
La media y la varianza en una variable de pronstico
no estn correlacionadas.
La correlacin entre dos variables de pronstico es
constante a travs de los grupos, (el experimento se
realice en las mismas circunstancias y no debe haber
diferentes fuentes de variacin que haga que los
grupos sean diferentes).
Los valores (objetos o sujetos) deben ser
independientes.
Los valores de las variables de pronstico deben
tener una distribucin normal .
Supuestos
El procedimiento es ms efectivo cuando la
pertenencia al grupo es una variable
verdaderamente categrica; si la pertenencia al
grupo se basa en los valores de una variable
continua (por ejemplo, un cociente de inteligencia
alto respecto a uno bajo), considere el uso de la
regresin lineal para aprovechar la informacin ms
rica ofrecida por la propia variable continua.
Al llevar a cabo una clasificacin, se supone a priori,
que el resultado obtenido es tan confiable como lo
indica el porcentaje de clasificaciones correctas
obtenidas en la etapa de validacin del modelo.
PROCEDIMIENTO
I.
II.
Muestra de anlisis
Resmenes de casos
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Visita al
centro
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
Ingreso
familiar actual
50.2
70.3
62.9
48.5
52.7
75.0
46.2
57.0
64.1
68.1
73.4
71.9
56.2
49.3
62.0
32.1
36.2
43.2
50.4
44.1
38.3
55.0
46.1
35.0
37.3
41.8
57.0
33.4
37.5
41.3
Opinin de
los viajes
5
6
7
7
6
8
5
2
7
7
6
5
1
4
5
5
4
2
5
6
6
1
3
6
2
5
8
6
3
3
Importancia de
las vacaciones
familiares
8
7
5
5
6
7
3
4
5
6
7
8
8
2
6
4
3
5
2
6
6
2
5
4
7
1
3
8
2
3
Tamao de
la familia
3
4
6
5
4
5
3
6
4
5
5
4
6
3
2
3
2
2
4
3
2
2
3
5
4
3
2
2
3
2
Muestra de validacin
Resmenes de casos
1
2
3
4
5
6
7
8
9
10
11
12
Visita al
centro
SI
SI
SI
SI
SI
SI
NO
NO
NO
NO
NO
NO
Ingreso
familiar actual
50.8
63.6
54.0
45.0
68.0
62.1
35.0
49.6
39.4
37.0
54.5
38.2
Opinin de
los viajes
4
7
6
5
6
5
4
5
6
2
7
2
Importancia
de las
vacaciones
familiares
7
4
7
4
6
6
3
3
5
6
3
2
Tamao de
la familia
3
7
4
3
6
3
4
5
3
5
3
3
Variables de pronstico
INGRESO: Ingreso familiar anual
VIAJE: Opinin de los viajes (Likert 9
puntos).
VACACIONES: Importancia concedida a
las vacaciones familiares (Likert 9 puntos).
TAMAO: Tamao de la familia
EDAD: Edad del jefe del hogar
Introduccin de Variables
Men Analizar > Clasificar> Discriminante...
Seleccione una variable de
agrupacin con valores
enteros y pulse en Definir
rango para especificar las
categoras de inters.
Seleccione las variables
independientes o de
pronstico. (Si la variable de
agrupacin no tiene valores
enteros, la opcin
Recodificacin automtica
en el men Transformar
crear una variable que los
tenga).
Definir rango
Seleccionar casos
Mtodos de estimacin
Mtodo progresivo (por pasos):
Utiliza el anlisis por pasos para controlar
la entrada y la salida de variables de
pronstico, las cuales se agregan en
secuencia segn su capacidad de
discriminar entre grupos.
Apropiado cuando el investigador quiere
elegir un subconjunto de variables para
incluirlas en la funcin discriminante.
N
30
Porcentaje
71.4
.0
.0
.0
12
12
42
28.6
28.6
100.0
Botn Estadsticos
Descriptivos
Medias.
Muestra la media y desviacin tpica totales y las medias
y desviaciones tpicas de grupo, para las variables de
pronstico.
ANOVAs univariados
Realiza un ANOVA de un factor sobre la igualdad de las
medias de grupo para cada variable de pronstico.
Test M de Box.
Contraste sobre la igualdad de las matrices de covarianza
de los grupos. Para tamaos de muestra suficientemente
grandes, un valor de p no significativo quiere decir que no
hay evidencia suficiente de que las matrices difieran. Esta
prueba es sensible a las desviaciones de la normalidad
multivariada.
Visita al centro
SI
NO
Total
Media
60.520
5.400
Desv. tp.
9.8307
1.9198
5.800
1.8205
15
15.000
4.333
53.733
41.913
4.333
1.2344
8.7706
7.5511
1.9518
15
15
15
15
15.000
15.000
15.000
15.000
4.067
2.0517
15
15.000
2.800
50.133
51.217
4.867
.9411
8.2710
12.7952
1.9780
15
15
30
30
15.000
15.000
30.000
30.000
4.933
2.0998
30
30.000
3.567
51.933
1.3309
8.5740
30
30
30.000
30.000
Matrices
Matrices de coeficientes disponibles para las variables de
pronstico.
Correlacin intra-grupos. Muestra la matriz de
correlaciones intra-grupos combinada, que se obtiene de
promediar las matrices de covarianza individuales para todos
los grupos antes de calcular las correlaciones.
Covarianza intra-grupos. Muestra la matriz de covarianza
intra-grupos combinada, la cual puede diferir de la matriz de
covarianza total. La matriz se obtiene de promediar, para
todos los grupos, las matrices de covarianza individuales.
Covarianza de grupos separados. Muestra las matrices de
covarianza de cada grupo por separado.
Covarianza total. Muestra la matriz de covarianza para
todos los casos, como si fueran una nica muestra.
Correlacin
Ingreso
familiar actual
1.000
.197
Opinin de
los viajes
.197
1.000
Importancia
de las
vacaciones
familiares
.091
.084
.091
.084
1.000
.070
.017
.089
-.014
-.017
-.197
.070
.017
1.000
-.043
-.043
1.000
Tamao de
la familia
.089
-.017
Covarianza
Ingreso
familiar actual
76.831
3.350
Opinin de
los viajes
3.350
3.748
Importancia
de las
vacaciones
familiares
1.555
.317
1.555
.317
3.762
.150
.288
.855
-1.070
-.036
-3.252
.150
.288
1.205
-.402
-.402
72.667
Tamao de
la familia
.855
-.036
Matriz de Covarianza
de grupos separados
Matrices de covarianzas
Visita al centro
SI
NO
Ingreso
familiar actual
96.642
7.170
Opinin de
los viajes
7.170
3.686
Importancia
de las
vacaciones
familiares
9.397
.157
9.397
.157
3.314
.357
-.057
3.207
28.249
57.020
-.469
-.214
-.243
-.469
3.810
.357
-.057
-6.287
.476
1.524
-2.762
-1.497
.143
-2.762
76.924
-30.388
-6.262
-6.287
.476
4.210
-.057
.633
-1.497
-30.388
.143
-6.262
-.057
.633
.886
1.957
1.957
68.410
Tamao de
la familia
3.207
-.214
Matriz de Covarianza
de grupos total
Matrices de covarianzasa
Visita al centro
Total
Ingreso
familiar actual
163.718
8.368
Opinin de
los viajes
8.368
3.913
Importancia
de las
vacaciones
familiares
9.843
.784
9.843
.784
4.409
.832
1.892
8.204
16.291
.389
-2.147
.832
1.892
1.771
1.039
1.039
73.513
Tamao de
la familia
8.204
.389
de Wilks (estadstica U) y
ANOVAs Univariados
Es el cociente de la Suma de Cuadrados Intragrupos y la
Suma de Cuadrados Total en un ANOVA simple para cada
una de las variables de pronstico por separado y tendiendo
como factor la variable de criterio.
La lambda de Wilks para un conjunto de p variables
independientes mide las desviaciones dentro de cada grupo
respecto a las desviaciones totales sin distinguir grupos, en
el espacio p-dimensional generado por los valores de las p
variables.
Si 1: No existe diferencia entre las medias de los
grupos en la variable considerada. Los grupos estn
mezclados.
Si 0: Una gran parte de la variabilidad total es atribuible
a la diferencia entre las medias de los distintos grupos.
Prueba F univariadas
Determina si cada una de las variables de pronstico, tomada de
forma aislada, diferencia significativamente entre los grupos de la
variable de criterio.
Indica que cuando se consideran separadamente las variables de
pronstico, slo el ingreso, la importancia de las vacaciones y el
tamao del hogar distinguen de manera significativa entre quienes
visitaron un centro vacacional y quienes no lo hicieron.
Lambda
de Wilks
.453
.925
F
33.796
2.277
.824
.657
.954
gl1
gl2
1
1
28
28
Sig.
.000
.143
5.990
28
.021
14.636
1.338
1
1
28
28
.001
.257
Rango
5
5
5
Logaritmo del
determinante
10.773
10.071
11.349
Resultados de la prueba
M de Box
F
Aprox.
gl1
gl2
Sig.
25.964
1.393
15
3156.632
.141
Coeficientes de la funcin
Coeficientes de clasificacin de Fisher:
Muestra los coeficientes de la Funcin lineal de
clasificacin de Fisher que pueden utilizarse
directamente para la clasificacin. Se obtiene un
conjunto de coeficientes para cada grupo, y se
asigna un caso al grupo para el que tiene una
mayor puntuacin discriminante.
Coeficientes sin estandarizar: Muestra los
coeficientes de la funcin discriminante sin
estandarizar (los coeficientes brutos).
Autovalor
% de varianza
1.786a
100.0
% acumulado
100.0
Correlacin
cannica
.801
Lambda
de Wilks
.359
Chi-cuadrado
26.130
gl
5
Sig.
.000
Nota importante
No tiene sentido interpretar los resultados
si las funciones discriminantes estimadas
no son estadsticamente significativas.
Si se rechaza la hiptesis nula, lo que
indica discriminacin significativa, se
puede proceder a interpretar los
resultados.
Funcin
1
.08477
.04964
.12028
.42739
.02454
-7.97548
Coeficientes no tipificados
Funcin
1
.08477
.04964
.12028
.42739
.02454
-7.97548
Funcin
1
.74301
.09611
.23329
.46911
.20922
Coeficientes
estandarizados
Revelan la Importancia
relativa de las variables de
pronstico.
En general, cuanto mayor
sea el valor, mayor ser la
potencia discriminante de
la funcin, comparada con
las variables de pronstico
con coeficientes menores.
Matriz de estructura
Funcin
1
.822
.541
.346
.213
.164
Visita al centro
SI
NO
Funcin
1
1.291
-1.291
Perfil de caractersticas
Sera razonable trazar
un perfil de los dos
grupos en trminos de
las medias de las tres
variables de pronstico
que parecen ser las
ms importantes.
Ingreso
Tamao de la familia
Importancia de las
vacaciones
Grficos combinados
Grupos combinados.
Crea un diagrama de
dispersin, con todos los
grupos, de los valores en
las dos primeras
funciones discriminantes.
Si slo hay una funcin,
en su lugar se muestra
un histograma.
Botn Clasificar
Cuadro de dilogo Anlisis discriminante: Clasificar
Probabilidades previas
Probabilidades previas.
Estos valores se utilizan para la clasificacin.
Puede especificar que las probabilidades
previas sean iguales para todos los grupos
(Todos los grupos iguales),
Dejar que los tamaos de grupo observados
en la muestra determinen las probabilidades
de la pertenencia al grupo (Calcular segn
tamaos de grupos).
Probabilidades previas
Probabilidades previas para los grupos
Visita al centro
SI
NO
Total
Previas
.500
.500
1.000
Casos utilizados en el
anlisis
No
ponderados
Ponderados
15
15.000
15
15.000
30
30.000
Grupo mayor
Original
Nmero
de caso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31 u
32 u
33 u
34 u
35 u
36 u
37 u
38 u
39 u
40 u
41 u
42 u
Grupo real
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
1
1
1
1
1
1
2
2
2
2
2
2
u. Caso no seleccionado
**. Caso mal clasificado
Grupo
pronosticado
2**
1
1
1
1
1
2**
1
1
1
1
1
1
2**
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2**
1
1
2**
1
1
2
2
2
2
2
2
P(D>d | G=g)
p
gl
.263
1
.299
1
.393
1
.236
1
.471
1
.033
1
.519
1
.969
1
.822
1
.414
1
.190
1
.187
1
.690
1
.555
1
.446
1
.597
1
.394
1
.946
1
.487
1
.699
1
.646
1
.602
1
.612
1
.442
1
.650
1
.908
1
.520
1
.609
1
.512
1
.431
1
.294
1
.195
1
.677
1
.539
1
.226
1
.707
1
.902
1
.221
1
.934
1
.508
1
.404
1
.534
1
P(G=g | D=d)
.609
.998
.996
.567
.814
1.000
.841
.962
.980
.996
.999
.999
.987
.859
.796
.991
.996
.971
.824
.912
.989
.879
.883
.794
.897
.974
.842
.991
.993
.995
.651
.999
.905
.852
.998
.914
.975
.544
.972
.836
.765
.993
Grupo
1
2
2
2
2
2
1
2
2
2
2
2
2
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
1
2
2
1
1
1
1
1
1
P(G=g | D=d)
.391
.002
.004
.433
.186
.000
.159
.038
.020
.004
.001
.001
.013
.141
.204
.009
.004
.029
.176
.088
.011
.121
.117
.206
.103
.026
.158
.009
.007
.005
.349
.001
.095
.148
.002
.086
.025
.456
.028
.164
.235
.007
Distancia de
Mahalanobis
al cuadrado
hasta el
centroide
2.141
13.115
11.814
1.950
3.467
22.262
3.754
6.471
7.878
11.553
15.166
15.220
8.888
3.968
3.311
9.676
11.792
7.024
3.564
4.822
9.249
4.246
4.304
3.287
4.531
7.281
3.758
9.569
10.485
11.359
2.351
15.032
4.692
3.873
14.385
4.868
7.320
1.847
7.105
3.689
3.056
10.265
Puntuaciones
discriminantes
Funcin 1
-.172
2.330
2.146
.105
.571
3.427
-.646
1.253
1.516
2.108
2.603
2.610
1.690
-.701
.528
-1.819
-2.143
-1.359
-.597
-.905
-1.750
-.769
-.783
-.522
-.837
-1.407
-.647
-1.802
-1.947
-2.079
-.242
2.586
.875
-.677
2.502
.915
-1.414
-.068
-1.374
-.629
-.457
-1.913
Tabla de resumen.
"Matriz de Confusin": Nmero de
sujetos correcta e incorrectamente
clasificados a cada uno de los grupos,
basndose en el total de la muestra.
Los coeficientes discriminantes, estimados
en la muestra de anlisis, se multiplican
por los valores de las variables de
pronstico en la muestra de validacin
para generar puntuaciones de
discriminacin para los sujetos de esta
ltima muestra.
Resultados de la clasificacin
Resultados de la clasificacinb,c,d
Casos seleccionados
Original
Recuento
%
Validacin cruzadaa
Recuento
%
Casos no seleccionados
Original
Recuento
%
Visita al centro
SI
NO
SI
NO
SI
NO
SI
NO
SI
NO
SI
NO
Grupo de pertenencia
pronosticado
SI
NO
12
3
0
15
80.0
20.0
.0
100.0
11
4
2
13
73.3
26.7
13.3
86.7
4
2
0
6
66.7
33.3
.0
100.0
Total
15
15
100.0
100.0
15
15
100.0
100.0
6
6
100.0
100.0
a. La validacin cruzada slo se aplica a los casos del anlisis. En la validacin cruzada, cada caso se clasifica
mediante las funciones derivadas a partir del resto de los casos.
b. Clasificados correctamente el 90.0% de los casos agrupados originales seleccionados.
c. Clasificados correctamente el 83.3% de casos agrupados originales no seleccionados.
d. Clasificados correctamente el 80.0% de los casos agrupados validados mediante validacin cruzada
seleccionados.
Proporcin de aciertos
Porcentaje de casos bien clasificados.
Se suman los elementos de la diagonal y
se dividen entre el total de casos.
Se espera que el porcentaje de sujetos
bien clasificados con el AD sea por lo
menos 25% mayor que el obtenido al
azar.
Resultado de la clasificacin
Sujetos originales:
90% (27/30)
Estadsticos
validar
N
Vlidos
Perdidos
Vlidos
700
150
Perdidos
Total
.00
1.00
Total
Sistema
Frecuencia
201
499
700
150
850
Porcentaje
23.6
58.7
82.4
17.6
100.0
Porcentaje
vlido
28.7
71.3
100.0
Porcentaje
acumulado
28.7
100.0
Esto asegura que validar slo se calcular para los sujetos sin valores
perdidos en impago; es decir, para los clientes que recibieron previamente
un prstamo.
Aproximadamente el 70% de los clientes a los que se les haba dado un
prstamos tendrn un valor de 1.
Estos clientes sern usados para crear el modelo.
Los clientes restantes a los que previamente se les haba dado un
prstamo sern usados en la muestra de validacin
Corriendo el anlisis
Variable de criterio:
Impagos anteriores (0,1)
Variables de pronstico
Aos con la empresa actual
Aos en la direccin actual
Tasa de deuda sobre ingresos (x100)
Deuda de la tarjeta de crdito en miles
Validar (1)
Botn Estadsticos
Botn Clasificar
Botn Guardar
.277
.109
.145
.085
.291
.386
-.734
-.303
-3.485
-3.676
.277
.109
.145
.085
.291
.386
-.734
-.303
-3.485
-3.676
Verificando supuestos
Correlacin
Aos con la
empresa
actual
Aos en la
direccin
actual
Tasa de
deuda sobre
ingresos
(x100)
Deuda de
la tarjeta
de crdito
en miles
1.000
.286
.104
.508
.286
1.000
.140
.290
.104
.140
1.000
.508
.508
.290
.508
1.000
Impagos anteriores
No
Total
Media
Aos con la empresa
actual
Aos en la direccin
actual
Tasa de deuda sobre
ingresos (x100)
Deuda de la tarjeta de
crdito en miles
Aos con la empresa
actual
Aos en la direccin
actual
Tasa de deuda sobre
ingresos (x100)
Deuda de la tarjeta de
crdito en miles
Aos con la empresa
actual
Aos en la direccin
actual
Tasa de deuda sobre
ingresos (x100)
Deuda de la tarjeta de
crdito en miles
Desv. tp.
9.5840
6.67766
375
375.000
8.8800
6.94239
375
375.000
8.8179
5.69545
375
375.000
1.2554
1.41769
375
375.000
5.1855
5.72737
124
124.000
6.3548
6.27836
124
124.000
14.4468
7.97554
124
124.000
2.3656
3.36732
124
124.000
8.4910
6.72386
499
499.000
8.2525
6.86476
499
499.000
10.2166
6.78238
499
499.000
1.5313
2.13087
499
499.000
Problema de heteroscedasticidad
La tabla de estadsticos de grupo revela un
problema potencialmente ms serio.
Para las cuatro variables de pronstico, las
medias de grupo ms grandes estn asociadas
con desviaciones estndar mayores.
En particular, observe Tasa de deuda sobre
ingresos y Deuda de la tarjeta de crdito en
miles para las cuales las medias y las
desviaciones estndar para el grupo SI son
considerablemente mayores.
En anlisis posteriores, podra considerar usar
valores transformados de estas variables.
Rango
4
4
4
Logaritmo del
determinante
11.185
12.253
11.957
Resultados de la prueba
M de Box
F
Aprox.
gl1
gl2
Sig.
252.117
24.893
10
245917.2
.000
Logaritmos del
determinante son
medidas de la
variabilidad de los
grupos. Entre ms
grandes los valores, los
grupos tendrn mayor
variabilidad.
Grandes diferencias en
los logaritmos de los
determinantes indican
grupos que tienen
diferentes matrices de
covarianza.
Rango
4
4
4
Logaritmo del
determinante
11.185
12.253
11.957
Resultados de la prueba
M de Box
F
Aprox.
gl1
gl2
Sig.
252.117
24.893
10
245917.2
.000
La M de Box prueba el
supuesto de igualdad de
covarianzas entre los
grupos.
Ya que la prueba es
significativa, debera
requerir matrices
separadas para ver si
esto da resultados de
clasificacin radicalmente
diferentes.
gl1
gl2
Sig.
.920
43.262
497
.000
.975
12.911
497
.000
.871
73.534
497
.000
.949
26.597
497
.000
gl1
gl2
Sig.
.920
43.262
497
.000
.975
12.911
497
.000
.871
73.534
497
.000
.949
26.597
497
.000
Coeficientes estandarizados de la
funcin discriminante
Coeficientes estandarizados de las
funciones discriminantes cannicas
Funcin
1
Aos con la empresa
actual
Aos en la direccin
actual
Tasa de deuda sobre
ingresos (x100)
Deuda de la tarjeta de
crdito en miles
-.784
-.295
.437
.649
Los coeficientes
estandarizados le
permiten comparar
variables medidas en
diferentes escalas.
Los coeficientes con
mayo valor absoluto
corresponden a variables
con mayor capacidad
discriminante.
Esta tabla le baja
importancia a Tasa..
pero el orden se
conserva.
Matriz de estructura
Matriz de estructura
Funcin
1
Tasa de deuda sobre
ingresos (x100)
Aos con la empresa
actual
Deuda de la tarjeta de
crdito en miles
Aos en la direccin
actual
.644
-.494
.387
-.270
Muestra la correlacin de
cada variable de
pronstico con la funcin
discriminante.
El orden es el mismo que
el sugerido en las pruebas
de igualdad de las medias
de los grupos y es
diferente del mostrado en
la tabla de coeficientes
estandarizados.
Por qu la discrepancia?
Matriz de estructura
Funcin
1
Tasa de deuda sobre
ingresos (x100)
Aos con la empresa
actual
Deuda de la tarjeta de
crdito en miles
Aos en la direccin
actual
.644
-.494
.387
-.270
La discrepancia se deba a la
colinealidad entre Aos con la
empresa actual y Deuda de la tarjeta
de crdito en miles observada en la
matriz de correlacin.
Ya que la matriz de estructura no se
ve afectada por la colinealidad, es
seguro decir que esta colinealidad ha
inflado la importancia de Aos con
la empresa actual y Deuda con la
tarjeta de crdito en miles en la
tabla de coeficientes estandarizados.
Por tanto, es Tasa de deuda sobre
ingresos (x100) la que mejor
discrimina entre los que cumplen y
los que no cumplen con la deuda.
Autovalores
Autovalores
Funcin
1
Autovalor
% de varianza
a
.357
100.0
% acumulado
100.0
Correlacin
cannica
.513
Lambda de Wilks
Lambda de Wilks
Contraste de
las funciones
1
Lambda
de Wilks
.737
Chi-cuadrado
151.007
gl
4
Sig.
.000
Lambda de Wilks
Lambda de Wilks
Contraste de
las funciones
1
Lambda
de Wilks
.737
Chi-cuadrado
151.007
gl
4
Sig.
.000
Casos seleccionados
Original
Recuento
%
Validacin cruzadaa
Recuento
%
Casos no seleccionados
Original
Recuento
Impagos anteriores
No
S
No
S
No
S
No
S
No
S
Casos desagrupados
No
S
Casos desagrupados
Grupo de pertenencia
pronosticado
No
S
281
94
30
94
74.9
25.1
24.2
75.8
278
97
31
93
74.1
25.9
25.0
75.0
106
36
10
49
95
55
74.6
25.4
16.9
83.1
63.3
36.7
Total
375
124
100.0
100.0
375
124
100.0
100.0
142
59
150
100.0
100.0
100.0
a. La validacin cruzada slo se aplica a los casos del anlisis. En la validacin cruzada, cada caso se clasifica
mediante las funciones derivadas a partir del resto de los casos.
b. Clasificados correctamente el 75.2% de los casos agrupados originales seleccionados.
c. Clasificados correctamente el 77.1% de casos agrupados originales no seleccionados.
d. Clasificados correctamente el 74.3% de los casos agrupados validados mediante validacin cruzada seleccionados.
Resultados de la clasificacina,b
Casos seleccionados
Original
Recuento
%
Casos no seleccionados
Original
Recuento
Impagos anteriores
No
S
No
S
No
S
Casos desagrupados
No
S
Casos desagrupados
Grupo de pertenencia
pronosticado
No
S
287
88
31
93
76.5
23.5
25.0
75.0
107
35
10
49
96
54
75.4
24.6
16.9
83.1
64.0
36.0
Total
375
124
100.0
100.0
142
59
150
100.0
100.0
100.0
Impagos anteriores
No
S
Total
Previas
.500
.500
1.000
Casos utilizados en el
anlisis
No
ponderados
Ponderados
375
375.000
124
124.000
499
499.000
Impagos anteriores
No
S
Total
Previas
.752
.248
1.000
Casos utilizados en el
anlisis
No
ponderados
Ponderados
375
375.000
124
124.000
499
499.000
Casos seleccionados
Original
Recuento
%
Validacin cruzadaa
Recuento
%
Casos no seleccionados
Original
Recuento
Impagos anteriores
No
S
No
S
No
S
No
S
No
S
Casos desagrupados
No
S
Casos desagrupados
Grupo de pertenencia
pronosticado
No
S
356
19
75
49
94.9
5.1
60.5
39.5
355
20
77
47
94.7
5.3
62.1
37.9
137
5
31
28
130
20
96.5
3.5
52.5
47.5
86.7
13.3
Total
375
124
100.0
100.0
375
124
100.0
100.0
142
59
150
100.0
100.0
100.0
a. La validacin cruzada slo se aplica a los casos del anlisis. En la validacin cruzada, cada caso se clasifica
mediante las funciones derivadas a partir del resto de los casos.
b. Clasificados correctamente el 81.2% de los casos agrupados originales seleccionados.
c. Clasificados correctamente el 82.1% de casos agrupados originales no seleccionados.
d. Clasificados correctamente el 80.6% de los casos agrupados validados mediante validacin cruzada seleccionados.
Resumen
Usando Anlisis Discriminante, ha creado un modelo
que clasifica a los clientes en alto y bajo riesgo crediticio.
La M de Box mostr un posible problema con la
heterogeneidad de las matrices de covarianza, aunque
despus de indagar un poco ms, se descubri que esto
era probablemente un efecto del tamao del archivo de
datos.
El uso de probabilidades previas desiguales para tomar
ventaja del hecho que los cumplidores son ms que los
incumplidos result en una tasa de clasificacin global
mayor, pero con el costo de clasificar mal ms
incumplidos como cumplidos.
EJERCICIOS
Considere
los
siguientes
grupos
de
consumidores. El grupo 1 (G1) realiza sus
compras en shoopings y el grupo 2 (G2) en
outlets. Queremos establecer las diferencias de
comportamiento entre estos dos grupos en base
al ingreso y al nmero de compras que realizan
en el ao para poder decidir si un consumidor
que tiene un ingreso de 60,000 y que realiza 25
compras por ao puede clasificarse en alguno
de esto dos grupos.
La siguiente tabla muestra los datos para estas
variables:
Grupo 1
Grupo 2
Observaciones Ingreso Compras Ingreso Compras
1
60
18,4
75
19,6
2
85,5
16,8
52,8
20,8
3
64,8
21,6
64,8
17,2
4
61,5
20,8
43,2
20,4
5
87
23,6
84
17,6
6
110,1
19,2
49,2
17,6
7
108
17,6
59,4
16
8
82,8
22,4
66
18,4
9
69
20
47,4
16,4
10
93
20,8
33
18,8
11
51
22
51
14
12
81
20
63
14,8
Piscinas
Supongamos que la Compaa Piscinas Amir ha
reunido datos de ingreso y tamao de terrenos
de grupos de propietarios de piscina y no
propietarios, quienes viven en el sureste de
Pennsilvania. Adems, hay datos disponibles
para cada grupo sobre actitudes hacia los baos
de sol, en escala de 0 (detestar los baos de sol
hasta 10 = extremadamente aficionado a tomar
baos de sol.)
Calidad de profesor
Se dice que en la Universidad de Texas no existen
maestros intermedios, es decir, o son buenos o son
malos; por lo que se analizaron 20 maestros con base
en su capacidad docente (metodologa de enseanza,
exmenes representativos, calificaciones justas),
experiencia en el rea de la materia y conocimiento en
la misma; todo esto en una escala del 1-5 donde el uno
significa bueno y el cinco malo, para ver si realmente se
segmentaba de esta forma.
Obtener el modelo discriminante
Probar si el modelo es bueno para segmentar
Resmenes de casos
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Calidad del
profesor
Bueno
Bueno
Bueno
Bueno
Bueno
Bueno
Bueno
Bueno
Bueno
Bueno
Malo
Malo
Malo
Malo
Malo
Malo
Malo
Malo
Malo
Malo
Capacidad
docente
1
1
1
2
1
3
1
1
2
2
3
4
4
5
5
5
5
5
4
4
Experiencia
en el rea
1
2
1
1
1
2
1
1
1
3
4
5
5
4
4
5
5
5
5
4
Conocimiento
de la materia
1
1
1
2
1
1
1
1
1
1
3
5
2
5
2
4
3
5
4
5
Preguntas