Sie sind auf Seite 1von 169

Clasificacin con Anlisis

Discriminante
Anlisis Multivariante:
Investigacin que da Resultados
Ing. Amir Madrid Garzn

Aplicaciones
Fiel o no a una marca
Me suscribira o no a un determinado
peridico
Comprador / No comprador
Apoya o no apoya
Televidente o no televidente

Clasificacin de objetos en grupos


En calidad de consumidores seguramente
habremos sido clasificados en grupos
muchas veces, a menudo por parte de
gente que sin saberlo est aplicando el
anlisis discriminante.
Por ejemplo, sin duda ya habremos
pasado por una experiencia de
categorizacin semejante a la que
tuvieron las siguientes personas:

Ejemplo 1
Alicia Rodrguez y algunas amigas fueron a un
restaurante de lujo a celebrar el final del primer
ao de universidad. La jefa de meseras, al
darse cuenta de las clientes son universitarias y
que no visten ropa cara, las acomoda en un
rincn con mucha luz situado entre la entrada a
la cocina y los baos de los caballeros. Quiz se
haya equivocado al clasificar a Alicia y a sus
amigas en la categora de clientes que gastan
poco y que dan propinas pequeas.

Ejemplo 2
Rodolfo Ramrez, luego de hacer la
solicitud del seguro del automvil, se da
cuenta de que la pliza anual le costar
casi lo mismo que el coche. Aunque en los
cinco aos que lleva conduciendo nunca
ha tenido un accidente ni una sola
infraccin, la compaa anota que tiene
menos de 25 aos, no est casado y no
ha recibido cursos de manejo.

Ejemplo 3
Alfredo Montealbn, un mariscal de
campo seleccionado para el equipo de
estrellas de la liga colegial, no recibe
ninguna llamada durante el reclutamiento
de jugadores colegiales para la liga
profesional. El servicio de reclutamiento
de los equipos profesionales afirma que
este jugador no tendra xito en el ftbol
profesional por se de baja estatura.

Nos guste o no, los individuos y las empresas


constantemente clasifican a las personas en
grupos basndose en variables como la edad,
escolaridad, ingresos, estado civil, peso fsico y
talla, tipo de automvil que usan, indumentaria y
promedio de puntos de calidad. Si bien quiz no
se aplique especficamente el anlisis
discriminante, los principios en que se funda
esta tcnica matemtica estn presentes, es
decir, a partir de un grupo de mediciones
observadas podemos tratar de clasificar un
individuo u objeto en un grupo.

Identificacin de las variables descriptivas que


mejor determinan la pertenencia al grupo.

Se examinan a miembros de grupos


conocidos, con objeto de averiguar cules
variables nos ayudan ms a diferenciar entre
los miembros de cada uno.
Por ejemplo, si trabajamos en prstamos para
los consumidores, nos gustara identificar las
variables que mejor discriminan entre
a) Prestatarios anteriores que han pagado su deuda a
tiempo
b) Prestatarios anteriores que no la han pagado

Riesgo crediticio (Prstamos)


Un ejecutivo de prstamos de una compaa hipotecaria
debe decidir si aprueba un prstamo hipotecario a un
solicitante. Esta decisin se toma determinando si las
caractersticas del solicitante se apegan ms a las de
personas que en el pasado pagaron debida y
oportunamente sus prstamos que a las de aquellas que
no cumplieron con los pagos.
La informacin acerca de estos dos grupo, disponible a
partir de registros pasados, incluira variables de
pronstico como edad, ingresos, aos viviendo en el
presente domicilio, aos en el trabajo actual, deudas
pendientes, estado civil, estado de salud y posesin de
ciertos bienes duraderos.

Por qu quiebran los negocios?


Un investigador interesado en quiebras de
negocios tal vez pueda agrupar las empresas de
acuerdo a si quebraron o no con el paso del
tiempo, con base en variables de pronstico
como ubicacin, razones financieras o cambios
en la administracin.
El reto consiste en encontrar variables
discriminantes que puedan usarse en una
ecuacin de pronstico que produzca una
asignacin de los individuos a los grupos y que
sea mejor que una asignacin al azar.

Servicio de Administracin Tributaria


Utiliza un anlisis discriminante para
comparar las declaraciones seleccionadas
con las devoluciones compuestas
hipotticas del contribuyente normal (para
distintos niveles de ingreso) con el fin de
identificar las devoluciones y reas ms
prometedoras para la auditora.

Las revistas

Se cuenta con
informacin sobre la
edad e ingresos
referente a
Suscriptores y no
suscriptores de tres
revistas
1.
2.
3.

Buena condicin fsica


despus de los 50
Aviso mensual de
impuestos
Revista de juegos de
video

Anlisis Discriminante
til si la muestra total puede dividirse en grupos
basndose en una variable de criterio caracterizada por
varias categoras conocidas.
Muchos problemas en marketing implican la
investigacin de diferencias entre grupos de individuos.
Se usa si la nica variable de criterio es dicotmica (es
decir, comprador, no comprador) o multidicotmica ( es
decir, alto-medio-bajo) y por tanto no mtrica.
Cmo sern las ventas potenciales (buenas o malas) en un
territorio dado de mercado, con base en ciertas evaluaciones
sobre el ingreso personal disponible por territorio, densidad de
poblacin, nmero de puntos de venta al detalle y dems?

Un buen vendedor
El gerente de ventas de la CompaaAlloy Steel est
tratando de identificar qu determina a un buen
vendedor, es decir, por qu algunos vendedores cumplen
o rebasan sus cuotas y otros no.
Al tratar de estudiar este asunto, el gerente de ventas
recopila datos sobre los veinte vendedores de la
compaa, incluyendo el cumplimiento o incumplimiento
con la cuota, el nmero de aos de experiencia en
ventas de acero de aleacin y el nmero de aos de
educacin tcnica formal.
El gerente de ventas reuni los datos de experiencia y
educacin porque pens que le podran ayudar a
identificar las caractersticas de un buen vendedor.

En este conjunto de datos hay tres


elementos de informacin sobre cada
vendedor: una variable de criterio
categrica, la cual es si cumpli o no con
su cuota este ao, y dos variables de
pronstico mtricas.
El nmero de aos de experiencia en ventas
de acero de aleacin
El grado de educacin tcnica formal

El gerente de ventas de la Compaa


puede preguntar
Qu tan bien se ajusta el discriminante a los
datos?
Qu tan bueno es como pronstico?

Aplicaciones
En trminos de caractersticas demogrficas, cul es la
diferencia entre los clientes que son leales a la tienda y los
otros?
El consumo de alimentos congelados difiere entre los
consumidores de refrescos frecuentes, moderado y
espordicos?
Qu caractersticas de estilo de vida distinguen a los
compradores de abarrotes que se fijan en los precios de los
que se fijan en la marca?
Cules son las caractersticas demogrficas que diferencian
entre los clientes habituales de una cadena de
supermercados y los clientes ocasionales?
De acuerdo a sus perfiles demogrficos y psicogrficos,
Cules son las caractersticas que distinguen a los
innovadores de los no innovadores?

Aplicaciones
Difiere la atencin a los medios en los segmentos de un
mercado?
En trminos de estilo de vida, cules son las diferencias
entre los clientes constantes de las cadenas regionales de
tiendas departamentales y los clientes de las cadenas
nacionales?
Cules son las caractersticas de los consumidores que
responden a los cuestionarios por correo?
Cmo se diferencian, en sus niveles de lectura de ciertas
revistas, los encuestados que muestran alto inters en un
nuevo conjunto de descripciones conceptuales, de los que
muestran poco inters?
Los vendedores de xito hacen ms visitas, ocupan ms
tiempo en las ventas y recorren ms kilmetros que aquellos
sin xito?

Objetivo de ADM
IDENTIFICAR y entender cuales son las
diferencias (caractersticas distintivas) de
los individuos en cada grupo
PRONOSTICAR la probabilidad de que
una persona pertenezca a una clase o
grupo particular de los que se conocen
dichas caractersticas distintivas.

ANLISIS DISCRIMINANTE
Tcnica de clasificacin para agrupar a los clientes y
prospectos en dos o ms categoras diferentes
definidas previamente.
Permite asignar un individuo a un grupo definido a
priori en funcin de una serie de caractersticas del
mismo o de las respuestas dadas a una serie de
preguntas (escalas de calificacin)
NO REQUIERE DE NINGN CUESTIONARIO ESPECIAL

Discriminant Analysis
The purpose of discriminant analysis is to correctly classify
observations or people into homogeneous groups. The
independent variables must be metric and must have a
high degree of normality. Discriminant analysis builds a
linear discriminant function, which can then be used to
classify the observations. The overall fit is assessed by
looking at the degree to which the group means differ
(Wilkes Lambda or D2) and how well the model classifies.
To determine which variables have the most impact on the
discriminant function, it is possible to look at partial F
values. The higher the partial F, the more impact that
variable has on the discriminant function. This tool helps
categorize people, like buyers and nonbuyers.

ANLISIS DISCRIMINANTE
EN LA PRCTICA
What characteristics best distinguish my various
customer segments?
In marketing research this analytical technique is the
study of the differences between two or more groups of
objects with respect to several variables simultaneously.
The objects are individual products or services and the
variables are usually descriptive ratings of each of these
products or services on several attributes. It is commonly
linked to the use of perceptual mapping. A major
application in marketing is to discern which attributes
best distinguish or discriminate among the various
objects.

Explicar por qu los encuestados pertenecen a


un cierto grupo
Clasificar nuevos encuestados con base en sus
calificaciones
Determinar cules clientes son propensos a
comprar un producto de una compaa.
Decidir si un banco debe otorgar un crdito a
una nueva compaa.
Identificar pacientes que pueden estar en riesgo
por problemas mdicos.

CUNDO DEBEMOS UTILIZAR


EL ANLISIS DISCRIMINANTE?
Mapas perceptuales de
posicionamiento.
tiles al revelar
visualmente las posiciones
competitivas actuales de
los jugadores principales
en una categora de
producto o servicio.
Los tipos de productos o
marcas son los grupos en
la variable dependiente; las
variables independientes
son las calificaciones de
desempeo de los
atributos.

CUNDO DEBEMOS UTILIZAR


EL ANLISIS DISCRIMINANTE?
Mapas de preferencias
Los tipos de productos o marcas son los grupos de la
variable dependiente (como en los mapas anteriores),
y las preferencias de productos o marcas son las
variables independientes.
Dos maneras:
Pedir a los encuestados que ordenen los productos o
marcas en trminos de una evaluacin general o
frecuencia de uso.
Basar las preferencias en las calificaciones
generales.

CUNDO DEBEMOS UTILIZAR


EL ANLISIS DISCRIMINANTE?
Mapas de actitudes
El anlisis indica cules actitudes son las ms
propensas a poseer los usuarios o dueos de
los productos o marcas. Los tipos de
productos o marcas son los grupos de la
variable dependiente (como en los mapas
anteriores), y las calificaciones de los
encuestados en los enunciados de las
actitudes en cierta categora son las variables
independientes.

CUNDO DEBEMOS UTILIZAR


EL ANLISIS DISCRIMINANTE?
Mapas de Estilos de vida
El anlisis muestra cules actividades,
intereses, opiniones, etc. Son las que estn
ms asociados con los usuarios ms
frecuentes de cada producto o marca.
La variable dependiente consiste en los
productos o marcas especficas; las variables
independientes son las calificaciones de los
encuestados sobre los enunciados de estilos
de vida en general.

PREGUNTAS A RESPONDER

Administradores de ventas: Evaluar sus clientes


prospectosCules son las caractersticas sociodemogrficas
y psicogrficas, estilos de vida, etc. de los compradores de un
producto determinado?
Cules son las caractersticas demogrficas que diferencian
entre los clientes habituales de una cadena de supermercados
y los clientes ocasionales?
Es distinto el estilo de vida de los compradores de productos
de alimentacin sensibles al precio del estilo de vida de los
sensibles a las marcas?
En qu se diferencian los consumidores que han respondido
positivamente a una campaa de marketing directo a los que
no lo han hecho?

PREGUNTAS A REPONDER

Qu marca de coche es ms probable que compre un nuevo


comprador en funcin de su perfil sociodemogrfico?
Qu nivel de consumo de un producto (elevado, medio o
bajo) es previsible que tengan los individuos recin
incorporados al mercado en funcin de sus motivaciones de
compra y utilizacin prevista del producto?
Bancos y aseguradoras: En qu categora de riesgo
crediticio se encuentra un cliente?
En general, para discriminar diferentes grupos de individuos
(personas fsicas, empresas, productos, etc.) a partir de una
serie de variables independientes.

Ejemplos ilustrativos

Cereal
Deseamos saber si la cantidad de protena y vitamina D
influye en las evaluaciones que hacen los consumidores
de los cereales.
A cada uno de los diez consumidores que evalan se les
pide solamente clasificar el cereal en una de dos
categoras: gustar versus disgustar.
Los datos aparecen en el archivo cereal.sav
Las variables de pronstico son:
X1: la cantidad de protenas (en gramos) pro 2 onzas
servidas, y
X2: el % de requerimientos diarios mnimos de vitamina
D por dos onzas servidas.

Grfico de dispersin de los datos

Notamos que se puede lograr


una discriminacin perfecta
con X1 si trazramos una lnea
perpendicular al eje horizontal
entre los valores de la escala 6
y 7.
Por otra parte, no hay forma
de que el uso de X2 sola nos
condujera a separar los
grupos.
Dada esta imagen, no nos
sorprendera que el mejor
compuesto lineal resulte en
favorecer X1 con un peso
considerablemente mayor que
el que X2 recibe.

Por qu no usar X1 sola, en vez


de un compuesto de X1 y X2?
1.

2.

Los datos de la tabla representan slo una muestra;


es muy posible que observaciones adicionales
demuestren que X1 sola no efectuar una
discriminacin perfecta entre los dos grupos.
No hemos tomado explcitamente en consideracin ni
la variabilidad sobre X1 versus X2 ni su correlacin.
Una de las mejores caractersticas del AD es que
todos los tres aspectos de los datos (centroide,
varianza y correlacin) son considerados al desarrollar
el compuesto lineal que separe al mximo los grupos.

EJEMPLOS ILUSTRATIVOS

Un investigador educativo desea saber qu variables


discriminan entre los graduandos de preparatoria que
deciden
1. Ir a la Universidad
2. Ir a una escuela comercial o tcnica
3. No buscar ms educacin o entrenamiento.

Para este propsito el investigador podra recolectar


informacin en numerosas variables previamente a la
graduacin de los estudiantes. Despus de la graduacin,
la mayora de los estudiantes caera naturalmente en
alguna de estas tres categoras.
El AD se puede usar para predecir cules son las variables
que mejor predicen la prxima eleccin educativa de los
estudiantes.
http://www.statsoft.com/textbook/stathome.html?stdiscan.html&1

EJEMPLOS ILUSTRATIVOS

Un investigador mdico puede recabar diferentes


variables relacionadas con el background de sus
pacientes para aprender cules variables predicen
mejor si un paciente es propenso a
1. Recuperarse por completo
2. Recuperarse parcialmente
3. No poder recuperarse

Un bilogo puede registrar diferentes caractersticas de


tipos (grupos) similares de flores, y luego realizar un AD
para determinar el conjunto de caractersticas que
permiten la mejor discriminacin entre los grupos.

EJEMPLO ILUSTRATIVO MKT

En un estudio de mercado cuyo objetivo consisti en


determinar las caractersticas que diferencian entre los
clientes actuales de una cadena de comida rpida y
los que nunca han sido clientes de la cadena, se
obtuvo informacin de 370 individuos, de edades
comprendidas entre los 15 y los 50 aos,
consumidores de comida rpida en los ltimos 3
meses.
1.
2.
3.
4.
5.
6.

Dicotmica. Cliente de al cadena (1= S. 2= No)


Tipo de comida rpida preferida (Likert 1 al 7)
Importancia dada a las promociones y descuentos (1-9)
Nmero de veces al mes que van a la comida rpida.
Nmero de veces al mes que van a otro restaurante.
Edad del consumidor (en aos)

La aplicacin de un anlisis discriminante permitir conocer si los clientes habituales


de la cadena tienen un perfil distinto de los consumidores que nunca han sido clientes
de la cadena y cules variables diferencian ms entre los dos grupos.

Objetivos del curso


1. Describir el concepto de anlisis discriminante, sus
objetivos y sus aplicaciones a la investigacin de
mercados.
2. Sintetizar los procedimientos para efectuar anlisis
discriminante: formulacin del problema,
estimacin de los coeficientes de la funcin
discriminante, determinacin de la significancia,
interpretacin y validacin.
3. Detallar el anlisis discriminante mltiple y su
distincin del anlisis discriminante de dos grupos.
4. Explicar el anlisis discriminante progresivo y el
procedimiento Mahalanobis.

Seguros y bancos
La tcnica del Anlisis Discriminante aplicada al sector
asegurador se ha dado en llamar "Insurance Scoring".
Consiste en utilizar la experiencia histrica de la empresa para
disear un modelo, aplicable a nuevos clientes, que nos asigna
cada cliente a una cierta categora con una cierta probabilidad,
como por ejemplo predecir si un cliente ser rentable o no para
la compaa de seguros anticipando el riesgo de siniestro,
pudiendo as ajustar la prima de riesgo. (MODULO BASE)
La tcnica del Anlisis Discriminante aplicada al sector
bancario se ha dado en llamar "Credit Scoring ". Consiste en
utilizar la experiencia histrica de la empresa para disear un
modelo, aplicable a nuevos clientes, que nos asigna cada
cliente a una cierta categora con una cierta probabilidad, como
por ejemplo determinar la posibilidad de recobro de un cliente
en base a ciertas variables como, salario, tiempo de
amortizacin del prstamo, n de hijos, etc. (MODULO BASE)

Ejemplo 1
Un ejecutivo de prstamos de una compaa hipotecaria
debe decidir si aprueba un prstamo hipotecario a un
solicitante.
Esta decisin se toma determinando si las
caractersticas del solicitante se apegan ms a las de
personas que en el pasado pagaron debida y
oportunamente sus prstamos que a las de aquellas
personas que no cumplieron con los pagos.
La informacin acerca de estos dos grupos, disponible a
partir de registros pasados, incluira factores como edad,
ingresos, estado civil, deudas pendientes y posesin de
ciertos bienes duraderos.

Ejemplo 2
En el proyecto de tienda departamental se hizo
un anlisis discriminante de dos grupos para
examinar si los entrevistados que estaban
familiarizados con las tiendas (comparados con
los que no lo estaban) asignaban una
importancia relativa diferente a los ocho criterios
de eleccin.
La variable de criterio eran los dos grupos de
familiaridad.
Las variables de pronstico eran la importancia
concedida a los ocho criterios de seleccin.

Resultados
La funcin discriminante fue significativa, seal
de que haba diferencias importantes entre los
dos grupos.
En comparacin con los entrevistados que no
estaban familiarizados, los entrevistados
familiarizados concedan mayor importancia a la
calidad de la mercanca, las polticas de
devoluciones y cambios, el servicio del personal
y las polticas de crdito y facturacin.

Ejemplo 3
Por trmino medio, las personas de los pases
de zonas templadas consumen ms caloras por
da que las de los trpicos, y una proporcin
mayor de la poblacin de las zonas templadas
vive en ncleos urbanos.
Un investigador desea combinar esta
informacin en una funcin para determinar
cmo de bien un individuo es capaz de
discriminar entre los dos grupos de pases.
El investigador considera adems que el
tamao de la poblacin y la informacin
econmica tambin pueden ser importantes.

Resultados
El anlisis discriminante permite estimar los
coeficientes de la funcin discriminante lineal, que
tiene el aspecto de la parte derecha de una ecuacin
de regresin lineal mltiple. Es decir, utilizando los
coeficientes a, b, c y d, la funcin es:
D = a * clima + b * urbanos + c * poblacin + d *
producto interior bruto per capita
Si estas variables resultan tiles para discriminar entre
las dos zonas climticas, los valores de D sern
diferentes para los pases templados y para los
tropicales.
Si se utiliza un mtodo de seleccin de variables por
pasos, quizs no se necesite incluir las cuatro
variables en la funcin.

Objetivos principales de AD
1.
2.
3.
4.
5.

FUNCIONES DISCRIMINANTES (combinaciones


lineales de variables de pronstico) que discriminan
mejor entre categoras de la variable de criterio (grupos).
DESCRIPCIN: Examinar si hay diferencias
significativas entre los grupos en trminos de las
variables de pronstico.
IMPORTANCIA RELATIVA: Determinar qu variables de
pronstico contribuyen o cuentan ms para explicar las
diferencias entre grupos.
PREDICCIN: Clasificar nuevos sujetos u objetos cuyos
perfiles son conocidos, pero no su identidad, a uno los
grupos.
EXACTITUD: Evaluar la exactitud de la clasificacin.

El reto consiste en encontrar


variables discriminantes que
puedan usarse en una ecuacin
de prediccin que produzca una
asignacin de los individuos a los
grupos y que sea mejor que una
asignacin al azar.

Anlisis Discriminante
Es una tcnica para analizar datos cuando
una variable de criterio es categrica y las
variables de pronstico son de naturaleza
de intervalo.
Ejemplo:
Preferencia de una marca de PC (marca A, B
o C)
Calificaciones de los atributos de las PC en
una escala de Likert de siete puntos.

Anlisis Discriminante
El anlisis discriminante resulta til para construir un
modelo predictivo para pronosticar el grupo de
pertenencia de un caso a partir de las caractersticas
observadas de cada caso.
El procedimiento genera una funcin discriminante (o,
para ms de dos grupos, un conjunto de funciones
discriminantes) basada en combinaciones lineales de las
variables predictoras que proporcionan la mejor
discriminacin posible entre los grupos. Las funciones se
generan a partir de una muestra de casos para los que
se conoce el grupo de pertenencia; posteriormente, las
funciones pueden ser aplicadas a nuevos casos que
dispongan de medidas para las variables predictoras
pero de los que se desconozca el grupo de pertenencia.

Nota: La variable de agrupacin puede


tener ms de dos valores. Los cdigos de
la variable de agrupacin han de ser
nmeros enteros y es necesario
especificar sus valores mximo y mnimo.
Los casos con valores fuera de estos
lmites se excluyen del anlisis.

Semejanzas y diferencias entre


ANOVA, Regresin y Discriminante
ANOVA

REGRESIN

DISCRIMINANTE

# de variables
dependientes (criterio)

Una

Una

Una

# de variables
independientes

Varias

Varias

Varias

Naturaleza de las
variables dependientes

Mtrica

Mtrica

Categrica

Naturaleza de las
variables
independientes

Categrica Mtrica

Semejanzas

Diferencias

Mtrica

Regresin vs Discriminante
La variable de criterio tiene una
distribucin normal.
Las variables de pronstico son
fijas.

Las variables de pronstico tienen


una distribucin normal.
La variable de criterio es fija.

Busca predecir el valor medio de


la variable de criterio con base en
los valores conocidos y fijos de las
variables de pronstico.

Busca encontrar una combinacin


lineal de variables de pronstico
que maximice la discriminacin
entre los grupos y minimice la
probabilidad de clasificar
incorrectamente a los individuos u
objetos en grupos.

Se hacen ciertos supuestos con el


fin de generar estimaciones de
parmetros que tengan
propiedades estadsticas
deseables.

Aplica una estrategia para


encotnrar una media y clasificar
con exactitud individuos u objetos
en grupos.

Estadsticos
Para cada variable:
medias, desviaciones tpicas, ANOVA univariado.

Para cada anlisis:


M de Box, matriz de correlaciones intra-grupos, matriz de
covarianzas intra-grupos, matriz de covarianzas de los grupos
separados, matriz de covarianzas total. Para cada funcin
discriminante cannica: autovalores, porcentaje de varianza,
correlacin cannica, lambda de Wilks, chi-cuadrado.

Para cada funcin discriminante cannica:


autovalores, porcentaje de varianza, correlacin cannica,
lambda de Wilks, chi-cuadrado.

Para cada paso:


probabilidades previas, coeficientes de la funcin de Fisher,
coeficientes de funcin no tipificados, lambda de Wilks para
cada funcin cannica.

Datos
La variable de agrupacin debe tener un nmero
limitado de categoras distintas, codificadas como
nmeros enteros.
Las variables de pronstico que sean nominales deben
ser recodificadas, mediante la creacin de nuevas
variables, a valores numricos que correspondan en
algn sentido a las categoras originales. En el caso de
variables con dos categoras, sus valores se pueden
recodificar a valores 0 y 1. el valor 1 indicar la
presencia de la cualidad correspondiente a una de las
dos categoras, y el 0, la ausencia de dicha cualidad (en
consecuencia, la presencia de la otra).

Categora de referencia
Cuando una variable presente ms de dos categoras,
debern generarse tantas variables como el total de
categoras menos uno. Cada nueva variable tomar
valor 1 para una determinada categora y 0 en el resto,
de tal forma que los individuos en una misma categora
tomarn valor 1 en una misma variable y 0 en el resto.
La categora no considerada, o categora referencia,
estar representada por el valor 0 en todas las nuevas
variables. Mediante este esquema de codificacin, los
coeficientes de las nuevas variables reflejarn el efecto
de las categoras representadas respecto al efecto de la
categora de referencia.

Supuestos
Las variables de pronstico o estn altamente
correlacionadas entre s.
La media y la varianza en una variable de pronstico
no estn correlacionadas.
La correlacin entre dos variables de pronstico es
constante a travs de los grupos, (el experimento se
realice en las mismas circunstancias y no debe haber
diferentes fuentes de variacin que haga que los
grupos sean diferentes).
Los valores (objetos o sujetos) deben ser
independientes.
Los valores de las variables de pronstico deben
tener una distribucin normal .

Supuestos
El procedimiento es ms efectivo cuando la
pertenencia al grupo es una variable
verdaderamente categrica; si la pertenencia al
grupo se basa en los valores de una variable
continua (por ejemplo, un cociente de inteligencia
alto respecto a uno bajo), considere el uso de la
regresin lineal para aprovechar la informacin ms
rica ofrecida por la propia variable continua.
Al llevar a cabo una clasificacin, se supone a priori,
que el resultado obtenido es tan confiable como lo
indica el porcentaje de clasificaciones correctas
obtenidas en la etapa de validacin del modelo.

De la misma manera que el Anlisis Cluster, el objetivo del Anlisis


Discriminante es la clasificacin de individuos en grupos. Sin
embargo, tanto la tcnica como la informacin obtenida a travs de
ambos mtodos es distinta.
En el Anlisis Discriminante, el punto de partida es un colectivo de
individuos clasificados en dos o ms grupos. De estos individuos se
conoce el valor de un nmero determinado de variables. Puesto que
se conoce la existencia de esos grupos, parece lgico pensar que
existen variables cuyo valor determina la pertenencia del individuo a
uno u otro grupo. Los objetivos del Anlisis Discriminante son:
La identificacin de las variables que mejor discriminen entre los
grupos y la evaluacin del poder discriminante de cada una de
ellas.
Asignar, con un cierto grado de riesgo, un individuo, que no
forma parte de los datos iniciales, y del que se conoce el valor de
las variables discriminantes, a uno de los grupos.

La seleccin de las variables discriminantes es el paso inicial


de esta tcnica. Existen mtodos estadsticos que permiten
detectar que variables discriminan mejor unos grupos de
otros, y, aunque antes de realizar el anlisis se desconoce
esta informacin, es conveniente introducir en el estudio
todas las variables que pueden "explicar" la separacin de los
individuos en los distintos grupos.
Una vez que se han seleccionado las variables
discriminantes, el objetivo a conseguir es la elaboracin de
las funciones discriminantes, que son nuevas variables
combinacin lineal de las anteriores. Los coeficientes de la
funcin discriminante indican el peso de cada variable en la
funcin discriminante, y, una vez obtenidos estos coeficientes,
se podr asignar a cada individuo unos valores que
permitirn asignarle a uno u otro grupo.

Anlisis Discriminante simple


en SPSS
Dos grupos o categoras.

PROCEDIMIENTO
I.
II.

Formulacin del problema


Estimacin de los coeficientes de la
funcin discriminante.
III. Determinacin de la significancia de la
funcin discriminante.
IV. Interpretacin de los resultados.
V. Evaluacin de la validez del anlisis.

I. Planteamiento del problema


Identificar los Objetivos del anlisis.

Definir el Tamao de muestra total:


Por cada variable de pronstico debe haber por lo
menos 20 encuestados para mantener resultados
estables.
Cuando los tamaos de los grupos o categoras son
desiguales se requiere efectuar una ponderacin.
Calcular segn tamao de grupos

I. Planteamiento del problema


Identificar la Variable de criterio
Debe constar de dos, tres o mximo cuatro grupos o
categoras
Cuando tiene una escala de intervalo o de razn,
primero debe convertirse en categoras.
Opinin de marca, puede dividirse de una escala
Likert de 7 puntos en las categoras de desfavorable
(1,2,3), neutra (4) y favorable (5,6 y 7).
Se puede graficar la distribucin de la variable
dependiente y formar grupos del mismo tamao
escogiendo puntos apropiados de divisin para cada
categora.

I. Planteamiento del problema


Muestra de anlisis o de estimacin:
Parte de la muestra total que se toma para estimar la funcin
discriminante. Aprox. 70% del total

Muestra de validacin o de retencin:


Parte de la muestra total que se toma para verificar los
resultados de la muestra de estimacin. Aprox. 30% del total.

Validacin cruzada doble:


Cuando la muestra es bastante grande, puede dividirse a la
mitad. Luego se intercambian las mitades y se repite el anlisis.

La muestra debe seguir la distribucin total de la


muestra.
La validacin debe realizarse varias veces y en cada
una la muestra debe dividirse en diversas parte de
anlisis y validacin.

I. Planteamiento del problema


Identificar las Variables de pronstico
Se eligen en base con un modelo terico o de
investigaciones anteriores
Investigacin exploratoria: Experiencia.

Visitantes de un centro vacacional


Objetivo: Determinar las caractersticas
ms notables de las familias que han
visitado cierto centro vacacional en los
dos ltimos aos.
Muestra total: 42 hogares
Muestra de anlisis: 30 hogares
Muestra de validacin: 12 hogares

Muestra de anlisis
Resmenes de casos

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

Visita al
centro
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
SI
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO
NO

Ingreso
familiar actual
50.2
70.3
62.9
48.5
52.7
75.0
46.2
57.0
64.1
68.1
73.4
71.9
56.2
49.3
62.0
32.1
36.2
43.2
50.4
44.1
38.3
55.0
46.1
35.0
37.3
41.8
57.0
33.4
37.5
41.3

Opinin de
los viajes
5
6
7
7
6
8
5
2
7
7
6
5
1
4
5
5
4
2
5
6
6
1
3
6
2
5
8
6
3
3

Importancia de
las vacaciones
familiares
8
7
5
5
6
7
3
4
5
6
7
8
8
2
6
4
3
5
2
6
6
2
5
4
7
1
3
8
2
3

Tamao de
la familia
3
4
6
5
4
5
3
6
4
5
5
4
6
3
2
3
2
2
4
3
2
2
3
5
4
3
2
2
3
2

Edad del jefe


del hogar
43
61
52
36
55
68
62
51
57
45
44
64
54
56
58
58
55
57
37
42
45
57
51
64
54
56
36
50
48
42

Muestra de validacin
Resmenes de casos

1
2
3
4
5
6
7
8
9
10
11
12

Visita al
centro
SI
SI
SI
SI
SI
SI
NO
NO
NO
NO
NO
NO

Ingreso
familiar actual
50.8
63.6
54.0
45.0
68.0
62.1
35.0
49.6
39.4
37.0
54.5
38.2

Opinin de
los viajes
4
7
6
5
6
5
4
5
6
2
7
2

Importancia
de las
vacaciones
familiares
7
4
7
4
6
6
3
3
5
6
3
2

Tamao de
la familia
3
7
4
3
6
3
4
5
3
5
3
3

Edad del jefe


del hogar
45
55
58
60
46
56
54
39
44
51
37
49

Variable de criterio o agrupacin


VISITA: Las familias que visitaron el
centro vacacional en los dos aos
anteriores fueron codificadas como 1. y
las que no lo hicieron, como 2.
Las muestras de anlisis y de validacin
se equilibraron en trminos de VISITA.

Variables de pronstico
INGRESO: Ingreso familiar anual
VIAJE: Opinin de los viajes (Likert 9
puntos).
VACACIONES: Importancia concedida a
las vacaciones familiares (Likert 9 puntos).
TAMAO: Tamao de la familia
EDAD: Edad del jefe del hogar

Introduccin de Variables
Men Analizar > Clasificar> Discriminante...
Seleccione una variable de
agrupacin con valores
enteros y pulse en Definir
rango para especificar las
categoras de inters.
Seleccione las variables
independientes o de
pronstico. (Si la variable de
agrupacin no tiene valores
enteros, la opcin
Recodificacin automtica
en el men Transformar
crear una variable que los
tenga).

Definir rango

Especifique los valores mnimo y mximo de la variable


de agrupacin para el anlisis.
Los valores mnimo y mximo deben ser nmeros
enteros.
Los casos con valores fuera de este rango no se utilizan
en el anlisis discriminante, pero s se clasifican en uno
de los grupos existentes a partir de los resultados que
obtengan en el anlisis.

Seleccionar casos

Para seleccionar casos para el anlisis:


En el cuadro de dilogo Anlisis discriminante, seleccione una variable de
seleccin.
Pulse en Valor para introducir un nmero entero como valor de seleccin.

Slo se utilizan los casos con el valor especificado en la variable de


seleccin para derivar las funciones discriminantes. Tanto para los
casos seleccionados como para los no seleccionados se generan
resultados de clasificaciones y estadsticos.
Este proceso ofrece un mecanismo para clasificar casos nuevos
basados en datos previos o para dividir los datos en subconjuntos de
anlisis y de validacin para realizar procedimientos de validacin en
el modelo generado.

II. Estimacin de los coeficientes


de la funcin discriminante.
Mtodo directo:
Introducir simultneamente todas las
variables de pronstico que satisfacen el
criterio de tolerancia, cualquiera que sea su
poder de discriminacin.
Apropiado si, a partir de investigaciones
anteriores o de un modelo terico, el
investigador quiere que la discriminacin se
base en todas las variables de pronstico.

Mtodos de estimacin
Mtodo progresivo (por pasos):
Utiliza el anlisis por pasos para controlar
la entrada y la salida de variables de
pronstico, las cuales se agregan en
secuencia segn su capacidad de
discriminar entre grupos.
Apropiado cuando el investigador quiere
elegir un subconjunto de variables para
incluirlas en la funcin discriminante.

Resumen del procesamiento para


el anlisis de casos
Resumen del procesamiento para el anlisis de casos
Casos no ponderados
Vlidos
Excluidos
Cdigos de grupo para
perdidos o fuera de rango
Perdida al menos una
variable discriminante
Perdidos o fuera de rango
ambos, el cdigo de
grupo y al menos una de
las variables
discriminantes.
No seleccionados
Total excluidos
Casos Totales

N
30

Porcentaje
71.4

.0

.0

.0

12
12
42

28.6
28.6
100.0

Botn Estadsticos

Descriptivos
Medias.
Muestra la media y desviacin tpica totales y las medias
y desviaciones tpicas de grupo, para las variables de
pronstico.

ANOVAs univariados
Realiza un ANOVA de un factor sobre la igualdad de las
medias de grupo para cada variable de pronstico.

Test M de Box.
Contraste sobre la igualdad de las matrices de covarianza
de los grupos. Para tamaos de muestra suficientemente
grandes, un valor de p no significativo quiere decir que no
hay evidencia suficiente de que las matrices difieran. Esta
prueba es sensible a las desviaciones de la normalidad
multivariada.

Medias y desviaciones estndar.


Estadsticos de grupo

Visita al centro
SI

NO

Total

Ingreso familiar actual


Opinin de los viajes
Importancia de las
vacaciones familiares
Tamao de la familia
Edad del jefe del hogar
Ingreso familiar actual
Opinin de los viajes
Importancia de las
vacaciones familiares
Tamao de la familia
Edad del jefe del hogar
Ingreso familiar actual
Opinin de los viajes
Importancia de las
vacaciones familiares
Tamao de la familia
Edad del jefe del hogar

N vlido (segn lista)


No
ponderados
Ponderados
15
15.000
15
15.000

Media
60.520
5.400

Desv. tp.
9.8307
1.9198

5.800

1.8205

15

15.000

4.333
53.733
41.913
4.333

1.2344
8.7706
7.5511
1.9518

15
15
15
15

15.000
15.000
15.000
15.000

4.067

2.0517

15

15.000

2.800
50.133
51.217
4.867

.9411
8.2710
12.7952
1.9780

15
15
30
30

15.000
15.000
30.000
30.000

4.933

2.0998

30

30.000

3.567
51.933

1.3309
8.5740

30
30

30.000
30.000

Examen de medias y desviaciones


Conviene antes de iniciar la estimacin de las
funciones discriminantes, analizar en detalle las
variables de pronstico del modelo.
Parece que los grupos estn ms separados en
trminos de ingreso que de otras variables.
Parece haber mayor separacin en la
importancia concedida a las vacaciones
familiares que en la opinin sobre los viajes.
La diferencia entre los dos grupos en cuanto a
la edad del jefe del hogar es pequea y la
desviacin estndar de esta variable es grande.

Matrices
Matrices de coeficientes disponibles para las variables de
pronstico.
Correlacin intra-grupos. Muestra la matriz de
correlaciones intra-grupos combinada, que se obtiene de
promediar las matrices de covarianza individuales para todos
los grupos antes de calcular las correlaciones.
Covarianza intra-grupos. Muestra la matriz de covarianza
intra-grupos combinada, la cual puede diferir de la matriz de
covarianza total. La matriz se obtiene de promediar, para
todos los grupos, las matrices de covarianza individuales.
Covarianza de grupos separados. Muestra las matrices de
covarianza de cada grupo por separado.
Covarianza total. Muestra la matriz de covarianza para
todos los casos, como si fueran una nica muestra.

Matriz de Correlacin intragrupos


Matrices intra-grupo combinadas

Correlacin

Ingreso familiar actual


Opinin de los viajes
Importancia de las
vacaciones familiares
Tamao de la familia
Edad del jefe del hogar

Ingreso
familiar actual
1.000
.197

Opinin de
los viajes
.197
1.000

Importancia
de las
vacaciones
familiares
.091
.084

.091

.084

1.000

.070

.017

.089
-.014

-.017
-.197

.070
.017

1.000
-.043

-.043
1.000

Tamao de
la familia
.089
-.017

Edad del jefe


del hogar
-.014
-.197

Matriz de correlacin comn del grupo: Correlacin de Pearson


entre las distintas variables de Pronstico del modelo.
Detecta si existe multicolinealidad en las variables pronstico.
En este caso indica que hay pocas correlaciones entre las
variables de pronstico. Es poco probable que se presente un
problema de multicolinealidad, dando as estabilidad a los
parmetros que vamos a estimar.

Matriz de Covarianza intragrupos


a
Matrices intra-grupo combinadas

Covarianza

Ingreso familiar actual


Opinin de los viajes
Importancia de las
vacaciones familiares
Tamao de la familia
Edad del jefe del hogar

Ingreso
familiar actual
76.831
3.350

Opinin de
los viajes
3.350
3.748

Importancia
de las
vacaciones
familiares
1.555
.317

1.555

.317

3.762

.150

.288

.855
-1.070

-.036
-3.252

.150
.288

1.205
-.402

-.402
72.667

Tamao de
la familia
.855
-.036

Edad del jefe


del hogar
-1.070
-3.252

a. La matriz de covarianzas tiene 28 grados de libertad

Matriz de covarianza intragrupos: Calculada


como media aritmtica ponderada de las
covarianzas dentro de cada grupo de
clasificacin.
Se calcula para toda la muestra.

Matriz de Covarianza
de grupos separados
Matrices de covarianzas

Visita al centro
SI

NO

Ingreso familiar actual


Opinin de los viajes
Importancia de las
vacaciones familiares
Tamao de la familia
Edad del jefe del hogar
Ingreso familiar actual
Opinin de los viajes
Importancia de las
vacaciones familiares
Tamao de la familia
Edad del jefe del hogar

Ingreso
familiar actual
96.642
7.170

Opinin de
los viajes
7.170
3.686

Importancia
de las
vacaciones
familiares
9.397
.157

9.397

.157

3.314

.357

-.057

3.207
28.249
57.020
-.469

-.214
-.243
-.469
3.810

.357
-.057
-6.287
.476

1.524
-2.762
-1.497
.143

-2.762
76.924
-30.388
-6.262

-6.287

.476

4.210

-.057

.633

-1.497
-30.388

.143
-6.262

-.057
.633

.886
1.957

1.957
68.410

Tamao de
la familia
3.207
-.214

Edad del jefe


del hogar
28.249
-.243

Matriz de Covarianza
de grupos total
Matrices de covarianzasa

Visita al centro
Total

Ingreso familiar actual


Opinin de los viajes
Importancia de las
vacaciones familiares
Tamao de la familia
Edad del jefe del hogar

Ingreso
familiar actual
163.718
8.368

Opinin de
los viajes
8.368
3.913

Importancia
de las
vacaciones
familiares
9.843
.784

9.843

.784

4.409

.832

1.892

8.204
16.291

.389
-2.147

.832
1.892

1.771
1.039

1.039
73.513

a. La matriz de covarianzas total presenta 29 grados de libertad.

Tamao de
la familia
8.204
.389

Edad del jefe


del hogar
16.291
-2.147

de Wilks (estadstica U) y
ANOVAs Univariados
Es el cociente de la Suma de Cuadrados Intragrupos y la
Suma de Cuadrados Total en un ANOVA simple para cada
una de las variables de pronstico por separado y tendiendo
como factor la variable de criterio.
La lambda de Wilks para un conjunto de p variables
independientes mide las desviaciones dentro de cada grupo
respecto a las desviaciones totales sin distinguir grupos, en
el espacio p-dimensional generado por los valores de las p
variables.
Si 1: No existe diferencia entre las medias de los
grupos en la variable considerada. Los grupos estn
mezclados.
Si 0: Una gran parte de la variabilidad total es atribuible
a la diferencia entre las medias de los distintos grupos.

Prueba F univariadas
Determina si cada una de las variables de pronstico, tomada de
forma aislada, diferencia significativamente entre los grupos de la
variable de criterio.
Indica que cuando se consideran separadamente las variables de
pronstico, slo el ingreso, la importancia de las vacaciones y el
tamao del hogar distinguen de manera significativa entre quienes
visitaron un centro vacacional y quienes no lo hicieron.

Pruebas de igualdad de las medias de los grupos

Ingreso familiar actual


Opinin de los viajes
Importancia de las
vacaciones familiares
Tamao de la familia
Edad del jefe del hogar

Lambda
de Wilks
.453
.925

F
33.796
2.277

.824
.657
.954

gl1

gl2
1
1

28
28

Sig.
.000
.143

5.990

28

.021

14.636
1.338

1
1

28
28

.001
.257

Test M de Box sobre la igualdad


de las matrices de covarianza
Contrasta hasta qu
punto las matrices de
varianzas-covarianzas
para cada grupo o
nivel de la variable
pueden o no proceder
de la misma poblacin,
es decir, difieren o no
significativamente.

Logaritmo de los determinantes


Visita al centro
SI
NO
Intra-grupos combinada

Rango
5
5
5

Logaritmo del
determinante
10.773
10.071
11.349

Los rangos y logaritmos naturales de los


determinantes impresos son los de las matrices de
covarianzas de los grupos.

Resultados de la prueba
M de Box
F

Aprox.
gl1
gl2
Sig.

25.964
1.393
15
3156.632
.141

Contrasta la hiptesis nula de que las matrices


de covarianzas poblacionales son iguales.

Coeficientes de la funcin
Coeficientes de clasificacin de Fisher:
Muestra los coeficientes de la Funcin lineal de
clasificacin de Fisher que pueden utilizarse
directamente para la clasificacin. Se obtiene un
conjunto de coeficientes para cada grupo, y se
asigna un caso al grupo para el que tiene una
mayor puntuacin discriminante.
Coeficientes sin estandarizar: Muestra los
coeficientes de la funcin discriminante sin
estandarizar (los coeficientes brutos).

Resumen de las funciones


cannicas discriminantes
Autovalores
Funcin
1

Autovalor
% de varianza
1.786a
100.0

% acumulado
100.0

Correlacin
cannica
.801

a. Se han empleado las 1 primeras funciones discriminantes


cannicas en el anlisis.

Como hay dos grupos slo se estima una funcin discriminante.


El valor propio asociado a esta funcin es 1.7862, que significa
100% de la varianza explicada.
La correlacin cannica es una medida de la asociacin entre
cada funcin discriminante y la variable de criterio.
La correlacin cannica asociada con esta funcin es 0.8007. El
cuadrado de esta correlacin, (0.8007)^2 = 0.64, indica que 64%
de la varianza de la variable de criterio (VISITA) se explica con
este modelo.

Correlacin cannica y autovalores


La correlacin cannica y el autovalor asociado a una
funcin son dos medidas, relacionadas con la Lambda
de Wilks, que permitirn evaluar la informacin que
aportar cada funcin discriminante en particular.
La correlacin cannica mide las desviaciones de las
puntuaciones discriminantes entre grupos respecto a las
desviaciones totales sin distinguir grupos.
El autovalor mide las desviaciones de las puntuaciones
discriminantes entre los grupos respecto a las
desviaciones dentro de los grupos.
En ambos casos, si el valor obtenido es grande la
dispersin ser debida a las diferencias entre grupos y,
en consecuencia, la funcin discriminar mucho los
grupos.

III. Determinacin de la Significancia


de la funcin discriminante.
Se puede comprobar en forma estadstica la hiptesis
nula de que las medias en la poblacin de todas las
funciones discriminantes son de todos los grupos.
Se basa en una transformacin de chi cuadrada de la
estadstica de Wilks.
En nuestro ejemplo, la de Wilks de 0.3589 se
transforma en una chi cuadrada de 26.13 con 5 grados
de libertad, que es significativo por arriba de 0.05.
Lambda de Wilks
Contraste de
las funciones
1

Lambda
de Wilks
.359

Chi-cuadrado
26.130

gl
5

Sig.
.000

Nota importante
No tiene sentido interpretar los resultados
si las funciones discriminantes estimadas
no son estadsticamente significativas.
Si se rechaza la hiptesis nula, lo que
indica discriminacin significativa, se
puede proceder a interpretar los
resultados.

IV. Interpretacin de Resultados


Coeficientes de
discriminacin: Interpretacin
semejante al anlisis de
regresin mltiple.
El valor del coeficiente para
una VP depende de las otras
VP que se incluyan en el
anlisis.
Pueden aplicarse a los
valores directos de las
variables en la muestra de
anlisis con fines de
clasificacin.

Coeficientes de las funciones cannicas

Ingreso familiar actual


Opinin de los viajes
Importancia de las
vacaciones familiares
Tamao de la familia
Edad del jefe del hogar
(Constante)

Funcin
1
.08477
.04964
.12028
.42739
.02454
-7.97548

Coeficientes no tipificados

Funcin discriminante, tanto en valores estandarizados como no estandarizados.


D = -7.975 +.085(70.3)+0.050(6)+.120(7)+.427(4)+.025(61)=2.3735

Los signos de los


coeficientes asociados
con todas las variables
de pronstico son
positivos, lo que indica
que a ms ingreso
familiar, tamao de la
familia, importancia de
las vacaciones familiares,
opinin de los viajes y
edad, es ms probable
que una familia visite un
centro vacacional.

Coeficientes de las funciones cannicas

Ingreso familiar actual


Opinin de los viajes
Importancia de las
vacaciones familiares
Tamao de la familia
Edad del jefe del hogar
(Constante)
Coeficientes no tipificados

Funcin
1
.08477
.04964
.12028
.42739
.02454
-7.97548

IV. Interpretacin de Resultados


Coeficientes estandarizados de las
funciones discriminantes cannicas

Ingreso familiar actual


Opinin de los viajes
Importancia de las
vacaciones familiares
Tamao de la familia
Edad del jefe del hogar

Funcin
1
.74301
.09611
.23329
.46911
.20922

Coeficientes
estandarizados
Revelan la Importancia
relativa de las variables de
pronstico.
En general, cuanto mayor
sea el valor, mayor ser la
potencia discriminante de
la funcin, comparada con
las variables de pronstico
con coeficientes menores.

IV. Interpretacin de Resultados


Correlaciones estructurales:
Correlaciones simples entre
cada variable de pronstico y la
funcin discriminante.
Representan la varianza que
comparten con la funcin la
variable de pronstico.
Cuanto mayor sea la magnitud
de una CE, ms importante ser
la variable correspondiente de
pronstico.

Matriz de estructura

Ingreso familiar actual


Tamao de la familia
Importancia de las
vacaciones familiares
Opinin de los viajes
Edad del jefe del hogar

Funcin
1
.822
.541
.346
.213
.164

Correlaciones intra-grupo combinadas entre


las variables discriminantes y las funciones
discriminantes cannicas tipificadas
Variables ordenadas por el tamao de la
correlacin con la funcin.

IV. Interpretacin de Resultados


Funciones en los centroides de los grupos

Visita al centro
SI
NO

Funcin
1
1.291
-1.291

Funciones discriminantes cannicas no tipificadas


evaluadas en las medias de los grupos

Centroide: Se promedian las puntuaciones discriminantes para


todos los individuos dentro de un grupo o categora particular para
llegar a la media del grupo.
Indican la ubicacin ms tpica de un individuo de un grupo en
particular.
Una comparacin de los centroides de los grupos muestra qu tan
alejados estn los grupos a lo largo de la funcin discriminante.

Perfil de caractersticas
Sera razonable trazar
un perfil de los dos
grupos en trminos de
las medias de las tres
variables de pronstico
que parecen ser las
ms importantes.
Ingreso
Tamao de la familia
Importancia de las
vacaciones

Grficos combinados
Grupos combinados.
Crea un diagrama de
dispersin, con todos los
grupos, de los valores en
las dos primeras
funciones discriminantes.
Si slo hay una funcin,
en su lugar se muestra
un histograma.

Grficos por grupos separados


Grupos separados.
Crea diagramas de
dispersin, de los grupos
por separado, para los
valores en las dos
primeras funciones
discriminantes. Si slo
hay una funcin se
muestra un histograma
en su lugar.

Grficos por grupos separados


Grupos separados.
Crea diagramas de
dispersin, de los grupos
por separado, para los
valores en las dos
primeras funciones
discriminantes. Si slo
hay una funcin se
muestra un histograma
en su lugar.

V. Evaluar la validez del AD


Antes de interpretar con confianza algn
resultado, es necesario validarlos.

Botn Clasificar
Cuadro de dilogo Anlisis discriminante: Clasificar

Probabilidades previas
Probabilidades previas.
Estos valores se utilizan para la clasificacin.
Puede especificar que las probabilidades
previas sean iguales para todos los grupos
(Todos los grupos iguales),
Dejar que los tamaos de grupo observados
en la muestra determinen las probabilidades
de la pertenencia al grupo (Calcular segn
tamaos de grupos).

Probabilidades previas
Probabilidades previas para los grupos

Visita al centro
SI
NO
Total

Previas
.500
.500
1.000

Casos utilizados en el
anlisis
No
ponderados
Ponderados
15
15.000
15
15.000
30
30.000

En nuestro ejemplo se decidi que las probabilidades


sean iguales para ambos grupos

Resultados para cada caso.


Se muestran, para cada caso, los cdigos del
grupo real de pertenencia, el grupo
pronosticado, las probabilidades posteriores y
las puntuaciones discriminantes.
Los sujetos se asignan a grupos basados en sus
puntuaciones discriminantes y en una regla de
clasificacin apropiada (basada en el teorema
de Bayes).
En un AD de dos grupos se asignar un caso al
grupo con el centroide ms cercano.

Estadsticos por casos

Grupo mayor

Original

Nmero
de caso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31 u
32 u
33 u
34 u
35 u
36 u
37 u
38 u
39 u
40 u
41 u
42 u

Grupo real
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
1
1
1
1
1
1
2
2
2
2
2
2

u. Caso no seleccionado
**. Caso mal clasificado

Grupo
pronosticado
2**
1
1
1
1
1
2**
1
1
1
1
1
1
2**
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2**
1
1
2**
1
1
2
2
2
2
2
2

P(D>d | G=g)
p
gl
.263
1
.299
1
.393
1
.236
1
.471
1
.033
1
.519
1
.969
1
.822
1
.414
1
.190
1
.187
1
.690
1
.555
1
.446
1
.597
1
.394
1
.946
1
.487
1
.699
1
.646
1
.602
1
.612
1
.442
1
.650
1
.908
1
.520
1
.609
1
.512
1
.431
1
.294
1
.195
1
.677
1
.539
1
.226
1
.707
1
.902
1
.221
1
.934
1
.508
1
.404
1
.534
1

P(G=g | D=d)
.609
.998
.996
.567
.814
1.000
.841
.962
.980
.996
.999
.999
.987
.859
.796
.991
.996
.971
.824
.912
.989
.879
.883
.794
.897
.974
.842
.991
.993
.995
.651
.999
.905
.852
.998
.914
.975
.544
.972
.836
.765
.993

Segundo grupo mayor


Distancia de
Mahalanobis
al cuadrado
hasta el
centroide
1.252
1.080
.731
1.407
.519
4.562
.416
.001
.050
.667
1.721
1.740
.159
.349
.582
.279
.725
.005
.482
.149
.211
.272
.258
.592
.206
.013
.414
.261
.430
.621
1.101
1.677
.173
.377
1.465
.141
.015
1.497
.007
.438
.696
.386

Grupo
1
2
2
2
2
2
1
2
2
2
2
2
2
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
1
2
2
1
1
1
1
1
1

P(G=g | D=d)
.391
.002
.004
.433
.186
.000
.159
.038
.020
.004
.001
.001
.013
.141
.204
.009
.004
.029
.176
.088
.011
.121
.117
.206
.103
.026
.158
.009
.007
.005
.349
.001
.095
.148
.002
.086
.025
.456
.028
.164
.235
.007

Distancia de
Mahalanobis
al cuadrado
hasta el
centroide
2.141
13.115
11.814
1.950
3.467
22.262
3.754
6.471
7.878
11.553
15.166
15.220
8.888
3.968
3.311
9.676
11.792
7.024
3.564
4.822
9.249
4.246
4.304
3.287
4.531
7.281
3.758
9.569
10.485
11.359
2.351
15.032
4.692
3.873
14.385
4.868
7.320
1.847
7.105
3.689
3.056
10.265

Puntuaciones
discriminantes

Funcin 1
-.172
2.330
2.146
.105
.571
3.427
-.646
1.253
1.516
2.108
2.603
2.610
1.690
-.701
.528
-1.819
-2.143
-1.359
-.597
-.905
-1.750
-.769
-.783
-.522
-.837
-1.407
-.647
-1.802
-1.947
-2.079
-.242
2.586
.875
-.677
2.502
.915
-1.414
-.068
-1.374
-.629
-.457
-1.913

Tabla de resumen.
"Matriz de Confusin": Nmero de
sujetos correcta e incorrectamente
clasificados a cada uno de los grupos,
basndose en el total de la muestra.
Los coeficientes discriminantes, estimados
en la muestra de anlisis, se multiplican
por los valores de las variables de
pronstico en la muestra de validacin
para generar puntuaciones de
discriminacin para los sujetos de esta
ltima muestra.

Validacin cruzada con exclusin


Clasificacin dejando uno fuera. Se clasifica
cada caso del anlisis mediante la funcin
derivada a partir de todos los casos, excepto el
propio caso. Tambin conocido como mtodo-U.
El modelo discriminante se estima tantas veces
como encuestados haya en la muestra.
Se usa cuando no se puede tener una muestra
de validacin grande.
Confiere una sensacin de solidez de
estimacin al tomar a cada encuestado, uno por
uno, como muestra de validacin.

Resultados de la clasificacin
Resultados de la clasificacinb,c,d

Casos seleccionados

Original

Recuento
%

Validacin cruzadaa

Recuento
%

Casos no seleccionados

Original

Recuento
%

Visita al centro
SI
NO
SI
NO
SI
NO
SI
NO
SI
NO
SI
NO

Grupo de pertenencia
pronosticado
SI
NO
12
3
0
15
80.0
20.0
.0
100.0
11
4
2
13
73.3
26.7
13.3
86.7
4
2
0
6
66.7
33.3
.0
100.0

Total
15
15
100.0
100.0
15
15
100.0
100.0
6
6
100.0
100.0

a. La validacin cruzada slo se aplica a los casos del anlisis. En la validacin cruzada, cada caso se clasifica
mediante las funciones derivadas a partir del resto de los casos.
b. Clasificados correctamente el 90.0% de los casos agrupados originales seleccionados.
c. Clasificados correctamente el 83.3% de casos agrupados originales no seleccionados.
d. Clasificados correctamente el 80.0% de los casos agrupados validados mediante validacin cruzada
seleccionados.

Proporcin de aciertos
Porcentaje de casos bien clasificados.
Se suman los elementos de la diagonal y
se dividen entre el total de casos.
Se espera que el porcentaje de sujetos
bien clasificados con el AD sea por lo
menos 25% mayor que el obtenido al
azar.

Resultado de la clasificacin
Sujetos originales:

90% (27/30)

Inflada artificialmente, pues los datos de la estimacin


son los mismos para la validacin.

Validacin cruzada: 80% (24/30).


Muestra de validacin:
83.33 % (10/12).
Dados dos grupos del mismo tamao, uno
esperara por obra de la casualidad una
proporcin de aciertos de = 50%.
La mejora sobre el azar es de ms de 25 % y se
considera satisfactoria la validez del anlisis
discriminante.

Usar matriz de covarianzas


Existe la opcin de clasificar los casos utilizando
una matriz de covarianzas intra-grupos o una
matriz de covarianzas de los grupos separados.
Intra-grupos. Se utiliza la matriz de covarianza intragrupos combinada para clasificar los casos.
Grupos separados. Para la clasificacin se utilizan
las matrices de covarianza de los grupos separados.
Dado que la clasificacin se basa en las funciones
discriminantes y no en las variables originales, esta
opcin no siempre es equivalente a la discriminacin
cuadrtica.

Evaluar riesgo crediticio


Si usted es un oficial de prstamos en un
banco, quiere poder identificar las
caractersticas que indican si las personas
van a fallar o no en un prstamo, y quiere
usar esas caractersticas para identificar
buenos y malos riesgos crediticios.
700 clientes a los que se les otorg un
prstamo.
150 prospectos

Preparando los datos para el anlisis


El establecer una
semilla aleatoria le
permite replicar la
seleccin aleatoria de
sujetos en este
anlisis.

Preparando los datos para el


anlisis
Para crear la variable de
seleccin para validacin.
rv.bernoulli(0.7)
Esto hace que los valores
a validar sean generados
aleatoriamente con una
distribucin Bernoulli y un
parmetro de
probabilidad de 0.7

Preparando los datos para el


anlisis
Slo quiere usar validar
con los sujetos que
podran ser usados para
el modelo; es decir, los
clientes previos.
Sin embargo, hay 150
personas que
corresponden a clientes
potenciales en el archivo
de datos.
Para hacer los clculos
slo para los clientes
previos, use el botn Si
MISSING(impago) = 0

Preparando los datos para el


anlisis
validar

Estadsticos
validar
N
Vlidos
Perdidos

Vlidos

700
150

Perdidos
Total

.00
1.00
Total
Sistema

Frecuencia
201
499
700
150
850

Porcentaje
23.6
58.7
82.4
17.6
100.0

Porcentaje
vlido
28.7
71.3
100.0

Porcentaje
acumulado
28.7
100.0

Esto asegura que validar slo se calcular para los sujetos sin valores
perdidos en impago; es decir, para los clientes que recibieron previamente
un prstamo.
Aproximadamente el 70% de los clientes a los que se les haba dado un
prstamos tendrn un valor de 1.
Estos clientes sern usados para crear el modelo.
Los clientes restantes a los que previamente se les haba dado un
prstamo sern usados en la muestra de validacin

Corriendo el anlisis

Variable de criterio:
Impagos anteriores (0,1)

Variables de pronstico
Aos con la empresa actual
Aos en la direccin actual
Tasa de deuda sobre ingresos (x100)
Deuda de la tarjeta de crdito en miles

Validar (1)

Botn Estadsticos

Botn Clasificar

Botn Guardar

Clasificando clientes como bajo o


alto riesgo crediticio
Las funciones de clasificacin
son usadas para asignar
personas a los grupos.
Hay una funcin separada
para cada grupo. Para cada
sujeto, se calcula una
puntuacin discriminante para
cada funcin.
El modelo discriminante
asigna el sujeto al grupo cuya
funcin de clasificacin
obtuvo la puntuacin ms
alta.

Coeficientes de la funcin de clasificacin


Impagos anteriores
No
S
Aos con la empresa
actual
Aos en la direccin
actual
Tasa de deuda sobre
ingresos (x100)
Deuda de la tarjeta de
crdito en miles
(Constante)

.277

.109

.145

.085

.291

.386

-.734

-.303

-3.485

-3.676

Funciones discriminantes lineales de Fisher

Clasificando clientes como bajo o


alto riesgo crediticio
Los coeficientes para Aos con
la empresa actual y Aos en la
direccin actual son ms
pequeos para la funcin de
clasificacin SI, lo que significa
que los clientes que vivieron en la
misma direccin y trabajaron en la
misma compaa por muchos
aos son menos propensos a
incumplir con su pago de la
deuda.
De manera similar, los clientes
con mayor deuda son ms
propensos a fallar.

Coeficientes de la funcin de clasificacin


Impagos anteriores
No
S
Aos con la empresa
actual
Aos en la direccin
actual
Tasa de deuda sobre
ingresos (x100)
Deuda de la tarjeta de
crdito en miles
(Constante)

.277

.109

.145

.085

.291

.386

-.734

-.303

-3.485

-3.676

Funciones discriminantes lineales de Fisher

Clasificando clientes como bajo o


alto riesgo crediticio

Por ejemplo, considere el sujeto 701 y 703


El sujeto 701 ha tenido el mismo empleo por 16 aos,
vivido en su domicilio actual por 13 aos, y ha tenido
una deuda equivalente al 10.9% de su ingreso, $540 de
los cuales es de tarjeta de crdito.

Clasificando clientes como bajo o


alto riesgo crediticio

El modelo discriminante predice que hay slo cerca de


un 8% de probabilidad que la persona no pagar el
prstamo, por lo que es un buen riesgo crediticio.
El sujeto 703 ha tenido el mismo trabajo y vivido en la
misma direccin por menos aos y tiene ms deudas,
por lo que el modelo lo ve como un pobre riesgo
crediticio.

Verificando supuestos

Colinealidad de las variables de


pronstico
Matrices intra-grupo combinadas

Correlacin

Aos con la empresa


actual
Aos en la direccin
actual
Tasa de deuda sobre
ingresos (x100)
Deuda de la tarjeta de
crdito en miles

Aos con la
empresa
actual

Aos en la
direccin
actual

Tasa de
deuda sobre
ingresos
(x100)

Deuda de
la tarjeta
de crdito
en miles

1.000

.286

.104

.508

.286

1.000

.140

.290

.104

.140

1.000

.508

.508

.290

.508

1.000

La Matriz de correlacin intra-grupos muestra las correlaciones


entre las variables de pronstico.
Las correlaciones ms grandes ocurren entre Deuda de crdito en
miles y las otras variables, pero es difcil decir si son lo
suficientemente grandes como para preocuparse.
Observe las diferencias entre la Matriz de estructura y los
coeficientes estandarizados para estar seguro.

Correlacin de las medias y


varianzas de grupo
Estadsticos de grupo

Impagos anteriores
No

Total

Media
Aos con la empresa
actual
Aos en la direccin
actual
Tasa de deuda sobre
ingresos (x100)
Deuda de la tarjeta de
crdito en miles
Aos con la empresa
actual
Aos en la direccin
actual
Tasa de deuda sobre
ingresos (x100)
Deuda de la tarjeta de
crdito en miles
Aos con la empresa
actual
Aos en la direccin
actual
Tasa de deuda sobre
ingresos (x100)
Deuda de la tarjeta de
crdito en miles

Desv. tp.

N vlido (segn lista)


No
ponderados
Ponderados

9.5840

6.67766

375

375.000

8.8800

6.94239

375

375.000

8.8179

5.69545

375

375.000

1.2554

1.41769

375

375.000

5.1855

5.72737

124

124.000

6.3548

6.27836

124

124.000

14.4468

7.97554

124

124.000

2.3656

3.36732

124

124.000

8.4910

6.72386

499

499.000

8.2525

6.86476

499

499.000

10.2166

6.78238

499

499.000

1.5313

2.13087

499

499.000

Problema de heteroscedasticidad
La tabla de estadsticos de grupo revela un
problema potencialmente ms serio.
Para las cuatro variables de pronstico, las
medias de grupo ms grandes estn asociadas
con desviaciones estndar mayores.
En particular, observe Tasa de deuda sobre
ingresos y Deuda de la tarjeta de crdito en
miles para las cuales las medias y las
desviaciones estndar para el grupo SI son
considerablemente mayores.
En anlisis posteriores, podra considerar usar
valores transformados de estas variables.

Homogeneidad de las matrices de


covarianza
Logaritmo de los determinantes
Impagos anteriores
No
S
Intra-grupos combinada

Rango
4
4
4

Logaritmo del
determinante
11.185
12.253
11.957

Los rangos y logaritmos naturales de los


determinantes impresos son los de las matrices de
covarianzas de los grupos.

Resultados de la prueba
M de Box
F

Aprox.
gl1
gl2
Sig.

252.117
24.893
10
245917.2
.000

Contrasta la hiptesis nula de que las matrices


de covarianzas poblacionales son iguales.

Logaritmos del
determinante son
medidas de la
variabilidad de los
grupos. Entre ms
grandes los valores, los
grupos tendrn mayor
variabilidad.
Grandes diferencias en
los logaritmos de los
determinantes indican
grupos que tienen
diferentes matrices de
covarianza.

Homogeneidad de las matrices de


covarianza
Logaritmo de los determinantes
Impagos anteriores
No
S
Intra-grupos combinada

Rango
4
4
4

Logaritmo del
determinante
11.185
12.253
11.957

Los rangos y logaritmos naturales de los


determinantes impresos son los de las matrices de
covarianzas de los grupos.

Resultados de la prueba
M de Box
F

Aprox.
gl1
gl2
Sig.

252.117
24.893
10
245917.2
.000

Contrasta la hiptesis nula de que las matrices


de covarianzas poblacionales son iguales.

La M de Box prueba el
supuesto de igualdad de
covarianzas entre los
grupos.
Ya que la prueba es
significativa, debera
requerir matrices
separadas para ver si
esto da resultados de
clasificacin radicalmente
diferentes.

Evaluado la contribucin de las


variables de pronstico
Hay varias tablas que evalan la
contribucin de cada variable de
pronstico al modelo, incluyendo
Pruebas de igualdad de las medias de los
grupos,
Coeficientes estandarizados de la funcin
discriminante
Matriz estructura.

Pruebas de igualdad de las


medias de los grupos
Pruebas de igualdad de las medias de los grupos
Lambda
de Wilks
Aos con la empresa
actual
Aos en la direccin
actual
Tasa de deuda sobre
ingresos (x100)
Deuda de la tarjeta de
crdito en miles

gl1

gl2

Sig.

.920

43.262

497

.000

.975

12.911

497

.000

.871

73.534

497

.000

.949

26.597

497

.000

Mide el potencial de cada variable de pronstico antes de crear el


modelo. Cada prueba muestra los resultados de un ANOVA para la
variable de pronstico usando la variable de criterio como factor.
Si el p-valor es mayor a 0.10, la variable probablemente no
contribuye al modelo.
En este ejemplo, cada variable es significativa en el modelo
discriminante.

Pruebas de igualdad de las


medias de los grupos
Pruebas de igualdad de las medias de los grupos
Lambda
de Wilks
Aos con la empresa
actual
Aos en la direccin
actual
Tasa de deuda sobre
ingresos (x100)
Deuda de la tarjeta de
crdito en miles

gl1

gl2

Sig.

.920

43.262

497

.000

.975

12.911

497

.000

.871

73.534

497

.000

.949

26.597

497

.000

Lambda de Wilks es otra medida del potencia de una


variable. Valores ms pequeos indican que la variable es
mejor al discriminar entre grupos.
La tabla sugiere que Tasa de deuda sobre ingresos (x100)
es la mejor, seguida por Aos con la empresa actual, Deuda
en tarjeta de crdito en miles y Aos en la direccin actual

Coeficientes estandarizados de la
funcin discriminante
Coeficientes estandarizados de las
funciones discriminantes cannicas
Funcin
1
Aos con la empresa
actual
Aos en la direccin
actual
Tasa de deuda sobre
ingresos (x100)
Deuda de la tarjeta de
crdito en miles

-.784
-.295
.437
.649

Los coeficientes
estandarizados le
permiten comparar
variables medidas en
diferentes escalas.
Los coeficientes con
mayo valor absoluto
corresponden a variables
con mayor capacidad
discriminante.
Esta tabla le baja
importancia a Tasa..
pero el orden se
conserva.

Matriz de estructura
Matriz de estructura
Funcin
1
Tasa de deuda sobre
ingresos (x100)
Aos con la empresa
actual
Deuda de la tarjeta de
crdito en miles
Aos en la direccin
actual

.644
-.494
.387
-.270

Correlaciones intra-grupo combinadas entre


las variables discriminantes y las funciones
discriminantes cannicas tipificadas
Variables ordenadas por el tamao de la
correlacin con la funcin.

Muestra la correlacin de
cada variable de
pronstico con la funcin
discriminante.
El orden es el mismo que
el sugerido en las pruebas
de igualdad de las medias
de los grupos y es
diferente del mostrado en
la tabla de coeficientes
estandarizados.

Por qu la discrepancia?
Matriz de estructura
Funcin
1
Tasa de deuda sobre
ingresos (x100)
Aos con la empresa
actual
Deuda de la tarjeta de
crdito en miles
Aos en la direccin
actual

.644
-.494
.387
-.270

Correlaciones intra-grupo combinadas entre


las variables discriminantes y las funciones
discriminantes cannicas tipificadas
Variables ordenadas por el tamao de la
correlacin con la funcin.

La discrepancia se deba a la
colinealidad entre Aos con la
empresa actual y Deuda de la tarjeta
de crdito en miles observada en la
matriz de correlacin.
Ya que la matriz de estructura no se
ve afectada por la colinealidad, es
seguro decir que esta colinealidad ha
inflado la importancia de Aos con
la empresa actual y Deuda con la
tarjeta de crdito en miles en la
tabla de coeficientes estandarizados.
Por tanto, es Tasa de deuda sobre
ingresos (x100) la que mejor
discrimina entre los que cumplen y
los que no cumplen con la deuda.

Evaluando el ajuste del modelo


Adems de las medidas para verificar la
contribucin de las variables de pronstico
a su modelo discriminante, se proveen la
tabla de autovalores y la tabla de Lambda
de Wils para ver qu tan bien se ajusta de
manera global el modelo discriminante a
los datos.

Autovalores
Autovalores
Funcin
1

Autovalor
% de varianza
a
.357
100.0

% acumulado
100.0

Correlacin
cannica
.513

a. Se han empleado las 1 primeras funciones discriminantes


cannicas en el anlisis.

Provee informacin acerca de la eficacia relativa de cada


funcin discriminante.
Cuando hay dos grupos, la correlacin cannica es la
medida ms til en la tabla, y es equivalente a la
correlacin de Pearson entre las puntuaciones
discriminantes y los grupos.

Lambda de Wilks
Lambda de Wilks
Contraste de
las funciones
1

Lambda
de Wilks
.737

Chi-cuadrado
151.007

gl
4

Sig.
.000

Mide qu tan bien cada funcin separa los sujetos en los


grupos. Es igual a la proporcin de la varianza total en
las puntuaciones discriminantes no explicada por las
diferencias entre los grupos.
Valores ms pequeos indican mayor poder
discriminador de la funcin.

Lambda de Wilks
Lambda de Wilks
Contraste de
las funciones
1

Lambda
de Wilks
.737

Chi-cuadrado
151.007

gl
4

Sig.
.000

El estadstico Chi-cuadrado asociado prueba la hiptesis


que las medias de las funciones enlistadas son iguales
entre los grupos.
El p-valor pequeo indica que la funcin discriminante
hace un mejor trabajo que el azar al separar los grupos.

Validacin del modelo


Resultados de la clasificacinb,c,d

Casos seleccionados

Original

Recuento
%

Validacin cruzadaa

Recuento
%

Casos no seleccionados

Original

Recuento

Impagos anteriores
No
S
No
S
No
S
No
S
No
S
Casos desagrupados
No
S
Casos desagrupados

Grupo de pertenencia
pronosticado
No
S
281
94
30
94
74.9
25.1
24.2
75.8
278
97
31
93
74.1
25.9
25.0
75.0
106
36
10
49
95
55
74.6
25.4
16.9
83.1
63.3
36.7

Total
375
124
100.0
100.0
375
124
100.0
100.0
142
59
150
100.0
100.0
100.0

a. La validacin cruzada slo se aplica a los casos del anlisis. En la validacin cruzada, cada caso se clasifica
mediante las funciones derivadas a partir del resto de los casos.
b. Clasificados correctamente el 75.2% de los casos agrupados originales seleccionados.
c. Clasificados correctamente el 77.1% de casos agrupados originales no seleccionados.
d. Clasificados correctamente el 74.3% de los casos agrupados validados mediante validacin cruzada seleccionados.

Muestra de validacin inicial


La tabla de clasificacin muestra los resultados
prcticos de usar el modelo discriminante.
De los casos usados para crear el modelo, 94 de
124 personas que no pagaron son clasificadas
correctamente. 281 de 375 cumplidos son
clasificados correctamente.
75.2% de los sujetos de la muestra de
estimacin fueron clasificados correctamente.
La clasificacin basada en los sujetos usados
para crear el modelo tienden a ser muy
optimista en el sentido que su tasa de
clasificacin es inflada.

Muestra de validacin final


La clasificacin cruzada intenta corregir esto al clasificar
cada sujeto mientras se deja afuera de los clculos del
modelo; sin embargo, este mtodo es generalmente
todava ms optimista.
La muestra de validacin final se obtiene al clasificar los
clientes pasados que no fueron usados para crear el
modelo.
77.1% de los sujetos no seleccionados en la estimacin
son clasificados correctamente por el modelo.
Esto sugiere que, de manera global, su modelo es de
hecho correcto en 3 de 4 veces.
Los 150 sujetos desagrupados son los clientes prospectos,
y los resultados simplemente dan una tabla de frecuencias
del grupo al que son asignadas estas personas.

Especificando Matriz de covarianza


de grupos separados.
Ya que la M de Box es significativa, es til correr
un segundo anlisis para ver si usar una matriz
de covarianzas de grupos separados cambia la
clasificacin
Advertencia
La opcin SEPARATE implica efectuar la clasificacin en funcin de las matrices de
covarianzas de los grupos para las funciones cannicas discriminantes, y no las de
las variables originales. Si hay menos funciones que variables, esto puede generar
diferencias.

Resultados de la clasificacina,b

Casos seleccionados

Original

Recuento
%

Casos no seleccionados

Original

Recuento

Impagos anteriores
No
S
No
S
No
S
Casos desagrupados
No
S
Casos desagrupados

Grupo de pertenencia
pronosticado
No
S
287
88
31
93
76.5
23.5
25.0
75.0
107
35
10
49
96
54
75.4
24.6
16.9
83.1
64.0
36.0

a. Clasificados correctamente el 76.2% de los casos agrupados originales seleccionados.


b. Clasificados correctamente el 77.6% de casos agrupados originales no seleccionados.

Total
375
124
100.0
100.0
142
59
150
100.0
100.0
100.0

Los resultados de clasificacin no han


cambiado mucho, por lo que
probablemente no es de utilidad o valor el
usar matrices de covarianzas separadas.
La M de Box puede ser muy sensible a
archivos grandes de datos, que es justo lo
que est pasando aqu.

Ajustando las probabilidades


previas
Probabilidades previas para los grupos

Impagos anteriores
No
S
Total

Previas
.500
.500
1.000

Casos utilizados en el
anlisis
No
ponderados
Ponderados
375
375.000
124
124.000
499
499.000

Muestra las probabilidades previas de pertenecer a un grupo.


A menos que se especifique otra cosa, se asume que un sujeto
tiene la misma probabilidad de ser cumplido o incumplido.
Las probabilidades previas son usadas junto con los datos para
determinar las funciones de clasificacin. Al ajustar las
probabilidades previas de acuerdo con los tamaos de los grupos
puede mejorar la tasa de clasificacin global.

Ajustando las probabilidades


previas

Probabilidades previas para los grupos

Impagos anteriores
No
S
Total

Previas
.752
.248
1.000

Casos utilizados en el
anlisis
No
ponderados
Ponderados
375
375.000
124
124.000
499
499.000

Ajustando las probabilidades


previas
Resultados de la clasificacinb,c,d

Casos seleccionados

Original

Recuento
%

Validacin cruzadaa

Recuento
%

Casos no seleccionados

Original

Recuento

Impagos anteriores
No
S
No
S
No
S
No
S
No
S
Casos desagrupados
No
S
Casos desagrupados

Grupo de pertenencia
pronosticado
No
S
356
19
75
49
94.9
5.1
60.5
39.5
355
20
77
47
94.7
5.3
62.1
37.9
137
5
31
28
130
20
96.5
3.5
52.5
47.5
86.7
13.3

Total
375
124
100.0
100.0
375
124
100.0
100.0
142
59
150
100.0
100.0
100.0

a. La validacin cruzada slo se aplica a los casos del anlisis. En la validacin cruzada, cada caso se clasifica
mediante las funciones derivadas a partir del resto de los casos.
b. Clasificados correctamente el 81.2% de los casos agrupados originales seleccionados.
c. Clasificados correctamente el 82.1% de casos agrupados originales no seleccionados.
d. Clasificados correctamente el 80.6% de los casos agrupados validados mediante validacin cruzada seleccionados.

Ajustando las probabilidades


previas

Las probabilidades previas ahora estn basadas en los tamaos de


los grupos.
Previamente, el 75.2% de los sujetos son cumplidores, por lo que
las funciones de clasificacin ahora sern ponderadas de manera
ms cargadas a favor de clasificar sujetos cumplidores.
La tasa global de clasificacin es ms alta para estas
clasificaciones que para aquellas basadas en probabilidades
previas iguales.
Desafortunadamente, esto bajo el costo de clasificar mal un mayor
porcentaje de incumplidores.
Si necesita ser conservador en sus prstamos, entonces su meta
es identificar a los incumplidores y mejor usara probabilidades
iguales. Si puede ser ms agresivo en sus prstamos, entonces
puede usar probabilidades desiguales.

Problemas que surgen del AR

Cuando se usa el anlisis discriminante, es posible encontrar


problemas y dificultades que dan lugar a resultados imprecisos o
engaosos.
1. Se emple un tamao de muestra inadecuado. Debe ser por lo
menos el doble o el triple del nmero de variables aplicadas en la
ecuacin de regresin.
2. Las variables de pronstico no se midieron adecuadamente
durante el estudio, estn mal expresadas o no fueron las correctas.
En sntesis, no son las que tienen un efecto directo en la variable
de criterio.
3. Multicorrelacin (Variables de pronstico muy correlacionadas.
4. La verdadera relacin entre la variable criterio y las de pronstico
es no lineal, o tiene una forma poco usual.
5. Los datos de la variable de criterio pueden ser de escasa calidad,
especialmente si las categoras fueron establecidas subjetivamente
(por ejemplo: buenas/malas o cmodas/incmodas) y no
objetivamente (cumplieron cuota/ no cumplieron)

Resumen
Usando Anlisis Discriminante, ha creado un modelo
que clasifica a los clientes en alto y bajo riesgo crediticio.
La M de Box mostr un posible problema con la
heterogeneidad de las matrices de covarianza, aunque
despus de indagar un poco ms, se descubri que esto
era probablemente un efecto del tamao del archivo de
datos.
El uso de probabilidades previas desiguales para tomar
ventaja del hecho que los cumplidores son ms que los
incumplidos result en una tasa de clasificacin global
mayor, pero con el costo de clasificar mal ms
incumplidos como cumplidos.

EJERCICIOS

Considere
los
siguientes
grupos
de
consumidores. El grupo 1 (G1) realiza sus
compras en shoopings y el grupo 2 (G2) en
outlets. Queremos establecer las diferencias de
comportamiento entre estos dos grupos en base
al ingreso y al nmero de compras que realizan
en el ao para poder decidir si un consumidor
que tiene un ingreso de 60,000 y que realiza 25
compras por ao puede clasificarse en alguno
de esto dos grupos.
La siguiente tabla muestra los datos para estas
variables:

Grupo 1
Grupo 2
Observaciones Ingreso Compras Ingreso Compras
1
60
18,4
75
19,6
2
85,5
16,8
52,8
20,8
3
64,8
21,6
64,8
17,2
4
61,5
20,8
43,2
20,4
5
87
23,6
84
17,6
6
110,1
19,2
49,2
17,6
7
108
17,6
59,4
16
8
82,8
22,4
66
18,4
9
69
20
47,4
16,4
10
93
20,8
33
18,8
11
51
22
51
14
12
81
20
63
14,8

Piscinas
Supongamos que la Compaa Piscinas Amir ha
reunido datos de ingreso y tamao de terrenos
de grupos de propietarios de piscina y no
propietarios, quienes viven en el sureste de
Pennsilvania. Adems, hay datos disponibles
para cada grupo sobre actitudes hacia los baos
de sol, en escala de 0 (detestar los baos de sol
hasta 10 = extremadamente aficionado a tomar
baos de sol.)

Obtener un anlisis discriminante


Probar si el modelo el bueno para pronosticar
Validar el modelo con dos mtodos de
validacin
A qu grupo pertenece una persona con las
siguientes caractersticas:
Ingreso anual: $12,000
Tamao de terreno: 42,000 pie2
Actitud hacia los baos de sol: 8

Calidad de profesor
Se dice que en la Universidad de Texas no existen
maestros intermedios, es decir, o son buenos o son
malos; por lo que se analizaron 20 maestros con base
en su capacidad docente (metodologa de enseanza,
exmenes representativos, calificaciones justas),
experiencia en el rea de la materia y conocimiento en
la misma; todo esto en una escala del 1-5 donde el uno
significa bueno y el cinco malo, para ver si realmente se
segmentaba de esta forma.
Obtener el modelo discriminante
Probar si el modelo es bueno para segmentar

Resmenes de casos

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Calidad del
profesor
Bueno
Bueno
Bueno
Bueno
Bueno
Bueno
Bueno
Bueno
Bueno
Bueno
Malo
Malo
Malo
Malo
Malo
Malo
Malo
Malo
Malo
Malo

Capacidad
docente
1
1
1
2
1
3
1
1
2
2
3
4
4
5
5
5
5
5
4
4

Experiencia
en el rea
1
2
1
1
1
2
1
1
1
3
4
5
5
4
4
5
5
5
5
4

Conocimiento
de la materia
1
1
1
2
1
1
1
1
1
1
3
5
2
5
2
4
3
5
4
5

Preguntas

D un ejemplo real o hipottico en el cual el anlisis


discriminatorio pudiera ser til en el anlisis de los datos
de mercadotecnia.
Cules variables de pronstico piensa que pudieran ser
tiles para separar a los amantes de las caminatas y a
los que no practican este deporte? Escoja dos variables
cualesquiera de stas y construya un diagrama de
dispersin hipottico (utilice su imaginacin) en un
espacio bidimensional. Incluya una lnea discriminatoria.
Explique qu se entiende por cada uno de los siguientes
conceptos: funcin discriminatoria, centroide,
clasificacin errnea.

En la siguiente ilustracin grfica de un anlisis


discriminante de dos grupos:
Cules lneas describen las dos dimensiones en que los
miembros del grupo han sido medidos?
A lo largo de cul lnea est maximizada la variabilidad entre
grupos, dividida por la variabilidad dentro de grupo?
Cul lnea representa el eje discriminante?
Suponiendo que queremos clasificar a los consumidores en los
grupos respectivos de modo que haya un mnimo de costo
conexo con el error de clasificar a una persona en el grupo B
cuando en realidad pertenece al grupo A, Qu lnea
quisiramos utilizar como base para la clasificacin?

Cuando se realiza un anlisis discriminante en dos


dimensiones, una lnea discriminante sirve de lmite al
hacer las clasificaciones. Qu forma de divisor
geomtrico habr en un espacio de dos variables? En
un espacio de tres variables? Y en un espacio de
cuatro variables?
Despus de usar los datos de 100 personas para
construir una funcin discriminante, un investigador
prueba la funcin al determinar cuntos de esos 100
sujetos estn clasificados correctamente. Qu
debilidad conlleva este procedimiento?

Das könnte Ihnen auch gefallen