Sie sind auf Seite 1von 38

Anlisis discriminante

(A.D.)

Qu es anlisis discriminante?
Propsito del anlisis
Ejemplos de la utilizacin de A.D.
Anlisis para dos grupos
Generalizacin: anlisis para
grupos.

Qu es anlisis
discriminante?

Es una tcnica estadstica que utiliza la


informacin de un conjunto de variables
independientes para predecir el valor de
una variable dependiente discreta o
categrica.
La variable dependiente generalmente
es tabulada como una serie de valores
enteros representando a los diferentes
grupos que estn representados en la
muestra.

Objetivo del anlisis


discriminante

El objetivo del anlisis


discriminante es desarrollar una
regla para predecir a que grupo
una nueva observacin (cliente,
firma, empresa) es probable que
pertenezca.

Ejemplos de anlisis
discriminante
Credit scoring: el gerente de crdito de
una banco clasifica los crditos que ha
hecho en dos grupos, aquellos que han
entrado en mora y aquellos que se
encuentran al da.
A travs del anlisis es posible
desarrollar una regla para predecir si
un nuevo aplicante entrar en mora si
se le otorga un crdito.

Ejemplos de anlisis
discriminante
Calificacin de deuda: un analista
financiero puede estar interesado en
tratar de predecir si una compaa con
cierta calificacin de crdito (p.e. AAA)
migre a una calificacin ms baja o
ms alta en un cierto periodo de
tiempo.

Ejemplos de anlisis
discriminante
Calificacin para una empresa de
seguros:
Usando informacin histrica, una
compaa de seguros puede clasificar a
sus asegurados en tres categoras: alto
riesgo, riesgo moderado y bajo riesgo.
Una compaa quiere saber cmo
puede ser clasificado un nuevo cliente.

Anlisis discriminante para


dos grupos

El siguiente problema relacionado con la


efectividad de una campaa de publicidad
de una tarjeta de crdito ilustra el anlisis
discriminante para dos grupos.
Luego de un contacto telefnico, se pudo
recopilar la informacin de una muestra de
20 personas donde el grupo clasificado
como 1 no acept el ofrecimiento de la
tarjeta mientras que el grupo 2 acept el
ofrecimiento de la tarjeta de crdito.

Anlisis discriminante para


dos grupos

Muestra a clasificar

El concepto de centroide

Un centroide es el promedio que


toman las variables
independientes para un grupo
especfico.

En este caso por cuanto tratamos


con dos grupos se estara en la
presencia de dos centroides.

Clculo de los centroides

Centroides

Centroides

El centroide es un conjunto de promedios


donde el grupo est centrado, algo as
como el punto que representa el individuo o
la observacin promedio dentro de un
grupo.
Entre ms distintos los centroides, ms fcil
ser distinguir entre grupos.
A pesar que los grupos pueden estar bien
separados, en ocasiones ciertas
observaciones se traslapan.

Calculando los puntajes de


discriminacin

Desde una perspectiva de regresin


queremos modelar el comportamiento
de un grupo usando las variables
independientes referentes al tamao
de la familia, ingreso familiar, nmero
de tarjetas de crdito y nmero de
tarjetas de crdito posedas:
Y = b0 + b1 X 1 + b2 X 2 + b3 X 3 + b4 X 4

Calculando los puntajes de


discriminacin

El propsito de la regresin es
combinar la informacin disponible de
las variables con un valor nico
estimado para cada grupo.

El valor estimado de la variable de


grupo es denominado
como puntaje
Y
discriminante y se denota por

Resultados de la regresin

Clculo del puntaje


discriminante

La ecuacin de regresin es aplicada a los 20 datos


para generar un puntaje para cada observacin.

Clculo del puntaje


discriminante por grupos

Luego se puede sacar un promedio de


los puntajes por grupo, los cuales se
refieren
Y como
y Y
^

Porque los puntajes promedios por


grupo son diferentes (1.2 y 1.7
respectivamente), necesitamos una
regla para discriminar entre grupos.

Regla de clasificacin
valor de corte

Una regla puede ser: si el puntaje es


menor a un valor de corte, asgnelo al
grupo 1 o de lo contrario asgnelo al
grupo 2.
El problema que queda es determinar
un punto apropiado de corte.
Una buena opcin es el valor medio de
los puntajes de los grupos (1.45)

Refinando el valor de corte

Por cuanto los grupos se entrelazan, es


muy
probable
que
algunas
observaciones sean clasificadas de
manera errnea.
A veces es conveniente incorporar
creencias o probabilidades previas a la
regla de clasificacin.
Este mtodo alternativo considera los
costos de una mala clasificacin as
como de probabilidades previas.

Refinando el valor de corte

Supongamos que definimos que:


C (1/2) es el costo de clasificar una
observacin como 1 dado que pertenece a
2.
C (2/1) es el costo de clasificar una
observacin como 2 dado que pertenece a
1.
p1= probabilidad previa (a priori) que una
observacin pertenezca al grupo 1
p2= probabilidad previa que una
observacin pertenezca al grupo 2

Refinando el valor de corte


Un mtodo ms general para estimar el
punto de corte es:
^

Y + Y2
Valor de corte= 1
+
2

Donde:

SYp2 =

SYp2
^

Y1- Y2

p2C (1/ 2)

*ln

p1C (2 /1)

(n1 - 1) SY21 + (n2 - 1) SY22


n1 + n2 - 2

Refinando el valor de corte


- ejemplo

Con esta informacin el valor de


corte es de 1.29

Precisin de la
clasificacin

Matriz de confusin
3 clasificaciones
errneas

Clasificando nuevas
observaciones

El problema para k grupos

Supongamos que disponemos de la siguiente


informacin de 20 empresas (clientes) clasificadas
en tres grupos.

Grupo 1= empresas satisfactorias, es decir


compradores que siempre han pagado a tiempo
sus obligaciones con la empresa.
Grupo 2 = empresas promedio las cuales a pesar
de haber tenido una buena historia de crdito en
ocasiones han presentado mora.
Grupo 3 = empresas que han presentado una
psima historia crediticia.

Problema de clasificacin

Naturalmente a travs de anlisis


discriminante podemos desarrollar
una regla de decisin donde
brindemos crdito a las empresas
clasificadas en el grupo 1,
evaluaremos con mayor detalle las
empresa clasificadas en el grupo 2
mientras que negaremos el crdito
comercial a empresas clasificadas en
el grupo 3.

Informacin de clientes
con crdito comercial

Medidas de distancia

Una regla de clasificacin lgica para


una nueva observacin es clasificarla
en el grupo que est ms cerca del
centroide.

Inicialmente se podra graficar y


visualmente tratar de aproximarse para
ver la cercana de una observacin con
un centroide particular.

Medidas de distancia
Se recordar que la distancia euclidiana
entre dos puntos (A1,B1) y (A2, B2) en dos
dimensiones puede ser medido por:
Distancia = (A1 -A 2 ) 2 + (B1 -B2 ) 2

Podemos usar esta frmula en el anlisis


discriminante para medir la distancia de una
observacin con un centroide de un grupo
especfico, y luego asignar la observacin al
grupo que est ms cerca.

Medidas de distancia

Desde un punto de vista estadstico,


la medida de distancia euclidiana es
algo dbil porque ignora las
varianzas de las variables
independientes.
Es conveniente entonces refinar la
medida de distancia para tener en
cuenta diferencias en las varianzas
de las variables independientes.

Medidas de distancia

Si hacemos que Dij represente la


distancia desde la observacin i al
centroide del grupo j, podemos
definir la distancia como:
x representa el valor de la
ik

Di j =

( xik - x jk ) 2
s 2jk

observacin i
en la k-sima variable

Varianza del grupo j en


la variable k

Distancia de Mahalanobis

Hay numerosas variaciones en la


medida de distancia.

Una de las variaciones ms usadas es


la medida de distancia de
Mahalanobis, la cual tiene en cuenta
las covarianzas de las variables
independientes.

Distancia de Mahalanobis

Un complemento en Excel calcula la


distancia de Mahalanobis de cada
observacin al centroide para cada
grupo posible.

Luego, asigna una observacin al


grupo que minimice la distancia de
Mahalanobis.

Resultado muestra de
clasificacin

Resultado matriz de
confusin

Comentarios finales

Utilizando un anlisis de regresin,


efectuamos el anlisis discriminante
para dos grupos.
Discutimos el concepto de centroide
(en n-dimensiones)
Usando una medida para calcular
distancias entre observaciones y
centroides, efectuamos el anlisis para
k grupos.

Comentarios finales

Las aplicaciones del anlisis


discriminante son muy diversas (en
finanzas como en reas no
financieras)

Es recomendable complementar el
anlisis cuantitativo con un anlisis de
corte cualitativo para clasificar mejor
las observaciones.

Das könnte Ihnen auch gefallen