Sie sind auf Seite 1von 20

Mtodo de Anlisis Discriminante

1.
2.

3.

Introduccin
Metodologa Estadstica
2.1 Pruebas estadsticas preliminares
2.2 Mtodos de discriminacin
Funcin discriminante lineal de Fisher
Funcin discriminante de Mxima verosimilitud
Anlisis de regresin discriminante
Distancia de Mahalanobis
2.3 Evaluacin de la funcin discriminante
2.4 Evaluacin de la clasificacin
2.5 Clasificacin de nuevas observaciones
2.6 Anlisis discriminante con ms de dos grupos
Ejemplo de aplicacin

1. Introduccin
Es un mtodo multivariado cuyo propsito es el de
clasificar nuevos individuos u objetos en grupos o
poblaciones previamente definidas, para lo cual se
desarrollan reglas o funciones discriminantes que
son construidas en base del conjunto de variables
que son medidas sobre los individuos u objetos.
El AD, es considerado un mtodo de dependencia;
las variables que permiten clasificar son llamadas
clasificadoras, predictoras o explicativas (variables
independientes), mientras que se usa una variable
categrica (variable dependiente) para identificar al
grupo que pertenece el individuo.

Caractersticas
El AD, se usa para fines explicativos (identificar
variables que mejor discriminen entre los grupos),
predictivos (seleccionar variables) y reclasificacin
(nuevas observaciones).
El AD, esta afectado por las unidades de medida
de las variables explicativas.
En el AD, se puede distinguir el anlisis
discriminante simple, cuando la variable
dependiente considera dos categoras (dos grupos:
G=2) y el anlisis discriminante mltiple, cuando
existen ms de dos categoras (ms de dos grupos:
G>2).

Caractersticas
La diferencia principal entre ambos, es el nmero
de funciones discriminantes que se pueden
obtener. En el ADS se obtiene slo una funcin
discriminante; mientras que el ADM se pueden
obtener el Mnimo(G-1, p) funciones discriminantes,
donde p= N de variables indep.
En el AD es posible retener o seleccionar un grupo
del conjunto de variables independientes para
obtener la funcin discriminante. Se emplean
tcnicas de seleccin de variables que son
aplicables en el anlisis de regresin lineal mltiple:
seleccin haca adelante (forward), haca atrs
(backward) y por pasos (stepwise).

2.1 Pruebas estadsticas preliminares


1) Prueba de homogeneidad de matrices de
variancias-covariancias.
Formulacin de las hiptesis:
Ho : 1 = 2 = . . . g =
H1 : Al menos una matriz diferente
Prueba estadstica. Se utiliza la M de Bartlett-Box:
n g 1
K

2
g

Wg
g
Sg
ng 1
G

g 1

n K
2

W
g 1

nG

(n
g 1

1)

nG

Decisin estadstica. Se han desarrollados


aproximaciones a la Chi-cuadrado y F.

2.1 Pruebas estadsticas preliminares

2) Probar a priori el poder discriminante de


cada variable.
Formulacin de las hiptesis:
H0 : 1 = 2 = . . . = g
H1 : Al menos una media diferente
Prueba estadstica. Se utiliza la estadstica de
Lambda de Wills o la F.
Se espera que se rechace Ho para cada
variable, indicando
que hay diferencias
2
V j ( p g )( g j 1) i
significativas entre grupos (las variables
permitirn una discriminacin)
y

2.1

Pruebas estadsticas preliminares

3. Con el Software R se har la prueba de


normalidad p-variada de Shapiro.
H0: Las p variables tienen distribucin
normal p-variada.
NOTA: Los datos que no cumplan el
supuesto de normalidad multivariante
pueden causar problemas en la estimacin
de la funcin discriminante. De ser posible
usar la regresin logstica como alternativa.

2.2 Mtodos de discriminacin


1) Funcin discriminante lineal de Fisher
La regla de clasificacin se basa en una funcin lineal
de las p variables explicativas. Se define las
puntuaciones discriminantes:

Di a1 X1i a2 X 2i a3 X 3i . . . a p X pi

i 1,2,..,n

Para dos grupo (g=2), los ai corresponde al autovector


'1
asociado a 1 que es el mayor autovalor de la matriz W B
La regla de discriminacin:
Si Di C , se clasifica al individuo

i en el grupo I
Si Di C , se clasifica al individuo i en el grupo II

Punto de corte discriminante:

Si Di C

DI DII
C
2

2.2 Mtodos de discriminacin


2)

Funcin discriminante de Mxima Verosimilitud


La regla de discriminacin asigna una observacin
(vector de variables x) a una poblacin j con funcin
de densidad f i (x) para la cual se obtiene la mayor
probabilidad.

L j ( x) max f i ( x)
i

Para el caso de distribucin multivariante:


i N p (i , ) i 1,2,..., g
Se asigna x a sij para el ndice i, se minimiza la suma
de cuadrados de la distancia de Mahalanobis:

( X i )' 1 ( X i )

2.2 Mtodos de discriminacin

3) Anlisis de Regresin Discriminante


Este mtodo se basa en las tcnicas de seleccin de
variables utilizadas en el anlisis de regresin lineal
mltiple, para la formacin de la funcin de
discriminacin. El mtodo selecciona las variables
independientes que mejor actan como variables
clasificadoras.
Seleccin haca adelante (Forward).
Seleccin haca atrs (Backward).
Seleccin por pasos (Stepwise).
Estos mtodos de seleccin utilizan como criterios para adicionar y
eliminar variables:

La lambda de Wills

La razn F entre grupos

La V de Rao

2.2 Mtodos de discriminacin


4) Distancia de Mahalanobis
Considerando x I y x II los centroides o centros de
gravedad (promedios) de cada grupo, entonces se
define la distancia de Mahalanobis de un punto i a
cada uno de los dos centroides como:
1

d ( xi x I )' S ( xi x I )
d

2
iI
2
iII

( xi x II )' S ( xi x II )

La aplicacin de este criterio consiste en asignar


cada individuo al grupo para el que la distancia de
Mahalanobis sea la menor

2.3 Evaluacin de las funciones discriminantes

Evaluar la significacin de la capacidad de


discriminacin entre grupos que tendr las
funciones discriminantes.
Prueba de bondad de ajuste
Prueba de que los (G-1) ejes discriminantes
son significativos
Correlacin de cada variable y la funcin
discriminante
Indice de potencia.

2.3 Evaluacin de las funciones discriminantes


1) Prueba de bondad de ajuste. Medir la proporcin
de variabilidad explicada por cada eje o funcin
discriminante. Se utiliza el coeficiente Eta
(correlacin cannica).

i
i
1 i
Cuando i se aproxima a 1, indicar que la funcin i-sima muestra
gran capacidad explicativa para la funcin discriminante. Eta
(correlacin cannica) i al cuadrado representa la proporcin de la
variancia total de la variable a explicar que es explicada por la funcin
discriminante i.

2.3 Evaluacin de las funciones discriminantes


2)

Probar si los (g-1) ejes de discriminacin son


significativos. La determinacin del nmero de
funciones discriminantes es una prueba secuencial.
Formulacin de las hiptesis:
H0 : k 1 ... min(G 1, p ) 0
H1 : Al menos una diferente
Prueba estadstica.
Se utiliza la V de Bartlett:
y

p g g 1

V j n 1
j 0,1,2,..., g 2
Ln(1 i )
2 i j 1

Se tieneV j (2p g )( g j 1)y es el autovalor generado por el


i
i-simo eje discriminante.

2.3 Evaluacin de las funciones discriminantes

3) Correlacin entre las variables y las


funciones discriminantes. Son coeficientes
que permiten identificar las variables
independientes que mayor influyen en el poder
discriminante de cada funcin. Miden el poder
discriminante que tiene cada variable en la
clasificacin de cada individuo.
4) Indice de potencia. Permite evaluar la
contribucin de cada funcin discriminante
respecto al nmero de funciones significativas.
i
Ii
i

2.4 Evaluacin de la clasificacin

Calcular las puntuaciones discriminantes que


permiten clasificar a un individuo en algn
grupo y poder obtener probabilidades de su
pertenencia a cada grupo.
Pr ob( g / D)

g x Pr ob( D / g )
G

x Pr ob( D / i)
i 1

Se tiene las probabilidades a priori y las


probabilidades condicionales se obtienen
calculando la probabilidad de las puntuaciones
observadas suponiendo la pertenencia a un
grupo g.

2.6 Anlisis discriminante con ms de dos grupos

Anlisis Discriminante Mltiple, el nmero


mximo de ejes discriminantes que se pueden
obtener viene dado por min(G-1, p). Por lo tanto
se
pueden
obtener
hasta
G-1
ejes
discriminantes, siendo casi siempre cierto que el
nmero de variables explicativas p es mayor o
igual que G-1.

Todo el procedimiento estadstico para dos


grupos, son generalizados para el caso del
anlisis discriminante mltiple.

3. Ejemplo de aplicacin
Anlisis discriminante simple. Una entidad financiera
cuenta con algunas caractersticas de prstamos
concedidos a sus clientes. Se trata de construir una funcin
discriminante que clasifique con los menores errores
posibles a los clientes en dos grupos: fallidos y no fallidos Si
se obtienen un buen resultados de clasificacin, en etapas
posteriores se utilizar la funcin discriminante construida
para determinar si se concede el prstamo a nuevos
solicitantes. De esta forma, si a un nuevo solicitante se le
clasifica a priori como fallido, no se le conceder el
prstamo solicitado.
Variable Dependiente
Tipo de cliente: 1=Fallido 2=No Fallido
Variables Independientes
mon_pre = Monto de prstamo (miles soles)
pat_net = Patrimonio neto (miles soles)
deu_pen = Deuda pendiente (miles soles)

Ejemplo 1 de aplicacin
Anlisis discriminante mltiple. El objetivo del estudio es
tratar de determinar cules son las variables que realmente
sirven para discriminar entre las empresas que tienen
resultados clasificados como Bajos, Medios y Altos.

Variable Dependiente
Resultados monetarios de las empresas: 1=Bajos,
2=Medios y 3=Altos

Variables Independientes
Incremento (%) en el presupuesto publicitario con
respecto al periodo anterior (inc_publ)
Incremento (%) en el presupuesto promocional con
respecto al ejercicio anterior (inc_prom)
Inversin de patrocinio (patrocin).
Duracin en das de las actividades promocionales de la
empresa (promocio)
Duracin en das de las actividades publicitarias de la
empresa (publicit)

Ejemplo 2 de aplicacin
1. Con el archivo Distritos Peruanos se va realiz el Anlisis Cluster
Utilizando como mtrica la Distancia Euclidia al cuadrado y como
mtodo de agrupamiento el Mtodo del Vecino Ms Lejano y teniendo
en cuenta la condicin mnima necesaria Cuntos clusters se
forman y cuntos distritos tiene cada uno? D la relacin de los 4 pri
meros distritos que pertenecen al cluster 2.
2. Se desea hacer el Anlisis Discriminante con las clases que fueron
obtenidas con el Anlisis Cluster anterior. Suponga que se quiere
trabajar con las variables ms relevantes utilizando el Mtodo de La
Varianza no Explicada y como criterios usar el valor de F de entrada de
3.84 y de salida de 2.71. Haga las pruebas preliminares que se han
visto en el curso, presente las hiptesis y concluya con un nivel de
significacin de 0.05. Suponiendo que se cumplen los supuestos:
evale las funciones discriminantes.

Das könnte Ihnen auch gefallen