Sie sind auf Seite 1von 27

Aplicacin del El anlisis discriminante

El anlisis discriminante se utiliza para clasificar a distintos individuos en grupos o


poblaciones alternativos a partir de los valores de un conjunto de variables sobre
los individuos a los que se pretende clasificar. Ejemplo, que un director de una
sucursal bancaria necesita establecer algn criterio que para conceder o no los
prstamos que le son solicitados. Su misin es detectar si el solicitante
pertenecer en el futuro al grupo de los que devuelven los prstamos o si, por el
contrario, ser de aquellos que no lo hacen.
Supongamos que ese director tiene el historial de todos aquellos individuos que,
en el pasado, solicitaron prstamos. En ese historial figura, evidentemente, si
finalmente el prstamo fue devuelto o no, es decir, el director tiene clasificados a
los individuos en solventes e insolventes. Lo que se plantea ahora es si se puede
obtener algn tipo de funcin que le permita, ante una nueva solicitud, predecir a
cul de los dos grupos va a pertenecer el solicitante.
Para esto sirve el anlisis discriminante. Dada una poblacin, que tenemos
dividida en grupos, el anlisis discriminante encuentra una funcin que permite,
con un determinado grado de acierto, explicar esa divisin en grupos (visin
explicativa). Una vez obtenida, puede utilizarse para clasificar a nuevos individuos
en alguno de los grupos en que est dividida la poblacin.
Visin geomtrica del anlisis discriminante
Intentaremos ofrecer una intuicin geomtrica del anlisis discriminante que nos
servir, adems, para introducir algunos conceptos necesarios. Supongamos que
tenemos una poblacin que puede dividirse en dos grupos. Siguiendo con el
ejemplo inicial del director de banco: clientes solventes e insolventes.
Supongamos, tambin, que queremos ser capaces de explicar esa clasificacin
atendiendo a una nica variable, por ejemplo, el nivel de ingresos del cliente.
Como el director del banco tiene el historial de los crditos pasados que concedi,
sabe qu nivel de ingresos tenan los solventes y los insolventes. De esta
informacin podra obtenerse fcilmente la figura 1.

Un criterio que podra adoptar el director de banco para conceder o no un


prstamo, podra ser calcular la media de ingresos de los dos grupos. La media de
ambas medias (C) sera un buen punto de corte como se ilustra en la figura.
1. Si el nuevo solicitante tiene unos ingresos (X) superiores a C, se le concede el
prstamo y si los tiene inferiores no se le concede:

es decir, si X>C al individuo se le clasifica en el grupo de los solventes y si X<C en


el de los probables insolventes.

Este criterio, como tambin se observa en la figura 1, no es infalible, dado que en


la base de datos del director del banco hay clientes con unos ingresos inferiores a
C que s que devolvieron sus crditos y, por el contrario, hay clientes que tenan
ingresos superiores a esa cantidad y que acabaron siendo insolventes.
La misin del anlisis discriminante es obtener un criterio de clasificacin que
reduzca ese error. Es decir, encontrar una funcin discriminante que separe lo
mejor posible las dos poblaciones.
La figura 2, ilustra el caso anterior cuando utilizamos no una variable explicativa
(los ingresos), sino dos, por ejemplo, los ingresos y la edad del solicitante.

En esta figura 2, se intenta ilustrar cmo, si en lugar de utilizar para clasificar una
de las dos variables X1 y X2 por separado, se utiliza una combinacin de ambas

D, el rea que recoge el error, es mucho menor. En sntesis, el anlisis


discriminante pretende encontrar aquella funcin discriminante:
D = u1X1 + u2X2 +K+ ukXk
que menor error de clasificacin produzca, donde X1...Xk son las k variables
explicativas y u1...uk son coeficientes de ponderacin.
Cuando a los individuos se les quiera clasificar en dos grupos, bastar con una
funcin discriminante D, pero si se les quiere clasificar en tres grupos, harn falta
dos funciones discriminantes. En general sern necesarias G-1 funciones
discriminantes donde G es el nmero de grupos en que se divide la poblacin
(figura 3).

Anlisis Discriminante con SPSS


Cuando se utiliza SPSS se suelen considerar varias fases en el anlisis
discriminante.
Comprobacin de los supuestos paramtricos del anlisis discriminante
En sentido estricto, la funcin discriminante minimiza la probabilidad de
equivocarse al clasificar los individuos en cada grupo. Para ello, las variables
originales se deben distribuir como una normal multivariante y las matrices de
covarianzas deben ser iguales en todos los grupos. En la prctica es una tcnica
robusta y funciona bien aunque las dos restricciones anteriores no se cumplan.
Si un conjunto de variables se distribuye como una normal multivariante, entonces
cualquier combinacin lineal de ellas se distribuye como una normal univariante.
Por ello, si alguna de las variables originales no se distribuye como una normal,
entonces es seguro que todas las variables conjuntamente no se distribuirn como
una normal multivariante.
La segunda restriccin se refiere a la igualdad entre las matrices de covarianzas
de los grupos. Para comprobar esto, se puede usar la prueba M de Box, que est
incluida en el
SPSS. Dicha prueba tiene como hiptesis nula que las matrices de covarianzas
son iguales.
Se basa en el clculo de los determinantes de las matrices de covarianzas de
cada grupo.
El valor obtenido se aproxima por una F de Snedecor. Si el p-valor es menor que
0,05 se rechaza la igualdad entre las matrices de covarianzas.
El test M de Box es sensible a la falta de normalidad multivariante, es decir,
matrices iguales pueden aparecer como significativamente diferentes si no existe
normalidad. Por otra parte, si las muestras son grandes, pierde efectividad (es
ms fcil rechazar la hiptesis nula).

Seleccin de las variables discriminantes


Primero se puede realizar un anlisis descriptivo univariante calculando las medias
y las desviaciones estndar de las variables originales para cada uno de los
grupos por separado. Si para alguna variable las medias de los grupos son
diferentes y la variabilidad es pequea, se considera que dicha variable ser
importante a la hora de discriminar a los grupos.
A continuacin, se observan las relaciones entre las variables. Se calculan
matrices de correlaciones en lugar de matrices de covarianzas por ser ms
fcilmente interpretables.
Adems de analizar la correlacin entre pares de variables sin distinguir grupos,
se debe analizar las correlaciones dentro de cada grupo y luego considerar la
media de las mismas. Se calcula tambin la matriz Pooled within-groups
correlation matrix. Dicha matriz se calcula como una matriz media de correlaciones
calculadas por separado en cada grupo. A menudo no se parece a la matriz de
correlaciones total por ejemplo:

Si se considera cada grupo por separado (1, 2 y 3), el coeficiente de correlacin


entre x1 y x2 es 0 (el hecho de variar x1 no influye en x2: la pendiente de la recta
de regresin es 0). Si hallamos la media de esos coeficientes, su valor es tambin
0; sin embargo, el coeficiente de correlacin calculado para todos los datos sin

tener en cuenta a los grupos est prximo a 1, porque cuando aumenta el valor de
x1 tambin lo hace el valor de x2.
Estadsticos usados
F de Snedecor se compara para cada variable las desviaciones de las medias de
cada uno de los grupos a la media total, entre las desviaciones a la media dentro
de cada grupo.
Si F es grande para cada variable, entonces las medias de cada grupo estn muy
separadas y la variable discrimina bien. Si F es pequea, la variable discriminar
poco, ya que habr poca homogeneidad en los grupos y stos estarn muy
prximos.
de Wilks Tambin se la denomina U-estadstico. Cuando se considera a las
variables de modo individual, la es igual al cociente entre la suma de cuadrados
dentro de los grupos y la suma de cuadrados total (sin distinguir grupos). Es decir,
equivale a las desviaciones a la media dentro de cada grupo, entre las
desviaciones a la media total sin distinguir grupos. Si su valor es pequeo, la
variable discrimina mucho: la variabilidad total se debe a las diferencias entre
grupos, no a las diferencias dentro de grupos.
Variables originales que se consideran
La idea del Anlisis discriminante es construir funciones lineales de las variables
originales que discriminen entre los distintos grupos. Sin embargo, no todas las
variables discriminan de la misma forma o tienen los mismos valores de la F de
Snedecor o de la de Wilks. Por ello, a la hora de construir las funciones lineales,
no es necesario incluir a todas las variables iniciales en la funcin.
Como criterio general para seleccionar una variable se emplea la seleccin del
valor de la de Wilks o, de modo equivalente, del valor de su F asociada.
Se usan fundamentalmente dos mtodos de seleccin de variables: el mtodo
directo y el mtodo stepwise.

En el mtodo directo se consideran todas las variables originales que verifiquen un


criterio de seleccin.
El mtodo stepwise es un mtodo que funciona con varios pasos:
1. Se incluye en el anlisis la variable que tenga el mayor valor aceptable para
el criterio de seleccin o de entrada.
2. Se evala el criterio de seleccin para las variables no seleccionadas. La
variable que presenta el valor ms alto para el criterio se selecciona
(siempre que est dentro de un lmite).
3. Se examinan las variables seleccionadas segn un criterio de salida y se
examinan tambin las variables no seleccionadas, para ver si cumplen el
criterio de entrada. Se excluyen o se incluyen variables segn cumplan los
criterios de entrada y de salida.
4. Se repite el paso (3) hasta que ninguna variable ms pueda ser
seleccionada o eliminada.
Adems de todo lo anterior, en el SPSS se considera un nmero mximo de
pasos, dado que una variable puede ser incluida y eliminada en ms de una
ocasin. Se toma el doble del nmero de variables originales como nmero
mximo de pasos del mtodo stepwise.
En el SPSS se considera tambin para cada variable la tolerancia asociada.
Tolerancia
Se define para un conjunto de p variables, Ri, el coeficiente de correlacin mltiple
que expresa el porcentaje de variabilidad de la variable xi (i = 1, . . . , p) recogida
por el resto de (p 1) variables. Si se eleva al cuadrado R 2

se obtiene el

coeficiente de determinacin.
Entonces, la tolerancia se define como 1 R 2i . As, cuanto mayor sea la tolerancia
de una variable, ms informacin independiente del resto de variables recoger.

De este modo, si en una iteracin dada del procedimiento stepwise la variable


seleccionada verifica que su tolerancia con respecto a las variables ya incluidas en
la funcin discriminante es muy pequea entonces la variable no se incluye en
dicha etapa. As, se evita la redundancia de informacin.
Clculo de la F y de la de Wilks multivariantes para fijar los criterios de
entrada y salida
Para un conjunto de variables se define la F como

donde
|B| = determinante de la matriz de covarianzas entre grupos.
|W | = determinante de la suma de las matrices de covarianzas dentro de los
grupos.
En general, el determinante de una matriz de covarianzas da una medida de la
variabilidad total de un conjunto de variables.
A partir de este valor de F, se puede calcular la correspondiente de Wilks, ya que

donde
n = nmero de observaciones
k = nmero de grupos
p = nmero de variables
La F y la de Wilks se interpretan del mismo modo que en el caso univariante.

Cuando se comparan covarianzas entre grupos, se hace en base a los centroides


de los grupos, es decir, a los vectores de medias de las variables en cada grupo.
Estadsticos que se calculan en el procedimiento stepwise
F de entrada (F to enter)
Expresa la disminucin en la de Wilks que se produce si se incluye una variable
dada entre las que no estn dentro de la funcin discriminante. Si el valor es
pequeo, la disminucin de la de Wilks ser inapreciable y la variable no entrar
en la funcin.
F de salida (F to remove):
Expresa el incremento que se produce en la de Wilks, si se elimina de la funcin
discriminante una variable dada. Si el valor de la F de salida es pequeo, el
incremento no ser significativo y la variable se eliminar del anlisis.
Correlacin Cannica
Da una medida del grado de asociacin entre las puntuaciones discriminantes de
cada uno de los objetos y el grupo concreto de pertenencia

es decir, es la proporcin de la variabilidad total debida a la diferencia entre grupos


para las funciones discriminantes.
Cuando slo se tienen dos grupos, la correlacin cannica es igual al coeficiente
de correlacin entre la puntuacin discriminante y el grupo de pertenencia, que se
representa por una variable codificada en 01 (en SPSS).

Significacin y coeficientes de las funciones discriminantes


Cuando no existen diferencias entre los grupos, las funciones discriminantes slo
indican variabilidad aleatoria (ruido). Se puede usar la de Wilks para realizar un
test en el cual la hiptesis nula es que las medias de las funciones discriminantes
en cada grupo son iguales.
Cuando se tienen varios grupos y varias funciones, se calcula una de Wilks total
mediante el producto de las de Wilks de cada funcin. sta se puede aproximar
por una
2, usando la siguiente transformacin:

de modo que V 2

p(k1)

aproximadamente. De este modo, si es pequeo V es

grande y se rechaza la hiptesis nula.


Si la significacin asociada al valor de la 2 es menor que 0,05 (o bien otro valor
prefijado) se rechaza la hiptesis nula (a dicho nivel de confianza).
Interpretacin de los coeficientes de la funcin discriminante
Si usamos variables originales tipificadas, se obtienen los coeficientes a ij que
relacionan las variables con las funciones discriminantes:

Se pueden interpretar las magnitudes de los coeficientes como indicadores de la


importancia relativa de las variables en cada funcin discriminante. As, si a ij es

grande en valor absoluto, entonces hay una fuerte asociacin entre la variable x j y
la funcin yi, en relacin al resto de variables. Aun as, al existir en general
correlaciones significativas entre las variables originales, se debe tener cuidado al
hacer interpretaciones precipitadas.
Matriz de estructura
Otra forma de calcular la contribucin de cada variable a una funcin discriminante
es examinar las correlaciones entre los valores de la funcin y los valores de las
variables.
Se calculan, dentro de cada grupo, las correlaciones entre las variables y las
puntuaciones; luego se combinan en una matriz pooled within-groups correlation
matrix. Los valores obtenidos dan una medida de las contribuciones.
Clasificacin de los objetos
Una vez calculadas las funciones discriminantes, es decir, las combinaciones
lineales de las variables originales, a cada objeto se le puede asignar una
puntuacin o valor dado en la funcin discriminante.
Esto equivale al valor que se recoge en una ecuacin de regresin. As, si x ij es el
valor que alcanza el objeto i-simo en la variable j-sima, entonces la puntuacin o
valor alcanzado en la funcin discriminante k ser:

Regla de Bayes
Se pueden usar las puntuaciones discriminantes para obtener una regla para
clasificar los casos en los grupos. En el SPSS se usa la regla de Bayes.
As, la probabilidad de que un objeto j, con una puntuacin discriminante D =
(yj1, ..., yjm), pertenezca al grupo i-simo se puede estimar mediante la regla de
Bayes:

P (Gi) es la probabilidad a priori y es una estima de la confianza de que un objeto


pertenezca a un grupo si no se tiene informacin previa. Por ejemplo, si 75 de 120
personas sobreviven en la muestra, la probabilidad de sobrevivir se aproxima por
75/120.
Las probabilidades a priori se pueden determinar de distintos modos. Si la muestra
se considera representativa de la poblacin, se pueden usar las proporciones de
los casos en cada grupo como estimadores de dichas probabilidades. Cuando
todos los grupos tienen el mismo nmero de objetos y no se tiene ningn tipo de
informacin previa, se asignan probabilidades a priori iguales para todos los
grupos.
P (D|Gi) es la probabilidad de obtener la puntuacin D estando en el grupo i-simo.
Como las puntuaciones discriminantes se calculan a partir de combinaciones
lineales de p variables, distribuidas segn una normal, se distribuyen a su vez
como una normal, cuya media y varianza se estiman a partir de todas las
puntuaciones que se recogen en el grupo i-simo.
P (Gi|D) es la probabilidad a posteriori que se estima a travs de P (G i) y de P (D|
Gi).
En realidad, mide lo mismo que la P (G i), pero refina la medida de incertidumbre al
tener en cuenta la informacin que recogen las puntuaciones discriminantes D. Es
decir, lo que interesa es calcular la probabilidad de que un objeto pertenezca al
grupo Gi, dado que presenta la puntuacin D.
Se asignar un objeto al grupo G i cuya probabilidad a posteriori sea mxima, es
decir, dado que presenta la puntuacin D.
Matriz de confusin

Da una idea de la tasa de clasificaciones incorrectas. Como se sabe el grupo al


que pertenece cada objeto, se puede comprobar la efectividad del mtodo de
clasificacin usando la mxima probabilidad a posteriori, cuando se observa el
porcentaje de casos bien clasificados. No obstante, se tiene que tener en cuenta
tambin la tasa de clasificaciones incorrectas esperadas segn las probabilidades
a priori.
Ejemplos
Se consideran los datos recogidos sobre 32 crneos en el Tibet.

Los datos corresponden a dos tipos raciales diferentes en los que se practicaron
diferentes medidas antropomtricas de longitudes, anchuras de crneo y de cara.
Se trata de hacer un anlisis discriminante sobre los dos tipos raciales.
Se toma una muestra de 50 vehculos producidos en EE.UU, Japn y Europa. Se
consideran las siguientes variables: Consumo, Cilindrada, Potencia, Peso,
Aceleracin, Ao del modelo y Nmero de cilindros. Se trata de hacer un anlisis
discriminante sobre los tres tipos de vehculos, en funcin de su origen.

Media, desviacin tpica, nmero de casos vlidos (ponderado y no ponderado)


para cada uno de los grupos y para la muestra total:

Tabla de ANOVA con estadsticos F que permiten contrastar la hiptesis de


igualdad de medias entre los grupos en cada variable independiente. La tabla de
ANOVA incluye tambin el estadstico lambda de Wilks univariante. La informacin

de esta tabla suele utilizarse como prueba preliminar para detectar si los grupos
difieren en las variables de clasificacin seleccionadas; sin embargo, debe tenerse
en cuenta que una variable no significativa a nivel univariante podra aportar
informacin discriminativa a nivel multivariante.

Correlacin

intra-grupos.

Muestra

la

matriz

de

correlaciones

intra-grupo

combinada, es decir la matriz de correlaciones entre las variables independientes


estimada a partir de las correlaciones obtenidas dentro de cada grupo.

Box's Test of Equality of Covariance Matrices

Validacin cruzada: para comprobar la capacidad predictiva de la funcin


discriminante, para ello el SPSS genera tantas funciones discriminantes como
casos vlidos tiene el anlisis; cada una de esas funciones se obtiene eliminando
un caso; despus, cada caso es clasificado utilizando la funcin discriminante en
la que no ha intervenido.

Anlisis Discriminante (con R)

Das könnte Ihnen auch gefallen