Beruflich Dokumente
Kultur Dokumente
9/14/2006
Análisis Discriminante
Resumen
El procedimiento de Análisis Discriminante es diseñado para ayudar a distinguir entre dos o
más grupos de datos basados en un conjunto de p variables cuantitativas observadas. Esto se
hace construyendo funciones discriminantes que son combinaciones lineales de las variables. El
objetivo de tal análisis es generalmente uno o ambos de los que siguen:
1. La habilidad para describir los casos observados matemáticamente de una manera que los
separa en grupos tan bien como sea posible.
2. La habilidad para clasificar nuevas observaciones como pertenencia a uno u algunos
grupos.
Las funciones discriminantes derivadas pueden utilizarse para clasificar nuevos casos dentro de
los grupos. Las probabilidades a priori de pertenencia para cada grupo serán ingresadas o
derivadas de los datos observados.
Species
Sepal length
setosa
versicolor
Sepal width virginica
Petal length
Petal width
Observe como las especies son naturalmente divididas entre grupos. Existe, sin embargo, algún
traslape entre los grupos, particularmente versicolor y virginica.
Entrada de Datos
La caja de dialogo para la entrada de datos requiere el nombre de una columna que identifique
los grupos y los nombres de las variables p que serán utilizadas para discriminar sobre los
grupos:
• Datos: Los nombres de las variables p que serán usadas para discriminar acerca de los
grupos.
Modelo Estadístico
La meta del procedimiento de Análisis Discriminante es la construcción de combinaciones
lineales de p variables de entrada que discriminen mejor acerca de los g grupos. El j-ésimo
función discriminante toma la forma de:
D j = d j1 Z 1 + d j 2 Z 2 + ... + d jp Z p (1)
donde las Z’s son las variables de entrada X estandarizadas, creadas restando la media muestral y
dividiendo entre la desviación estándar muestral.
W −1 B (2)
Para clasificar nuevos casos dentro de grupos, las funciones de clasificación también son
derivadas. Para clasificar una observación, una puntuación es derivada para cada grupo. La
puntuación para el j-ésimo grupo es calculado por:
C j = c j1 X 1 + c j 2 X 2 + ... + c jp X p + c j 0 (3)
Nuevos casos son clasificados como perteneciendo a cualquier grupo si tiene el valor más grande
de Cj * a priorij.
donde a priorij es la probabilidad a priori de pertenecer al j-ésimo grupo. Los a priori se pueden
ingresar por el usuario, la estimación de los datos, o asumir que son iguales.
Análisis Discriminante
Variable de clasificación: Species (type of iris)
Variables independientes:
Sepal length (centimeters)
Sepal width (centimeters)
Petal length (centimeters)
Petal width (centimeters)
Funciones Lambda
Derivadas de Wilks Chi-Cuadrada GL Valor-P
1 0.0234386 546.1153 8 0.0000
2 0.777973 36.5297 3 0.0000
• Número de Casos Completos: El número de casos n para los cuales no se cuenta con ningún
dato en blanco.
• Número de Grupo: Número de diferentes grupos g dentro de los cuales los casos serán
divididos.
calculado de
λj
ρ *j =
2
(4)
1 + λJ
• Chi-Cuadrada: Una prueba estadística utilizada para probar la hipótesis de que todas las
correlaciones canónicas numeradas por j son iguales a 0. Esto se calcula por
⎛ ⎞
Χ 2 = −⎜ n − 1 − ( p + g )⎟ ln Λ j
1
(6)
⎝ 2 ⎠
• F-para-Ingresar – En una regresión paso a paso, las variables que deberán ingresar dentro
del modelo en un paso calculado si sus valores F son mayor o igual al valor especificado en
F-para-Ingresar.
• Pasos Máximos – El número máximo de pasos permitidos cuando se realiza una regresión
paso a paso.
• Desplegar – Si se presentan los resultados de cada paso cuando se realiza una regresión paso
a paso.
• Selección Hacia Atrás – Comienza con un modelo que implica solamente al término
constante e ingresa una variable a la vez basado sobre la significancia estadística si se agrega al
modelo actual. En cada paso, el algoritmo trae al modelo la variable que podrá ser la
de mayor significancia estadística si se ingresa. La selección de las variables esta
basada en una prueba F-para-Ingresar. Mientras las variables más significativas
tengan un valor F mayor o igual al especificado en la caja de dialogo Resumen del
Análisis, será incluida al modelo. Cuando ninguna variable tiene un valor más grande
que F, la selección de las variables para. Además, las variables incorporadas al
modelo inicial con el procedimiento pueden ser removidas más adelante si sus valores
F caen abajo del criterio F-para-Remover.
• Selección Hacia Adelante – Comienza con un modelo implicando todas las variables
especificadas en la caja de dialogo entrada de datos y remueve una sola variable a la
vez basando en la significancia estadística del modelo actual. En cada paso, el
algoritmo remueve del modelo la variable que podrá ser la de menor significancia
estadística. Las variables removidas están basadas sobre la prueba F-para-Remover.
Si la variable de menor significancia tiene un valor menor que la F especificada sobre
la caja en la caja de dialogo Resumen del Análisis, entonces se podrá remover del
modelo. Cuando todas las variables removidas tengan un valor más grande que F, la
selección de las variables para. Además, las variables removidas del modelo inicial
con el procedimiento pueden ser reincorporadas más adelante si sus valores F cae
debajo del criterio F-para-Ingresar.
La salida de abajo muestra los resultados de una Selección Hacia Atrás para los datos del
ejemplo:
Paso 0:
0 variables en el modelo.
Paso 1:
Agregando variable Petal length con F para introducir = 1180.16
1 variables en el modelo.
Lambda de Wilk = 0.0586283 F aproximada = 1180.16 con valor-P = 0.0000
Paso 3:
Agregando variable Petal width con F para introducir = 34.5687
3 variables en el modelo.
Lambda de Wilk = 0.0249755 F aproximada = 257.503 con valor-P = 0.0000
Paso 4:
Agregando variable Sepal length con F para introducir = 4.72115
4 variables en el modelo.
Lambda de Wilk = 0.0234386 F aproximada = 199.145 con valor-P = 0.0000
Todas las cuatros variables se adicionan significativamente al ajuste cuando son incorporadas.
Gráfico de Dispersión 2D
El Gráfico de Dispersión 2D grafica los datos de cualquier par de variables X.
Diagrama de Dispersión
4.4 Species
setosa
4 versicolor
virginica
3.6
Sepal width
3.2
2.8
2.4
2
4.3 5.3 6.3 7.3 8.3
Sepal length
Gráfico de Dispersión 3D
El Gráfico de Dispersión 3D grafica los datos de cualquier tercia de variables X.
Diagrama de Dispersión
Species
setosa
versicolor
8 virginica
6
Petal length
2
4.4
3.64
0 2.83.2
4.3 5.3 6.3 7.3 2 2.4 Sepal width
8.3
Sepal length
Funciones Discriminantes
Las Funciones Discriminantes son combinaciones lineales de las variables de entrada usadas
para separar los datos en diferentes grupos. Este panel muestra ambos los coeficientes
estandarizados y sin estandarizar:
A 1 2
Sepal length 0.426955 0.0124075
Sepal width 0.521242 0.735261
Petal length -0.947257 -0.401038
Petal width -0.575161 0.58104
D j = d j1 Z 1 + d j 2 Z 2 + ... + d jp Z p (7)
donde las Z son la forma estandarizada de las variables X de entrada, creadas por la resta de la
media muestral dividida entre la desviación estándar muestral. La j-ésima función discriminante
sin estandarizar toma la forma de
U j = u j1 X 1 + u j 2 X 2 + ... + u jp X p + u j 0 (8)
Cuando las variables están en unidades diferentes o tiene distintas varianzas, más provecho se
obtiene de los coeficientes estandarizados.
3.3 Species
setosa
2.3 versicolor
virginica
1.3 Centroides
Función 2
0.3
-0.7
-1.7
-2.7
-10 -6 -2 2 6 10
Función 1
Es de mucha ayuda en la visualización de que también las funciones separan los datos.
Claramente, la primer función separa completamente setosa de las otras dos especies, dejando
una cantidad pequeña de traslapes entre versicolor y virginica. La segunda función discriminante
puede ayudar un poco a separar las últimas dos especies. Adicionalmente a las observaciones, la
localización de las medias de los valores de las funciones discriminantes para cada grupo son
mostradas con signos +.
Introduce el número de las dos funciones discriminantes para graficar en el eje horizontal y en el
eje vertical.
Centroides de Grupos
El panel muestra el centroide o los valores medios para cada uno de los g grupos en cada una de
las s funciones discriminantes
Funciones de Clasificación
Las funciones de clasificación son usadas para determinar a cual de los g grupos una muestra
cualquiera parece pertenecer:
Una puntuación será calculada para cada observación i y cada grupo j de acuerdo a
C ij = c j1 X i1 + c j 2 X i 2 + ... + c jp X ip (9)
Si los datos son asumidos que proviene de una distribución normal multivariada, entonces los
scores son relacionados a las probabilidades de que una observación pertenezca a un grupo
particular.
Tabla de Clasificación
La Tabla de Clasificación muestra el resultado de usar la regla de clasificación para asigna casos
observados y nuevos casos a grupos. Para un conjunto de valores X dado, un caso es asignado al
grupo que corresponde el valor C ij * prior j más grande, donde a priori rj es la probabilidad a
priori de que un individuo provenga del grupo j. Ya que el tamaño de población de cada grupo
no es el mismo, la probabilidad de que un individuo pertenezca a un grupo particular a priori
puede variar de grupo a grupo. Por ejemplo, en investigación para una enfermedad, la proporción
de individuos dada una prueba de diagnostico quienes actualmente han tenido un enfermedad
puede ser muy pequeña, un hecho que necesitamos tomar en cuenta. Usando Opciones de Panel,
el usuario especifica como manejar las probabilidades a priori. Puede asumir ser la misma para
todos los grupos, ser proporcional a la fracción de datos dentro de cada grupo. O ser introducida
por el usuario.
Tabla de Clasificación
Actual Tamaño Predicho Species
Species de Grupo setosa versicolor virginica
setosa 50 50 0 0
(100.00%) ( 0.00%) ( 0.00%)
versicolor 50 0 48 2
( 0.00%) ( 96.00%) ( 4.00%)
virginica 50 0 1 49
( 0.00%) ( 2.00%) ( 98.00%)
Porcentaje de casos correctamente clasificados: 98.00%
Probabilidad
Grupo Previa
1 0.3333
2 0.3333
3 0.3333
La parte de arriba muestra que tan bien la regla de clasificación realizo la clasificación de los
datos del ejemplo. Cada renglón tabula los resultados para los casos que actualmente pertenecen
a un grupo en particular. Las columnas muestran que tan frecuente fueron clasificados como
pertenecientes a cada grupo. En la parte de abajo se muestra el porcentaje de casos que fueron
correctamente clasificados.
La parte del centro de la tabla muestra las probabilidades a priori. Para los datos del ejemplo, las
probabilidades a priori fueron asumidas ser las mismas para todos los grupos.
La parte más baja de la tabla muestra los dos grupos que recibieron los scores más altos para los
casos seleccionados. La tabla muestra:
Por ejemplo, suponga que un nuevo iris fue observado con las siguientes características:
Estos valores estarían en el renglón #151 de la hoja de datos. La tabla muestra que el grupo con
la puntuación más alta para estos valores es virginica, seguida por versicolor. La gran diferencia
entre las distancias y así las probabilidades posteriores implican que la muestra parece pertenecer
mas a el grupo virginica.
• Despliega: Todos los Datos desplegaran todas las observaciones en la hoja de datos,
clasificado equivocadamente y Nuevas Observaciones desplegaran cualquier caso que fue
clasificado equivocadamente o que tiene un valor perdido para el indicador del grupo,
mientras que Nuevas Observaciones solamente desplegaran los datos no usados para
determinar las funciones discriminantes.
Guardar Resultados