Sie sind auf Seite 1von 15

STATGRAPHICS – Rev.

9/14/2006

Análisis Discriminante

Resumen
El procedimiento de Análisis Discriminante es diseñado para ayudar a distinguir entre dos o
más grupos de datos basados en un conjunto de p variables cuantitativas observadas. Esto se
hace construyendo funciones discriminantes que son combinaciones lineales de las variables. El
objetivo de tal análisis es generalmente uno o ambos de los que siguen:

1. La habilidad para describir los casos observados matemáticamente de una manera que los
separa en grupos tan bien como sea posible.
2. La habilidad para clasificar nuevas observaciones como pertenencia a uno u algunos
grupos.

En la construcción de las funciones discriminantes, el procedimiento permite incluir a todas las


variables o usar un procedimiento de selección paso a paso que incluye solamente algunas
variables que son estadísticamente significativas para discriminar sobre los grupos. Los
resúmenes y pruebas estadísticas con significancia para el número de funciones discriminantes
necesarias serán incluidos.

Las funciones discriminantes derivadas pueden utilizarse para clasificar nuevos casos dentro de
los grupos. Las probabilidades a priori de pertenencia para cada grupo serán ingresadas o
derivadas de los datos observados.

Ejemplo StatFolio: discriminant.sgp

Datos del Ejemplo:


El archivo iris.sf6 contiene un conjunto de datos famosos por Fisher (1936). Los datos consisten
de un total de n = 150 diafragmas, 50 de cada una de g = 3 diferentes especies: setosa,
versicolor, y virginica. Las mediciones fueron hechas sobre p = 4 variables, describiendo la
longitud y anchura del sépalo y pétalo. La tabla muestra una lista parcial de los datos del
archivo:

Sample Sepal Sepal Petal Petal Species


(Muestra) Length Width Length Width (Especie)
(Longitud (Anchura (Longitud (Anchura
Sépalo) Sépalo) Pétalo) Pétalo)
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
7 4.6 3.4 1.4 0.3 setosa
8 5 3.4 1.5 0.2 setosa
9 4.4 2.9 1.4 0.2 setosa
10 4.9 3.1 1.5 0.1 setosa
… … … … … …

© 2006 por StatPoint, Inc. Análisis Discriminante - 1


STATGRAPHICS – Rev. 9/14/2006

Un gráfico matriz de los datos observados se muestra en la grafica de abajo:

Species
Sepal length
setosa
versicolor
Sepal width virginica

Petal length

Petal width

Observe como las especies son naturalmente divididas entre grupos. Existe, sin embargo, algún
traslape entre los grupos, particularmente versicolor y virginica.

Entrada de Datos
La caja de dialogo para la entrada de datos requiere el nombre de una columna que identifique
los grupos y los nombres de las variables p que serán utilizadas para discriminar sobre los
grupos:

© 2006 por StatPoint, Inc. Análisis Discriminante - 2


STATGRAPHICS – Rev. 9/14/2006

• Factor de Clasificación: Columna numérica o no numérica conteniendo un identificador de


que grupo pertenece a cada observación. Debe haber valores únicos de g en esta columna.

• Datos: Los nombres de las variables p que serán usadas para discriminar acerca de los
grupos.

• Etiquetas de Puntos: Etiquetas opcionales para cada observación.

• Selección: Selección de un subconjunto de los datos.

Modelo Estadístico
La meta del procedimiento de Análisis Discriminante es la construcción de combinaciones
lineales de p variables de entrada que discriminen mejor acerca de los g grupos. El j-ésimo
función discriminante toma la forma de:

D j = d j1 Z 1 + d j 2 Z 2 + ... + d jp Z p (1)

donde las Z’s son las variables de entrada X estandarizadas, creadas restando la media muestral y
dividiendo entre la desviación estándar muestral.

Las s funciones discriminantes son encontradas por la determinación de eigenvalores por:

W −1 B (2)

donde W es la suma de cuadrados de la muestra dentro de grupos y la matriz de producto-


cruzado y B es la suma de cuadrados de la muestra entre grupos y la matriz de producto-cruzado.
Los coeficientes de las funciones discriminadoras son derivadas de los eigenvectores.
Básicamente, las funciones discriminantes son derivadas para maximizar la separación de los
grupos.

Para clasificar nuevos casos dentro de grupos, las funciones de clasificación también son
derivadas. Para clasificar una observación, una puntuación es derivada para cada grupo. La
puntuación para el j-ésimo grupo es calculado por:

C j = c j1 X 1 + c j 2 X 2 + ... + c jp X p + c j 0 (3)

Nuevos casos son clasificados como perteneciendo a cualquier grupo si tiene el valor más grande
de Cj * a priorij.

donde a priorij es la probabilidad a priori de pertenecer al j-ésimo grupo. Los a priori se pueden
ingresar por el usuario, la estimación de los datos, o asumir que son iguales.

Resumen del Análisis


La tabla del Resumen del Análisis se muestra abajo:

© 2006 por StatPoint, Inc. Análisis Discriminante - 3


STATGRAPHICS – Rev. 9/14/2006

Análisis Discriminante
Variable de clasificación: Species (type of iris)
Variables independientes:
Sepal length (centimeters)
Sepal width (centimeters)
Petal length (centimeters)
Petal width (centimeters)

Número de casos completos: 150


Número de grupos: 3

Función Eigenvalor Porcentaje Correlación


Discriminante Relativo Canónica
1 32.1919 99.12 0.98482
2 0.285391 0.88 0.47120

Funciones Lambda
Derivadas de Wilks Chi-Cuadrada GL Valor-P
1 0.0234386 546.1153 8 0.0000
2 0.777973 36.5297 3 0.0000

Se despliega en la sección superior de la tabla:

• Nombres de Variables: Los nombres de las p variables de entrada.

• Número de Casos Completos: El número de casos n para los cuales no se cuenta con ningún
dato en blanco.

• Número de Grupo: Número de diferentes grupos g dentro de los cuales los casos serán
divididos.

• Función Discriminante: El índice de la función discriminante j.

• Eigenvalor: λj, el j-ésimo eigenvalor de W −1 B .

• Porcentaje Relativo: El porcentaje de la suma de varianzas de las p variables independientes


considerado por el j-ésimo función discriminante, calculado dividiendo el j-ésimo eigenvalor
por la suma de todos los eigenvalores.

• Correlación Canónica: La correlación canónica ρ *j asociada con el j-ésimo eigenvalor,


2

calculado de

λj
ρ *j =
2
(4)
1 + λJ

el cual representa la habilidad relativa para discriminar sobre los grupos.

• Lamda de Wilk: Un estadístico calculado de las correlaciones canónicas de acuerdo a


( )
q
Λ j = ∏ 1 − ρ i*
2
(5)
i= j

© 2006 por StatPoint, Inc. Análisis Discriminante - 4


STATGRAPHICS – Rev. 9/14/2006

• Chi-Cuadrada: Una prueba estadística utilizada para probar la hipótesis de que todas las
correlaciones canónicas numeradas por j son iguales a 0. Esto se calcula por

⎛ ⎞
Χ 2 = −⎜ n − 1 − ( p + g )⎟ ln Λ j
1
(6)
⎝ 2 ⎠

• g.l.: Los grados de libertad (p-j+1)(g-j) asociados con el estadístico Chi-Cuadrada.

• Valor-P: Un valor-p unilateral para lo observado en la prueba Chi-Cuadrada. Valores P


pequeños (menor que 0.05 si esta operando en un nivel de significancia del 5%) corresponde
para las funciones discriminantes que son significativamente diferentes de cero.

En el ejemplo, ambas funciones discriminantes son estadísticamente significativas, aunque las


primeras consideran la mayor parte de la varianza en los datos.

Opciones del Análisis


La caja de dialogo de Opciones del Análisis determina si todas las variables p deberán incluirse
en el análisis o si el procedimiento para la selección de variables paso a paso deberá utilizarse
potencialmente para seleccionar solamente un subconjunto de las variables:

• Estimar – Especifica si todas las variables independientes especificadas sobre la caja de


dialogo de la entrada de datos deberán incluirse en el modelo final, o si una selección de la
variables paso a paso será aplicada s. Un ejemplo de la regresión paso a paso se incluye
abajo.

• F-para-Ingresar – En una regresión paso a paso, las variables que deberán ingresar dentro
del modelo en un paso calculado si sus valores F son mayor o igual al valor especificado en
F-para-Ingresar.

© 2006 por StatPoint, Inc. Análisis Discriminante - 5


STATGRAPHICS – Rev. 9/14/2006
• F-para-Remover - En una regresión paso a paso, las variables que deberán removerse del
modelo en un paso calculado si sus valores F son menor que el valor especificado en F-para-
Remover.

• Pasos Máximos – El número máximo de pasos permitidos cuando se realiza una regresión
paso a paso.

• Desplegar – Si se presentan los resultados de cada paso cuando se realiza una regresión paso
a paso.

Ejemplo – Regresión Paso a Paso


Las Opciones del Análisis deberán usarse para desarrollar una elección de selección paso a paso
hacia atrás o paso a paso hacia adelante.

• Selección Hacia Atrás – Comienza con un modelo que implica solamente al término
constante e ingresa una variable a la vez basado sobre la significancia estadística si se agrega al
modelo actual. En cada paso, el algoritmo trae al modelo la variable que podrá ser la
de mayor significancia estadística si se ingresa. La selección de las variables esta
basada en una prueba F-para-Ingresar. Mientras las variables más significativas
tengan un valor F mayor o igual al especificado en la caja de dialogo Resumen del
Análisis, será incluida al modelo. Cuando ninguna variable tiene un valor más grande
que F, la selección de las variables para. Además, las variables incorporadas al
modelo inicial con el procedimiento pueden ser removidas más adelante si sus valores
F caen abajo del criterio F-para-Remover.

• Selección Hacia Adelante – Comienza con un modelo implicando todas las variables
especificadas en la caja de dialogo entrada de datos y remueve una sola variable a la
vez basando en la significancia estadística del modelo actual. En cada paso, el
algoritmo remueve del modelo la variable que podrá ser la de menor significancia
estadística. Las variables removidas están basadas sobre la prueba F-para-Remover.
Si la variable de menor significancia tiene un valor menor que la F especificada sobre
la caja en la caja de dialogo Resumen del Análisis, entonces se podrá remover del
modelo. Cuando todas las variables removidas tengan un valor más grande que F, la
selección de las variables para. Además, las variables removidas del modelo inicial
con el procedimiento pueden ser reincorporadas más adelante si sus valores F cae
debajo del criterio F-para-Ingresar.

La salida de abajo muestra los resultados de una Selección Hacia Atrás para los datos del
ejemplo:

Regresión por pasos


Método: selección hacia adelante
F para introducir: 4.0
F para eliminar: 4.0

Paso 0:
0 variables en el modelo.

Paso 1:
Agregando variable Petal length con F para introducir = 1180.16
1 variables en el modelo.
Lambda de Wilk = 0.0586283 F aproximada = 1180.16 con valor-P = 0.0000

© 2006 por StatPoint, Inc. Análisis Discriminante - 6


STATGRAPHICS – Rev. 9/14/2006
Paso 2:
Agregando variable Sepal width con F para introducir = 43.0355
2 variables en el modelo.
Lambda de Wilk = 0.0368841 F aproximada = 307.105 con valor-P = 0.0000

Paso 3:
Agregando variable Petal width con F para introducir = 34.5687
3 variables en el modelo.
Lambda de Wilk = 0.0249755 F aproximada = 257.503 con valor-P = 0.0000

Paso 4:
Agregando variable Sepal length con F para introducir = 4.72115
4 variables en el modelo.
Lambda de Wilk = 0.0234386 F aproximada = 199.145 con valor-P = 0.0000

Modelo final seleccionado.

Todas las cuatros variables se adicionan significativamente al ajuste cuando son incorporadas.

Gráfico de Dispersión 2D
El Gráfico de Dispersión 2D grafica los datos de cualquier par de variables X.

Diagrama de Dispersión

4.4 Species
setosa
4 versicolor
virginica
3.6
Sepal width

3.2

2.8

2.4

2
4.3 5.3 6.3 7.3 8.3
Sepal length

© 2006 por StatPoint, Inc. Análisis Discriminante - 7


STATGRAPHICS – Rev. 9/14/2006
Opciones del Panel

Seleccione las variables a definir en los ejes horizontal y vertical.

Gráfico de Dispersión 3D
El Gráfico de Dispersión 3D grafica los datos de cualquier tercia de variables X.

Diagrama de Dispersión
Species
setosa
versicolor
8 virginica

6
Petal length

2
4.4
3.64
0 2.83.2
4.3 5.3 6.3 7.3 2 2.4 Sepal width
8.3
Sepal length

© 2006 por StatPoint, Inc. Análisis Discriminante - 8


STATGRAPHICS – Rev. 9/14/2006
Opciones del Panel

Seleccione las variables a definir en los tres ejes.

Estadísticas por Grupo


Esta tabla despliega la media muestral y desviación estándar muestral para cada una de las p
variables en cada uno de los g grupos.

Resumen Estadístico por Grupo


Species setosa versicolor virginica TOTAL
RECUENTO 50 50 50 150
MEDIAS
Sepal length 5.006 5.936 6.588 5.84333
Sepal width 3.428 2.77 2.974 3.05733
Petal length 1.462 4.26 5.552 3.758
Petal width 0.246 1.326 2.026 1.19933
DESVIACIONES ESTD.
Sepal length 0.35249 0.516171 0.63588 0.828066
Sepal width 0.379064 0.313798 0.322497 0.435866
Petal length 0.173664 0.469911 0.551895 1.7653
Petal width 0.105386 0.197753 0.27465 0.762238

© 2006 por StatPoint, Inc. Análisis Discriminante - 9


STATGRAPHICS – Rev. 9/14/2006
Correlaciones por Grupos
Esta tabla muestra la estimación combinada dentro-grupos de las matrices de covarianza y
correlación.

Estadísticas agrupadas Dentro-de-Grupo para Species


Matriz de Covarianza Dentro-de-Grupo
Sepal length Sepal width Petal length Petal width
Sepal length 0.265008 0.0927211 0.167514 0.0384014
Sepal width 0.0927211 0.115388 0.0552435 0.0327102
Petal length 0.167514 0.0552435 0.185188 0.0426653
Petal width 0.0384014 0.0327102 0.0426653 0.0418816

Matriz de Correlación Dentro-de-Grupo


Sepal length Sepal width Petal length Petal width
Sepal length 1.0 0.530236 0.756164 0.364506
Sepal width 0.530236 1.0 0.377916 0.470535
Petal length 0.756164 0.377916 1.0 0.484459
Petal width 0.364506 0.470535 0.484459 1.0

Funciones Discriminantes
Las Funciones Discriminantes son combinaciones lineales de las variables de entrada usadas
para separar los datos en diferentes grupos. Este panel muestra ambos los coeficientes
estandarizados y sin estandarizar:

Coeficientes de la Función Discriminante para Species

A 1 2
Sepal length 0.426955 0.0124075
Sepal width 0.521242 0.735261
Petal length -0.947257 -0.401038
Petal width -0.575161 0.58104

Coeficientes Sin Estandarizar


1 2
Sepal length 0.829378 0.0241021
Sepal width 1.53447 2.16452
Petal length -2.20121 -0.931921
Petal width -2.81046 2.83919
CONSTANTE 2.10511 -6.66147

La j-ésima función discriminante toma la forma

D j = d j1 Z 1 + d j 2 Z 2 + ... + d jp Z p (7)

donde las Z son la forma estandarizada de las variables X de entrada, creadas por la resta de la
media muestral dividida entre la desviación estándar muestral. La j-ésima función discriminante
sin estandarizar toma la forma de

U j = u j1 X 1 + u j 2 X 2 + ... + u jp X p + u j 0 (8)

Cuando las variables están en unidades diferentes o tiene distintas varianzas, más provecho se
obtiene de los coeficientes estandarizados.

© 2006 por StatPoint, Inc. Análisis Discriminante - 10


STATGRAPHICS – Rev. 9/14/2006
En los datos del ejemplo, note que la primer función discrimínate es básicamente un contraste
entre el tamaño del sépalo. La segunda función discriminante es primariamente un contraste
entre la combinación del ancho del sépalo y pétalo y el largo del pétalo.

Grafica de Funciones Discriminantes


Este panel despliega los valores de cualquier par de funciones discriminantes para cada uno de n
casos.

Gráfica de Funciones Discriminantes

3.3 Species
setosa
2.3 versicolor
virginica
1.3 Centroides
Función 2

0.3

-0.7

-1.7

-2.7
-10 -6 -2 2 6 10
Función 1

Es de mucha ayuda en la visualización de que también las funciones separan los datos.
Claramente, la primer función separa completamente setosa de las otras dos especies, dejando
una cantidad pequeña de traslapes entre versicolor y virginica. La segunda función discriminante
puede ayudar un poco a separar las últimas dos especies. Adicionalmente a las observaciones, la
localización de las medias de los valores de las funciones discriminantes para cada grupo son
mostradas con signos +.

© 2006 por StatPoint, Inc. Análisis Discriminante - 11


STATGRAPHICS – Rev. 9/14/2006
Opciones del Panel

Introduce el número de las dos funciones discriminantes para graficar en el eje horizontal y en el
eje vertical.

Centroides de Grupos
El panel muestra el centroide o los valores medios para cada uno de los g grupos en cada una de
las s funciones discriminantes

Centroides de Grupo para Species


Grupo 1 2
setosa 7.6076 0.215133
versicolor -1.82505 -0.7279
virginica -5.78255 0.512767

Funciones de Clasificación
Las funciones de clasificación son usadas para determinar a cual de los g grupos una muestra
cualquiera parece pertenecer:

Coeficientes de la Función de Clasificación para Species


setosa versicolor virginica
Sepal length 23.5442 15.6982 12.4458
Sepal width 23.5879 7.07251 3.68528
Petal length -16.4306 5.21145 12.7665
Petal width -17.3984 6.43423 21.0791
CONSTANTE -86.3085 -72.8526 -104.368

Una puntuación será calculada para cada observación i y cada grupo j de acuerdo a

C ij = c j1 X i1 + c j 2 X i 2 + ... + c jp X ip (9)

Si los datos son asumidos que proviene de una distribución normal multivariada, entonces los
scores son relacionados a las probabilidades de que una observación pertenezca a un grupo
particular.

© 2006 por StatPoint, Inc. Análisis Discriminante - 12


STATGRAPHICS – Rev. 9/14/2006

Tabla de Clasificación
La Tabla de Clasificación muestra el resultado de usar la regla de clasificación para asigna casos
observados y nuevos casos a grupos. Para un conjunto de valores X dado, un caso es asignado al
grupo que corresponde el valor C ij * prior j más grande, donde a priori rj es la probabilidad a
priori de que un individuo provenga del grupo j. Ya que el tamaño de población de cada grupo
no es el mismo, la probabilidad de que un individuo pertenezca a un grupo particular a priori
puede variar de grupo a grupo. Por ejemplo, en investigación para una enfermedad, la proporción
de individuos dada una prueba de diagnostico quienes actualmente han tenido un enfermedad
puede ser muy pequeña, un hecho que necesitamos tomar en cuenta. Usando Opciones de Panel,
el usuario especifica como manejar las probabilidades a priori. Puede asumir ser la misma para
todos los grupos, ser proporcional a la fracción de datos dentro de cada grupo. O ser introducida
por el usuario.

La tabla muestra una salida típica:

Tabla de Clasificación
Actual Tamaño Predicho Species
Species de Grupo setosa versicolor virginica
setosa 50 50 0 0
(100.00%) ( 0.00%) ( 0.00%)
versicolor 50 0 48 2
( 0.00%) ( 96.00%) ( 4.00%)
virginica 50 0 1 49
( 0.00%) ( 2.00%) ( 98.00%)
Porcentaje de casos correctamente clasificados: 98.00%

Probabilidad
Grupo Previa
1 0.3333
2 0.3333
3 0.3333

Grupo Grupo Valor Distancia 2° Grupo 2° Valor Distancia


Fila Actual Más Alto Más Alto Cuadrada Prob. Más Alto Más Alto Cuadrada Prob.
71 versicolor *virginica 80.0769 4.55382 0.7468 versicolor 78.9954 6.71675 0.2532
84 versicolor *virginica 79.093 3.59634 0.8566 versicolor 77.3056 7.17114 0.1434
134 virginica *versicolor 82.0789 4.0068 0.7294 virginica 81.0874 5.98984 0.2706
151 virginica 99.945 0.73244 0.9996 versicolor 91.9996 16.6234 0.0004
* = incorrectamente clasificado.

La parte de arriba muestra que tan bien la regla de clasificación realizo la clasificación de los
datos del ejemplo. Cada renglón tabula los resultados para los casos que actualmente pertenecen
a un grupo en particular. Las columnas muestran que tan frecuente fueron clasificados como
pertenecientes a cada grupo. En la parte de abajo se muestra el porcentaje de casos que fueron
correctamente clasificados.

La parte del centro de la tabla muestra las probabilidades a priori. Para los datos del ejemplo, las
probabilidades a priori fueron asumidas ser las mismas para todos los grupos.

La parte más baja de la tabla muestra los dos grupos que recibieron los scores más altos para los
casos seleccionados. La tabla muestra:

© 2006 por StatPoint, Inc. Análisis Discriminante - 13


STATGRAPHICS – Rev. 9/14/2006
1. El grupo mas grande y el segundo mas grande– Los dos grupos con las puntuaciones
mas altas.
2. Valores – Los valores de los scores calculados para los dos grupos.
3. Distancias Cuadradas – La distancia cuadrada de Mahalanobis de las observaciones
de los centroides de los grupos, en el espacio de las funciones discriminantes. La
lejanía de una observación al centroide del grupo, el que parece menos pertenecer al
grupo.
4. Probabilidad – La probabilidad estimada de que el caso pertenezca a un grupo. La
probabilidad es basada en la razón de la altura de la función de densidad normal en la
distancia de la observación de cada centroide de grupo y en las probabilidades a
priori.

Por ejemplo, suponga que un nuevo iris fue observado con las siguientes características:

sepal length = 6.6 inches


sepal width = 2.9 inches
petal length = 5.1 inches
petal width = 2.2 inches

Estos valores estarían en el renglón #151 de la hoja de datos. La tabla muestra que el grupo con
la puntuación más alta para estos valores es virginica, seguida por versicolor. La gran diferencia
entre las distancias y así las probabilidades posteriores implican que la muestra parece pertenecer
mas a el grupo virginica.

Opciones del Panel

• Probabilidades a Priori: Método para determinar la probabilidad de pertenencia un grupo


antes de que los datos sean examinados. Selecciona Todos los Grupos Iguales para asumir a
priori iguales para todos los grupos, Proporcional a lo Observado para fijar las a prioris igual
© 2006 por StatPoint, Inc. Análisis Discriminante - 14
STATGRAPHICS – Rev. 9/14/2006
a la fracción de n representada por cada grupo, o Usar-Especificada para introducir una
columna con g valores que sumen 1.

• Despliega: Todos los Datos desplegaran todas las observaciones en la hoja de datos,
clasificado equivocadamente y Nuevas Observaciones desplegaran cualquier caso que fue
clasificado equivocadamente o que tiene un valor perdido para el indicador del grupo,
mientras que Nuevas Observaciones solamente desplegaran los datos no usados para
determinar las funciones discriminantes.

Guardar Resultados

Los siguientes resultados pueden ser guardados en una hoja de datos:

1. Valores de la Función Discriminante - Los valores D de las funciones discriminantes


para cada una de n observaciones.
2. Coeficientes de la Función de Clasificación – Los valores C de las funciones de
clasificación para cada una de n observaciones.
3. Coeficientes Estandarizados - s columnas que contienen los valores de los p coeficientes
dij de cada función discriminante estandarizada.
4. Coeficientes no Estandarizados - s columnas que contienen los valores de los p+1
coeficientes uij de cada función discriminante no estandarizada.
5. Probabilidades Previas – Las probabilidades a priori de pertenecer a cada uno de los g
grupos.
6. Medias de Variables – Las medias de cada una de las p variables X.
7. Desviaciones Estándar de Variables – Las desviaciones estándar muéstrales de cada una
de las p variables X.

© 2006 por StatPoint, Inc. Análisis Discriminante - 15

Das könnte Ihnen auch gefallen