Sie sind auf Seite 1von 15

Herramientas de clasificación en química.

Parte 1
Modelos lineales. PLS-DA

Daniel Ángel Peña


Metodología Investigación II

PLS-DA 1
Presentación

PRESENTACIÓN PLS-DA 2
Abstrac
The common steps to calibrate and validate classification models based on partial least squares
discriminant analysis are discussed in the present tutorial. All issues to be evaluated during model
training and validation are introduced and explained using a chemical dataset, composed of toxic
and non-toxic sediment samples. The analysis was carried out with MATLAB routines, which are
available in the ESI† of this tutorial, together with the dataset and a detailed list of all MATLAB
instructions used for the analysis.

Resumen
Los pasos comunes para calibrar y validar modelos de clasificación basados en el análisis
discriminante de mínimos cuadrados parciales se discuten en el presente tutorial. Todos los
problemas que se evaluarán durante el entrenamiento y la validación modelo se presentan y
explican utilizando un conjunto de datos químicos, compuesto de muestras de sedimentos tóxicos
y no tóxicos. El análisis se llevó a cabo con las rutinas de MATLAB, que están disponibles en el
ESI † de este tutorial, junto con el conjunto de datos y una lista detallada de todas las
instrucciones de MATLAB utilizadas para el análisis.

RESUMEN 3
1 Análisis discriminante de mínimos cuadrados parciales

Modelo clasificación
calibrado, asociado a
variables cualitativas y
cuantitativas.
Técnicas quimiométricas,
capaces de reconocer la
pertenencia de una muestra a
su clase apropiada.
• Mediciones • Pertenencia
químicas o categoría
PLS
Cuantitativo Cualitativo

4
1 Análisis discriminante de mínimos cuadrados parciales
PLS1
Variable Y dependiente …n filas (muestra)

clase)
…g columnas (inf.
PLS2 i-th i-th g-th

Varias variables Y dependientes yig yig 1


yig yig 0
+
Relación
directa

…n filas (muestra)

clase)
…g columnas (inf.
i-th i-th g-th

Variables ycalcig ycalcig ~1


Latentes
ycalcig ycalcig ~0

PLS-- 0 Variables
Relación
DA
Inversa
independientes

5
1 Análisis discriminante de mínimos cuadrados parciales
2 Datos experimentales 3 Software y código

Tabla 1. Conjunto de datos: partición tóxicos y no tóxicos

http://michem.disat.unimib.it/chm/

2 Datos experimentales & 3 Software y código 6


4 Análisis exploratorio
Valores • Diferentes • Iguales
atípicos

0 1

Patrones de Relación
Probabilidad
distribución variable-clase

Fig 1. Diagrama de caja y bigotes a) Datos tratados Fig 2. Clasificación de valores Wilks’ Lambda
b) Datos no tratados
4 Análisis exploratorio 7
5 Selección de variables latentes
Validación cruzada Persianas-
venecianas 12 muestras 3
LV grupos CV 5 grupos CV (a y 10 grupos CV (c
b) y d)
Bloques contiguos

• [1,0,0,1,0,0,1,0,0,1,0,0] • [1,1,1,1,0,0,0,0,0,0,0,0] 2 y 5 LV 2 y 5 LV
• [0,1,0,0,1,0,0,1,0,0,1,0] • [0,0,0,0,1,1,1,1,0,0,0,0]
• [0,0,0,1,0,0,0,1,0,0,0,1] • [0,0,0,0,0,0,0,0,1,1,1,1]
20 y 18% error 20 y 18% error
12 y 10% No asignado 12 y 10% No asignado
Persianas-venecianas Bloques contiguos

LOO CV dejando uno por


fuera

Fig 3. Tasa error (a y c) y muestras no asignadas (b y d)

5 Selección de variables latentes 8


6 Cálculo y análisis del modelo
• Sensibilidad • Especificidad

𝑇𝑃 𝑇𝑁
(𝑇𝑃 + 𝐹𝑁) (𝐹𝑃 + 𝑇𝑁)

1-NER

• NER • ER

Tabla 2. Matriz confusión del ajuste y CV (5 grupos y 2LV)

Ejemplo 1. Matriz confusión Tóxico P, No tóxico N Ejemplo 1. Matriz confusión Tóxico P, No tóxico N

6 Cálculos y análisis del modelo 9


Tabla 3. Parámetros de clasificación modelo de ajuste y CV
• Capacidad de • Capacidad de
reconocimiento de rechazo de
muestras muestras de clase
• 0o1 • 0o1

Especificidad Sensibidad

No
• 0.8 < No tóxicos
tóxico

Tóxico • 0.2 < Tóxicos

Fig 4. Curvas ROC y sensibilidad y especificidad


6 Cálculos y análisis del modelo 10
7 Análisis de muestras y variables
• Medida de variación que no se explica con el
Q
modelo PLS
Clases calculadas

• Es una medida de la variación de cada muestra Tóxico (P) No tóxico (N)


T2
dentro del modelo de PLS. Clases Tóxico (P) 842 223
experimentales
No tóxico (N) 31 142

Umbral
0.258

Fig . 5 Gráfica de residuos Q vs. Hotelling T2 Fig. 6 Respuesta calculada frente a las muestras de entrenamiento

7 Análisis de muestras y variables 11


Variabilidad de datos
• Posee los promedios más altos
• 84.17% (LV1) + 12.71% (LV2) que la clase no tóxica.
=96.88%
Valores
Clase tóxica
• + No tóxicos, - Tóxicos

Hg,
Ag, • Bajas concentraciones
Cd

As, Ni,
• Valores absolutos,
Cr,
caracterización como
Zn,
Tóxicas
Pb, Cu

Fig . 7 a) Cargas y puntos 2LV b) Fig . 8 Perfil de promedios clase tóxica


7 Análisis de muestras y variables 12
Fig . 9 Regresión coeficientes clases tóxicas Fig . 8 Gráfica de residuos Q vs. Hotelling T2

7 Análisis de muestras y variables 13


8 Conclusiones

• En el presente tutorial, se presentaron y discutieron los pasos comunes para desarrollar y validar los
modelos de clasificación PLS-DA.
• Todos los problemas que se evaluaron durante el desarrollo del modelo se presentaron y explicaron
utilizando un conjunto de datos real, compuesto de muestras de sedimentos tóxicos y no tóxicos,
descritos por 9 variables químicas.
• Este análisis se llevó a cabo con las rutinas de MATLAB, que están disponibles en el ESI † de este
tutorial

7 Análisis de muestras y variables 14


Referencias
1 H. Wold, Estimation of principal components and related models by iterative least squares, in Multivariate
analysis, ed. P.R. Krishnaiah, Academic Press, New York, 1966.

2 A. H¨oskuldsson, J. Chemom., 1988, 2, 211–228.


3 M. Barker and W. S. Rayens, J. Chemom., 2003, 17, 166.
4 N. F. P´erez, J. Ferr´e and R. Boqu´e, Chemom. Intell. Lab. Syst., 2009, 95, 122.
5 M. Alvarez-Guerra, D. Ballabio, J. M. Amigo, J. R. Viguri and R. Bro, J. Chemom., 2010, 24, 379.
6 M. Alvarez-Guerra, D. Ballabio, J. M. Amigo, R. Bro and J. R. Viguri, Environ. Pollut., 2010, 158, 607.
7 R. W. Kennard and L. A. Stone, Technometrics, 1969, 11, 137.
8 J. Zupan, M. Novic and I. Ruis´anchez, Chemom. Intell. Lab. Syst., 1997, 38, 1.
9 E. Marengo and R. Todeschini, Chemom. Intell. Lab. Syst., 1992, 16, 37.
10 K. V. Mardia, J. T. Kent, J. M. Bibby, Multivariate Analysis, Academic press, London, 1979.
11 A. Golbraikh and A. Tropsha, J. Mol. Graphics Modell., 2002, 20, 269.

15

Das könnte Ihnen auch gefallen