Sie sind auf Seite 1von 59

Sociedad Química del Perú

Ciclo de Conferencias 2010

Quimiometría
Teoría y Aplicaciones en la Química Moderna

Dra. Rosario del Pilar Castillo Felices


rosariocastillo@udec.cl
Centro de Biotecnología UDEC - Chile

Febrero - 2010
Lima - Perú
Quimiometría
Química Biotecnología
“Quimiometría es la disciplina química Analítica
que utiliza métodos matemáticos y Química
Agroindustria
ambiental
estadísticos para (a) diseñar o
seleccionar procedimientos de Aplicaciones de
medida y experimentos óptimos, y la quimiometría
(b) para proporcionar la máxima Industria Industria de
información química mediante el Farmacéutica los alimentos
análisis de datos químicos“ Industria Química
Forestal forense

International Chemometrics Society (ICS), 1975.


Objetivos del análisis
quimiométrico

 Diseño de experimentos
 Clasificación (reconocimiento de
patrones, supervisado o no supervisado)
 Calibración multivariada
Diseño de experimentos
¿Cuándo…? Ej. Diseño factorial
(-++) (+++)

(-+-) (++-)
- Investigar un producto
- Crear un producto nuevo sal (--+) (+-+)

- Mejorar un producto existente (---)


limón
(+--)
- Optimizar un proceso azúcar

Esto puede hacerse realizando experimentos, pero….


Los experimentos cuestan TIEMPO y DINERO

Nos interesa reducir el número de experimentos


Modelamiento de superficie de
respuesta
Reconocimiento de patrones:
clasificación
6
calcium

4
bario

9
3

2
8 1
3 4 5 6
phosphate
plomo
Calibración multivariada
Prolina cuantificada a 520nm Usando todo
70
y = 2,4723x - 0,0444
R2 = 0,9863
el espectro
60
50
Abs x 100

40
30
20
10
0
0 10 20 30 Calibración
conc.M
multivariada
Calibración univariada
Análisis de datos multivariados
1. Definición del problema
2. Organización de los datos
3. Validación de los datos
4. Visualización de datos originales
5. Transformación y Pre-procesamiento de datos
6. Análisis exploratorio de los datos
7. Construcción de modelos de clasificación y calibración
8. Validación de los modelos
9. Uso de los modelos para predicciones
Pre-procesamiento de
datos multivariados
Datos incompletos:
- media columna (optimístico)
- número al azar (pesimístico)

Eliminación de factores (objetos):


- correlacionados
- redundantes
- constantes
Pre-procesamiento
1 n
 Centrado a la media : x ik  x ik  x k xk ,  xik
n i 1

 Escalamiento
 xik  xk (min)
rango: x  0 xik  1
x k (max)  xk (min)
ik

x ik  x k (x ik
 xk )
x 

ik sk  i 1

auto: sk , n 1

 Normalización:

x ik
x ik  x k  x 12k  x 22k  ... x nk2
xk
Pre-procesamiento

Demostración de procedimientos de traslación y escalamiento: A muestra los datos originales,


B:datos centrados, C: austoescalados.
Transformaciones

 Correcciones de
línea base
Deslocamiento –> primera derivada

Concavidad de una curva -> segunda


derivada (útil cuando hay sobre posición
de picos)
Corrección multiplicativa de señal (MSC)

- Corregir efectos de dispersión de luz en ,medidas de reflectancia, debido a la


diferencia en el tamaño de partículas en la muestra.

antes después
Métodos de reconocimiento
de patrones
Métodos de reconocimeinto de
patrones
 Supervisados:
 Análisis de componentes principales (PCA)
 Análisis de agrupamientos jerárquicos (HCA)

 No supervisados

 Modelamiento simple por analogía de clases (SIMCA)


 K-ésimo vecino más próximo (KNN)
 Análisis discriminante (LDA, QDA, RDA)
 Minímos cuadrados parciales discriminantes (PLS-DA)
PCA scores

Matriz de scores

Matriz de datos:
X  TP T
filas ->muestras
columnas-> variables
Matriz de loadings

Loadings
PCA
X = T LT
Ejm. Tabla 1: Datos obtenidos de AA

Cabello Cu Mn Cl Br I
1 9.2 0.30 1730 12.0 3.6
2 12.4 0.39 930 50.0 2.3
3 7.2 0.32 2750 65.3 3.4
4 10.2 0.36 1500 3.4 5.3
5 10.1 0.50 1040 39.2 1.9
6 6.5 0.20 2490 90.0 4.6
7 5.6 0.29 2940 88.0 5.6
8 11.8 0.42 867 43.1 1.5
9 8.5 0.25 1620 5.2 6.2

Obtenido de Otto M. “Chemometrics”, Wiley


Número de PCs
d

Varianza explicada:  i
se2  i 1
p


i 1
i

Eigenvalue
2

1 2 3 4 5

Componente
Component
Scree plot
3

Eigenvalue
2

1 2 3 4 5

Component

PCs obtenido del análisis de datos de la Tabla 1

Component Eigenvalue  Explained variance% Cumulative variance %


1 3.352 67.05 67.05
2 1.182 23.65 90.70
3 0.285 5.70 96.40
4 0.135 2.70 99.10
5 0.045 0.90 100.00
Representación gráfica
Matriz de scores

PC 2

PC 1
Representación gráfica
Matriz de loadings

PC 2

PC 1
Ejm. PCA
Ejm PCA
HCA
Medidas de distancia
 p 
1/ p

d ij    x ik  x jk 
K

Minkowski :
 k 1 

Euclidiana (p = 2): 
d12  x 11  x 21  x
2

12
 x 22 
2 1/ 2

Manhattan o "city-block“ (p = 1): dij   xik  x jk


k 1

K – número de variables, i y j son índices de los objetos


Distancia euclidiana

Factor 2

Factor 1
Índice de similaridad

dij
Sij  1 
dij (max)
Objeto Factores
(serum ) Calcio, (mg 100 mL-1) Fosfato, (mg 100 mL-1)

1 8.0 (x11) 5.5(x12)

2 5.75(x22)
8.25(x21)
3 8.7 6.3

4 10.0 3.0

5 10.25 4.0

6 9.75 3.5

Obtenido de Otto M. “Chemometrics”, Wiley


Representación gráfica de los datos

6
calcium

4
5

9
3

2
8 1
3 4 5 6
phosphate
HCA
d12  ( 8  8.25)  ( 5.5  5.75) 
2 1/ 2
 0.354
2

Object 1 2 3 4 5 6
1 0
2 0.354 0
3 1.063 0.711 0
4 3.201 3.260 3.347 0
5 2.704 2.658 2.774 1.031 0
6 2.658 2.704 2.990 0.559 0.707 0

La distancia más corta es la correspondiente a d1-2,


éstos son agregados a un nuevo objeto denominado
1* y su nueva distancia es fijada a cero.
HCA Reducción de
matrices
Las distancias son
re calculadas
promediando las
distancias
d13  d23 1063
.  0.711
d1*3    1774
. individuales. Se
2 2
efectúan n-1
d14  d 24 3202
.  3260
. reducciones.
d1*4    3231
.
2 2
d  d 25 2.704  2658
.
d1*5  15   2681
.
2 2
d  d 26 2658
.  2.704
d1*6  16   2681
.
2 2

Object 1* 3 4 5 6
1* 0
3 1.774 0
4 3.231 3.347 0
5 2.681 2.774 1.031 0
6 2.681 2.990 0.559 0.707 0
HCA - dendograma
¿Cómo se unen los clusters?

Unión simple d A i  dBi d A i  dBi


(single linkage): dki  2

2
 min( d A i , dBi )

d A i  dBi d A i  dBi
Unión completa: dki    max( d A i ,dBi )
2 2

nAi n n n
Centroid linkage d ki  d A i  B d Bi  A 2 B d A B
n n n
n, # de
objetos
similaridad
Single linkage

Método de Ward
similaridad

N° de cabello
SIMCA (modelamiento simple por analogía de clases)
SIMCA
Los residuales obtenidos en un modelo pueden ser calculados desde la matriz de
scores no retenidos en el modelo, para obtener la varianza residual de cada
muestra en la clase q (Sp2) y la varianza total residual de clase q (So2)

 res   res 
J Iq J
q 2 q 2
pj pj
j 1
Sp  p 1 j 1
 J  Aq  So 




Iq  Aq  1J  Aq

Donde, J es el número de variables, Aq el número de PC usados por la clase q e Iq


el número de muestras en la clase q.
SIMCA
Clasificación

Class membership of u: su2  s02

No class membership of u: su2  s02


Ejm. SIMCA

 Cooman´s plot

SIMCA tiene la ventaja de


clasificar a una muestra
en ambas clases o en
ninguna de las clases.
KNN (k-ésimo vecino más próximo)

 Usa la distancia euclidiana de


una muestra respecto a la muestra
más cercana.

 Tiene límites flexibles para


separar las clases.
KNN
KNN
KNN
KNN
VALIDACION DE TECNICAS

1. Resustitución Muestras de calibración y


validación

2. Validación
cruzada
Muestra prueba: validación del
Muestras de
método
calibración

3. Validación
externa

Muestras de Muestra prueba: validación del


calibración método
CALIBRACION
MULTIVARIADA
Mínimos cuadrados parciales (PLS)
Coeficientes de
regresión
Variable Y = XB
dependiente
Variable
independiente

Etapa I: Calibración (estimación de


coeficientes de regresión)

B  W ( P T W ) 1 Q T

Etapa II: Predicción (determinación de Y en


muestras desconocidas)
PLS
Parámetros PLS para análisis de error

Valores calculados
por el modelo (ŷ)
n
PRESS    y i  yˆ i 
2

i 1

PRESS
SEC 
nk

PRESS
SEP 
n
Valores medidos (y)
PLS
- Selección del número de PCs.
PLS
Plot de scores Plot de loadings
PLS
 Yfit (valor predicho vs. valor medido)
 Outliers
PLS
PLS
 Vector de regresión
Ejm. Coeficientes de regresión

300
2106-2164
1787 1973 2313
200
Coeficientes de regresión

100

-100

2210
-200

-300

2419
-400
1000 1250 1500 1750 2000 2250 2500
Longitud de onda (nm)
Otras aplicaciones
 Determinación simultánea de Praziquantel y albendazol por un método
matemático de tratamiento de datos espectrales. César Soto, David
Contreras, M. Inés Toral, Inés Rodriguez, Rosario Castillo. IX Encuentro de Química
Analítica y Ambiental. Concepción – Chile. 14-17 de Octubre 2008. pp. 77.

 Análisis de residuos de disparo y diferenciación de marcas de


municiones mediante marcadores químicos inorgánicos. Jorge Yañez,
David Contreras, María Paz Farías, Nicole Flores, Rosario Castillo, Pedro Sáez.IX
Encuentro de Química Analítica y Ambiental. Concepción – Chile. 14-17 de Octubre
del 2008. pp. 93.

 Classification of genotypes of Eucalyptus globulus under cold conditions using their


free amino acids content on leaves and Regularized Discriminant Analysis (RDA)
Rosario del P. Castillo*, David contreras, Jaime Baeza, Matthias Otto , Cristian Agurto,
Juanita Freer . J. Chil. Chem. Soc., 54, Nº 5 (2010), 331.
Modelos PLS en maderas biodegradadas
 Sitios de internet
www.chemometry.com
www.chemometrics.com
www.chemometrics.net
www.spectroscopynow.com

 Revistas especializadas
Journal of Chemometrics, Wiley, 2.0
Chemometrics and Intelligent Laboratory Systems, Elsevier, 2.2
Journal of Chemical Information and Computer Science, ACS, 3.1

 Software, links
Matlab PLS Toolbox )Eigenvector Res Inc.)www.eigenvector.com,
www.models.kvl./source/, etc
Pirouette (Infometrix Inc.) www.infometrix.com
Unscrambler (CAMO Inc.) www.camo.com
SIMCA (Umetrics) www.umetrics.com
Neuralworks (NeuralWare Inc.)
Statgraphics Centurion XVI
Statistica 6.0 (Statsoft Inc.)
Bibliografía

I. Frank, R. Todeschini, The Data Analysis Handbook, Elsevier, 1994


D.L. Massart et al., Handbook of Chemometrics and Qualimetrics, Part A and B,
Elsevier, Amsterdam, 1998
M. Otto, Chemometrics, Wiley-VCH, Weinheim, 2. Ed., 2007
M. Maeder,Y.-M. Neuhold, Practical Data Analysis in Chemistry, Elsevier, 2007
R. G. Brereton, Applied Chemometrics for Scientists, Wiley, 2007
R. Kellner, J.-M. Mermet, M. Otto, M. Widmer, Analytical Chemistry, Wiley-VCH,
2. Ed. 2004.
Centro de
Facultad de Ciencias Químicas
Biotecnología

Universidad de Concepción

Gracias por su
atención…

Das könnte Ihnen auch gefallen