Quimiometria Teoria y Aplicaciones e La Quimica Moderna

Sociedad Química del Perú
Ciclo de Conferencias 2010
Quimiometría
Teoría y Aplicaciones en la Química Moderna
Dra. Rosario del Pilar Castillo Felices

rosariocastillo@udec.cl
Centro de Biotecnología UDEC - Chile
Febrero - 2010
Lima - Perú
Quimiometría
Química Biotecnología
“Quimiometría es la disciplina química Analítica
que utiliza métodos matemáticos y Química
Agroindustria
ambiental
estadísticos para (a) diseñar o
seleccionar procedimientos de Aplicaciones de
medida y experimentos óptimos, y la quimiometría
(b) para proporcionar la máxima Industria Industria de
información química mediante el Farmacéutica los alimentos
análisis de datos químicos“ Industria Química
Forestal forense
International Chemometrics Society (ICS), 1975.

Objetivos del análisis
quimiométrico
 Diseño de experimentos
 Clasificación (reconocimiento de
patrones, supervisado o no supervisado)
 Calibración multivariada
Diseño de experimentos
¿Cuándo…? Ej. Diseño factorial
(-++) (+++)
(-+-) (++-)
- Investigar un producto
- Crear un producto nuevo sal (--+) (+-+)
- Mejorar un producto existente (---)

limón
(+--)
- Optimizar un proceso azúcar
Esto puede hacerse realizando experimentos, pero….

Los experimentos cuestan TIEMPO y DINERO
Nos interesa reducir el número de experimentos

Modelamiento de superficie de
respuesta
Reconocimiento de patrones:
clasificación
6
calcium
4
bario
9
3
2
8 1
3 4 5 6
phosphate
plomo
Calibración multivariada
Prolina cuantificada a 520nm Usando todo
70
y = 2,4723x - 0,0444
R2 = 0,9863
el espectro
60
50
Abs x 100
40
30
20
10
0
0 10 20 30 Calibración
conc.M
multivariada
Calibración univariada
Análisis de datos multivariados
1. Definición del problema
2. Organización de los datos
3. Validación de los datos
4. Visualización de datos originales
5. Transformación y Pre-procesamiento de datos
6. Análisis exploratorio de los datos
7. Construcción de modelos de clasificación y calibración
8. Validación de los modelos
9. Uso de los modelos para predicciones
Pre-procesamiento de
datos multivariados
Datos incompletos:
- media columna (optimístico)
- número al azar (pesimístico)
Eliminación de factores (objetos):

- correlacionados
- redundantes
- constantes
Pre-procesamiento
1 n
 Centrado a la media : x ik  x ik  x k xk ,  xik
n i 1
 Escalamiento
 xik  xk (min)
rango: x  0 xik  1
x k (max)  xk (min)
ik
x ik  x k (x ik
 xk )
x 

ik sk  i 1
auto: sk , n 1
 Normalización:

x ik
x ik  x k  x 12k  x 22k  ... x nk2
xk
Pre-procesamiento
Demostración de procedimientos de traslación y escalamiento: A muestra los datos originales,

B:datos centrados, C: austoescalados.
Transformaciones
 Correcciones de
línea base
Deslocamiento –> primera derivada
Concavidad de una curva -> segunda

derivada (útil cuando hay sobre posición
de picos)
Corrección multiplicativa de señal (MSC)
- Corregir efectos de dispersión de luz en ,medidas de reflectancia, debido a la

diferencia en el tamaño de partículas en la muestra.
antes después
Métodos de reconocimiento
de patrones
Métodos de reconocimeinto de
patrones
 Supervisados:
 Análisis de componentes principales (PCA)
 Análisis de agrupamientos jerárquicos (HCA)
 No supervisados
 Modelamiento simple por analogía de clases (SIMCA)

 K-ésimo vecino más próximo (KNN)
 Análisis discriminante (LDA, QDA, RDA)
 Minímos cuadrados parciales discriminantes (PLS-DA)
PCA scores
Matriz de scores
Matriz de datos:
X  TP T
filas ->muestras
columnas-> variables
Matriz de loadings
Loadings
PCA
X = T LT
Ejm. Tabla 1: Datos obtenidos de AA
Cabello Cu Mn Cl Br I
1 9.2 0.30 1730 12.0 3.6
2 12.4 0.39 930 50.0 2.3
3 7.2 0.32 2750 65.3 3.4
4 10.2 0.36 1500 3.4 5.3
5 10.1 0.50 1040 39.2 1.9
6 6.5 0.20 2490 90.0 4.6
7 5.6 0.29 2940 88.0 5.6
8 11.8 0.42 867 43.1 1.5
9 8.5 0.25 1620 5.2 6.2
Obtenido de Otto M. “Chemometrics”, Wiley

Número de PCs
d
Varianza explicada:  i
se2  i 1
p

i 1
i
Eigenvalue
2
1 2 3 4 5
Componente
Component
Scree plot
3
Eigenvalue
2
1 2 3 4 5
Component
PCs obtenido del análisis de datos de la Tabla 1
Component Eigenvalue  Explained variance% Cumulative variance %

1 3.352 67.05 67.05
2 1.182 23.65 90.70
3 0.285 5.70 96.40
4 0.135 2.70 99.10
5 0.045 0.90 100.00
Representación gráfica
Matriz de scores
PC 2
PC 1
Representación gráfica
Matriz de loadings
PC 2
PC 1
Ejm. PCA
Ejm PCA
HCA
Medidas de distancia
 p 
1/ p
d ij    x ik  x jk 
K
Minkowski :
 k 1 
Euclidiana (p = 2): 
d12  x 11  x 21  x
2
12
 x 22 
2 1/ 2
Manhattan o "city-block“ (p = 1): dij   xik  x jk

k 1
K – número de variables, i y j son índices de los objetos

Distancia euclidiana
Factor 2
Factor 1
Índice de similaridad
dij
Sij  1 
dij (max)
Objeto Factores
(serum ) Calcio, (mg 100 mL-1) Fosfato, (mg 100 mL-1)
1 8.0 (x11) 5.5(x12)
2 5.75(x22)
8.25(x21)
3 8.7 6.3
4 10.0 3.0
5 10.25 4.0
6 9.75 3.5
Obtenido de Otto M. “Chemometrics”, Wiley

Representación gráfica de los datos
6
calcium
4
5
9
3
2
8 1
3 4 5 6
phosphate
HCA
d12  ( 8  8.25)  ( 5.5  5.75) 
2 1/ 2
 0.354
2
Object 1 2 3 4 5 6
1 0
2 0.354 0
3 1.063 0.711 0
4 3.201 3.260 3.347 0
5 2.704 2.658 2.774 1.031 0
6 2.658 2.704 2.990 0.559 0.707 0
La distancia más corta es la correspondiente a d1-2,

éstos son agregados a un nuevo objeto denominado
1* y su nueva distancia es fijada a cero.
HCA Reducción de
matrices
Las distancias son
re calculadas
promediando las
distancias
d13  d23 1063
.  0.711
d1*3    1774
. individuales. Se
2 2
efectúan n-1
d14  d 24 3202
.  3260
. reducciones.
d1*4    3231
.
2 2
d  d 25 2.704  2658
.
d1*5  15   2681
.
2 2
d  d 26 2658
.  2.704
d1*6  16   2681
.
2 2
Object 1* 3 4 5 6
1* 0
3 1.774 0
4 3.231 3.347 0
5 2.681 2.774 1.031 0
6 2.681 2.990 0.559 0.707 0
HCA - dendograma
¿Cómo se unen los clusters?
Unión simple d A i  dBi d A i  dBi

(single linkage): dki  2

2
 min( d A i , dBi )
d A i  dBi d A i  dBi
Unión completa: dki    max( d A i ,dBi )
2 2
nAi n n n
Centroid linkage d ki  d A i  B d Bi  A 2 B d A B
n n n
n, # de
objetos
similaridad
Single linkage
Método de Ward
similaridad
N° de cabello
SIMCA (modelamiento simple por analogía de clases)
SIMCA
Los residuales obtenidos en un modelo pueden ser calculados desde la matriz de
scores no retenidos en el modelo, para obtener la varianza residual de cada
muestra en la clase q (Sp2) y la varianza total residual de clase q (So2)
 res   res 
J Iq J
q 2 q 2
pj pj
j 1
Sp  p 1 j 1
 J  Aq  So 




Iq  Aq  1J  Aq
Donde, J es el número de variables, Aq el número de PC usados por la clase q e Iq

el número de muestras en la clase q.
SIMCA
Clasificación
Class membership of u: su2  s02
No class membership of u: su2  s02

Ejm. SIMCA
 Cooman´s plot
SIMCA tiene la ventaja de

clasificar a una muestra
en ambas clases o en
ninguna de las clases.
KNN (k-ésimo vecino más próximo)
 Usa la distancia euclidiana de

una muestra respecto a la muestra
más cercana.
 Tiene límites flexibles para

separar las clases.
KNN
KNN
KNN
KNN
VALIDACION DE TECNICAS
1. Resustitución Muestras de calibración y

validación
2. Validación
cruzada
Muestra prueba: validación del
Muestras de
método
calibración
3. Validación
externa
Muestras de Muestra prueba: validación del

calibración método
CALIBRACION
MULTIVARIADA
Mínimos cuadrados parciales (PLS)
Coeficientes de
regresión
Variable Y = XB
dependiente
Variable
independiente
Etapa I: Calibración (estimación de

coeficientes de regresión)
B  W ( P T W ) 1 Q T
Etapa II: Predicción (determinación de Y en

muestras desconocidas)
PLS
Parámetros PLS para análisis de error
Valores calculados
por el modelo (ŷ)
n
PRESS    y i  yˆ i 
2
i 1
PRESS
SEC 
nk
PRESS
SEP 
n
Valores medidos (y)
PLS
- Selección del número de PCs.
PLS
Plot de scores Plot de loadings
PLS
 Yfit (valor predicho vs. valor medido)
 Outliers
PLS
PLS
 Vector de regresión
Ejm. Coeficientes de regresión
300
2106-2164
1787 1973 2313
200
Coeficientes de regresión
100
-100
2210
-200
-300
2419
-400
1000 1250 1500 1750 2000 2250 2500
Longitud de onda (nm)
Otras aplicaciones
 Determinación simultánea de Praziquantel y albendazol por un método
matemático de tratamiento de datos espectrales. César Soto, David
Contreras, M. Inés Toral, Inés Rodriguez, Rosario Castillo. IX Encuentro de Química
Analítica y Ambiental. Concepción – Chile. 14-17 de Octubre 2008. pp. 77.
 Análisis de residuos de disparo y diferenciación de marcas de

municiones mediante marcadores químicos inorgánicos. Jorge Yañez,
David Contreras, María Paz Farías, Nicole Flores, Rosario Castillo, Pedro Sáez.IX
Encuentro de Química Analítica y Ambiental. Concepción – Chile. 14-17 de Octubre
del 2008. pp. 93.
 Classification of genotypes of Eucalyptus globulus under cold conditions using their

free amino acids content on leaves and Regularized Discriminant Analysis (RDA)
Rosario del P. Castillo*, David contreras, Jaime Baeza, Matthias Otto , Cristian Agurto,
Juanita Freer . J. Chil. Chem. Soc., 54, Nº 5 (2010), 331.
Modelos PLS en maderas biodegradadas
 Sitios de internet
www.chemometry.com
www.chemometrics.com
www.chemometrics.net
www.spectroscopynow.com
 Revistas especializadas
Journal of Chemometrics, Wiley, 2.0
Chemometrics and Intelligent Laboratory Systems, Elsevier, 2.2
Journal of Chemical Information and Computer Science, ACS, 3.1
 Software, links
Matlab PLS Toolbox )Eigenvector Res Inc.)www.eigenvector.com,
www.models.kvl./source/, etc
Pirouette (Infometrix Inc.) www.infometrix.com
Unscrambler (CAMO Inc.) www.camo.com
SIMCA (Umetrics) www.umetrics.com
Neuralworks (NeuralWare Inc.)
Statgraphics Centurion XVI
Statistica 6.0 (Statsoft Inc.)
Bibliografía
I. Frank, R. Todeschini, The Data Analysis Handbook, Elsevier, 1994

D.L. Massart et al., Handbook of Chemometrics and Qualimetrics, Part A and B,
Elsevier, Amsterdam, 1998
M. Otto, Chemometrics, Wiley-VCH, Weinheim, 2. Ed., 2007
M. Maeder,Y.-M. Neuhold, Practical Data Analysis in Chemistry, Elsevier, 2007
R. G. Brereton, Applied Chemometrics for Scientists, Wiley, 2007
R. Kellner, J.-M. Mermet, M. Otto, M. Widmer, Analytical Chemistry, Wiley-VCH,
2. Ed. 2004.
Centro de
Facultad de Ciencias Químicas
Biotecnología
Universidad de Concepción
Gracias por su
atención…

Quimiometria Teoria y Aplicaciones e La Quimica Moderna

Hochgeladen von

Dokumentinformationen

Originalbeschreibung:

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Quimiometria Teoria y Aplicaciones e La Quimica Moderna

Hochgeladen von

Copyright:

Verfügbare Formate

Sociedad Química del Perú

Ciclo de Conferencias 2010

Dra. Rosario del Pilar Castillo Felices

International Chemometrics Society (ICS), 1975.

- Mejorar un producto existente (---)

Esto puede hacerse realizando experimentos, pero….

Nos interesa reducir el número de experimentos

Eliminación de factores (objetos):

Demostración de procedimientos de traslación y escalamiento: A muestra los datos originales,

Concavidad de una curva -> segunda

- Corregir efectos de dispersión de luz en ,medidas de reflectancia, debido a la

 Modelamiento simple por analogía de clases (SIMCA)

Obtenido de Otto M. “Chemometrics”, Wiley

PCs obtenido del análisis de datos de la Tabla 1

Component Eigenvalue  Explained variance% Cumulative variance %

Manhattan o "city-block“ (p = 1): dij   xik  x jk

K – número de variables, i y j son índices de los objetos

1 8.0 (x11) 5.5(x12)

Obtenido de Otto M. “Chemometrics”, Wiley

La distancia más corta es la correspondiente a d1-2,

Unión simple d A i  dBi d A i  dBi

Donde, J es el número de variables, Aq el número de PC usados por la clase q e Iq

Class membership of u: su2  s02

No class membership of u: su2  s02

SIMCA tiene la ventaja de

 Usa la distancia euclidiana de

 Tiene límites flexibles para

1. Resustitución Muestras de calibración y

Muestras de Muestra prueba: validación del

Etapa I: Calibración (estimación de

Etapa II: Predicción (determinación de Y en

 Análisis de residuos de disparo y diferenciación de marcas de

 Classification of genotypes of Eucalyptus globulus under cold conditions using their

I. Frank, R. Todeschini, The Data Analysis Handbook, Elsevier, 1994

Das könnte Ihnen auch gefallen