Beruflich Dokumente
Kultur Dokumente
Quimiometría
Teoría y Aplicaciones en la Química Moderna
Febrero - 2010
Lima - Perú
Quimiometría
Química Biotecnología
“Quimiometría es la disciplina química Analítica
que utiliza métodos matemáticos y Química
Agroindustria
ambiental
estadísticos para (a) diseñar o
seleccionar procedimientos de Aplicaciones de
medida y experimentos óptimos, y la quimiometría
(b) para proporcionar la máxima Industria Industria de
información química mediante el Farmacéutica los alimentos
análisis de datos químicos“ Industria Química
Forestal forense
Diseño de experimentos
Clasificación (reconocimiento de
patrones, supervisado o no supervisado)
Calibración multivariada
Diseño de experimentos
¿Cuándo…? Ej. Diseño factorial
(-++) (+++)
(-+-) (++-)
- Investigar un producto
- Crear un producto nuevo sal (--+) (+-+)
4
bario
9
3
2
8 1
3 4 5 6
phosphate
plomo
Calibración multivariada
Prolina cuantificada a 520nm Usando todo
70
y = 2,4723x - 0,0444
R2 = 0,9863
el espectro
60
50
Abs x 100
40
30
20
10
0
0 10 20 30 Calibración
conc.M
multivariada
Calibración univariada
Análisis de datos multivariados
1. Definición del problema
2. Organización de los datos
3. Validación de los datos
4. Visualización de datos originales
5. Transformación y Pre-procesamiento de datos
6. Análisis exploratorio de los datos
7. Construcción de modelos de clasificación y calibración
8. Validación de los modelos
9. Uso de los modelos para predicciones
Pre-procesamiento de
datos multivariados
Datos incompletos:
- media columna (optimístico)
- número al azar (pesimístico)
Escalamiento
xik xk (min)
rango: x 0 xik 1
x k (max) xk (min)
ik
x ik x k (x ik
xk )
x
ik sk i 1
auto: sk , n 1
Normalización:
x ik
x ik x k x 12k x 22k ... x nk2
xk
Pre-procesamiento
Correcciones de
línea base
Deslocamiento –> primera derivada
antes después
Métodos de reconocimiento
de patrones
Métodos de reconocimeinto de
patrones
Supervisados:
Análisis de componentes principales (PCA)
Análisis de agrupamientos jerárquicos (HCA)
No supervisados
Matriz de scores
Matriz de datos:
X TP T
filas ->muestras
columnas-> variables
Matriz de loadings
Loadings
PCA
X = T LT
Ejm. Tabla 1: Datos obtenidos de AA
Cabello Cu Mn Cl Br I
1 9.2 0.30 1730 12.0 3.6
2 12.4 0.39 930 50.0 2.3
3 7.2 0.32 2750 65.3 3.4
4 10.2 0.36 1500 3.4 5.3
5 10.1 0.50 1040 39.2 1.9
6 6.5 0.20 2490 90.0 4.6
7 5.6 0.29 2940 88.0 5.6
8 11.8 0.42 867 43.1 1.5
9 8.5 0.25 1620 5.2 6.2
Varianza explicada: i
se2 i 1
p
i 1
i
Eigenvalue
2
1 2 3 4 5
Componente
Component
Scree plot
3
Eigenvalue
2
1 2 3 4 5
Component
PC 2
PC 1
Representación gráfica
Matriz de loadings
PC 2
PC 1
Ejm. PCA
Ejm PCA
HCA
Medidas de distancia
p
1/ p
d ij x ik x jk
K
Minkowski :
k 1
Euclidiana (p = 2):
d12 x 11 x 21 x
2
12
x 22
2 1/ 2
Factor 2
Factor 1
Índice de similaridad
dij
Sij 1
dij (max)
Objeto Factores
(serum ) Calcio, (mg 100 mL-1) Fosfato, (mg 100 mL-1)
2 5.75(x22)
8.25(x21)
3 8.7 6.3
4 10.0 3.0
5 10.25 4.0
6 9.75 3.5
6
calcium
4
5
9
3
2
8 1
3 4 5 6
phosphate
HCA
d12 ( 8 8.25) ( 5.5 5.75)
2 1/ 2
0.354
2
Object 1 2 3 4 5 6
1 0
2 0.354 0
3 1.063 0.711 0
4 3.201 3.260 3.347 0
5 2.704 2.658 2.774 1.031 0
6 2.658 2.704 2.990 0.559 0.707 0
Object 1* 3 4 5 6
1* 0
3 1.774 0
4 3.231 3.347 0
5 2.681 2.774 1.031 0
6 2.681 2.990 0.559 0.707 0
HCA - dendograma
¿Cómo se unen los clusters?
d A i dBi d A i dBi
Unión completa: dki max( d A i ,dBi )
2 2
nAi n n n
Centroid linkage d ki d A i B d Bi A 2 B d A B
n n n
n, # de
objetos
similaridad
Single linkage
Método de Ward
similaridad
N° de cabello
SIMCA (modelamiento simple por analogía de clases)
SIMCA
Los residuales obtenidos en un modelo pueden ser calculados desde la matriz de
scores no retenidos en el modelo, para obtener la varianza residual de cada
muestra en la clase q (Sp2) y la varianza total residual de clase q (So2)
res res
J Iq J
q 2 q 2
pj pj
j 1
Sp p 1 j 1
J Aq So
Iq Aq 1J Aq
Cooman´s plot
2. Validación
cruzada
Muestra prueba: validación del
Muestras de
método
calibración
3. Validación
externa
B W ( P T W ) 1 Q T
Valores calculados
por el modelo (ŷ)
n
PRESS y i yˆ i
2
i 1
PRESS
SEC
nk
PRESS
SEP
n
Valores medidos (y)
PLS
- Selección del número de PCs.
PLS
Plot de scores Plot de loadings
PLS
Yfit (valor predicho vs. valor medido)
Outliers
PLS
PLS
Vector de regresión
Ejm. Coeficientes de regresión
300
2106-2164
1787 1973 2313
200
Coeficientes de regresión
100
-100
2210
-200
-300
2419
-400
1000 1250 1500 1750 2000 2250 2500
Longitud de onda (nm)
Otras aplicaciones
Determinación simultánea de Praziquantel y albendazol por un método
matemático de tratamiento de datos espectrales. César Soto, David
Contreras, M. Inés Toral, Inés Rodriguez, Rosario Castillo. IX Encuentro de Química
Analítica y Ambiental. Concepción – Chile. 14-17 de Octubre 2008. pp. 77.
Revistas especializadas
Journal of Chemometrics, Wiley, 2.0
Chemometrics and Intelligent Laboratory Systems, Elsevier, 2.2
Journal of Chemical Information and Computer Science, ACS, 3.1
Software, links
Matlab PLS Toolbox )Eigenvector Res Inc.)www.eigenvector.com,
www.models.kvl./source/, etc
Pirouette (Infometrix Inc.) www.infometrix.com
Unscrambler (CAMO Inc.) www.camo.com
SIMCA (Umetrics) www.umetrics.com
Neuralworks (NeuralWare Inc.)
Statgraphics Centurion XVI
Statistica 6.0 (Statsoft Inc.)
Bibliografía
Universidad de Concepción
Gracias por su
atención…