Sie sind auf Seite 1von 10

Calibracin multivariante en anlisis cuantitativo.

El modelo inverso
Joan Ferr Grupo de Quimiometra, Cualimetra y Nanosensores Universidad Rovira i Virgili C. Marcell Domingo s/n 43007-Tarragona

La motivacin de la calibracin multivariante es relacionar dos tipos de medidas sobre una muestra: una fcil, rpida y/o econmica de obtener (por ejemplo, el espectro en el infrarrojo cercano, Figura 1) y otra complicada de obtener, cara o que requiere excesivo tiempo (por ejemplo, el nmero de octano de una gasolina o el contenido de protena de un pienso). El objetivo es predecir la propiedad difcil a partir de la medida fcil. La principal ventaja de la calibracin multivariante frente a la univariante es que no requiere medidas instrumentales selectivas. La muestra puede contener, junto con el analito, otros componentes que contribuyen a la seal de forma no constante. Otra ventaja es que la seal multivariante permite detectar muestras discrepantes en prediccin (outliers). Esto no es posible en calibracin univariante 1 .

0.5

0.4

log (1/R)

0.3

0.2

0.1

1050

1150

1250 1350 Longitud de onda (nm)

1450

1550

Figura 1. Espectros en el infrarrojo cercano (NIR) de gasolinas medidos a 271 longitudes de onda. Estas respuestas instrumentales no son selectivas y permiten calcular un modelo inverso de calibracin multivariante para predecir el nmero de octano en gasolinas.

A menos, claro, que se sospeche de alguna prediccin porque es un valor anormalmente elevado o bajo, o carente de significado fsico/qumico.

En un artculo anterior [1] vimos como utilizar el modelo multivariante directo para analizar cuantitativamente mezclas a partir de sus espectros. Hoy veremos el modelo multivariante inverso. ste tiene aplicaciones en el control de materias primas, en el control de procesos industriales (seguimiento de reacciones y de productos intermedios) y en el anlisis de productos acabados (farmacuticos, petroqumicos, alimentarios,). Incluso permite la monitorizacin no-invasiva de glucosa en sangre [2]. Por coherencia con el artculo [1] comentaremos estos modelos considerando datos espectroscpicos, aunque hay que tener presente que se pueden aplicar a otro tipo de respuestas instrumentales.

Modelos directos y modelos inversos


Llamamos modelo directo al modelo clsico que utilizamos al aplicar la ley de Lambert-Beer en calibracin univariante: r = k0 + k1c (1)

donde r es la respuesta instrumental (absorbancia), que situamos en el eje de ordenadas, y c es la concentracin del analito, que situamos en el eje de las abscisas (Figura 2). Una vez calculados los coeficientes, podemos predecir la concentracin en una muestra problema despejando c, c = (r k0)/k1 (2)

Si substituimos b0= k0/k1 y b1= 1/k1, vemos que en realidad estamos prediciendo con la ecuacin c = b0 + b1r (3)

r r = k0 + k 1 c

c c = b0 + b 1 r

k1 c

b1 r

Figura 2. Calibracin univariante. Modelo directo (izquierda) e inverso (derecha). La flecha indica la direccin en la que se realiza la prediccin.

La calibracin inversa se basa en ajustar desde un principio el modelo de la ecuacin 3, utilizando la concentracin como variable dependiente y la respuesta instrumental como variable independiente (Figura 2). Este modelo, que se postula al revs del modelo directo, se denomina inverso. Estadsticamente es distinto calcular los coeficientes a partir de la ecuacin 1 o de la 3. En calibracin univariante preferimos la ecuacin 1 porque asumimos que la incertidumbre en las absorbancias (r) es mayor que en la concentracin de los patrones. En calibracin multivariante preferimos el modelo inverso, por los motivos que veremos a continuacin.

Del modelo univariante al multivariante


Las ecuaciones 1 y 3 se pueden repetir para todas las longitudes de onda de un espectro (r1, r2, rJ). La ecuacin 1 da lugar al modelo multivariante directo (classical least-squares, CLS) que vimos en [1]. La ecuacin 3 da lugar al modelo multivariante inverso c = b0 + b1r1 + b2r2 + .+ bJrJ (4)

Tanto el modelo directo como el inverso permiten predecir la concentracin de un analito a partir del espectro de la muestra. La diferencia reside en la informacin necesaria para calcular el modelo: para calcular un modelo CLS debemos conocer la concentracin de todos los componentes que absorben en las muestras de calibracin 2 mientras que para el modelo inverso slo es necesario conocer la concentracin del analito de inters en dichas muestras (u otro parmetro como el nmero de octano de una gasolina o la viscosidad de un polmero).

Etapa de calibracin en modelos multivariantes inversos


Hay distintos mtodos para calcular los coeficientes de la ecuacin 4. Los ms utilizados son la regresin lineal mltiple (multiple linear regression, MLR, tambin llamada ILS, inverse least squares), la regresin sobre componentes principales (principal component regression, PCR) y la regresin por mnimos cuadrados parciales (partial least squares regression, PLSR).

A partir de las muestras de calibracin y de sus concentraciones se obtienen los espectros de los componentes puros. Esto permite resolver totalmente una mezcla problema, es decir, encontrar la concentracin de todos sus componentes, tanto si nos interesan como si no.

MLR se basa en sustituir, en la ecuacin 4, el espectro [r1, r2, rJ] y la concentracin c de una muestra de calibracin. De este modo se obtiene una ecuacin con J+1 incgnitas [b0, b1, bJ]. Si lo repetimos para I muestras de calibracin, tendremos un sistema de I ecuaciones y J+1 incgnitas. Si tenemos suficientes muestras de calibracin (al menos J+1), podemos resolver el sistema por el mtodo de mnimos cuadrados y obtener los coeficientes. Aunque MLR se conoce muy bien estadsticamente, su uso es restringido porque requiere una seleccin previa de longitudes de onda. Si utilizamos espectros de 500 longitudes de onda, la ecuacin 4 tiene 501 coeficientes incgnita. Por tanto, necesitamos ms de 500 muestras de calibracin para generar las ecuaciones necesarias, lo cual es prohibitivo. Otro inconveniente es que si las variables r estn muy correlacionadas entre s (como sucede con los datos espectroscpicos), los coeficientes tienen una incertidumbre elevada. Esto imposibilita la interpretacin de los coeficientes e incrementa la incertidumbre en las predicciones, sobretodo en los extremos del dominio experimental (a pesar de que el ajuste del modelo puede ser bueno). La solucin a estos problemas pasa por seleccionar unas pocas longitudes de onda que estn poco correlacionadas entre s y que sean lo ms selectivas posible. 3 La seleccin se suele basar en el conocimiento qumico o en algoritmos de optimizacin (como los algoritmos genticos), pero no es fcil, y corremos el riesgo de descartar alguna parte interesante o incluir alguna que no lo es (cmo escoger unas pocas longitudes de onda no correlacionadas en las cuales absorba el nmero de octano de la gasolina o la protena del pienso?). PCR y PLSR superan las limitaciones de MLR y permiten utilizar una regin amplia del espectro sin preocuparnos excesivamente por acotarla. Estos mtodos aprovechan que la correlacin entre variables espectrales es elevada para reemplazarlas por unas pocas variables que no estn correlacionadas entre s. Estas nuevas variables se llaman variables latentes o factores, y se calculan combinando linealmente todas las variables originales: t = w1r1 + w2r2 + + wJrJ (5)

donde [w1, w2, wJ] son pesos. El valor que una muestra tiene de esta nueva variable se denomina puntuacin (score, en ingls) y se obtiene introduciendo el espectro [r1, r2, rJ] en la ecuacin 5. Esta operacin se realiza para todos los espectros. Cuanto ms parecidos sean dos espectros
Otra posibilidad para reducir el nmero de variables es medir los espectros a menor resolucin (cada 10 nm en lugar de cada 2 nm). Pero estaramos desaprovechando la resolucin del instrumento y perderamos el detalle en zonas que son interesantes para cuantificar.
3

0.1

Scores Factor 2

-0.1 -0.2

-0.1

0 Scores Factor 1

0.1

0.2

Figura 3. Scores de los espectros de la Figura 1. Cada crculo representa un espectro. Con este grfico (tambin posible en 3 dimensiones) podemos observar qu espectros se parecen mucho ms fcilmente que representando las variables originales (Figura 1).

(cuanto ms similares sean sus [r1, r2, rJ]) ms parecidos sern sus scores (t). Por tanto, podemos reemplazar las 271 variables de los espectros de la Figura 1 por un score y con l podemos ver qu espectros se parecen casi con la misma precisin que si mirsemos los espectros. Ahora bien, un slo score no suele ser suficiente para describir la pequeas diferencias entre espectros (a veces estas pequeas diferencias son las que estn relacionadas con la concentracin) y suelen ser necesarios de 2 a 10 scores 4 . La Figura 3 muestra los espectros de la Figura 1 representados por sus scores en dos factores para un modelo PLSR. Puesto que los scores se corresponden con los espectros originales, podemos calcular un modelo como el de la ecuacin 4, pero con scores en lugar de espectros: c = q0 + q1t1 + q2t2 + .+ qAtA (6)

Como utilizamos pocos scores (A<J) hay que calcular menos coeficientes que cuando utilizamos variables originales y, por tanto, necesitamos menos muestras de calibracin. Adems, no tenemos los problemas asociados con la correlacin de las variables porque los factores no estn correlacionados.

PCR y PLSR se diferencian en cmo calculan los pesos [w1, w2, wJ] para combinar las variables originales. En PCR se obtienen del Anlisis de Componentes Principales (PCA) [3] de los espectros de calibracin. Esto asegura que los scores representen las semejanzas y diferencias de los espectros lo mejor posible. Pero algn factor suele describir una diferencia espectral que no est relacionada con la concentracin a predecir. Al incluir los scores de ese factor en el modelo, la prediccin no mejora. Los pesos que calcula el algoritmo PLSR, en cambio, proporcionan scores que estn lo ms correlacionados posible con las concentraciones. 5 Por esto, PLSR necesita menos factores que un modelo PCR para tener una habilidad de prediccin similar. Por todo esto, PLSR es el mtodo preferido por defecto en calibracin multivariante. Comparados con MLR construido con variables poco colineares, PCR y PLSR pueden ajustar ligeramente peor y pueden predecir igual o ligeramente peor dentro del dominio de calibracin, pero predicen mejor si es necesario extrapolar o si existen pequeas desviaciones del comportamiento ideal.

Cul es el nmero ptimo de factores?


La uso de factores en PCR y PLSR tiene otra ventaja adems de reducir el nmero de variables: reduce el ruido de los datos. Los factores estn jerarquizados: cada nuevo factor que aadimos al modelo describe menos variacin sistemtica en los espectros (que es lo que permite predecir) y ms variacin aleatoria (el ruido, que incrementa la incertidumbre en las predicciones). Por tanto, debemos incluir suficientes factores para modelar la variacin sistemtica importante pero no excedernos para evitar incluir demasiado ruido. El nmero ptimo de factores es particular para cada problema de calibracin y depende del tipo de espectro y de la propiedad a predecir. El nmero ptimo se determina calculando modelos con distinto nmero de factores y validando cada modelo (por ejemplo, prediciendo nuevas muestras de las que se conoce la concentracin). As se obtiene el grfico de la Figura 4. En nuestro ejemplo, el modelo que predice mejor es el de tres factores. Es decir, el que se calcula utilizando tres scores (t1, t2, t3) por muestra en la ecuacin 6. Los modelos con uno o dos factores estn subajustados: predicen mal porque estos pocos factores no son suficientes para modelar todas las variaciones relevantes de los espectros y no afinan la prediccin. Los modelos con ms de tres factores estn sobreajustados: predicen peor que el de tres factores porque los factores del cuarto al sexto describen ms ruido que informacin relevante, y el ruido en las muestras problema empeora la prediccin.
De todos modos, 2-10 son pocos scores comparados con las 271 variables originales. Esta compresin de datos se logra por la elevada correlacin (redundancia) de las variables espectroscpicas.
4

1.1

Error promedio de validacin

0.9

0.7

0.5

0.3

0.1

2 3 4 5 Nmero de factores utilizados en el modelo

Figura 4. Error promedio de validacin para modelos calculados con distinto nmero de factores (de uno a seis factores) para predecir el nmero de octano en las gasolinas de la Figura 1. Este grfico permite decidir el nmero ptimo de factores a utilizar. El modelo ptimo (menor error de prediccin) es el de tres factores. Los modelos con menos de tres factores estn subajustados. Los modelos con ms de tres factores estn sobreajustados.

Resultados de aplicar PCR y PLSR


Adems del grfico de scores (Figura 3) y del grfico del error promedio de validacin (Figura 4), los programas comerciales suelen proporcionar como resultados de PCR y PLSR un grfico de los coeficientes del modelo para el nmero ptimo de factores (Figura 5), y el grfico de valor predicho frente a valor medido (Figura 6).

2 Coeficiente de regresin

-2

-4

-6 1050 1150 1250 1350 Longitud de onda (nm) 1450 1550

Figura 5. Coeficientes (las b de la ecuacin 4) del modelo PLSR para tres factores. Estos coeficientes se obtienen descomprimiendo los coeficientes q de la ecuacin 6. Las longitudes de onda con coeficientes de regresin elevados son las ms tiles para predecir.
Por tanto, los scores de PLSR describen peor los espectros que los scores de PCR. Perode qu sirve describir con precisin los espectros en todo su rango si slo una zona de ellos est relacionada con la propiedad a predecir? Mejor centrarse slo en la parte del espectro que permite predecir. Esto es lo que hace PLSR.
5

90

89 Nmero de octano (Prediccin)

88

87

86

85

84

83 83

84

85 86 87 88 Nmero de octano (Referencia)

89

90

Figura 6. Nmero de octano predicho frente a nmero de octano de referencia. En la calibracin univariante, podemos representar la absorbancia frente a la concentracin y as inspeccionar visualmente el ajuste del modelo. En calibracin multivariante esta representacin no existe: tenemos muchas absorbancias y representarlas una a una slo mostrara informacin parcial del modelo. La calidad del ajuste multivariante se visualiza con el grfico mostrado. Para un modelo perfecto, los valores predichos y los de referencia sern los mismos y caern sobre una lnea recta de ordenada en el origen 0 y pendiente 1 (la lnea diagonal). Cuanto ms alejadas estn las muestras de la lnea, mayor es el error de prediccin.

Pretratamientos de los datos


Los datos se suelen pretratar antes de aplicar PCR o PLSR. El pretratamiento ms comn es centrar las variables, tanto las concentraciones como las medidas instrumentales. Esto elimina la parte de los datos que es comn a todas las muestras (y, por tanto, no til para predecir, precisamente porque es comn). Esto puede reducir el nmero de factores del modelo en uno. Los scores de la Figura 2 corresponden a un modelo con datos centrados. Con datos espectroscpicos, tambin es comn aplicar otras transformaciones para eliminar la variacin de la lnea de base, utilizando, por ejemplo, la primera o segunda derivada del espectro, o eliminar el efecto multiplicativo introducido por la dispersin en medidas NIR.

Cuntas muestras de calibracin se necesitan?


El nmero de muestras que se necesitan para calcular un modelo PCR o PLS vara desde unas decenas (para muestras sintticas, tales como medicamentos, polmeros,. las cuales tienen pocos componentes y composicin bien controlada) hasta centenares (para muestras naturales tales como gasolinas, piensos, aceites,). El motivo es que los espectros de las muestras de calibracin deben contener todas las variaciones que luego encontraremos en los espectros de las muestras problema. Esto permitir al algoritmo de calibracin aprender a diferenciar la variacin espectral que est relacionada con la propiedad de inters de la que es debida a los interferentes. Por tanto, se deben utilizar tantas muestras como sean necesarias hasta abarcar todos los componentes (analitos e interferentes) en el rango de valores que tendrn en muestras futuras. Notar que slo necesitamos asegurar que los interferentes estn presentes en las muestras de calibracin, pero no necesitamos conocer su concentracin.

Calibracin inversa para varios componentes


En calibracin multivariante podemos utilizar un mismo espectro para predecir distintas propiedades. Poniendo en c de la ecuacin 4 cualquier propiedad de inters, podemos calcular distintos modelos utilizando siempre los mismos espectros de las muestras de calibracin (optimizando el rango espectral si es necesario). Obtendremos unos coeficientes (b0, b1, bJ) particulares para predecir cada propiedad. Notar, sin embargo, que aunque siempre encontraremos un modelo, ste slo predecir con la calidad suficiente si las variaciones en los espectros estn bien correlacionadas con la propiedad que intentamos modelar (aunque esta relacin no sea evidente a simple vista). Por esto la etapa de validacin, en la que se comprueba que el modelo da predicciones aceptables, tiene una importancia fundamental en la calibracin multivariante.

Limitaciones de la calibracin multivariante


Sin duda, la calibracin multivariante tiene una mayor complejidad conceptual, matemtica y estadstica que la calibracin univariante. Aunque hay programas que facilitan el uso de este tipo de calibracin, su aplicacin no es tan inmediata como la univariante y el usuario necesita ms horas de formacin. Adems, el clculo de la incertidumbre de las predicciones no est completamente desarrollado. A menudo se utilizan errores medios de prediccin como medida de la calidad de las predicciones aunque sabemos

que la prediccin tienen una calidad distinta segn en que punto del espacio de calibracin se encuentre. A pesar de sus limitaciones, las ventajas de utilizar la calibracin multivariante superan a sus inconvenientes en muchos campos y el nmero de aplicaciones crece constantemente.

Referencias
[1] J. Ferr Tcnicas de Laboratorio 297 (2004) 986989 Calibracin multivariante en anlisis cuantitativo. El modelo directo. [2] M. A. Arnold, G. W. Small Noninvasive glucose sensing. Anal. Chem. 77 (2005) 54295439.

[3] R. Boqu, J. Ferr Tcnicas de Laboratorio 290 (2004) 214-219. Anlisis de componentes principales aplicado a la representacin de datos multidimensionales El autor agradece todos los comentarios relacionados con los contenidos de este artculo. Pueden dirigirse, mediante mensaje electrnico, a la direccin: quimio@urv.net. Una versin en soporte electrnico de este artculo puede encontrarse en: http://www.quimica.urv.es/quimio

10

Das könnte Ihnen auch gefallen