Analisis Multivariado (Autoguardado)

Introducción Al Análisis Multivariado:
Quimiometría, PCA, PLS y Pre-processing.
Alejandro Mario Romero Valencia

Barranquilla, 2018.
El análisis multivariante es un método estadístico utilizado para determinar la contribución de varios factores
en un simple evento o resultado.
• Los factores de estudio son los llamados factores de riesgo, variables independientes o variables
explicativas.
• El resultado estudiado es el evento, la variable dependiente o la variable respuesta.
1
Nuestra pregunta
tiene intención.
Explicativas Descriptivas
¿Qué estamos
¿Cuantos criterios interesados en
hemos medido? reducir?
Uno Mas de uno Variables Casos/Objetos Casos
¿En que escala

¿En que escala
hemos medido las
hemos medido las Análisis factorial. Las medidas son: Clúster
variables criterio?
variables criterio?
Métricas No métricas Métricas No métricas Métricas No métricas
¿En que escala Correlación

Regresión Análisis de hemos medido las Análisis Modelos log-
canónica con
Múltiple- discriminante. variables multidimensional. lineales.
variables ficticias.
predictoras?
Métricas No métricas
Correlación
1 Canónica.
Manova
“La Quimiometría es la parte de la química que se sirve de las matemáticas,
estadística y lógica formal para diseñar o seleccionar procedimientos experimentales
óptimos, proporcionar información química relevante a partir del análisis de señales
analíticas y, finalmente, adquirir conocimiento de los sistemas químicos”.
D. L. Massart
1
Interés de las personas por la Quimiometría
Es una técnica para reducir la cantidad de datos cuando esta presenta correlación, permitiendo así
condensar la variabilidad presente en una matriz de datos en unos pocos parámetros representativos,
denominados componentes principales (PC) o variables latentes.
1
Por lo tanto, si la matriz de datos original es de dimensiones I × J, no se pueden calcular más de J PC (distintos de cero).
Si el número de PC está indicado por A, este número no puede ser mayor de J. A es el numero de PC.
1
Datos A B C D E
Variable 1 10 7 2 1 8
Variable 2 3 1 8 9 10
1
1
1
1
𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑙𝑎𝑠 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠
𝑃𝐶 1 =
𝑛−1
𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑙𝑎𝑠 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠
𝑃𝐶 2 =
𝑛−1
𝑃𝐶1
%𝑃𝐶 1 =
𝑃𝐶1 + 𝑃𝐶2
𝑃𝐶2
%𝑃𝐶 2 =
𝑃𝐶1 + 𝑃𝐶2
1
Ejercicio 1: Analizar la siguiente matriz de datos por medio de un PCA e identificar el numero de componentes, la
función que cumple los score plots, loading plots y bi-plots.
Mc Donald's Energy (kJ/g) Protein (%) Carbohydrates(%) Fat (%) Saturated Fat (%)
Apple Pie 11,540 2,700 32,170 15,060 4,310
Big Mac 9,540 12,480 19,620 11,000 4,020
Cheeseburger 10,540 13,790 26,000 10,190 4,410
Filet-O-Fish 11,840 10,870 26,390 14,860 2,840
Grilled Chicken 8,140 12,680 14,740 9,380 0,090
Hamburger 10,040 12,680 28,790 7,960 2,540
McChicken 9,240 11,370 19,320 10,800 1,760
McFeast 8,640 11,670 14,640 11,310 4,510
Pommes Frites 12,240 5,020 37,060 13,540 2,050
Quarter Pounder 10,540 15,710 17,930 12,930 6,380
Sundae Chokolate 7,840 4,310 28,390 6,140 4,410
Sundae Strawberry 6,840 3,600 28,290 3,500 2,450
Sundae Caramel 7,840 4,010 31,680 4,620 3,130
1
El pre-processing es una parte muy importante del análisis quimiométrico de los datos y no es mas que
un arreglo matemático de la data a priori que se usara en el análisis primario. Esto es usado para
remover o reducir la fuente de variación (ya sea al azar o sistemática).
Normalización: la normalización es un vector que

se obtiene al dividir la muestra por una constante,
esta constante es obtenida al azar y posteriormente
el valor de normalización es la constante para la
siguiente iteración hasta que el valor sea constante.
1
Smoothing: es un arreglo matemático que reduce el ruido al azar con el objetivo de aumentar la relación señal/ruido. El
smoothing usa un ancho de ventana que se mueve a lo largo de la región de influencia, se determina el valor central de
dicha ventana y posteriormente ese ancho de ventana es afectado por varios algoritmos.
Mean Smoother: el ancho de ventana (n) se escoge la

media de los primeros n puntos en vector muestra es
calculado. Esto define la primera entrada del vector
mean smoother. Las siguientes entradas son escalares
a partir de la anterior (n + 1 para 2n, 2n +1 para 3n…) y
este proceso se repite para cada n elementos.
1
Base Line: se dice que un vector muestra (r) está compuesto por la siguiente relación:
𝑟 = 𝑓(𝑥) -> 𝑟 = 𝑟ҧ + 𝛼 + 𝛽𝑥 + 𝛾𝑥 2 + 𝛿𝑥 3 , donde 𝑟ҧ es la señal de interés mas un polinomio de línea base
característico (si existe). Lo que hace este pre-processing es transformar el vector muestra en uno donde
el arreglo polinomial no exista o sea reducido a 0. 𝑟 = 𝑟ҧ + 𝛼.
1
Derivadas: otra forma de eliminar la línea base es usando derivadas respecto a un número. Es mucho
más útil que base line ya que esta se emplea cuando es difícil identificar la línea base en un vector
muestra.
𝑟 = 𝑟ҧ + 𝛼 + 𝛽𝑥 + 𝛾𝑥 2 + 𝛿𝑥 3 vector muestra.
𝑟′ = 𝑟ҧ + 0 + 𝛽𝑥 + 𝛾𝑥 2 + 𝛿𝑥 3 primera derivada
𝑟′ = 𝑟ҧ + 0 + 0 + 𝛾𝑥 2 + 𝛿𝑥 3 segunda derivada
𝑟′ = 𝑟ҧ + 0 + 0 + 𝑜 + 𝛿𝑥 3 tercera derivada y así sucesivamente.
1
Savitzky-Golay Derivative: es el algoritmo de derivadas mas empleado y se basa en el uso de smoothing y un orden polinomial
1st derivative:
• 5 a 9 puntos de smoothing.
• Orden polinomial 11 a 13.
2nd derivative:
• 7 a 11 puntos de smoothing.
• Orden polinomial de 11 a 13.
1
Multiplicative Scatter Correction (MSC): es un pre-processing
usado para corregir las dispersiones de luz por problemas de
reflectancia. Cuando se usa MSC, uno asume que el numero de
variables dependen de la dispersión de la línea base de una
señal y esta es independiente a la información química.
Mean Center: En términos matemáticos, se puede considerar que el centrado proyecta los datos en un espacio
donde se elimina el desplazamiento común representado por el promedio de la columna..
1
En algunos casos es no es conveniente usar el centrado debido a pueden existir vectores de muestras sin datos y al
réstarles el promedio daría valores negativos o vectores de orden 0. Por otro lado se tiene que tener en cuenta un
aspecto importante y es que a menudo las muestras pertenecen a diferentes condiciones, como por ejemplo un
alimento muestreado por distintos productores o en diferentes lugares o diferentes épocas del año.
1
Standard Normal Variate (SNV): consiste en ajustar un polinomio de un orden dado a todo el rango de señal. Como
este algoritmo se adapta al polinomio de todos los puntos, línea de base y señal, tiende a funcionar solo cuando la
mayor fuente de variabilidad en cada muestra es la interferencia de referencia / fondo, como en las señales NIR; esto
significa que puede eliminar variaciones que son interesantes de modelar siempre que la variación de interés sea una
porción razonablemente significativa de la varianza global.
1
Raw Data Base Line + Mean Center Mean Smoother
SNV MSC 2nd D
1
Raw Data Base Line + Mean Center Mean Smoother
SNV MSC 2nd D
1
1
6

Analisis Multivariado (Autoguardado)

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Analisis Multivariado (Autoguardado)

Hochgeladen von

Copyright:

Verfügbare Formate

Introducción Al Análisis Multivariado:

Quimiometría, PCA, PLS y Pre-processing.

Alejandro Mario Romero Valencia

Uno Mas de uno Variables Casos/Objetos Casos

¿En que escala

Métricas No métricas Métricas No métricas Métricas No métricas

¿En que escala Correlación

Apple Pie 11,540 2,700 32,170 15,060 4,310

Big Mac 9,540 12,480 19,620 11,000 4,020

Cheeseburger 10,540 13,790 26,000 10,190 4,410

Filet-O-Fish 11,840 10,870 26,390 14,860 2,840

Grilled Chicken 8,140 12,680 14,740 9,380 0,090

Hamburger 10,040 12,680 28,790 7,960 2,540

McChicken 9,240 11,370 19,320 10,800 1,760

McFeast 8,640 11,670 14,640 11,310 4,510

Pommes Frites 12,240 5,020 37,060 13,540 2,050

Quarter Pounder 10,540 15,710 17,930 12,930 6,380

Sundae Chokolate 7,840 4,310 28,390 6,140 4,410

Sundae Strawberry 6,840 3,600 28,290 3,500 2,450

Sundae Caramel 7,840 4,010 31,680 4,620 3,130

Normalización: la normalización es un vector que

Mean Smoother: el ancho de ventana (n) se escoge la

SNV MSC 2nd D

SNV MSC 2nd D

Das könnte Ihnen auch gefallen