Adep LB 7

Monitoreo y Diagnóstico de la Operación
de Plantas
Parte II
Prof. Luis G. Bergh
CASIM-UTFSM
Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

Introducción al Algebra Lineal
Escalares (x), vectores ( x ), matrices (X )

Representación geométrica
Operaciones entre vectores y matrices:

Adición: conmutativa y asociativa,
A+B=B+A
(A+B)+C=A+(B+C)
cA=Ac
(c+d)A=cA+dA
Producto interno:
aTb = […….]1xn[ ]nx1= c1x1
T
Largo o norma: a = a a
Producto externo:
   
   
ab =   [ ]1xn = 
T
   
   
  nx1   nxn

Vector ortogonal, producto interno = 0, geométricamente
perpendiculares
Vector ortonormal: ortogonal con norma igual a uno
T 0 i ≠ j
vi v j = 
1 i = j
En un espacio de dimensión n sólo hay n vectores ortonormales,

pero hay infinitos conjuntos de n vectores (geométricamente,
rotación de ejes)

Multiplicación de matrices A⋅ B = C
Cij es el producto interno de vector fila i por vector columna j
Distributiva A ⋅ ( B + C ) = AB + AC
Asociativa A ⋅ ( B ⋅ C ) = ( A ⋅ B) ⋅ C
Pero no conmutativa
A⋅ B ≠ B ⋅ A
Otras:
( AT )T = A
( A + B )T = AT + BT
( A + B )T = AT + BT
( A ⋅ B)T = BT ⋅ AT

Matrices especiales:
Diagonal: sólo elementos en diagonal Aii ≠ 0
Simétricas: si A = AT (Aij = Aji) (ejemplo, matriz de covarianza)
Aplicación de álgebra de matrices: eliminación de Gauss para la
resolución de conjuntos de ecuaciones lineales: Ax = y
¿Cuándo no funciona? Si la matriz es singular (det A = 0) o que
las filas o columnas no son independientes entre si.
Rank, rango: rank(A) ≤ min(m,n)
Rango completo si rank(A) = min(m,n)
Rango deficiente o colinear si rank(a) < min(m,n)
Otra forma de resolver es x = A-1 y (método de Gauss-Jordan),
Dado que (AB)-1 = B-1A-1 luego (AI)-1 = IA-1
Si A es no singular entonces det (A) ≠ 0 y la inversa de A existe
Y si det(A) → 0?? entonces la matriz A está mal acondicionada
Espacios vectoriales y subespacios
y
Rn de dimensión n z
y
Un plano R2 x vs y
x
Un volumen R3
x
Un subespacio es un sector del espacio, es un subconjunto de
vectores cuya suma reside en el subespacio y donde cada vector por
un escalar también reside en el subespacio (ejemplo, el formado por x
e y en R3)
Independencia lineal:
Dados vectores v1, v2, … , vk
Si la con ci ≠ 0 independencia lineal (no correlacionados)
∑
k
i =1
ci v i ≠ 0
Si civi = vJ entonces son linealmente dependientes (completamente
correlacionados)
Un set de vectores w1, …. , wk en Rn k“llenan” el espacio si
cada v puede expresarse como v = ∑ ci wi combinación
i =1
lineal, o sea k ≥ n
Una base de un espacio vectorial es el conjunto de

vectores linealmente independientes que llenan el espacio
Rn (luego, de dimensión n)

La matriz A (espacio), por eliminación (combinación de filas)
puede expresarse como
 2 1 1  2 1 1
 4 1 0 ⇒ 0 − 1 − 2 
   
− 2 2 1 0 0 4 
Donde cada fila y cada columna de A transformada son
posibles bases del espacio
Ortogonalidad de subespacios
V es ortogonal a W si v (en V) es ortogonal a w (en W)

O sea vTw = 0 para todos los v y w de V y W

Proyecciones
Dado un vector x y un punto definido por vector y encontrar el

punto p en la dirección definida por x que es más cercano a y
y d x
Como p debe estar sobre x entonces p es un escalar b que

multiplica al vector x, y la linea conectora de y con p (d) debe
ser perpendicular a x (o sea, y = p + d)
Entonces xT(d) = 0

Entonces xT(d) = 0
y xT(y – bx) = 0 que son las ecuaciones normales cuando se

aplica el método de mínimos cuadrados
luego xTy = bxTx
b = xTy / (xTx)
la proyección p = bx = xTyx / (xTx)
y ║d ║ = ║y - p ║ = (y – p)T(y – p)
También se puede proyectar y en un subespacio, por ejemplo,

en un plano definido por dos vectores, o en Rn o una matriz X

Si Xmxn y de rank r,
entonces XTXnxn (si no es singular es de rango n)

Análogamente, XT(y – Xb) = 0 (ecuaciones normales de MC)
y finalmente b = (XTX)-1XTy
la proyección de y en X, p = Xb = X (XTX)-1XTy
donde b es el vector de regresión y P es la matriz proyección
definida como: p = Py o sea P = X (XTX)-1XT
P tiene propiedades: idempotencia, simétrica
PP = P2 = P
PT = P
Interpretación geométrica de Mínimos Cuadrados
El modelo escrito en forma matricial es y=Xβ+e
Min eTe = Min (y – X β)T(y – X β) = S(β)
Ecuaciones normales (derivando S(β) respecto a β):
(y – X β)X = 0 (o producto interno es igual a cero)

x2
ŷ y proyectado en el plano
x1 x1-x2 es el vector ŷ en
ese plano que está más
y cerca de y

Bases ortogonales y ortonormales
Estamos familiarizados con v1 = [1, 0,…., 0]T, v2 = [0, 1, …, 0]T, etc
v2
0
v1 1
Supongamos que queremos proyectar y en X y que ésta consiste de

columnas ortonormales, o sea,
XTX = I matriz ortogonal
Entonces P = X (XTX)-1XT = XXT

Una matriz ortogonal cuadrada QTQ = I, QQT = I y QT = Q
¿Y si X no es ortonormal ni ortogonal?
Entonces hay dependencia entre los X’s y puede dificultar la

proyección (hasta el extremo que no exista si X es singular, pasando
por X mal acondicionada)
Si X es singular X-1 no existe, no hay solución!!

Existen varios b’s que satisfacen la restricción (modelo)
¿Cómo elegir entre ellos? El de menor largo, Min ║b║
Usando la seudo-inversa X+ = (XTX)-1X (b = X+y) si X es no-colineal
¿y si X es colineal?
Usar método general para encontrar seudo inversas (descomposición
por valores propios)

Descomposición por Valores Propios (Singular values)
Cualquier Xmxn puede factorizarse en X = USVT

Con U ortogonal mxn, V ortogonal nxn y S diagonal mxn (los
elementos Sii distintos de cero son los valores propios y su magnitud
decrece monotónicamente)
Siguiendo ejemplo anterior (linea con observaciones lejos del origen)
Si 1 9   17 . 5 0 
 
X = 1 10  ⇒   0


0 . 14   
1 11     0 0   
El segundo valor propio tiende a cero (mal acondicionada)

1 1    1.73 0 
Si   0 1.41  
X = 1 0  ⇒    
1 − 1    0 0   
Análisis de Componentes Principales
Sea Xmxn una matriz que contiene m filas de observaciones de

n columnas de variables
Las correlaciones entre las variables está dada por la matriz

de covarianza:
Cov(X) = XTX
Ahora XTX es equivalente a la matriz de correlación de X
X puede descomponerse como:
X = t1p1T + t2p2T + …. + tkpkT + E
Con k ≤ min(m,n)

ti: scores, que contienen información sobre cómo las observaciones
se relacionan entre si
pi: loadings, que contienen información sobre cómo las variables se

relacionan entre si.
Como descomposición, pi son los vectores propios (eigenvectors)

de XTX
Para cada pi Cov(X) pi = XTXpi = λipi

Donde λi es el valor propio (eigenvalue) asociado al vector propio pi
Los ti forman un conjunto ortogonal, donde
tiT tj = 0 para i ≠ j

Los pi forman un conjunto ortonormal (ortogonal y norma unitaria)
piT pj = 0 para i ≠ j piT pj = 1 para i = j
Nótese que: Xpi = ti
El vector de score ti es una combinación lineal, definida por pi, de

las variables originales en X
Otra forma:
ti son las proyecciones de X en pi

Los λi son una medida de la cantidad de variabilidad
(información!!) está descrita por el par pi, ti

Supóngase que existen tres variables x1, x2 y x3
y que x2 = x3 e independiente de x1
Entonces existirá un plano w1-w2 donde residirán todos los puntos

observados. Gráficamente,
w2
En otras palabras
x2 hemos proyectado las
x3
variables originales xi
en nuevas variables wi
que además son
ortogonales entre si, y
de menor dimesión
x1 = w1

Análisis de componentes principales
Las cartas de control de variables múltiples son razonablemente

efectivos siempre que el número de variables que se monitorean
no sea muy grande.
El número de observaciones promedio en detectar una señal fuera

de control, se incrementa al aumentar el número de variables de
proceso.
Hay situaciones en la que la variabilidad del proceso se ve

afectada más por algunas variables que por otras.
A los métodos para descubrir las sub-dimensiones en las que se

mueve el proceso se les llama Métodos de Estructura Latente o
Métodos de Proyección, de los cuales, uno de los más utilizados
es el de Análisis de Componentes Principales.

En el método de componentes principales, se definen las llamadas
componentes principales de las variables originales como una combinación
lineal de las p variables originales:
t1 = c11X1 + c12X2 +………+ c1pXp
t2 = c21X1 + c22X2 +………+ c2pXp
:
tp = cp1X1 + cp2X2 +………+ cppXp
Las cij son las constantes a determinar, sujeto a la condición de que, la norma del
vector de las constantes para cada combinación lineal debe ser igual a uno.
Las constantes halladas para la primera componente principal son las que
maximizan la varianza de tal componente, y las constantes de la segunda
componente principal son las que, siendo ortogonales a la primera, den a la
siguiente componente varianza máxima
La dirección de estos vectores de cada componente principal
corresponde a los vectores propios de la matriz de covarianzas del
proceso.
El valor propio asociado a cada vector propio corresponde a la

varianza de cada componente principal, por lo que la proporción
de la varianza explicada por la componente principal i está dada
por el cuociente de dicho valor propio sobre la suma de la totalidad
de los valores propios:
λi
Variabilid ad Explicada CPi =
∑
p
j =1
λj

Número de componentes principales necesarios
Dado que las variables originales se suelen escalar a varianza unitaria,

cuando un valor propio es cercano a la unidad, se considera que la
componente principal tiene poca incidencia en la representación del
modelo PCA, y suele descartarse.
Cálculo del índice Q, que mide la capacidad de predicción acumulada de

las componentes principales. Éste índice alcanza un máximo en el
número de componentes óptimos a utilizar, normalmente llamadas A,
número que suele ser bastante menor que el número de variables
originales del proceso.

Número de componentes principales necesarios
Con esto, se determina la llamada matriz de loadings, PA, que es

una matriz de dimensión pxA. En las columnas se sitúan los
vectores propios encontrados, ordenados desde la primera
columna el que tiene el mayor valor propio hasta el de menor valor
propio.
Una vez definida esta matriz, basta solamente tener un vector de

la nueva observación del proceso en cuestión, y multiplicarla por
la matriz de loadings para obtener los scores (t), o valores que
alcanzan las componentes principales para dicha observación.

Pretratamiento de los datos
- Centrado: de esta forma todas las observaciones tienen media

cero.
- Escalado: lograr que cada variable tenga varianza unitaria.
Estadísticos para el monitoreo con el modelo PCA
Los estadísticos típicamente utilizados para el monitoreo de

procesos modelados con PCA son 2:
1. T2 Hotelling
2. PSE (square prediction error)

x
- TA2 Hotelling, tal como el estadístico T2, empleado para

monitorear la media del proceso en las variables originales, se usa
el mismo estadístico pero aplicado a las variables latentes, por eso
su subíndice A.
A
t i2
TA = ∑ =∑ 2 = ∑
2 t i2A A
[ pi × ( x − µ )]
2
i =1 λi i =1 sti i =1 λi

- Error estándar de la predicción (SPE); mide la distancia del valor
predicho por el modelo PCA en las variables originales y el valor
real de las variables originales en la medición obtenida Xnew. Los
scores (los valores de las componentes principales):
t A,new = PAt × xnew
En este caso, tA, new es un vector con A filas, PA es la matriz de los

vectores propios, o matriz de loadings, en las que los vectores propios
van ordenados en las columnas, de mayor a menor valor propio.
El valor predicho por el modelo en las variables originales es:
) ) 2
SPE = ∑i =1 ( xnew − xnew )
p
xnew = PA × t A,new

Para definir un límite de control superior para este estadístico se
cuenta con la expresión siguiente, propuesta por Jensen y
Solomon:
1
 z 2θ h θ 2 h0 (h0 − 1)
2 h0
SPEα = θ1  α
+1+ 2 0
2

 θ1 θ1 
K
2θ1θ 3
siendo θi = ∑ λ ij
j = A +1
h0 = 1 −
3θ 22
y zα es el percentil 100×(1−α) de una normal

estandarizada. Los valores hacen referencia a los valores
propios de la matriz de covarianzas de las variables
originales.

2 2
- Si SPE < SPEα y TA > TA,α , la observación se ha visto afectada
por una causa especial de variación que ha originado valores
extremos en algunas de las variables, pero respetando las
relaciones básicas entre las variables del proceso, que han
quedado establecidas en el conjunto de datos de referencia.
-Si SPE > SPEα sin importar el valor que tome T2A, implica que ha
aparecido una causa especial de variabilidad, consistente en un
nuevo evento, no presente en el conjunto de referencia, no
respetándose la estructura de covarianzas del modelo. Si además
entonces podría interpretarse como una falla en la
2
T A < T A2,α
medición de la variable.

Contribución de cada variable al cálculo de los estadísticos
monitoreados, T2 y SPE.
)
Contribución(SPE ; x k ) = ek = xk − x k k € [1,p]
)
En donde xk representa el valor de cada variable monitoreada en el
xk
espacio original y el valor predicho por el modelo PCA de la
variable original k-ésima.
Si bien la contribución al SPE está definida como el cuadrado del

error, monitorear el error con su signo no tiene ninguna incidencia
en cuanto al aporte que hace al SPE, y pero permite saber en qué
dirección se está moviendo tal variable.

En el caso de la TA2 el asunto es un poco más complejo, ya que se
desea saber la contribución de cada variable original a la TA2.
Primero se debe aislar los scores que hayan resultado como
significativos al momento de aportar a la TA2
Contribución(ti ; xk ) = pik xk k € [1,p] y i € [1,A]
En este caso, pik es el valor del vector propio de cada componente

principal que hace referencia a la variable original k.

Una vez definidas las contribuciones de las variables a los scores
significativos, se debe comparar el signo de la contribución de la
variable con el signo del score. Si el signo de la contribución es
igual al signo del score, esta contribución se mantiene, pero si el
signo es diferente la contribución se hace cero. Una vez que se
han eliminado las contribuciones de signo diferente a los signos de
los scores significativos, se procede a sumar las contribuciones de
cada variable sobre todos los scores significativos. Se puede
obtener posterior a esto, la contribución a la TA2 de cada variable,
según:
pi
( 2
Contribuci ón T ; xk =
A ) λi
pik xk k € [1,p] y i € [1,A]

El problema general
Si existen N variables de entrada tenemos un problema de dimensión

N que resolver (muy complejo) y si las variables están correlacionadas
entre si se agrega un problema de estimación de parámetros del
modelo
¿Cómo extraer información relevante de un conjunto de datos?
Una imagen en TV muestra objetos reales que tienen volumen (tres

dimensiones), pero podemos PROYECTAR una imagen en una
dimensión menor (dos).
Al observar la imagen de la realidad la identificamos y la entendemos
como lo que es.
¿Un proceso puede tener dimensión N, pero podemos proyectar su
imagen en menos dimensiones?
Interpretación geométrica
Variable 2
Variable 3
Variable 1

V =f1(x,y,z)
W=f2(x,y,z)v
Variable 2
Variable 3
Variable 1

Si existen N variables de entrada tenemos un problema de
dimensión N que resolver (muy complejo) y si las variables están
correlacionadas entre si se agrega un problema de estimación de
parámetros del modelo.
Si algunas variables de entrada estuvieran CORRELACIONADAS

entre si, tenemos un problema de estimación, pero una oportunidad
de reducir la dimensión del problema a resolver (menos complejo):
PROYECCION

1er PC
Variable 2
2do PC
Variable 3
Variable 1

Si existen N variables de entrada tenemos un problema de dimensión N
que resolver (muy complejo) y si las variables están correlacionadas
entre si se agrega un problema de estimación de parámetros del
modelo
Si algunas variables de entrada estuvieran CORRELACIONADAS entre

si, tenemos un problema de estimación, pero una oportunidad de
reducir la dimensión del problema a resolver (menos complejo)
PROYECCION
Si existiera un conjunto menor de variables auxiliares, que siendo una

función lineal de las variables de entrada, fueran INDEPENDIENTES
entre si, entonces tenemos un problema de dimensión menor que
resolver y una condición óptima de estimación de parámetros de un
modelo

Punto con Q grande

Variación inusual
fuera del modelo
1er PC
Punto con
T2 grande
Variación
inusual
Variable 2 dentro del
modelo
2do PC
Variable 3
Variable 1

Ejemplo de construcción y uso de un modelo PCA para una
columna de flotación piloto
1. Generación de datos experimentales (ver documento

adjunto para detalles):
• Variables en estado estacionario
• Selección de un subconjunto de datos que cumplen
con una condición normal, por ejemplo que la
profundidad de espuma está entre 40 y 80 cm.
2. Construcción de modelo PCA (uso de software comercial:
ejemplos ProSensus MV, PLS_Toolbox con MatLab, …)
3. Uso de modelo PCA para interpretar operaciones
anormales (diagnóstico, identificación y remediación)

Agua de Lavado
Estanque de
Almacenamiento Barra de
Electrodos
Presión de
PI Colección
Bomba de Agua Bomba de

de Lavado Alimentación
Presión FI
de Fondo
FI PI Aire
Colas

Variable Medida Instrumentación Calidad
Profundidad de espuma Metro medidor
visual
Perfil de conductividad Barra de electrodos sensor

Presión de fondo DP Cell sensor
Presión de colección DP Cell sensor
Flujo de colas Flujómetro másico sensor
Flujo de aire Flujómetro magnético sensor
Flujo de alimentación Bomba alimentación actuador
Flujo de lavado Bomba de lavado actuador
Flujo de colas Válvula Pinch actuador
Flujo de aire Válvula de Globo actuador

Variable Rango de Operación
Profundidad de Espuma [cm] 0 - 100
Bias [cm/s] 0 - 0.2
Holdup de gas [%] 5 - 20
Flujo de alimentación [cm/s] 0.1 - 0.3
Flujo de agua de lavado [cm/s] 0.1 - 0.3
Flujo de colas [cm/s] 0.1 - 0.3
Flujo de aire [cm/s] 0.5 - 1.5

Usando Prosensus Multivariate software (www.prosensus.ca)
1. De un conjunto de 8.724 observaciones de 26 variables,
se seleccionó un subconjunto de 3.565 observaciones
que cumplen con el criterio de que la profundidad de
espuma estuviera entre 40 y 80 cm.
2. Se construyó un modelo PCA con 5 componentes
principales, que explican cerca del 80% de la variabilidad

3. Analizando las contribuciones globales de cada obsevación
tanto al Hotelling´s T2 como a la SPE, se encontró que
varias observaciones superaban los límites de los
estadígrafos del modelo.

4. Se identificaron las observaciones que contenían
información discordante con el modelo PCA y se
eliminaron (la principal causa era la mala lectura de la
conductividad en ciertos pares de electrodos).
5. Se construyó un nuevo modelo PCA, con 6 componentes,
explicando cerca del 90% de la variabilidad:

6. Chequeando las contribuciones a los estadígrafos, se
decide trabajar con este modelo. Alternativamente, uno
puede seguir investigando si en las observaciones con
estadígrafos fuera de los límites hay algún problema que
lconvierta a esa observación en un “out layer”. Observar
que los límites de los estadígrafos han disminuido
significativamente (ej. SPE de 5 a 1, más sensible)

7. Ahora podemos juzgar si una nueva observación es normal
(con estadígrafos dentro de los límites) o no. En caso la
observación 1924 supera el límite SPE pero no el de
Hotelling´s T2, lo que se interpreta como un problema de
falla de instrumentación (MPX13)

8. Ahora podemos juzgar si una nueva observación es normal
(con estadígrafos dentro de los límites) o no. En este caso
la observación 1996 supera el límite Hotelling´s T2 pero
no el de SPE, lo que se interpreta como un problema de
operación causado por una presión alta del aire a la
válvula y consecuentemente un flujo de aire muy bajo.

Otro caso es una nueva observación de otro grupo identificada con
el número 86, donde ambos test fallan:

Un análisis de las contribuciones indica que la mayoe contribución
se debe al valor medido con el multiplexor 12 y 15:

Desarrollo de sensores virtuales y monitoreo de procesos
usando métodos basados en estadística multivariable
Ver “white paper” anexado de Dr. John MacGregor, de

Diciembre de 2007, publicado en
www.prosensus.ca/white-papers/using-multivariate-
methods-for-process-monitoring-and-soft-sensors
Alli se describen las ventajas de estos métodos, tales

como:
• manejo de datos industriales “mal acondicionados”
• capacidad de manejar “datos perdidos”
• modelos simultáneos para el espacio X y el espacio Y

Desarrollo de sensores virtuales: método PLS
En general en un proceso hay:

m variables independientes x´s y
n variables dependientes y´s
k observaciones
x y
Proceso
Usando la metodología descrita para PCA:

X = TPT + E e Y = UCT + F
Con T y U los scores y P y C los loadings respectivos
E y F son los residuos respectivos
Desarrollo de sensores virtuales: método PLS
Ahora la regresión MV se realiza sobre dos conjuntos de variables

latentes (que son ortogonales cada una entre si, generando la
mejor condición de estimación y reduciendo la dimensión del
problema).
Para validar el modelo encontrado se realiza la validación cruzada

con un subconjunto de datos apartados del conjunto general,
calculando PRESS (la sumatoria de errores de predicción al
cuadrado):
PRESS = ∑∑ ( yim − yˆim )

2
i m
Donde i y m son las observaciones y variables en el bloque Y

Ejemplo de construcción y uso de un modelo PLS para predecir la
profundidad de espuma en una columna de flotación piloto
1. Generación de datos experimentales (ver documento adjunto

para detalles):
• Variables en estado estacionario
• Selección de un subconjunto de datos que cumplen con
una condición normal, por ejemplo que la profundidad de
espuma está entre 40 y 80 cm.
2. Construcción de modelo PLS (uso de software comercial:
ejemplos ProSensus MV, PLS_Toolbox con MatLab, …)
3. Uso de modelo PLS como sensor virtual

Training set

Prediction set


Adep LB 7

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Adep LB 7

Hochgeladen von

Copyright:

Verfügbare Formate

Monitoreo y Diagnóstico de la Operación

Prof. Luis G. Bergh

Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

Escalares (x), vectores ( x ), matrices (X )

Operaciones entre vectores y matrices:

Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

Vector ortonormal: ortogonal con norma igual a uno

En un espacio de dimensión n sólo hay n vectores ortonormales,

Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

Una base de un espacio vectorial es el conjunto de

Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

V es ortogonal a W si v (en V) es ortogonal a w (en W)

Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

Dado un vector x y un punto definido por vector y encontrar el

Como p debe estar sobre x entonces p es un escalar b que

Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

y xT(y – bx) = 0 que son las ecuaciones normales cuando se

luego xTy = bxTx

la proyección p = bx = xTyx / (xTx)

También se puede proyectar y en un subespacio, por ejemplo,

Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

entonces XTXnxn (si no es singular es de rango n)

donde b es el vector de regresión y P es la matriz proyección

definida como: p = Py o sea P = X (XTX)-1XT

P tiene propiedades: idempotencia, simétrica

El modelo escrito en forma matricial es y=Xβ+e

Min eTe = Min (y – X β)T(y – X β) = S(β)

Ecuaciones normales (derivando S(β) respecto a β):

(y – X β)X = 0 (o producto interno es igual a cero)

Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

Estamos familiarizados con v1 = [1, 0,…., 0]T, v2 = [0, 1, …, 0]T, etc

Supongamos que queremos proyectar y en X y que ésta consiste de

XTX = I matriz ortogonal

Entonces P = X (XTX)-1XT = XXT

Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

Entonces hay dependencia entre los X’s y puede dificultar la

Si X es singular X-1 no existe, no hay solución!!

Usando la seudo-inversa X+ = (XTX)-1X (b = X+y) si X es no-colineal

Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

Cualquier Xmxn puede factorizarse en X = USVT

Siguiendo ejemplo anterior (linea con observaciones lejos del origen)

El segundo valor propio tiende a cero (mal acondicionada)

Sea Xmxn una matriz que contiene m filas de observaciones de

Las correlaciones entre las variables está dada por la matriz

Ahora XTX es equivalente a la matriz de correlación de X

X puede descomponerse como:

X = t1p1T + t2p2T + …. + tkpkT + E

Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

pi: loadings, que contienen información sobre cómo las variables se

Como descomposición, pi son los vectores propios (eigenvectors)

Para cada pi Cov(X) pi = XTXpi = λipi

Los ti forman un conjunto ortogonal, donde

Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

piT pj = 0 para i ≠ j piT pj = 1 para i = j

Nótese que: Xpi = ti

El vector de score ti es una combinación lineal, definida por pi, de

ti son las proyecciones de X en pi

Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

Entonces existirá un plano w1-w2 donde residirán todos los puntos

Luis G. Bergh Monitoreo y Diagnóstico de la Operación de Plantas CASIM-UTFSM Septiembre 2010

Las cartas de control de variables múltiples son razonablemente

El número de observaciones promedio en detectar una señal fuera