Ajuste Linear Dados

Ajuste de Dados atravs do Uso de Modelos Lineares
Prof. Jlio Cesar Nievola PPGIA - PUCPR
Construo de Modelo Experimental

Ajuste de dados uma das cincias experimentais mais antigas Vantagens de um modelo matemtico:
l
Habilidade de compreender, explicar, prever e controlar a sada do sistema
Principal vantagem: capacidade de prever o comportamento futuro e control-lo atravs da aplicao de entradas apropriadas
PPGIA - PUCPR Prof. Jlio Cesar Nievola 2
Sistemas Naturais e Modelos Formais

Mundo Natural Decodificar Modelo Formal
Sistema Natural Observvel
Prever
Medidas Mundo Matemtico

Coleta de Dados
Deve ser cuidadosamente planejada Principais pontos a serem observados:
l
Os dados devem ser suficientes Os dados devem capturar as caractersticas principais do problema a ser tratado
Os dados devem ser to limpos quanto possvel

Prof. Jlio Cesar Nievola 4
PPGIA - PUCPR
Adaline - Regresso Linear

Adaline - Adaptive Linear Element, ou elemento de processamento (PE) Composto por dois multiplicadores e um somador xi +1 w S b PE
PPGIA - PUCPR Prof. Jlio Cesar Nievola
yi
Exemplo 01
5
Mnimos Quadrados
Uma reta ajusta perfeitamente duas observaes Qual a melhor escolha de (w, b) tal que uma reta passe mais prxima de vrios pontos? Mnimos Quadrados: reta em que a soma do quadrado dos desvios (resduos) na direo d minimizada Mnimos Quadrados: regresso linear
Determinao dos Parmetros (1)

A mdia da soma dos erros ao quadrado, denominado J (tambm chamado de MSE), que um dos critrios mais usados, dado por:
1 J= 2N
e
i =1
2 i
onde N o nmero de observaes

Exemplo 02
7
Determinao dos Parmetros (2)

Para minimizar J, usando Gauss, igualam-se as derivadas parciais a zero e resolve-se as equaes, ou seja: Obtm-se ento:
b=
i i i
J =0 e b
J =0 w
xi2 d i - xi xi d i
i
(xi - x )2 N i
(x - x )(d - d ) w= (x - x )
i i i 2 i i
Exemplo 03
8
PPGIA - PUCPR
Prof. Jlio Cesar Nievola
Coeficiente de Correlao
Por definio, o coeficiente de correlao entre duas variveis aleatrias x e d (xi - x )(di - d )
i
r=
(d
i
i -d
) (x - x )
2 i i
O numerador a covarincia das duas variveis e o denominador o produto dos correspondentes desvio padro
Mtodo dos Mnimos Quadrados

Interpretao da soluo estimada dos mnimos quadrados: o erro ortogonal entrada Mnimos quadados: bastante potente Pode ser generalizado para curvas polinomiais de ordem superior, tal como quadrticas, cbicas etc., dando origem aos mnimos quadrados generalizados
Mnimos Quadrados como Busca de Parmetros de um Sistema

Objetivo: encontrar os parmetros (b,w) que minimizam a diferena entre a sada yi do sistema e a resposta desejada di.
di xi (b,w) yi y
+
ei
b
d1
Alterar parmetros
. . ... .
di d2 x1 x2 xi
y=wx+b
x
11
Proejto de um Sistema Supervisionado Adaptativo

Elementos
l l l l
Sistema (linear) com parmetros adaptativos Resposta desejada ou objetivo d Critrio de otimalidade (MSE) a ser minimizado Mtodo para calcular os parmetros timos
O objetivo encontrar uma forma alternativa de calcular os parmetros usando um procedimento de busca
Anlise do Erro no Espao de Parmetros

J(w) chamada de superfcie de desempenho. Para b=0:
1 J= 2N
J Superfcie de desempenho Jmin w*
(di - wxi )
i
1 = 2N
(x w
2 i i
- 2d i xi w + d i2
Exemplo 04
13
Gradiente da Superfcie de Desempenho

O gradiente de J um vetor que sempre aponta na direo da mxima alterao de J com magnitude igual inclinao da tangente superfcie de desempenho No ponto inferior (vrtice), o gradiente zero
Superfcie de desempenho Magnitude do gradiente Jmin w* w0
PPGIA - PUCPR
w0+Dw w0-Dw w
J wo = lim
J (w0 + Dw) - J (w0 - Dw) Dw0 2Dw
14
Superfcie de Performance - Notas

O valor mnimo do erro (Jmin) depende tanto da sinal de entrada (xi) quanto do sinal desejado (di) A posio no espao de coeficientes onde o mnimo w* ocorre tambm depende tanto de xi quanto de di O formato da superfcie de desempenho depende somente do sinal de entrada xi
Exemplo 05
15
Busca usando Descida mais inclinada

Busca eficiente do mnimo usando vrios mtodos baseados na informao do gradiente Vantagens da busca:
l l
Computao local O gradiente sempre indica a direo de mxima alterao
Para o clculo dos pesos em uma nova posio:
w(k + 1) = w(k ) - hJ (k )
onde h uma pequena constante e J(k) indica o gradiente da superfcie de desempenho na iterao k
Busca usando a informao do gradiente

Superfcie de desempenho
Vetor Gradiente
Jmin
w(0)...
PPGIA - PUCPR
w*
...w(1)
w
17
Estimativa do Gradiente: Algoritmo LMS

Um sistema adaptativo pode usar a informao do gradiente para otimizar os parmetros Em 1960 Widrow props o uso do valor instantneo como estimativa do valor do gradiente:
1 2 1 J (k ) = J= ei e 2 (k ) = -e (k )x(k ) w(k ) w(k ) 2 N 2 w(k )
PPGIA - PUCPR
18
Algoritmo LMS
Usando a idia de Widrow tem-se o algoritmo LMS, no qual o gradiente estimado usando uma multiplicao por peso A equao da descida (ou LMS) torna-se
w(k +1) = w(k ) + he (k )x(k )

onde a constante h chamada de tamanho do passo ou constante de aprendizagem
Exemplo 06
19
Aprendizagem On-line e Batch

Aprendizagem on-line ou exemplo por exemplo: atualizao dos pesos aps o clculo para cada entrada Aprendizagem batch: armazenam-se as atualizaes dos pesos durante uma poca e no final da mesma atualizam-se os mesmos O algoritmo batch ligeiramente mais eficiente em termos do nmero de clculos Exemplo 07
Robustez e avaliao do treinamento

O algoritmo LMS robusto: sempre converge para o mesmo valor, independentemente dos pesos iniciais Exemplo 08 Aps o treinamento, os pesos so fixados para uso Precisa-se do coeficiente de correlao r e do MSE para testar os resultados:
l
r informa um indicador do resultado da modelagem, dizendo o quanto da varincia de d foi capturado pela regresso linear, mas no indica a mdia o MSE indica a ordem de grandeza Exemplo 09
PPGIA - PUCPR
Adaptao Estvel
O algoritmo LMS tem um parmetro livre, h, que deve ser selecionado pelo usurio O grfico do MSE ao longo das iteraes chamado de curva de aprendizagem e uma boa forma de monitorar a convergncia do processo A taxa de decrscimo do erro depende do valor do tamanho do passo h Busca-se uma forma de encontrar o maior tamanho de passo possvel que garanta convergncia Exemplo 10
Curva de Aprendizagem e Grfico dos Pesos ao longo das iteraes
Exemplo 11
PPGIA - PUCPR
23
Tamanho mximo do passo para convergncia

Convergncia rpida, mas sem sistema instvel:
h < hmax
1 = , onde l = l N 2 xi2
i
Na atualizao batch, usa-se o passo normalizado: h hn =

N
No algoritmo LMS comum incluir um fator de segurana 10 no mximo h (h < hmx) ou usar o treinamento em batch, o qual reduz o rudo na estimativa do gradiente
Constantes de tempo
A envoltria da progresso geomtrica dos valores dos pesos pode ser aproximado por uma exponencial com decrscimo dado pela constante de tempo de adaptao dos pesos t: 1 t=
hl
Em termos prticos, o processo iterativo converge aps 4 constantes de tempo A constante de tempo da adaptao tmse : t mse = t
2
25
Exemplo 12
Estabilidade
Na busca em pontos prximos ao mnimo:
l l
o gradiente pequeno mas no zero o processo continua a se movimentar na vizinhana do mnimo, sem estabilizar
Rattling: proporcional ao tamanho do passo h Nos mecanismos de busca com descida do gradiente h um compromisso entre a preciso da soluo final e a velocidade de convergncia
Rattling no procedimento iterativo
Exemplo 13
Escalonamento do tamanho dos passos

Forma simples de diminuir o rattling:
l
constante de aprendizagem grande no comeo do processo para rpida convergncia pequena constante de aprendizagem no final do processo para obter boa exatido
Escalonamento da taxa de aprendizagem:
h (k + 1) = h (k ) - b
O valor de b precisa ser determinado experimentalmente Exemplo 14

Regresso para vrias variveis

Considere-se que d uma funo de vrias entradas x1, x2, ..., xD (variveis independentes) e o objetivo encontrar a melhor regresso linear de d em relao a todas as entradas Assume-se que as medidas x so livres de rudo e d contaminado por um vetor de rudos e com as propriedades:
l
l l
distribuio Gaussiana com componentes com mdia zero varincias s2 igual no correlacionada com as entradas
PPGIA - PUCPR
Vrias variveis
x1i x2i
. . .
w1 w2 wD b Sistema de Regresso
di S yi
xDi +1
PPGIA - PUCPR
ei
Regresso para vrias variveis (1)

A equao para regresso com vrias variveis
D D e i = d i - b + wk xik = d i - wk xik , i = 1,..., N k =1 k =0
Neste caso o MSE
1 J= 2N
di - wk xik i k =0
D
A soluo para esta equao (ponto de mnimo) obtida igualando a zero as derivadas de J com relao s variveis desconhecidas wk Com isto, tem-se um conjunto de D+1 equaes com D+1 variveis, chamado equaes normais (conforme a seguir)

x d = w x
ij i i k =0 k i D ik
xij ,
j = 0,1,..., D
Estas equaes podem ser escritas em notao matricial. Para tanto, define-se 1 Rkj = xik xij N i Rkj a auto-correlao das amostras de entrada para os ndices k e j, a qual mede a similaridade entre exemplos do conjunto de treinamento R00 L R0 D Tem-se ento a matriz de auto-correlao R = M O M
R D 0 L RDD
32
PPGIA - PUCPR

Considere-se
1 pj = N
x d
ij i
como sendo a correlao cruzada da entrada x para ndice j e a resposta desejada d. A partir da mesma cria-se o vetor p de dimenso D+1. Portanto, p = R w* ou w * = R -1 p O coeficiente de correlao mltipla mede a quantidade de variao explicada pela regresso linear, normalizada pela varincia de d 2 T
rm = w * U x d - Nd d T d - Nd 2
Exemplo 15
33
PPGIA - PUCPR
Superfcie de desempenho para duas dimenses e grfico de contorno
PPGIA - PUCPR
34
Viso do Procedimento de Busca

A superfcie de desempenho em vrias dimenses de J torna-o um parabolide apontando para cima em D+1 dimenses: d i2 J = 0,5wT Rw - p T w + i 2N Os coeficientes que minimizam a soluo so
J = 0 = Rw * - p
ou
w* = R -1 p
A auto-correlao das entradas R especifica de forma completa a superfcie de desempenho A localizao da superfcie de desempenho no espao de pesos e o seu valor mnimo dependem a auto-correlao Exemplo 16 das entradas e da resposta desejada
Grfico de contornos da superfcie de desempenho com dois pesos

w2 Direo do maior autovetor de R Grficos de contorno de J
Direo do menor autovetor de R w2* Inverso da diferena o menor autovalor de R w1* w1

36
Inverso da diferena o maior autovalor de R
PPGIA - PUCPR
Descida mais inclinada no caso de vrios pesos

Neste caso o gradiente um vetor com D+1 componentes T Portanto, Ou seja,
J J J = ,L, w0 wD
w(k + 1) = w(k ) - h J (k )
w(k + 1) = (I - h R )w(k ) + h Rw *
Os pesos convergem com diferentes constantes de tempo, cada uma ligada a um autovalor de R
Controle do tamanho do passo

O conjunto de valores assumidos pelos pesos chamado trilha dos pesos e se movem em direo oposta ao gradiente em cada ponto O pior caso para garantir a convergncia ao timo w* em todas as direes 2 h< l max O tamanho do passo h deve ser menor que o inverso do maior autovalor da matriz de autocorrelao, a fim de que no haja divergncia
Trilha dos pesos em direo ao w Gradientes mnimo

2
w1(0) w2(1) w2* Autovalores iguais:
w(0) w(1)
w1(0)w1(1) w1* w2 w1(0) w2(1) w2* Autovalores diferentes: w1(0) w1(1)

w1
Gradientes w(0) w(1)
w1*
w1
39
Constante de tempo da adaptao

A constante de tempo da adaptao dada por
t=
1
Se a razo entre o maior e o menor autovalor for grande, a convergncia ser lenta A curva de aprendizagem se aproxima de Jmin em uma progresso geomtrica H vrias constantes de tempo da adaptao (caso os autovalores sejam diferentes), sendo uma para cada direo
hlmin
Exemplo 17
40
Algoritmo LMS com vrios pesos

O algoritmo LMS com vrios pesos torna-se
w(k +1) = w(k ) + he (k )x(k )
Para a abordagem com bias:

l
Exemplo 18
amplia-se a matriz de entrada com uma coluna extra com 1s; ou modificam-se as entradas e sadas para que tenham variveis com valor mdio igual a zero
Selecionar h para produzir 10% de erro significa uma durao de treinamento em iteraes igual a Exemplo 19 10 vezes o nmero de entradas
Mtodo de Newton (1)

A equao adaptativa dos pesos usando o mtodo de Newton -1
w(k + 1) = w(k ) - R J (k )
Mtodo de Newton corrige a direo de busca de tal forma que ela sempre aponta para o mnimo O mtodo de Newton mais rpido que LMS quando a matriz de correlao dos dados de entrada tem uma grande faixa de autovalores O clculo da inversa da matriz de auto-correlao, mais demorado que LMS e necessita de informao global Se a superfcie no for quadrtica o mtodo diverge
Mtodo de Newton (2)

w2 Mtodo de Newton Descida do gradiente
w2*
.
w1* w1 Exemplo 20
PPGIA - PUCPR
43
Soluo Analtica x Iterativa

Analtica
l l
Se R mal-condicionada, a inversa no precisa Tempo para clculo da inversa O(D2) no h garantia da proximidade de w* grande faixa de autovalores causa lenta convergncia h algoritmos muito eficientes para estimar o gradiente ordem de complexidade O(D) o mtodo pode ser estendido para sistemas no-lineares
Iterativa
l l
Vantagens da abordagem iterativa

l l l
PPGIA - PUCPR

Ajuste Linear Dados

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Ajuste Linear Dados

Hochgeladen von

Copyright:

Verfügbare Formate

Ajuste de Dados atravs do Uso de Modelos Lineares

Prof. Jlio Cesar Nievola PPGIA - PUCPR

Construo de Modelo Experimental

Habilidade de compreender, explicar, prever e controlar a sada do sistema

Sistemas Naturais e Modelos Formais

Sistema Natural Observvel

Medidas Mundo Matemtico

Os dados devem ser to limpos quanto possvel

Adaline - Regresso Linear

Determinao dos Parmetros (1)

onde N o nmero de observaes

Determinao dos Parmetros (2)

Prof. Jlio Cesar Nievola

Mtodo dos Mnimos Quadrados

Mnimos Quadrados como Busca de Parmetros de um Sistema

Proejto de um Sistema Supervisionado Adaptativo

Anlise do Erro no Espao de Parmetros

Gradiente da Superfcie de Desempenho

J (w0 + Dw) - J (w0 - Dw) Dw0 2Dw

Prof. Jlio Cesar Nievola

Superfcie de Performance - Notas

Busca usando Descida mais inclinada

Computao local O gradiente sempre indica a direo de mxima alterao

Para o clculo dos pesos em uma nova posio:

Busca usando a informao do gradiente

Prof. Jlio Cesar Nievola

Estimativa do Gradiente: Algoritmo LMS

Prof. Jlio Cesar Nievola

w(k +1) = w(k ) + he (k )x(k )

Aprendizagem On-line e Batch

Robustez e avaliao do treinamento

Curva de Aprendizagem e Grfico dos Pesos ao longo das iteraes

Prof. Jlio Cesar Nievola

Tamanho mximo do passo para convergncia

Na atualizao batch, usa-se o passo normalizado: h hn =

Rattling no procedimento iterativo

Escalonamento do tamanho dos passos

Escalonamento da taxa de aprendizagem:

O valor de b precisa ser determinado experimentalmente Exemplo 14

Regresso para vrias variveis

Regresso para vrias variveis (1)

Neste caso o MSE

Regresso para vrias variveis (2)

Prof. Jlio Cesar Nievola

Regresso para vrias variveis (3)

Prof. Jlio Cesar Nievola

Superfcie de desempenho para duas dimenses e grfico de contorno

Prof. Jlio Cesar Nievola

Viso do Procedimento de Busca

Grfico de contornos da superfcie de desempenho com dois pesos

Direo do menor autovetor de R w2* Inverso da diferena o menor autovalor de R w1* w1

Inverso da diferena o maior autovalor de R

Prof. Jlio Cesar Nievola

Descida mais inclinada no caso de vrios pesos

Controle do tamanho do passo

Trilha dos pesos em direo ao w Gradientes mnimo

w1(0) w2(1) w2* Autovalores iguais:

w1(0)w1(1) w1* w2 w1(0) w2(1) w2* Autovalores diferentes: w1(0) w1(1)

Gradientes w(0) w(1)

Constante de tempo da adaptao

Algoritmo LMS com vrios pesos

w(k +1) = w(k ) + he (k )x(k )

Para a abordagem com bias:

Mtodo de Newton (1)