Sie sind auf Seite 1von 44

Ajuste de Dados atravs do Uso de Modelos Lineares

Prof. Jlio Cesar Nievola PPGIA - PUCPR

Construo de Modelo Experimental


Ajuste de dados uma das cincias experimentais mais antigas Vantagens de um modelo matemtico:
l

Habilidade de compreender, explicar, prever e controlar a sada do sistema

Principal vantagem: capacidade de prever o comportamento futuro e control-lo atravs da aplicao de entradas apropriadas
PPGIA - PUCPR Prof. Jlio Cesar Nievola 2

Sistemas Naturais e Modelos Formais


Mundo Natural Decodificar Modelo Formal

Sistema Natural Observvel

Prever

Medidas Mundo Matemtico


PPGIA - PUCPR Prof. Jlio Cesar Nievola 3

Coleta de Dados
Deve ser cuidadosamente planejada Principais pontos a serem observados:
l

Os dados devem ser suficientes Os dados devem capturar as caractersticas principais do problema a ser tratado

Os dados devem ser to limpos quanto possvel


Prof. Jlio Cesar Nievola 4

PPGIA - PUCPR

Adaline - Regresso Linear


Adaline - Adaptive Linear Element, ou elemento de processamento (PE) Composto por dois multiplicadores e um somador xi +1 w S b PE
PPGIA - PUCPR Prof. Jlio Cesar Nievola

yi

Exemplo 01
5

Mnimos Quadrados
Uma reta ajusta perfeitamente duas observaes Qual a melhor escolha de (w, b) tal que uma reta passe mais prxima de vrios pontos? Mnimos Quadrados: reta em que a soma do quadrado dos desvios (resduos) na direo d minimizada Mnimos Quadrados: regresso linear
PPGIA - PUCPR Prof. Jlio Cesar Nievola 6

Determinao dos Parmetros (1)


A mdia da soma dos erros ao quadrado, denominado J (tambm chamado de MSE), que um dos critrios mais usados, dado por:

1 J= 2N

e
i =1

2 i

onde N o nmero de observaes


PPGIA - PUCPR Prof. Jlio Cesar Nievola

Exemplo 02
7

Determinao dos Parmetros (2)


Para minimizar J, usando Gauss, igualam-se as derivadas parciais a zero e resolve-se as equaes, ou seja: Obtm-se ento:
b=
i i i

J =0 e b

J =0 w

xi2 d i - xi xi d i
i

(xi - x )2 N i

(x - x )(d - d ) w= (x - x )
i i i 2 i i

Exemplo 03
8

PPGIA - PUCPR

Prof. Jlio Cesar Nievola

Coeficiente de Correlao
Por definio, o coeficiente de correlao entre duas variveis aleatrias x e d (xi - x )(di - d )
i

r=

(d
i

i -d

) (x - x )
2 i i

O numerador a covarincia das duas variveis e o denominador o produto dos correspondentes desvio padro
PPGIA - PUCPR Prof. Jlio Cesar Nievola 9

Mtodo dos Mnimos Quadrados


Interpretao da soluo estimada dos mnimos quadrados: o erro ortogonal entrada Mnimos quadados: bastante potente Pode ser generalizado para curvas polinomiais de ordem superior, tal como quadrticas, cbicas etc., dando origem aos mnimos quadrados generalizados
PPGIA - PUCPR Prof. Jlio Cesar Nievola 10

Mnimos Quadrados como Busca de Parmetros de um Sistema


Objetivo: encontrar os parmetros (b,w) que minimizam a diferena entre a sada yi do sistema e a resposta desejada di.
di xi (b,w) yi y

+
ei
b

d1

Alterar parmetros
PPGIA - PUCPR Prof. Jlio Cesar Nievola

. . ... .
di d2 x1 x2 xi

y=wx+b

x
11

Proejto de um Sistema Supervisionado Adaptativo


Elementos
l l l l

Sistema (linear) com parmetros adaptativos Resposta desejada ou objetivo d Critrio de otimalidade (MSE) a ser minimizado Mtodo para calcular os parmetros timos

O objetivo encontrar uma forma alternativa de calcular os parmetros usando um procedimento de busca
PPGIA - PUCPR Prof. Jlio Cesar Nievola 12

Anlise do Erro no Espao de Parmetros


J(w) chamada de superfcie de desempenho. Para b=0:
1 J= 2N
J Superfcie de desempenho Jmin w*
PPGIA - PUCPR Prof. Jlio Cesar Nievola

(di - wxi )
i

1 = 2N

(x w
2 i i

- 2d i xi w + d i2

Exemplo 04
13

Gradiente da Superfcie de Desempenho


O gradiente de J um vetor que sempre aponta na direo da mxima alterao de J com magnitude igual inclinao da tangente superfcie de desempenho No ponto inferior (vrtice), o gradiente zero
Superfcie de desempenho Magnitude do gradiente Jmin w* w0
PPGIA - PUCPR

w0+Dw w0-Dw w

J wo = lim

J (w0 + Dw) - J (w0 - Dw) Dw0 2Dw

Prof. Jlio Cesar Nievola

14

Superfcie de Performance - Notas


O valor mnimo do erro (Jmin) depende tanto da sinal de entrada (xi) quanto do sinal desejado (di) A posio no espao de coeficientes onde o mnimo w* ocorre tambm depende tanto de xi quanto de di O formato da superfcie de desempenho depende somente do sinal de entrada xi
PPGIA - PUCPR Prof. Jlio Cesar Nievola

Exemplo 05
15

Busca usando Descida mais inclinada


Busca eficiente do mnimo usando vrios mtodos baseados na informao do gradiente Vantagens da busca:
l l

Computao local O gradiente sempre indica a direo de mxima alterao

Para o clculo dos pesos em uma nova posio:

w(k + 1) = w(k ) - hJ (k )

onde h uma pequena constante e J(k) indica o gradiente da superfcie de desempenho na iterao k
PPGIA - PUCPR Prof. Jlio Cesar Nievola 16

Busca usando a informao do gradiente


Superfcie de desempenho

Vetor Gradiente

Jmin

w(0)...
PPGIA - PUCPR

w*

...w(1)

w
17

Prof. Jlio Cesar Nievola

Estimativa do Gradiente: Algoritmo LMS


Um sistema adaptativo pode usar a informao do gradiente para otimizar os parmetros Em 1960 Widrow props o uso do valor instantneo como estimativa do valor do gradiente:
1 2 1 J (k ) = J= ei e 2 (k ) = -e (k )x(k ) w(k ) w(k ) 2 N 2 w(k )

PPGIA - PUCPR

Prof. Jlio Cesar Nievola

18

Algoritmo LMS
Usando a idia de Widrow tem-se o algoritmo LMS, no qual o gradiente estimado usando uma multiplicao por peso A equao da descida (ou LMS) torna-se

w(k +1) = w(k ) + he (k )x(k )


onde a constante h chamada de tamanho do passo ou constante de aprendizagem
PPGIA - PUCPR Prof. Jlio Cesar Nievola

Exemplo 06
19

Aprendizagem On-line e Batch


Aprendizagem on-line ou exemplo por exemplo: atualizao dos pesos aps o clculo para cada entrada Aprendizagem batch: armazenam-se as atualizaes dos pesos durante uma poca e no final da mesma atualizam-se os mesmos O algoritmo batch ligeiramente mais eficiente em termos do nmero de clculos Exemplo 07
PPGIA - PUCPR Prof. Jlio Cesar Nievola 20

Robustez e avaliao do treinamento


O algoritmo LMS robusto: sempre converge para o mesmo valor, independentemente dos pesos iniciais Exemplo 08 Aps o treinamento, os pesos so fixados para uso Precisa-se do coeficiente de correlao r e do MSE para testar os resultados:
l

r informa um indicador do resultado da modelagem, dizendo o quanto da varincia de d foi capturado pela regresso linear, mas no indica a mdia o MSE indica a ordem de grandeza Exemplo 09
Prof. Jlio Cesar Nievola 21

PPGIA - PUCPR

Adaptao Estvel
O algoritmo LMS tem um parmetro livre, h, que deve ser selecionado pelo usurio O grfico do MSE ao longo das iteraes chamado de curva de aprendizagem e uma boa forma de monitorar a convergncia do processo A taxa de decrscimo do erro depende do valor do tamanho do passo h Busca-se uma forma de encontrar o maior tamanho de passo possvel que garanta convergncia Exemplo 10
PPGIA - PUCPR Prof. Jlio Cesar Nievola 22

Curva de Aprendizagem e Grfico dos Pesos ao longo das iteraes

Exemplo 11

PPGIA - PUCPR

Prof. Jlio Cesar Nievola

23

Tamanho mximo do passo para convergncia


Convergncia rpida, mas sem sistema instvel:
h < hmax
1 = , onde l = l N 2 xi2
i

Na atualizao batch, usa-se o passo normalizado: h hn =


N

No algoritmo LMS comum incluir um fator de segurana 10 no mximo h (h < hmx) ou usar o treinamento em batch, o qual reduz o rudo na estimativa do gradiente
PPGIA - PUCPR Prof. Jlio Cesar Nievola 24

Constantes de tempo
A envoltria da progresso geomtrica dos valores dos pesos pode ser aproximado por uma exponencial com decrscimo dado pela constante de tempo de adaptao dos pesos t: 1 t=

hl

Em termos prticos, o processo iterativo converge aps 4 constantes de tempo A constante de tempo da adaptao tmse : t mse = t
PPGIA - PUCPR Prof. Jlio Cesar Nievola

2
25

Exemplo 12

Estabilidade
Na busca em pontos prximos ao mnimo:
l l

o gradiente pequeno mas no zero o processo continua a se movimentar na vizinhana do mnimo, sem estabilizar

Rattling: proporcional ao tamanho do passo h Nos mecanismos de busca com descida do gradiente h um compromisso entre a preciso da soluo final e a velocidade de convergncia
PPGIA - PUCPR Prof. Jlio Cesar Nievola 26

Rattling no procedimento iterativo

Exemplo 13
PPGIA - PUCPR Prof. Jlio Cesar Nievola 27

Escalonamento do tamanho dos passos


Forma simples de diminuir o rattling:
l

constante de aprendizagem grande no comeo do processo para rpida convergncia pequena constante de aprendizagem no final do processo para obter boa exatido

Escalonamento da taxa de aprendizagem:

h (k + 1) = h (k ) - b

O valor de b precisa ser determinado experimentalmente Exemplo 14


PPGIA - PUCPR Prof. Jlio Cesar Nievola 28

Regresso para vrias variveis


Considere-se que d uma funo de vrias entradas x1, x2, ..., xD (variveis independentes) e o objetivo encontrar a melhor regresso linear de d em relao a todas as entradas Assume-se que as medidas x so livres de rudo e d contaminado por um vetor de rudos e com as propriedades:
l

l l

distribuio Gaussiana com componentes com mdia zero varincias s2 igual no correlacionada com as entradas
Prof. Jlio Cesar Nievola 29

PPGIA - PUCPR

Vrias variveis

x1i x2i

. . .

w1 w2 wD b Sistema de Regresso
Prof. Jlio Cesar Nievola 30

di S yi

xDi +1
PPGIA - PUCPR

ei

Regresso para vrias variveis (1)


A equao para regresso com vrias variveis
D D e i = d i - b + wk xik = d i - wk xik , i = 1,..., N k =1 k =0

Neste caso o MSE

1 J= 2N

di - wk xik i k =0
D

A soluo para esta equao (ponto de mnimo) obtida igualando a zero as derivadas de J com relao s variveis desconhecidas wk Com isto, tem-se um conjunto de D+1 equaes com D+1 variveis, chamado equaes normais (conforme a seguir)
PPGIA - PUCPR Prof. Jlio Cesar Nievola 31

Regresso para vrias variveis (2)


x d = w x
ij i i k =0 k i D ik

xij ,

j = 0,1,..., D

Estas equaes podem ser escritas em notao matricial. Para tanto, define-se 1 Rkj = xik xij N i Rkj a auto-correlao das amostras de entrada para os ndices k e j, a qual mede a similaridade entre exemplos do conjunto de treinamento R00 L R0 D Tem-se ento a matriz de auto-correlao R = M O M
R D 0 L RDD
32

PPGIA - PUCPR

Prof. Jlio Cesar Nievola

Regresso para vrias variveis (3)


Considere-se
1 pj = N

x d
ij i

como sendo a correlao cruzada da entrada x para ndice j e a resposta desejada d. A partir da mesma cria-se o vetor p de dimenso D+1. Portanto, p = R w* ou w * = R -1 p O coeficiente de correlao mltipla mede a quantidade de variao explicada pela regresso linear, normalizada pela varincia de d 2 T
rm = w * U x d - Nd d T d - Nd 2
Exemplo 15
33

PPGIA - PUCPR

Prof. Jlio Cesar Nievola

Superfcie de desempenho para duas dimenses e grfico de contorno

PPGIA - PUCPR

Prof. Jlio Cesar Nievola

34

Viso do Procedimento de Busca


A superfcie de desempenho em vrias dimenses de J torna-o um parabolide apontando para cima em D+1 dimenses: d i2 J = 0,5wT Rw - p T w + i 2N Os coeficientes que minimizam a soluo so

J = 0 = Rw * - p

ou

w* = R -1 p

A auto-correlao das entradas R especifica de forma completa a superfcie de desempenho A localizao da superfcie de desempenho no espao de pesos e o seu valor mnimo dependem a auto-correlao Exemplo 16 das entradas e da resposta desejada
PPGIA - PUCPR Prof. Jlio Cesar Nievola 35

Grfico de contornos da superfcie de desempenho com dois pesos


w2 Direo do maior autovetor de R Grficos de contorno de J

Direo do menor autovetor de R w2* Inverso da diferena o menor autovalor de R w1* w1


36

Inverso da diferena o maior autovalor de R

PPGIA - PUCPR

Prof. Jlio Cesar Nievola

Descida mais inclinada no caso de vrios pesos


Neste caso o gradiente um vetor com D+1 componentes T Portanto, Ou seja,
J J J = ,L, w0 wD

w(k + 1) = w(k ) - h J (k )
w(k + 1) = (I - h R )w(k ) + h Rw *

Os pesos convergem com diferentes constantes de tempo, cada uma ligada a um autovalor de R
PPGIA - PUCPR Prof. Jlio Cesar Nievola 37

Controle do tamanho do passo


O conjunto de valores assumidos pelos pesos chamado trilha dos pesos e se movem em direo oposta ao gradiente em cada ponto O pior caso para garantir a convergncia ao timo w* em todas as direes 2 h< l max O tamanho do passo h deve ser menor que o inverso do maior autovalor da matriz de autocorrelao, a fim de que no haja divergncia
PPGIA - PUCPR Prof. Jlio Cesar Nievola 38

Trilha dos pesos em direo ao w Gradientes mnimo


2

w1(0) w2(1) w2* Autovalores iguais:

w(0) w(1)

w1(0)w1(1) w1* w2 w1(0) w2(1) w2* Autovalores diferentes: w1(0) w1(1)


PPGIA - PUCPR Prof. Jlio Cesar Nievola

w1

Gradientes w(0) w(1)

w1*

w1
39

Constante de tempo da adaptao


A constante de tempo da adaptao dada por
t=
1

Se a razo entre o maior e o menor autovalor for grande, a convergncia ser lenta A curva de aprendizagem se aproxima de Jmin em uma progresso geomtrica H vrias constantes de tempo da adaptao (caso os autovalores sejam diferentes), sendo uma para cada direo
PPGIA - PUCPR Prof. Jlio Cesar Nievola

hlmin

Exemplo 17
40

Algoritmo LMS com vrios pesos


O algoritmo LMS com vrios pesos torna-se

w(k +1) = w(k ) + he (k )x(k )

Para a abordagem com bias:


l

Exemplo 18

amplia-se a matriz de entrada com uma coluna extra com 1s; ou modificam-se as entradas e sadas para que tenham variveis com valor mdio igual a zero

Selecionar h para produzir 10% de erro significa uma durao de treinamento em iteraes igual a Exemplo 19 10 vezes o nmero de entradas
PPGIA - PUCPR Prof. Jlio Cesar Nievola 41

Mtodo de Newton (1)


A equao adaptativa dos pesos usando o mtodo de Newton -1

w(k + 1) = w(k ) - R J (k )

Mtodo de Newton corrige a direo de busca de tal forma que ela sempre aponta para o mnimo O mtodo de Newton mais rpido que LMS quando a matriz de correlao dos dados de entrada tem uma grande faixa de autovalores O clculo da inversa da matriz de auto-correlao, mais demorado que LMS e necessita de informao global Se a superfcie no for quadrtica o mtodo diverge
PPGIA - PUCPR Prof. Jlio Cesar Nievola 42

Mtodo de Newton (2)


w2 Mtodo de Newton Descida do gradiente

w2*

.
w1* w1 Exemplo 20

PPGIA - PUCPR

Prof. Jlio Cesar Nievola

43

Soluo Analtica x Iterativa


Analtica
l l

Se R mal-condicionada, a inversa no precisa Tempo para clculo da inversa O(D2) no h garantia da proximidade de w* grande faixa de autovalores causa lenta convergncia h algoritmos muito eficientes para estimar o gradiente ordem de complexidade O(D) o mtodo pode ser estendido para sistemas no-lineares
Prof. Jlio Cesar Nievola 44

Iterativa
l l

Vantagens da abordagem iterativa


l l l

PPGIA - PUCPR

Das könnte Ihnen auch gefallen