Beruflich Dokumente
Kultur Dokumente
Principal vantagem: capacidade de prever o comportamento futuro e control-lo atravs da aplicao de entradas apropriadas
PPGIA - PUCPR Prof. Jlio Cesar Nievola 2
Prever
Coleta de Dados
Deve ser cuidadosamente planejada Principais pontos a serem observados:
l
Os dados devem ser suficientes Os dados devem capturar as caractersticas principais do problema a ser tratado
PPGIA - PUCPR
yi
Exemplo 01
5
Mnimos Quadrados
Uma reta ajusta perfeitamente duas observaes Qual a melhor escolha de (w, b) tal que uma reta passe mais prxima de vrios pontos? Mnimos Quadrados: reta em que a soma do quadrado dos desvios (resduos) na direo d minimizada Mnimos Quadrados: regresso linear
PPGIA - PUCPR Prof. Jlio Cesar Nievola 6
1 J= 2N
e
i =1
2 i
Exemplo 02
7
J =0 e b
J =0 w
xi2 d i - xi xi d i
i
(xi - x )2 N i
(x - x )(d - d ) w= (x - x )
i i i 2 i i
Exemplo 03
8
PPGIA - PUCPR
Coeficiente de Correlao
Por definio, o coeficiente de correlao entre duas variveis aleatrias x e d (xi - x )(di - d )
i
r=
(d
i
i -d
) (x - x )
2 i i
O numerador a covarincia das duas variveis e o denominador o produto dos correspondentes desvio padro
PPGIA - PUCPR Prof. Jlio Cesar Nievola 9
+
ei
b
d1
Alterar parmetros
PPGIA - PUCPR Prof. Jlio Cesar Nievola
. . ... .
di d2 x1 x2 xi
y=wx+b
x
11
Sistema (linear) com parmetros adaptativos Resposta desejada ou objetivo d Critrio de otimalidade (MSE) a ser minimizado Mtodo para calcular os parmetros timos
O objetivo encontrar uma forma alternativa de calcular os parmetros usando um procedimento de busca
PPGIA - PUCPR Prof. Jlio Cesar Nievola 12
(di - wxi )
i
1 = 2N
(x w
2 i i
- 2d i xi w + d i2
Exemplo 04
13
w0+Dw w0-Dw w
J wo = lim
14
Exemplo 05
15
w(k + 1) = w(k ) - hJ (k )
onde h uma pequena constante e J(k) indica o gradiente da superfcie de desempenho na iterao k
PPGIA - PUCPR Prof. Jlio Cesar Nievola 16
Vetor Gradiente
Jmin
w(0)...
PPGIA - PUCPR
w*
...w(1)
w
17
PPGIA - PUCPR
18
Algoritmo LMS
Usando a idia de Widrow tem-se o algoritmo LMS, no qual o gradiente estimado usando uma multiplicao por peso A equao da descida (ou LMS) torna-se
Exemplo 06
19
r informa um indicador do resultado da modelagem, dizendo o quanto da varincia de d foi capturado pela regresso linear, mas no indica a mdia o MSE indica a ordem de grandeza Exemplo 09
Prof. Jlio Cesar Nievola 21
PPGIA - PUCPR
Adaptao Estvel
O algoritmo LMS tem um parmetro livre, h, que deve ser selecionado pelo usurio O grfico do MSE ao longo das iteraes chamado de curva de aprendizagem e uma boa forma de monitorar a convergncia do processo A taxa de decrscimo do erro depende do valor do tamanho do passo h Busca-se uma forma de encontrar o maior tamanho de passo possvel que garanta convergncia Exemplo 10
PPGIA - PUCPR Prof. Jlio Cesar Nievola 22
Exemplo 11
PPGIA - PUCPR
23
No algoritmo LMS comum incluir um fator de segurana 10 no mximo h (h < hmx) ou usar o treinamento em batch, o qual reduz o rudo na estimativa do gradiente
PPGIA - PUCPR Prof. Jlio Cesar Nievola 24
Constantes de tempo
A envoltria da progresso geomtrica dos valores dos pesos pode ser aproximado por uma exponencial com decrscimo dado pela constante de tempo de adaptao dos pesos t: 1 t=
hl
Em termos prticos, o processo iterativo converge aps 4 constantes de tempo A constante de tempo da adaptao tmse : t mse = t
PPGIA - PUCPR Prof. Jlio Cesar Nievola
2
25
Exemplo 12
Estabilidade
Na busca em pontos prximos ao mnimo:
l l
o gradiente pequeno mas no zero o processo continua a se movimentar na vizinhana do mnimo, sem estabilizar
Rattling: proporcional ao tamanho do passo h Nos mecanismos de busca com descida do gradiente h um compromisso entre a preciso da soluo final e a velocidade de convergncia
PPGIA - PUCPR Prof. Jlio Cesar Nievola 26
Exemplo 13
PPGIA - PUCPR Prof. Jlio Cesar Nievola 27
constante de aprendizagem grande no comeo do processo para rpida convergncia pequena constante de aprendizagem no final do processo para obter boa exatido
h (k + 1) = h (k ) - b
l l
distribuio Gaussiana com componentes com mdia zero varincias s2 igual no correlacionada com as entradas
Prof. Jlio Cesar Nievola 29
PPGIA - PUCPR
Vrias variveis
x1i x2i
. . .
w1 w2 wD b Sistema de Regresso
Prof. Jlio Cesar Nievola 30
di S yi
xDi +1
PPGIA - PUCPR
ei
1 J= 2N
di - wk xik i k =0
D
A soluo para esta equao (ponto de mnimo) obtida igualando a zero as derivadas de J com relao s variveis desconhecidas wk Com isto, tem-se um conjunto de D+1 equaes com D+1 variveis, chamado equaes normais (conforme a seguir)
PPGIA - PUCPR Prof. Jlio Cesar Nievola 31
xij ,
j = 0,1,..., D
Estas equaes podem ser escritas em notao matricial. Para tanto, define-se 1 Rkj = xik xij N i Rkj a auto-correlao das amostras de entrada para os ndices k e j, a qual mede a similaridade entre exemplos do conjunto de treinamento R00 L R0 D Tem-se ento a matriz de auto-correlao R = M O M
R D 0 L RDD
32
PPGIA - PUCPR
x d
ij i
como sendo a correlao cruzada da entrada x para ndice j e a resposta desejada d. A partir da mesma cria-se o vetor p de dimenso D+1. Portanto, p = R w* ou w * = R -1 p O coeficiente de correlao mltipla mede a quantidade de variao explicada pela regresso linear, normalizada pela varincia de d 2 T
rm = w * U x d - Nd d T d - Nd 2
Exemplo 15
33
PPGIA - PUCPR
PPGIA - PUCPR
34
J = 0 = Rw * - p
ou
w* = R -1 p
A auto-correlao das entradas R especifica de forma completa a superfcie de desempenho A localizao da superfcie de desempenho no espao de pesos e o seu valor mnimo dependem a auto-correlao Exemplo 16 das entradas e da resposta desejada
PPGIA - PUCPR Prof. Jlio Cesar Nievola 35
PPGIA - PUCPR
w(k + 1) = w(k ) - h J (k )
w(k + 1) = (I - h R )w(k ) + h Rw *
Os pesos convergem com diferentes constantes de tempo, cada uma ligada a um autovalor de R
PPGIA - PUCPR Prof. Jlio Cesar Nievola 37
w(0) w(1)
w1
w1*
w1
39
Se a razo entre o maior e o menor autovalor for grande, a convergncia ser lenta A curva de aprendizagem se aproxima de Jmin em uma progresso geomtrica H vrias constantes de tempo da adaptao (caso os autovalores sejam diferentes), sendo uma para cada direo
PPGIA - PUCPR Prof. Jlio Cesar Nievola
hlmin
Exemplo 17
40
Exemplo 18
amplia-se a matriz de entrada com uma coluna extra com 1s; ou modificam-se as entradas e sadas para que tenham variveis com valor mdio igual a zero
Selecionar h para produzir 10% de erro significa uma durao de treinamento em iteraes igual a Exemplo 19 10 vezes o nmero de entradas
PPGIA - PUCPR Prof. Jlio Cesar Nievola 41
w(k + 1) = w(k ) - R J (k )
Mtodo de Newton corrige a direo de busca de tal forma que ela sempre aponta para o mnimo O mtodo de Newton mais rpido que LMS quando a matriz de correlao dos dados de entrada tem uma grande faixa de autovalores O clculo da inversa da matriz de auto-correlao, mais demorado que LMS e necessita de informao global Se a superfcie no for quadrtica o mtodo diverge
PPGIA - PUCPR Prof. Jlio Cesar Nievola 42
w2*
.
w1* w1 Exemplo 20
PPGIA - PUCPR
43
Se R mal-condicionada, a inversa no precisa Tempo para clculo da inversa O(D2) no h garantia da proximidade de w* grande faixa de autovalores causa lenta convergncia h algoritmos muito eficientes para estimar o gradiente ordem de complexidade O(D) o mtodo pode ser estendido para sistemas no-lineares
Prof. Jlio Cesar Nievola 44
Iterativa
l l
PPGIA - PUCPR