Beruflich Dokumente
Kultur Dokumente
1
0 =
= =
M
k
k k
i x i w i v i y
(3.3)
onde ( ) i w
k
o valor da k-sima transmitncia sinptica medida no instante discreto i. Em
forma vetorial, podemos expressar ) (i y como o produto interno entre os vetores ) (i x e
) (i w , conforme segue:
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
6
( ) ( ) ( ) i w i x i y
T
=
(3.4)
onde
( ) ( ) ( ) ( ) [ ]
T
M
i w i w i w i w
1 1 0
= !
(3.5)
A sada ) (i y do neurnio comparada com a sada ) (i d do sistema desconhecido
no instante discreto i. Tipicamente, a comparao estabelecida pela diferena entre ) (i d e
) (i y , portanto o processo de comparao define o sinal de erro ) (i e dado por
( ) ( ) ( ) i y i d i e =
(3.6)
Observe de (3.4) e (3.6) que o sinal de erro ) (i e depende do vetor ) (i w . Note
tambm que ) (i w o parmetro livre do neurnio que ser sucessivamente ajustado pelo
algoritmo A, objetivando minimizar ) (i e . Portanto, para que se possa medir a ineficincia
do processo de ajuste de w, e, em funo disto adotar as correes necessrias, til
definir uma funo ( ) e J (ou ( ) w J , j que e depende de w) que defina da maneira o mais
inequvoca possvel o grau de incompetncia do neurnio em aproximar sua sada ) (i y
de ) (i d .
A funo ( ) w J , cujo valor resultante uma grandeza escalar real, denominada de
funo de custo. A definio de ( ) w J deve ser tal que mea o quanto o processo de ajuste
est sendo incapaz de reduzir o erro ) (i e entre ) (i d e ) (i y . Por exemplo, uma popular
definio de J ( )
2
2
1
= = e e J J . Em especial, o algoritmo A e a funo de custo J
idealmente devem ser tais que ( ) ( ) ( ) ( ) n w n w J J < 1 + , onde n um instante qualquer do
processo de ajuste.
3.1.1 O Processo de Minimizao da Funo de Custo
Consideraremos neste estudo o denominado Algoritmo de Descida Mais ngreme
(SD Steepest Descent), por ser um dos mais utilizados, e de baixo custo computacional.
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
7
Existem, no entanto, outros algoritmos, como o Mtodo de Newton e o Mtodo de Gauss-
Newton, que so descritos em [4].
No algoritmo SD os sucessivos ajustes aplicados w esto na direo da descida
mais ngreme da superfcie ( )
1 1 0
=
M
w w w S , , , H " formada pelos valores escalares H do
conjunto imagem de ( ) w J em funo do domnio M-dimensional
[ ]
T
M
w w w w
1 1 0
= ! , isto , ( ) w J H = . Em outras palavras, os sucessivos ajustes
aplicados w esto na direo oposta do vetor gradiente ( ) w J da superfcie formada por
( ) w J .
Uma interpretao intuitiva do mtodo SD imaginarmos um observador mope que
enxergue apenas a distncia de um passo ao seu redor, caminhando sobre a superfcie ( ) w J ,
e cujo objetivo chegar ao ponto de cota mnima de ( ) w J o mais rapidamente possvel. No
instante n o observador, localizado na coordenada ( ) n w , olha ao redor e localiza a direo
( ) ( ) n w J de subida mais ngreme em ( ) w J . A seguir o observador d um passo na direo
contrria ( ) ( ) n w J de tamanho proporcional declividade ( ) ( ) n w J encontrada na
coordenada ( ) n w e desloca-se para a nova coordenada ( ) 1 + n w . Supondo que no existam
mnimos locais (buracos e/ou depresses) na superfcie ( ) w J de dimetro algo maior que o
passo do observador, o mesmo atingir a cota mnima ( )
*
J w na coordenada
*
w aps repetir
este procedimento um nmero suficiente de vezes.
Formalmente, o algoritmo SD descrito por
( ) ( ) ( ) ( ) n w n w n w J = 1 + (3.7)
onde 0 > chamado passo de adaptao (stepsize) ou razo de aprendizado (learning
rate).
Para a funo de custo ( ) ( ) ( ) ( ) n e n w n
2
2
1
= = J J , a superfcie ( ) w J um parabolide
M+1-dimensional (i.e., uma tigela em
1 +
M
, no necessariamente de boca circular), e,
portanto, apresenta um mnimo global mas no apresenta mnimos locais (qualquer funo
quadrtica possui um e somente um mnimo). Por isto, para esta funo de custo, o
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
8
algoritmo SD converge para
*
w de modo lento mas seguro desde que no seja
demasiadamente grande (caso em que o observador mope pularia fora da tigela).
Figura 3.2: Trajetria do mtodo de Descida Mais ngreme (steepest descent) em um
espao bi-dimensional para dois valores diferentes de parmetros razo de aprendizado:
(a) 3 . 0 = , (b) 0 . 1 = . As coordenadas
1
w e
2
w so elementos do vetor de pesos w.
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
9
importante observar que o passo de adaptao tem profunda influncia na
trajetria do observador mope at a convergncia para
*
w , e, no raro, o valor de
alterado convenientemente ao longo do processo de minimizao de J para que se adeqe
s exigncias da coordenada instantnea da trajetria. Para filtros cuja funo de custo
( ) ( ) ( ) ( ) n e n w n
2
2
1
= = J J so vlidas as seguintes observaes:
Para pequeno, a resposta transiente do algoritmo SD super-amortecida
(overdamped) e a trajetria percorrida por ( ) n w uma curva suave em
M
,
conforme mostrado na Figura 3.2(a).
Para grande, a resposta transiente do algoritmo SD sub-amortecida
(underdamped) e a trajetria percorrida por ( ) n w uma curva em zig-zag
(oscilatria) em
M
, conforme mostrado na Figura 3.2(b).
Para acima de um determinado valor crtico, o algoritmo SD torna-se
instvel e termina divergindo.
3.2 O Algoritmo LMS
O Algoritmo LMS (Least Mean Square) procura minimizar uma funo de custo J
definida por ( )
2
2
1
= = e e J J com base nos valores instantneos da mesma, isto ,
( ) ( ) ( ) n e n e
2
2
1
= = J J
(3.8)
onde ( ) n e o sinal de erro medido em um instante n qualquer do processo de minimizao
de J.
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
10
Nota: Diferentemente do algoritmo LMS, apenas como exemplo comparativo, o algoritmo
RLS (Recursive Least Squares) baseia-se em uma funo de custo J definida por uma
soma ponderada do erro quadrtico ( ) n e
2
do instante atual n com os erros quadrticos
ocorridos anteriormente a n, isto , ( ) ( ) ( ) ( ) ! 2 1 J
2
2
2
1
2
0
+ + + = n e n e n e n , onde
1 0 <
k
so os coeficientes de ponderao. Os coeficientes
k
so tais que
1 +
>
k k
,
de forma que erros ocorridos em um passado distante sejam esquecidos por J objetivando
minimizar sua influncia sobre ela. Assim, se o conjunto de ( ) ) ( ), ( n d n x (entradas,
sadas desejadas) no for um processo estacionrio (i.e., os parmetros estatsticos de
variam com o tempo), o esquecer do passado auxilia a melhorar a velocidade de
convergncia. No entanto, como fcil perceber, o custo computacional do algoritmo RLS
maior que o do algoritmo LMS, o que o torna inadequado para certas aplicaes que
requeiram alta velocidade de processamento, como por exemplo, em equalizao de canal
para um link de microondas com alta taxa de transmisso.
O gradiente ( ) ( ) n w J da superfcie ( ) ( ) ( ) ( ) n e n w n
2
2
1
J J = = no instante n obtido
atravs da variao de ( ) ( ) n w J em resposta a uma variao infinitesimal na coordenada
( ) n w , isto ,
( ) ( )
( ) ( )
( ) n w
n w
n w
=
J
J
(3.9)
mas, visto que ( ) ( ) ( ) n e n w
2
2
1
J = , temos
( ) ( )
( ) { }
( )
( )
( )
( ) n w
n e
n e
n w
n e
n w
=
2
2
1
J
(3.10)
Vimos que
( ) ( ) ( ) n w n x n d n y n d n e
T
= = ) ( ) ( ) (
(3.11)
e como ( ) n d no depende de ( ) n w , temos que
( )
( )
( ) n x
n w
n e
=
(3.12)
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
11
De (3.12) e (3.10) temos
( ) ( ) ( ) ( ) n x n e n w = J (3.13)
e, substituindo (3.13) em (3.7), encontraremos para ( ) 1 + n w ,
( ) ( ) ( ) ( ) n x n e n w n w + = 1 +
(3.14)
onde o passo de adaptao ou razo de aprendizado.
A Equao (3.14) define o processo de ajuste do vetor de pesos w de um neurnio
linear objetivando minimizar J atravs do algoritmo LMS.
instrutivo comparar os algoritmos SD e LMS utilizando a alegoria do observador
mope, cujo objetivo atingir o mais rapidamente possvel a coordenada
*
w , a qual define
a coordenada da cota mnima da superfcie ( ) w J .
No algoritmo SD, o observador localizado na coordenada ( ) n w olha ao redor,
localiza a direo ( ) ( ) n w J de subida mais ngreme na superfcie ( ) w J e d um passo em
direo contrria ela, conforme j discutido. O ato de olhar ao redor significa
matematicamente ter o conhecimento da
matriz de correlao R do conjunto de vetores de entrada x , e
do vetor de correlao cruzada p entre o conjunto de sadas desejadas d e o
conjunto de vetores x .
O conhecimento destes elementos necessrio porque, no algoritmo SD, o gradiente
no instante n calculado atravs de ( ) ( ) ( ) n w p n w R 2 + 2 = J (conforme S. Haykin em
Adaptive Filter Theory, referenciado em [3]).
No algoritmo LMS, o observador no somente mope como tambm totalmente
cego. O observador, localizado na coordenada ( ) n w , consegue observar sua posio
relativa porque segura em sua mo um cordo infinitamente elstico cuja outra extremidade
encontra-se fixa na coordenada
*
w . A cada instante n, o observador d um passo na direo
em que ele percebe a maior reduo na tenso do elstico (diminuio do valor absoluto
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
12
do erro ( ) n e ), com tamanho de passo proporcional reduo de . Como no existem
mnimos locais na superfcie ( ) w J , porque ela quadrtica, o observador se aproximar da
cota mnima ( )
*
J w na coordenada
*
w aps repetir este procedimento um nmero suficiente
de vezes. Note que, como o tamanho e sentido do passo do observador dependem da
reduo na tenso do elstico, quando o observador chegar prximo coordenada
*
w
ele ficar eternamente pulando sobre e ao redor dela a menos que, por um raro golpe de
sorte, a coordenada resultante do ltimo passo do observador coincida com
*
w (situao
que ocorrer para um valor bastante particular e crtico de e para uma bastante particular
coordenada inicial
0
w da trajetria do observador). Apesar disto, o algoritmo LMS tem a
vantagem de no necessitar do conhecimento de R e de p , ao contrrio do algoritmo SD.
Em suma, no algoritmo SD o vetor ( ) n w segue uma trajetria bem definida no
espao de pesos sinpticos, para um valor no excessivo de . Em contraste, no algoritmo
LMS o vetor ( ) n w segue uma trajetria aleatria, especialmente nas vizinhanas de
*
w .
A Tabela 3.1 apresenta um sumrio do procedimento do algoritmo LMS.
Conjunto de Treino:
Sinal de entrada em forma vetorial = ( ) n x
Sinal resposta desejada escalar = ( ) n d
Parmetro ajustvel pelo usurio:
Inicializao do vetor w:
( ) 0 0
0
= = w w
Procedimento Computacional: Para ! , 1 , 0 = n computar
( ) ( ) n w n x n d n e
T
= ) ( ) (
( ) ( ) ( ) ( ) n x n e n w n w + = 1 +
Tabela 3.1: Sumrio do algoritmo LMS. O Procedimento Computacional
executado at que a mdia de ( ) n e
2
atinja um patamar suficientemente baixo
para a soluo do problema em questo ou estabilize em um valor constante.
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
13
3.2.1 Consideraes quanto Convergncia do LMS
Combinando (3.11) e (3.14) podemos expressar a evoluo do vetor w atravs de
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) [ ] ( ) ( ) ) (
) ( ) ( 1 ] [
n d n x n w n x n x
n w n x n x n d n x n w n w n x n d n x n w n w
T
T T
+ =
= + = + = +
I
(3.15)
onde I a matriz identidade.
O processo de ajuste do vetor ( ) n w uma operao iterativa indexada pela varivel
inteira n. Em funo disto, podemos ento reconhecer que o valor de ( ) 1 + n w ser o valor
de ( ) n w quando a varivel n for incrementada de 1 na prxima iterao. Em outras
palavras, o valor obtido de (3.15) para ( ) 1 + n w no instante n armazenado em uma posio
de memria para ser utilizado como o valor de ( ) n w em (3.15) no instante 1 + n .
No domnio z, esta relao entre ( ) n w e ( ) 1 + n w expressa por
( ) { } ( ) { } 1 + =
1
n w z n w Z Z
(3.16)
onde {} Z o operador Transformada Z e
1
z o operador atraso unitrio (unit delay). A
partir das equaes (3.15) e (3.16) podemos representar o algoritmo LMS atravs do grafo
de fluxo de sinal mostrado na Figura 3.3.
A Figura 3.3 revela que o algoritmo LMS pode ser considerado como um sistema
realimentado, j que existem dois loops de feedback, um superior e outro inferior. A
presena de realimentao exerce um profundo impacto no comportamento do algoritmo
LMS, visto que os parmetros dos loops definem a estabilidade da trajetria dos estados de
qualquer sistema realimentado.
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
14
Figura 3.3: Grafo de fluxo de sinal representativo do algoritmo LMS.
Observe na Figura 3.3 que o loop inferior impe variabilidade ao comportamento do
LMS, particularmente porque a transmitncia deste loop controlada pela matriz
( ) ( ) n x n x
T
, a qual depende do vetor de entrada ( ) n x , com parmetro de controle dado
pela razo de aprendizado . Infere-se, portanto, que a estabilidade da trajetria de ( ) n w
influenciada pelas caractersticas estatsticas do conjunto de vetores de entrada x e pelo
valor da razo de aprendizado .
Expressando este fato de outro modo, para um dado conjunto de vetores de entrada
x deve-se escolher tal que a trajetria de ( ) n w seja estvel o suficiente para permitir a
convergncia para as vizinhanas de
*
w . A convergncia da trajetria de ( ) n w para as
vizinhanas de
*
w caracterizada por uma constncia no valor mdio de ( ) n e
2
.
Como regra geral, a razo de aprendizado deve obedecer relao:
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
15
( ) ( )
1
0 =
1
2
< < 0
N
i
T
i x i x
N
(3.17)
onde N o nmero total de vetores no conjunto de vetores de entrada x .
3.3 O Perceptron
Enquanto que o algoritmo LMS, descrito na Seo 3.2, construdo em torno de
um neurnio linear, o Perceptron construdo ao redor de um neurnio no-linear, que o
neurnio descrito pelo modelo de McCulloch-Pitts.
Conforme vimos no Captulo 1, este modelo de neurnio consiste de um
combinador linear seguido de um limitador, desempenhando a funo signum, conforme
mostrado na Figura 3.4.
Figura 3.4: Grafo de fluxo de sinal do Perceptron.
O n somador do modelo neural mostrado na Figura 3.4 computa uma combinao
linear das entradas aplicadas a suas sinapses com os pesos sinpticos associados, e tambm
incorpora uma polarizao externamente aplicada. A soma resultante (que o potencial de
ativao v ) aplicada a um limitador, representado por ( ) v , que implementa a funo
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
16
signum. Desta forma, o neurnio produz uma sada igual a (+1) se a entrada do limitador
positiva, e (-1) se negativa.
No grafo de fluxo de sinal mostrado na Figura 3.4, os pesos sinpticos do
Perceptron so denotados por
m
w w w , , ,
2 1
! . De forma correspondente, as entradas
aplicadas ao Perceptron so denotadas por
m
x x x , , ,
2 1
! . A polarizao (ou bias)
aplicada externamente e denotada por b. A partir do modelo verifica-se que a entrada do
limitador, ou o potencial de ativao v do neurnio, :
=
= =
m
i
i i
b x w v
1
(3.18)
O objetivo do Perceptron classificar corretamente o conjunto de estmulos
externos aplicados
m
x x x , , ,
2 1
! em uma de duas classes,
1
C ou
2
C . A regra de deciso
para a classificao atribuir o ponto representado pelas entradas
m
x x x , , ,
2 1
! classe
1
C
se a sada y do Perceptron for (+1) e classe
2
C se for (-1).
Para compreender o comportamento de um classificador de padres, costuma-se
plotar um mapa das regies de deciso no espao de sinal m-dimensional gerado pelas m
variveis de entrada
m
x x x , , ,
2 1
! . Na forma mais simples do Perceptron h duas regies
de deciso separadas por um hiperplano definido por
=
= +
m
i
i i
b x w
1
0
(3.19)
conforme ilustrado na Figura 3.5 para o caso de duas variveis de entrada
2 1
e x x , para as
quais o limite de deciso assume a forma de uma linha reta. Um ponto ( )
2 1
, x x que esteja
acima da linha limtrofe atribudo classe
1
C e um ponto ( )
2 1
, x x que esteja abaixo da
linha limtrofe atribudo classe
2
C . O efeito da polarizao (ou bias) simplesmente
deslocar o limite de deciso para longe da origem.
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
17
Figura 3.5: Ilustrao do hiperplano (neste caso, uma linha reta) como limite de deciso
para um problema de classificao de padres de duas classes (bi-dimensional).
Os pesos sinpticos
m
w w w , , ,
2 1
! do Perceptron podem ser adaptados de iterao a
iterao. Para a adaptao pode-se usar a regra de correo de erro conhecida como
algoritmo de convergncia do Perceptron.
3.3.1 O Teorema de Convergncia do Perceptron
Para derivar o algoritmo de aprendizagem por correo de erro para o Perceptron,
consideremos o modelo do grafo de fluxo de sinal modificado mostrado na Figura 3.6.
neste modelo, equivalente ao da Figura 3.4, a polarizao ( ) n b tratada como um peso
sinptico cuja entrada fixa em +1 (conforme vimos no Captulo 1).
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
18
Figura 3.6: Grafo de fluxo de sinal equivalente do Perceptron (a dependncia do tempo foi
omitida por questes de clareza).
Pode-se, ento, definir o vetor de entrada ( ) [ ] 1 1 + m -dimensional como
( ) ( ) ( ) ( ) [ ]
T
m
n x n x n x n x 1
2 1
! + =
(3.20)
onde n denota o passo da iterao do algoritmo. De forma correspondente, podemos definir
o vetor de pesos ( ) [ ] 1 1 + m -dimensional como
( ) ( ) ( ) ( ) ( ) [ ]
T
m
n w n w n w n b n w
2 1
! =
(3.21)
da mesma forma, a sada do combinador linear pode ser escrita na forma compacta,
( ) ( ) ( ) ( ) ( ) n x n w n x n w n v
T
i
m
i
i
0
= =
=
(3.22)
onde ( ) n w
0
representa a polarizao ( ) n b . Para n fixo, a equao 0 = x w
T
, plotada em um
espao m-dimensional (e para algum bias prescrito) com coordenadas
m
x x x , , ,
2 1
! , define
um hiperplano como a superfcie de deciso entre duas diferentes classes de entradas (vide
Figura 3.5).
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
19
Para que o Perceptron funcione adequadamente, as duas classes
1
C e
2
C precisam
ser linearmente separveis, o que significa dizer que os padres a serem classificados
devem ser suficientemente separados uns dos outros para garantir que a superfcie de
deciso consista de um hiperplano.
Figura 3.7: (a) Um par de padres linearmente separveis. (b) Um par de padres no-
linearmente separveis.
Este requerimento ilustrado na Figura 3.7 para o caso de um Perceptron bi-
dimensional. Na Figura 3.7(a), as duas classes
1
C e
2
C so suficientemente separveis uma
da outra, de tal forma que possvel desenhar um hiperplano (neste caso uma linha reta)
como limite de deciso. Se, entretanto, as duas classes
1
C e
2
C tivessem se aproximado
tanto uma da outra (como mostrado na Figura 3.7(b)) teriam se tornado no-linearmente
separveis, uma situao que est alm da capacidade computacional do Perceptron.
Suponhamos ento que as variveis de entrada do Perceptron tenham se originado
de duas classes linearmente separveis. Seja
1
! o sub-conjunto de vetores de treino
( ) ( ) " , 2 , 1
1 1
x x que pertenam classe
1
C , e seja
2
! o sub-conjunto de vetores de treino
( ) ( ) " , 2 , 1
2 2
x x que pertenam classe
2
C . A unio de
1
! e
2
! o conjunto de treino
completo ! .
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
20
Dados os conjuntos de vetores
1
! e
2
! para treinar o classificador, o processo de
treino envolve o ajuste do vetor de pesos w, de tal forma que as duas classes
1
C e
2
C
sejam linearmente separveis. Ou seja, exista um vetor de pesos w tal que possamos
afirmar:
0 > x w
T
para cada vetor de entrada x pertencente classe
1
C
0 x w
T
para cada vetor de entrada x pertencente classe
2
C
(3.23)
Observe que, na segunda linha da Equao (23), foi escolhido arbitrariamente que o
vetor de entrada x pertencesse classe
2
C se 0 = x w
T
.
Dados os sub-conjuntos de vetores de treino
1
! e
2
! , o problema de treinamento
para o Perceptron elementar , ento, encontrar um vetor de pesos w tal que as duas
inigualdades da Equao (23) sejam satisfeitas.
O algoritmo para adaptar o vetor de pesos do Perceptron elementar pode ser agora
formulado conforme segue:
1. Se o n-simo membro do conjunto de treino, ( ) n x , corretamente classificado pelo
vetor de pesos ( ) n w computado na n-sima iterao do algoritmo, nenhuma correo
feita no vetor de pesos do Perceptron de acordo com a regra:
( ) ( ) n w n w = +1
se ( ) ( ) 0 > n x n w
T
e ( ) n x pertence classe
1
C
( ) ( ) n w n w = +1
se ( ) ( ) 0 n x n w
T
e ( ) n x pertence classe
2
C
(3.24)
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
21
2. Em caso contrrio, o vetor de pesos do Perceptron atualizado de acordo com a regra:
( ) ( ) ( ) ( ) n x n n w n w = +1
se ( ) ( ) 0 > n x n w
T
e ( ) n x pertence classe
2
C
( ) ( ) ( ) ( ) n x n n w n w + = +1
se ( ) ( ) 0 n x n w
T
e ( ) n x pertence classe
1
C
(3.25)
onde o parmetro razo de aprendizado ( ) n controla o ajuste aplicado ao vetor de
pesos na iterao n.
Para o caso particular em que ( ) 0 > = n (onde uma constante independente
do nmero da iterao n), temos uma regra de adaptao de incrementos fixos para o
Perceptron.
Desejamos primeiro provar a convergncia de uma regra de adaptao de
incrementos fixos, com 1 = . Claramente o valor de no importante, enquanto for
positivo. Um valor de 1 simplesmente escala os vetores sem afetar sua separabilidade.
O caso de uma razo de aprendizado ( ) n varivel ser considerado posteriormente.
Convergncia da Regra de Adaptao de Incremento Fixo
(Razo de Aprendizado
Fixa)
A prova apresentada para a condio inicial ( ) 0 0 = w .
Suponha que ( ) ( ) 0 < n x n w
T
para " , 2 , 1 = n , e o vetor de entrada ( ) n x pertena ao
sub-conjunto
1
! .
Ou seja, nesta condio, o Perceptron classificou de forma incorreta os vetores
( ) ( ) " , 2 , 1 x x , desde que a segunda condio (dada pela Equao 23) foi violada.
Ento, com a constante ( ) 1 = n , podemos usar a segunda linha da Equao 3.25
para escrever
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
22
( ) ( ) ( ) n x n w n w + = +1 para ( ) n x pertencente classe
1
C
(3.26)
Dada a condio inicial ( ) 0 0 = w , podemos iterativamente resolver esta equao
para ( ) 1 + n w , obtendo o resultado
( ) ( ) ( ) ( ) n x x x n w + + + = + ! 2 1 1
(3.27)
Desde que as classes
1
C e
2
C so assumidas linearmente separveis, existe uma
soluo
0
w para a qual ( ) 0 > n x w
T
para os vetores ( ) ( ) ( ) n x x x " , 2 , 1 pertencentes ao sub-
conjunto
1
! . Para uma soluo fixa
0
w , podemos ento definir um nmero positivo
como
( )
( ) n x w
T
! n x
0
1
min
=
(3.28)
Multiplicando ambos os lados da Equao (3.27) pelo vetor linha
T
w
0
teremos
( ) ( ) ( ) ( ) n x w x w x w n w w
T T T T
0 0 0 0
2 1 1 + + + = + !
(3.29)
De acordo com a definio dada na Equao (3.28), teremos
( ) n n w w
T
+1
0
(3.30)
Dados dois vetores
0
w e ( ) 1 + n w , a inigualdade de Cauchy-Schwarz, afirma que
( ) ( ) [ ]
2
0
2 2
0
1 1 + + n w w n w w
T
(3.31)
onde denota a norma Euclidiana do vetor argumento, e o produto interno ( ) 1
0
+ n w w
T
uma quantidade escalar.
A partir da Equao (3.30) observa-se que ( ) [ ]
2
0
1 + n w w
T
igual ou maior que
2 2
n . A partir da Equao (3.31) observa-se que ( )
2 2
0
1 + n w w igual ou maior que
( ) [ ]
2
0
1 + n w w
T
. Segue, portanto, que
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
23
( )
2 2
2 2
0
1 n n w w +
(3.32)
ou equivalentemente,
( )
2
0
2 2
2
1
w
n
n w
+
(3.33)
Seguindo, agora, uma nova rota de desenvolvimento, rescreveremos a Equao
(3.26) sob a forma
( ) ( ) ( ) k x k w k w + = +1 para n k , , 1 " = e ( )
1
X k x
(3.34)
Tomando o quadrado da norma Euclidiana de ambos os lados da Equao (3.34),
obteremos
( ) ( ) ( ) ( ) ( ) k x k w k x k w k w
T
2 1
2 2 2
+ + = +
(3.35)
Mas, tendo sido assumido que o Perceptron classifica incorretamente um vetor de
entrada ( ) k x pertencente ao sub-conjunto
1
! , teremos que ( ) ( ) 0 < k x k w
T
. Portanto, pode-
se deduzir, a partir da Equao (3.35) que
( ) ( ) ( )
2 2 2
1 k x k w k w + +
(3.36)
ou, de forma equivalente,
( ) ( ) ( )
2 2 2
1 k x k w k w + , n k , , 1 " =
(3.37)
Adicionando estas inigualdades para n k , , 1 " = e invocando a condio inicial
assumida ( ) 0 0 = w , chegamos seguinte inigualdade:
( ) ( ) n k x n w
n
k
+
=1
2 2
1
(3.38)
onde
( )
( )
2
1
max k x
! k x
=
(3.39)
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
24
A Equao (3.38) afirma que o quadrado da a norma Euclidiana do vetor de pesos
( ) 1 + n w cresce no mximo linearmente com o nmero de iteraes n.
O segundo resultado da Equao (3.38) est claramente em conflito com o resultado
anterior da Equao (3.33) para valores de n suficientemente grandes.
Na verdade, pode-se afirmar que n no pode ser maior do que algum valor n
max
para
o qual as Equaes (3.33) e (3.38) so ambas satisfeitas com o sinal de igualdade. Ou seja,
n
max
a soluo da equao
max
2
0
2 2
max
n
w
n
=
(3.40)
Resolvendo para n
max
, dado um vetor soluo
0
w ,encontraremos
2
2
0
max
w
n =
(3.41)
Temos, assim, provado que para ( ) 1 = n para todo n, ( ) 0 0 = w e dado que existe
um vetor soluo
0
w , a regra para adaptao dos pesos sinpticos do Perceptron deve
terminar aps, no mximo,
max
n iteraes. Note tambm a partir das Equaes (3.28),
(3.39) e (3.41) que no h uma nica soluo para
0
w ou
max
n .
Podemos, agora, afirmar que o teorema da convergncia da regra de adaptao de
incremento fixo para o Perceptron como segue:
Sejam os sub-conjuntos de vetores de treino
1
! e
2
! linearmente separveis;
Sejam as entradas apresentadas ao Perceptron originadas destes dois sub-conjuntos;
O Perceptron converge aps algumas iteraes
0
n , no sentido de que
( ) ( ) ( ) ! = + = + = 2 1
0 0 0
n w n w n w um vetor soluo para
max 0
n n .
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
25
Convergncia da Regra de Adaptao de Incremento Varivel
(Razo de Aprendizado
( ) n
Varivel )
Consideremos agora o procedimento de correo de erro absoluto para a adaptao
de um Perceptron de uma nica camada, para o qual ( ) n varivel. Em particular, seja
( ) n o menor inteiro para o qual
( ) ( ) ( ) ( ) ( ) n x n w n x n x n
T T
>
(3.42)
Com este procedimento podemos afirmar que: se o produto interno ( ) ( ) n x n w
T
na
iterao n tem um sinal incorreto, ento ( ) ( ) n x n w
T
1 + na iterao 1 + n pode ter o sinal
correto. Isto sugere que, se ( ) ( ) n x n w
T
tem um sinal incorreto, podemos modificar a
seqncia de treino na iterao 1 + n fazendo ( ) ( ) n x n x = +1 .
Em outras palavras, cada padro apresentado repetidamente ao Perceptron at que
o padro seja classificado corretamente.
Note tambm que o uso de um valor inicial ( ) 0 w diferente de zero meramente
resulta no decrscimo ou acrscimo do nmero de iteraes requeridas para convergncia
dependendo de como ( ) 0 w se relaciona com a soluo
0
w . Indiferentemente do valor
atribudo a ( ) 0 w , o Perceptron tem sua convergncia garantida.
Na Tabela 3.2 apresentado um sumrio do algoritmo de convergncia do
Perceptron. O smbolo ( ) sgn , usado no passo 3 da tabela para computar a resposta atual do
Perceptron, representa a funo signum, descrita no Captulo 1 deste texto.
Podemos, ento, expressar a resposta quantizada ( ) n y do Perceptron na forma
compacta:
( ) ( ) ( ) ( ) n x n w n y
T
sgn =
(3.43)
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
26
Variveis e Parmetros:
Vetor de entrada ( ) n x de dimenso ( ) [ ] 1 1 + m ; ( ) ( ) ( ) ( ) [ ]
T
m
n x n x n x n x 1
2 1
! + =
Vetor de pesos ( ) n w de dimenso ( ) [ ] 1 1 + m ; ( ) ( ) ( ) ( ) ( ) [ ]
T
m
n w n w n w b n w n
2 1
! =
Bias = ( ) n b
Resposta atual (quantizada) = ( ) n y
Resposta desejada = ( ) n d
Parmetro razo de aprendizado (constante positiva <1) =
1.
Inicializao: Faa ( ) 0 0 = w . Ento execute as etapas seguintes do algoritmo para os
instantes de tempo " , 2 , 1 = n
2.
Ativao: No instante de tempo n ative o Perceptron aplicando o vetor de entrada ( ) n x
e a resposta desejada ( ) n d .
3. Cmputo da Resposta Atual: Compute a resposta atual do Perceptron atravs de
( ) ( ) ( ) ( ) n x n w n y
T
sgn = , onde ( ) sgn a funo signum.
4. Adaptao do Vetor de Pesos: Atualize o vetor de pesos do Perceptron atravs de
( ) ( ) ( ) ( ) [ ] ( ) n x n y n d n w n w + = + 1 onde
( )
( )
( )
+
=
2
1
classe pertence se 1
classe pertence se 1
C n x
C n x
n d
5. Continuao: Fazer 1 + = n n e voltar etapa 2.
Tabela 3.2 Sumrio do Algoritmo de Convergncia do Perceptron
PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais
Fernando Csar C. de Castro e Maria Cristina F. de Castro
27
Note que o vetor de entrada ( ) n x um vetor ( ) [ ] 1 1 + m , cujo primeiro elemento
fixo em (+1) ao longo de todo o processo computacional. De forma correspondente, o vetor
de pesos ( ) n w um vetor ( ) [ ] 1 1 + m , cujo primeiro elemento igual ao bias ( ) n b . Outro
ponto a salientar na Tabela 3.2 a introduo de uma resposta desejada quantizada ( ) n d ,
definida por
( )
( )
( )
+
=
2
1
classe pertence se 1
classe pertence se 1
C n x
C n x
n d
(3.44)
Ento, a adaptao do vetor de pesos ( ) n w pode ser sumarizada na forma da regra
de aprendizado por correo de erro:
( ) ( ) ( ) ( ) [ ] ( ) n x n y n d n w n w + = + 1 (3.45)
onde o parmetro razo de aprendizado, e a diferena ( ) ( ) n y n d representa um sinal
de erro. O parmetro razo de aprendizado uma constante positiva limitada ao intervalo
1 0 < . Na escolha de um valor para , dentro deste intervalo, preciso considerar dois
requisitos conflitantes: