Cap 3 - O Perceptron

PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica
Redes Neurais Artificiais

Fernando Csar C. de Castro e Maria Cristina F. de Castro
1
Captulo 3
O Perceptron
No captulo anterior estudamos algoritmos de aprendizagem supervisionados, nos
quais o aprendizado acontece atravs de um tutor. Em 1958 Rosenblatt props o Perceptron
como o primeiro modelo para aprendizagem de RNAs por meio de um tutor.
O Perceptron a forma mais simples de uma RNA usada para classificao de
padres linearmente separveis; ou seja, padres que esto em lados opostos de um
hiperplano. Consiste basicamente de um nico neurnio com pesos sinpticos ajustveis e
uma polarizao (bias).
O algoritmo usado para ajustar os parmetros livres desta RNA foi apresentado pela
primeira vez no procedimento de aprendizagem desenvolvido por Rosenblatt, que provou
que:
Se os padres (vetores) usados para treinar o Perceptron so
retirados de duas classes linearmente separveis, ento o algoritmo
Perceptron converge e posiciona a superfcie de deciso na forma de um
hiperplano entre as duas classes.
A prova de convergncia do algoritmo conhecida como Teorema de Convergncia
do Perceptron.
O Perceptron de um nico neurnio limitado a desempenhar classificao de
padres com apenas duas classes (duas hipteses). Atravs da expanso da camada
computacional de sada do Perceptron para incluir mais do que um neurnio, possvel
classificar mais do que duas classes. Entretanto, as classes tm que ser linearmente
separveis para que o Perceptron tenha um desempenho adequado. Um ponto importante
2
que a extenso da teoria bsica do Perceptron a partir do caso de um neurnio para o caso
de mais de um neurnio trivial.
O neurnio nico tambm forma a base de um filtro adaptativo, um bloco funcional
que bsico nas aplicaes concernentes a processamento de sinais. O desenvolvimento da
filtragem adaptativa devido grandemente ao clssico trabalho de Widrow e Hoff (1960)
por apresentarem pela primeira vez o algoritmo Least-Mean-Square (LMS), tambm
conhecido como a Regra Delta.
O algoritmo LMS e o Perceptron so relacionados e sero estudados ao longo deste
captulo. Primeiramente iremos abordar o problema da filtragem adaptativa e o algoritmo
LMS para, aps, tratarmos do Perceptron de Rosenblatt.
3.1 O Problema da Filtragem Adaptativa
Consideremos um sistema dinmico cuja caracterizao matemtica
desconhecida. O mximo de conhecimento que temos a respeito de um conjunto finito
de dados, que um subconjunto do universo de todos os possveis mapeamentos
entrada-sada que podem ser gerados pelo sistema .
Suponhamos que os elementos do subconjunto sejam pares ( ) ) ( ), ( i d i x , onde :
) (i x o i-simo vetor M-dimensional de aplicado na entrada de e
) (i d a sada de entrada ) (i x , 1 1 0 = N i , , , ! , sendo
N o nmero de elementos de .
Especificamente, quando um estmulo real M-dimensional
M
i x ) ( aplicado aos
M ns de entrada do sistema , responde gerando a sada escalar ) (i d , como mostra a
Figura 3.1(a).
A dimenso M dos vetores ) (i x usualmente referida como dimensionalidade do
espao de entrada.
3
Figura 3.1: (a) Sistema dinmico desconhecido . (b) Grafo de fluxo de sinal para o modelo
adaptativo do sistema.
Portanto, o comportamento externo do sistema descrito pelo mapeamento
( ) ( ) i d i x
M
: , 1 1 0 = N i , , , !
(3.1)
onde ) (i x o i-simo vetor de , definido por
( ) ( ) ( ) ( ) [ ]
T
i x i x i x i x
M 1 1 0
= !
(3.2)
Note que, na grande maioria dos casos, tambm no se conhece com preciso a
distribuio de probabilidade dos elementos do conjunto , de modo que a tentativa de
resolver um problema de filtragem atravs de uma abordagem estatstica (atravs da matriz
de correlao, por exemplo) no raro conduz a resultados no satisfatrios.
Um estmulo ) (i x aplicado a um sistema pode originar-se de dois cenrios
fundamentais, um espacial e outro temporal:
4
Os M elementos do vetor ) (i x originam-se de M distintas fontes de informao
localizadas em diferentes pontos no espao, sendo todos os M elementos obtidos no
mesmo instante, de todas as M fontes.
Os M elementos do vetor ) (i x representam o valor presente e os 1 M valores
passados de amostras seqencialmente originadas de uma nica fonte de informao.
Um problema clssico em filtragem adaptativa, conhecido como identificao de
sistema, determinar o modelo que rege o comportamento do sistema dinmico
desconhecido , caracterizado por (3.1), utilizando para tanto um nico neurnio linear. O
neurnio opera sob a influncia de um algoritmo A que controla os ajustes necessrios
transmitncia (peso) de suas sinapses para que, medida que os ajustes se sucedem, o
mapeamento efetuado pelo neurnio tenda a aproximar o mapeamento efetuado pelo
sistema . Este processo de ajustes sucessivos dos pesos sinpticos efetuado observando
as seguintes caractersticas:
O algoritmo A inicia o processo de ajuste a partir de um conjunto de transmitncias
sinpticas (pesos sinpticos), com valor inicial arbitrrio atribudo a cada uma delas.
O algoritmo A ajusta as transmitncias sinpticas do neurnio continuamente ao longo
do intervalo de operao do sistema , para permitir que eventuais variaes no padro
de comportamento de (variaes na estatstica do comportamento de ) tambm
possam influenciar o processo de ajuste.
Para cada valor de i, o algoritmo A deve ser rpido o suficiente para ajustar todas as M
transmitncias sinpticas do neurnio dentro do intervalo de tempo que transcorre entre
a ocorrncia das entradas ) (i x e ) ( 1 + i x .
5
A Figura 3.1 (b) mostra o grafo de fluxo de sinal de um filtro adaptativo de
neurnio nico, aplicado ao contexto de identificao do sistema desconhecido . A
operao do filtro consiste de dois processos continuamente executados em seqncia:
1. Processo de Filtragem, o qual envolve o cmputo de dois sinais :
1.1. Uma sada, denotada por ) (i y , que produzida em resposta ao vetor estmulo ) (i x .
1.2. Um sinal de erro, denotado por ) (i e , que obtido pela comparao da sada ) (i y
com a sada desejada ) (i d correspondente, sendo ) (i d produzida por quando o
estmulo ) (i x aplicado sua entrada. Em outras palavras, ) (i d constitui a
resposta desejada ou o sinal alvo (target signal).
2. Processo de Adaptao, o qual envolve o ajuste automtico dos pesos sinpticos do
neurnio atravs de um algoritmo A, tendo como base o sinal de erro ) (i e .
Desta maneira, a combinao destes dois processos (operando em conjunto)
constitui um elo de realimentao (feedback loop) na operao do neurnio. Uma vez tendo
sido aplicados todos os N vetores ) (i x entrada do neurnio e tendo sido executados
todos os N ajustes atravs do algoritmo A, repete-se novamente as etapas 1 e 2 at que
) (n e seja suficientemente pequeno, onde ) (n e o valor do sinal de erro e em um instante
n qualquer da operao do filtro.
Uma vez que o neurnio linear, a sada ) (i y idntica ao potencial de ativao
(nvel de ativao) ) (i v , isto ,
( ) ( ) ( ) ( )
1
0 =
= =
M
k
k k
i x i w i v i y
(3.3)
onde ( ) i w
k
o valor da k-sima transmitncia sinptica medida no instante discreto i. Em
forma vetorial, podemos expressar ) (i y como o produto interno entre os vetores ) (i x e
) (i w , conforme segue:
6
( ) ( ) ( ) i w i x i y
T
=
(3.4)
onde
( ) ( ) ( ) ( ) [ ]
T
M
i w i w i w i w
1 1 0
= !
(3.5)
A sada ) (i y do neurnio comparada com a sada ) (i d do sistema desconhecido
no instante discreto i. Tipicamente, a comparao estabelecida pela diferena entre ) (i d e
) (i y , portanto o processo de comparao define o sinal de erro ) (i e dado por
( ) ( ) ( ) i y i d i e =
(3.6)
Observe de (3.4) e (3.6) que o sinal de erro ) (i e depende do vetor ) (i w . Note
tambm que ) (i w o parmetro livre do neurnio que ser sucessivamente ajustado pelo
algoritmo A, objetivando minimizar ) (i e . Portanto, para que se possa medir a ineficincia
do processo de ajuste de w, e, em funo disto adotar as correes necessrias, til
definir uma funo ( ) e J (ou ( ) w J , j que e depende de w) que defina da maneira o mais
inequvoca possvel o grau de incompetncia do neurnio em aproximar sua sada ) (i y
de ) (i d .
A funo ( ) w J , cujo valor resultante uma grandeza escalar real, denominada de
funo de custo. A definio de ( ) w J deve ser tal que mea o quanto o processo de ajuste
est sendo incapaz de reduzir o erro ) (i e entre ) (i d e ) (i y . Por exemplo, uma popular
definio de J ( )
2
2
1
= = e e J J . Em especial, o algoritmo A e a funo de custo J
idealmente devem ser tais que ( ) ( ) ( ) ( ) n w n w J J < 1 + , onde n um instante qualquer do
processo de ajuste.
3.1.1 O Processo de Minimizao da Funo de Custo
Consideraremos neste estudo o denominado Algoritmo de Descida Mais ngreme
(SD Steepest Descent), por ser um dos mais utilizados, e de baixo custo computacional.
7
Existem, no entanto, outros algoritmos, como o Mtodo de Newton e o Mtodo de Gauss-
Newton, que so descritos em [4].
No algoritmo SD os sucessivos ajustes aplicados w esto na direo da descida
mais ngreme da superfcie ( )
1 1 0
=
M
w w w S , , , H " formada pelos valores escalares H do
conjunto imagem de ( ) w J em funo do domnio M-dimensional
[ ]
T
M
w w w w
1 1 0
= ! , isto , ( ) w J H = . Em outras palavras, os sucessivos ajustes
aplicados w esto na direo oposta do vetor gradiente ( ) w J da superfcie formada por
( ) w J .
Uma interpretao intuitiva do mtodo SD imaginarmos um observador mope que
enxergue apenas a distncia de um passo ao seu redor, caminhando sobre a superfcie ( ) w J ,
e cujo objetivo chegar ao ponto de cota mnima de ( ) w J o mais rapidamente possvel. No
instante n o observador, localizado na coordenada ( ) n w , olha ao redor e localiza a direo
( ) ( ) n w J de subida mais ngreme em ( ) w J . A seguir o observador d um passo na direo
contrria ( ) ( ) n w J de tamanho proporcional declividade ( ) ( ) n w J encontrada na
coordenada ( ) n w e desloca-se para a nova coordenada ( ) 1 + n w . Supondo que no existam
mnimos locais (buracos e/ou depresses) na superfcie ( ) w J de dimetro algo maior que o
passo do observador, o mesmo atingir a cota mnima ( )
*
J w na coordenada
*
w aps repetir
este procedimento um nmero suficiente de vezes.
Formalmente, o algoritmo SD descrito por
( ) ( ) ( ) ( ) n w n w n w J = 1 + (3.7)
onde 0 > chamado passo de adaptao (stepsize) ou razo de aprendizado (learning
rate).
Para a funo de custo ( ) ( ) ( ) ( ) n e n w n
2
2
1
= = J J , a superfcie ( ) w J um parabolide
M+1-dimensional (i.e., uma tigela em
1 +
M
, no necessariamente de boca circular), e,
portanto, apresenta um mnimo global mas no apresenta mnimos locais (qualquer funo
quadrtica possui um e somente um mnimo). Por isto, para esta funo de custo, o
8
algoritmo SD converge para
*
w de modo lento mas seguro desde que no seja
demasiadamente grande (caso em que o observador mope pularia fora da tigela).
Figura 3.2: Trajetria do mtodo de Descida Mais ngreme (steepest descent) em um
espao bi-dimensional para dois valores diferentes de parmetros razo de aprendizado:
(a) 3 . 0 = , (b) 0 . 1 = . As coordenadas
1
w e
2
w so elementos do vetor de pesos w.
9
importante observar que o passo de adaptao tem profunda influncia na
trajetria do observador mope at a convergncia para
*
w , e, no raro, o valor de
alterado convenientemente ao longo do processo de minimizao de J para que se adeqe
s exigncias da coordenada instantnea da trajetria. Para filtros cuja funo de custo
( ) ( ) ( ) ( ) n e n w n
2
2
1
= = J J so vlidas as seguintes observaes:
Para pequeno, a resposta transiente do algoritmo SD super-amortecida
(overdamped) e a trajetria percorrida por ( ) n w uma curva suave em
M
,
conforme mostrado na Figura 3.2(a).
Para grande, a resposta transiente do algoritmo SD sub-amortecida
(underdamped) e a trajetria percorrida por ( ) n w uma curva em zig-zag
(oscilatria) em
M
, conforme mostrado na Figura 3.2(b).
Para acima de um determinado valor crtico, o algoritmo SD torna-se
instvel e termina divergindo.
3.2 O Algoritmo LMS
O Algoritmo LMS (Least Mean Square) procura minimizar uma funo de custo J
definida por ( )
2
2
1
= = e e J J com base nos valores instantneos da mesma, isto ,
( ) ( ) ( ) n e n e
2
2
1
= = J J
(3.8)
onde ( ) n e o sinal de erro medido em um instante n qualquer do processo de minimizao
de J.
10
Nota: Diferentemente do algoritmo LMS, apenas como exemplo comparativo, o algoritmo
RLS (Recursive Least Squares) baseia-se em uma funo de custo J definida por uma
soma ponderada do erro quadrtico ( ) n e
2
do instante atual n com os erros quadrticos
ocorridos anteriormente a n, isto , ( ) ( ) ( ) ( ) ! 2 1 J
2
2
2
1
2
0
+ + + = n e n e n e n , onde
1 0 <
k
so os coeficientes de ponderao. Os coeficientes
k
so tais que
1 +
>
k k
,
de forma que erros ocorridos em um passado distante sejam esquecidos por J objetivando
minimizar sua influncia sobre ela. Assim, se o conjunto de ( ) ) ( ), ( n d n x (entradas,
sadas desejadas) no for um processo estacionrio (i.e., os parmetros estatsticos de
variam com o tempo), o esquecer do passado auxilia a melhorar a velocidade de
convergncia. No entanto, como fcil perceber, o custo computacional do algoritmo RLS
maior que o do algoritmo LMS, o que o torna inadequado para certas aplicaes que
requeiram alta velocidade de processamento, como por exemplo, em equalizao de canal
para um link de microondas com alta taxa de transmisso.
O gradiente ( ) ( ) n w J da superfcie ( ) ( ) ( ) ( ) n e n w n
2
2
1
J J = = no instante n obtido
atravs da variao de ( ) ( ) n w J em resposta a uma variao infinitesimal na coordenada
( ) n w , isto ,
( ) ( )
( ) ( )
( ) n w
n w
n w
=
J
J
(3.9)
mas, visto que ( ) ( ) ( ) n e n w
2
2
1
J = , temos
( ) ( )
( ) { }
( )
( )
( )
( ) n w
n e
n e
n w
n e
n w
=
2
2
1
J
(3.10)
Vimos que
( ) ( ) ( ) n w n x n d n y n d n e
T
= = ) ( ) ( ) (
(3.11)
e como ( ) n d no depende de ( ) n w , temos que
( )
( )
( ) n x
n w
n e
=
(3.12)
11
De (3.12) e (3.10) temos
( ) ( ) ( ) ( ) n x n e n w = J (3.13)
e, substituindo (3.13) em (3.7), encontraremos para ( ) 1 + n w ,
( ) ( ) ( ) ( ) n x n e n w n w + = 1 +
(3.14)
onde o passo de adaptao ou razo de aprendizado.
A Equao (3.14) define o processo de ajuste do vetor de pesos w de um neurnio
linear objetivando minimizar J atravs do algoritmo LMS.
instrutivo comparar os algoritmos SD e LMS utilizando a alegoria do observador
mope, cujo objetivo atingir o mais rapidamente possvel a coordenada
*
w , a qual define
a coordenada da cota mnima da superfcie ( ) w J .
No algoritmo SD, o observador localizado na coordenada ( ) n w olha ao redor,
localiza a direo ( ) ( ) n w J de subida mais ngreme na superfcie ( ) w J e d um passo em
direo contrria ela, conforme j discutido. O ato de olhar ao redor significa
matematicamente ter o conhecimento da
matriz de correlao R do conjunto de vetores de entrada x , e
do vetor de correlao cruzada p entre o conjunto de sadas desejadas d e o
conjunto de vetores x .
O conhecimento destes elementos necessrio porque, no algoritmo SD, o gradiente
no instante n calculado atravs de ( ) ( ) ( ) n w p n w R 2 + 2 = J (conforme S. Haykin em
Adaptive Filter Theory, referenciado em [3]).
No algoritmo LMS, o observador no somente mope como tambm totalmente
cego. O observador, localizado na coordenada ( ) n w , consegue observar sua posio
relativa porque segura em sua mo um cordo infinitamente elstico cuja outra extremidade
encontra-se fixa na coordenada
*
w . A cada instante n, o observador d um passo na direo
em que ele percebe a maior reduo na tenso do elstico (diminuio do valor absoluto
12
do erro ( ) n e ), com tamanho de passo proporcional reduo de . Como no existem
mnimos locais na superfcie ( ) w J , porque ela quadrtica, o observador se aproximar da
cota mnima ( )
*
J w na coordenada
*
w aps repetir este procedimento um nmero suficiente
de vezes. Note que, como o tamanho e sentido do passo do observador dependem da
reduo na tenso do elstico, quando o observador chegar prximo coordenada
*
w
ele ficar eternamente pulando sobre e ao redor dela a menos que, por um raro golpe de
sorte, a coordenada resultante do ltimo passo do observador coincida com
*
w (situao
que ocorrer para um valor bastante particular e crtico de e para uma bastante particular
coordenada inicial
0
w da trajetria do observador). Apesar disto, o algoritmo LMS tem a
vantagem de no necessitar do conhecimento de R e de p , ao contrrio do algoritmo SD.
Em suma, no algoritmo SD o vetor ( ) n w segue uma trajetria bem definida no
espao de pesos sinpticos, para um valor no excessivo de . Em contraste, no algoritmo
LMS o vetor ( ) n w segue uma trajetria aleatria, especialmente nas vizinhanas de
*
w .
A Tabela 3.1 apresenta um sumrio do procedimento do algoritmo LMS.
Conjunto de Treino:
Sinal de entrada em forma vetorial = ( ) n x
Sinal resposta desejada escalar = ( ) n d
Parmetro ajustvel pelo usurio:

Inicializao do vetor w:
( ) 0 0
0
= = w w
Procedimento Computacional: Para ! , 1 , 0 = n computar
( ) ( ) n w n x n d n e
T
= ) ( ) (
( ) ( ) ( ) ( ) n x n e n w n w + = 1 +
Tabela 3.1: Sumrio do algoritmo LMS. O Procedimento Computacional
executado at que a mdia de ( ) n e
2
atinja um patamar suficientemente baixo
para a soluo do problema em questo ou estabilize em um valor constante.
13
3.2.1 Consideraes quanto Convergncia do LMS
Combinando (3.11) e (3.14) podemos expressar a evoluo do vetor w atravs de
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) [ ] ( ) ( ) ) (
) ( ) ( 1 ] [
n d n x n w n x n x
n w n x n x n d n x n w n w n x n d n x n w n w
T
T T

+ =
= + = + = +
I
(3.15)
onde I a matriz identidade.
O processo de ajuste do vetor ( ) n w uma operao iterativa indexada pela varivel
inteira n. Em funo disto, podemos ento reconhecer que o valor de ( ) 1 + n w ser o valor
de ( ) n w quando a varivel n for incrementada de 1 na prxima iterao. Em outras
palavras, o valor obtido de (3.15) para ( ) 1 + n w no instante n armazenado em uma posio
de memria para ser utilizado como o valor de ( ) n w em (3.15) no instante 1 + n .
No domnio z, esta relao entre ( ) n w e ( ) 1 + n w expressa por
( ) { } ( ) { } 1 + =
1
n w z n w Z Z
(3.16)
onde {} Z o operador Transformada Z e
1
z o operador atraso unitrio (unit delay). A
partir das equaes (3.15) e (3.16) podemos representar o algoritmo LMS atravs do grafo
de fluxo de sinal mostrado na Figura 3.3.
A Figura 3.3 revela que o algoritmo LMS pode ser considerado como um sistema
realimentado, j que existem dois loops de feedback, um superior e outro inferior. A
presena de realimentao exerce um profundo impacto no comportamento do algoritmo
LMS, visto que os parmetros dos loops definem a estabilidade da trajetria dos estados de
qualquer sistema realimentado.
14
Figura 3.3: Grafo de fluxo de sinal representativo do algoritmo LMS.
Observe na Figura 3.3 que o loop inferior impe variabilidade ao comportamento do
LMS, particularmente porque a transmitncia deste loop controlada pela matriz
( ) ( ) n x n x
T
, a qual depende do vetor de entrada ( ) n x , com parmetro de controle dado
pela razo de aprendizado . Infere-se, portanto, que a estabilidade da trajetria de ( ) n w
influenciada pelas caractersticas estatsticas do conjunto de vetores de entrada x e pelo
valor da razo de aprendizado .
Expressando este fato de outro modo, para um dado conjunto de vetores de entrada
x deve-se escolher tal que a trajetria de ( ) n w seja estvel o suficiente para permitir a
convergncia para as vizinhanas de
*
w . A convergncia da trajetria de ( ) n w para as
vizinhanas de
*
w caracterizada por uma constncia no valor mdio de ( ) n e
2
.
Como regra geral, a razo de aprendizado deve obedecer relao:
15
( ) ( )
1
0 =
1
2
< < 0
N
i
T
i x i x
N
(3.17)
onde N o nmero total de vetores no conjunto de vetores de entrada x .
3.3 O Perceptron
Enquanto que o algoritmo LMS, descrito na Seo 3.2, construdo em torno de
um neurnio linear, o Perceptron construdo ao redor de um neurnio no-linear, que o
neurnio descrito pelo modelo de McCulloch-Pitts.
Conforme vimos no Captulo 1, este modelo de neurnio consiste de um
combinador linear seguido de um limitador, desempenhando a funo signum, conforme
mostrado na Figura 3.4.
Figura 3.4: Grafo de fluxo de sinal do Perceptron.
O n somador do modelo neural mostrado na Figura 3.4 computa uma combinao
linear das entradas aplicadas a suas sinapses com os pesos sinpticos associados, e tambm
incorpora uma polarizao externamente aplicada. A soma resultante (que o potencial de
ativao v ) aplicada a um limitador, representado por ( ) v , que implementa a funo
16
signum. Desta forma, o neurnio produz uma sada igual a (+1) se a entrada do limitador
positiva, e (-1) se negativa.
No grafo de fluxo de sinal mostrado na Figura 3.4, os pesos sinpticos do
Perceptron so denotados por
m
w w w , , ,
2 1
! . De forma correspondente, as entradas
aplicadas ao Perceptron so denotadas por
m
x x x , , ,
2 1
! . A polarizao (ou bias)
aplicada externamente e denotada por b. A partir do modelo verifica-se que a entrada do
limitador, ou o potencial de ativao v do neurnio, :
=
= =
m
i
i i
b x w v
1
(3.18)
O objetivo do Perceptron classificar corretamente o conjunto de estmulos
externos aplicados
m
x x x , , ,
2 1
! em uma de duas classes,
1
C ou
2
C . A regra de deciso
para a classificao atribuir o ponto representado pelas entradas
m
x x x , , ,
2 1
! classe
1
C
se a sada y do Perceptron for (+1) e classe
2
C se for (-1).
Para compreender o comportamento de um classificador de padres, costuma-se
plotar um mapa das regies de deciso no espao de sinal m-dimensional gerado pelas m
variveis de entrada
m
x x x , , ,
2 1
! . Na forma mais simples do Perceptron h duas regies
de deciso separadas por um hiperplano definido por
=
= +
m
i
i i
b x w
1
0
(3.19)
conforme ilustrado na Figura 3.5 para o caso de duas variveis de entrada
2 1
e x x , para as
quais o limite de deciso assume a forma de uma linha reta. Um ponto ( )
2 1
, x x que esteja
acima da linha limtrofe atribudo classe
1
C e um ponto ( )
2 1
, x x que esteja abaixo da
linha limtrofe atribudo classe
2
C . O efeito da polarizao (ou bias) simplesmente
deslocar o limite de deciso para longe da origem.
17
Figura 3.5: Ilustrao do hiperplano (neste caso, uma linha reta) como limite de deciso
para um problema de classificao de padres de duas classes (bi-dimensional).
Os pesos sinpticos
m
w w w , , ,
2 1
! do Perceptron podem ser adaptados de iterao a
iterao. Para a adaptao pode-se usar a regra de correo de erro conhecida como
algoritmo de convergncia do Perceptron.
3.3.1 O Teorema de Convergncia do Perceptron
Para derivar o algoritmo de aprendizagem por correo de erro para o Perceptron,
consideremos o modelo do grafo de fluxo de sinal modificado mostrado na Figura 3.6.
neste modelo, equivalente ao da Figura 3.4, a polarizao ( ) n b tratada como um peso
sinptico cuja entrada fixa em +1 (conforme vimos no Captulo 1).
18
Figura 3.6: Grafo de fluxo de sinal equivalente do Perceptron (a dependncia do tempo foi
omitida por questes de clareza).
Pode-se, ento, definir o vetor de entrada ( ) [ ] 1 1 + m -dimensional como
( ) ( ) ( ) ( ) [ ]
T
m
n x n x n x n x 1
2 1
! + =
(3.20)
onde n denota o passo da iterao do algoritmo. De forma correspondente, podemos definir
o vetor de pesos ( ) [ ] 1 1 + m -dimensional como
( ) ( ) ( ) ( ) ( ) [ ]
T
m
n w n w n w n b n w
2 1
! =
(3.21)
da mesma forma, a sada do combinador linear pode ser escrita na forma compacta,
( ) ( ) ( ) ( ) ( ) n x n w n x n w n v
T
i
m
i
i

0
= =
=
(3.22)
onde ( ) n w
0
representa a polarizao ( ) n b . Para n fixo, a equao 0 = x w
T
, plotada em um
espao m-dimensional (e para algum bias prescrito) com coordenadas
m
x x x , , ,
2 1
! , define
um hiperplano como a superfcie de deciso entre duas diferentes classes de entradas (vide
Figura 3.5).
19
Para que o Perceptron funcione adequadamente, as duas classes
1
C e
2
C precisam
ser linearmente separveis, o que significa dizer que os padres a serem classificados
devem ser suficientemente separados uns dos outros para garantir que a superfcie de
deciso consista de um hiperplano.
Figura 3.7: (a) Um par de padres linearmente separveis. (b) Um par de padres no-
linearmente separveis.
Este requerimento ilustrado na Figura 3.7 para o caso de um Perceptron bi-
dimensional. Na Figura 3.7(a), as duas classes
1
C e
2
C so suficientemente separveis uma
da outra, de tal forma que possvel desenhar um hiperplano (neste caso uma linha reta)
como limite de deciso. Se, entretanto, as duas classes
1
C e
2
C tivessem se aproximado
tanto uma da outra (como mostrado na Figura 3.7(b)) teriam se tornado no-linearmente
separveis, uma situao que est alm da capacidade computacional do Perceptron.
Suponhamos ento que as variveis de entrada do Perceptron tenham se originado
de duas classes linearmente separveis. Seja
1
! o sub-conjunto de vetores de treino
( ) ( ) " , 2 , 1
1 1
x x que pertenam classe
1
C , e seja
2
! o sub-conjunto de vetores de treino
( ) ( ) " , 2 , 1
2 2
x x que pertenam classe
2
C . A unio de
1
! e
2
! o conjunto de treino
completo ! .
20
Dados os conjuntos de vetores
1
! e
2
! para treinar o classificador, o processo de
treino envolve o ajuste do vetor de pesos w, de tal forma que as duas classes
1
C e
2
C
sejam linearmente separveis. Ou seja, exista um vetor de pesos w tal que possamos
afirmar:
0 > x w
T
para cada vetor de entrada x pertencente classe
1
C
0 x w
T
para cada vetor de entrada x pertencente classe
2
C
(3.23)
Observe que, na segunda linha da Equao (23), foi escolhido arbitrariamente que o
vetor de entrada x pertencesse classe
2
C se 0 = x w
T
.
Dados os sub-conjuntos de vetores de treino
1
! e
2
! , o problema de treinamento
para o Perceptron elementar , ento, encontrar um vetor de pesos w tal que as duas
inigualdades da Equao (23) sejam satisfeitas.
O algoritmo para adaptar o vetor de pesos do Perceptron elementar pode ser agora
formulado conforme segue:
1. Se o n-simo membro do conjunto de treino, ( ) n x , corretamente classificado pelo
vetor de pesos ( ) n w computado na n-sima iterao do algoritmo, nenhuma correo
feita no vetor de pesos do Perceptron de acordo com a regra:
( ) ( ) n w n w = +1
se ( ) ( ) 0 > n x n w
T
e ( ) n x pertence classe
1
C
( ) ( ) n w n w = +1
se ( ) ( ) 0 n x n w
T
2
C
(3.24)
21
2. Em caso contrrio, o vetor de pesos do Perceptron atualizado de acordo com a regra:
( ) ( ) ( ) ( ) n x n n w n w = +1
se ( ) ( ) 0 > n x n w
T
2
C
( ) ( ) ( ) ( ) n x n n w n w + = +1
se ( ) ( ) 0 n x n w
T
1
C
(3.25)
onde o parmetro razo de aprendizado ( ) n controla o ajuste aplicado ao vetor de
pesos na iterao n.
Para o caso particular em que ( ) 0 > = n (onde uma constante independente
do nmero da iterao n), temos uma regra de adaptao de incrementos fixos para o
Perceptron.
Desejamos primeiro provar a convergncia de uma regra de adaptao de
incrementos fixos, com 1 = . Claramente o valor de no importante, enquanto for
positivo. Um valor de 1 simplesmente escala os vetores sem afetar sua separabilidade.
O caso de uma razo de aprendizado ( ) n varivel ser considerado posteriormente.
Convergncia da Regra de Adaptao de Incremento Fixo
(Razo de Aprendizado
Fixa)
A prova apresentada para a condio inicial ( ) 0 0 = w .
Suponha que ( ) ( ) 0 < n x n w
T
para " , 2 , 1 = n , e o vetor de entrada ( ) n x pertena ao
sub-conjunto
1
! .
Ou seja, nesta condio, o Perceptron classificou de forma incorreta os vetores
( ) ( ) " , 2 , 1 x x , desde que a segunda condio (dada pela Equao 23) foi violada.
Ento, com a constante ( ) 1 = n , podemos usar a segunda linha da Equao 3.25
para escrever
22
( ) ( ) ( ) n x n w n w + = +1 para ( ) n x pertencente classe
1
C
(3.26)
Dada a condio inicial ( ) 0 0 = w , podemos iterativamente resolver esta equao
para ( ) 1 + n w , obtendo o resultado
( ) ( ) ( ) ( ) n x x x n w + + + = + ! 2 1 1
(3.27)
Desde que as classes
1
C e
2
C so assumidas linearmente separveis, existe uma
soluo
0
w para a qual ( ) 0 > n x w
T
para os vetores ( ) ( ) ( ) n x x x " , 2 , 1 pertencentes ao sub-
conjunto
1
! . Para uma soluo fixa
0
w , podemos ento definir um nmero positivo
como
( )
( ) n x w
T
! n x
0
1
min
=
(3.28)
Multiplicando ambos os lados da Equao (3.27) pelo vetor linha
T
w
0
teremos
( ) ( ) ( ) ( ) n x w x w x w n w w
T T T T
0 0 0 0
2 1 1 + + + = + !
(3.29)
De acordo com a definio dada na Equao (3.28), teremos
( ) n n w w
T
+1
0
(3.30)
Dados dois vetores
0
w e ( ) 1 + n w , a inigualdade de Cauchy-Schwarz, afirma que
( ) ( ) [ ]
2
0
2 2
0
1 1 + + n w w n w w
T
(3.31)
onde denota a norma Euclidiana do vetor argumento, e o produto interno ( ) 1
0
+ n w w
T

uma quantidade escalar.
A partir da Equao (3.30) observa-se que ( ) [ ]
2
0
1 + n w w
T
igual ou maior que
2 2
n . A partir da Equao (3.31) observa-se que ( )
2 2
0
1 + n w w igual ou maior que
( ) [ ]
2
0
1 + n w w
T
. Segue, portanto, que
23
( )
2 2
2 2
0
1 n n w w +
(3.32)
ou equivalentemente,
( )
2
0
2 2
2
1
w
n
n w

+
(3.33)
Seguindo, agora, uma nova rota de desenvolvimento, rescreveremos a Equao
(3.26) sob a forma
( ) ( ) ( ) k x k w k w + = +1 para n k , , 1 " = e ( )
1
X k x
(3.34)
Tomando o quadrado da norma Euclidiana de ambos os lados da Equao (3.34),
obteremos
( ) ( ) ( ) ( ) ( ) k x k w k x k w k w
T
2 1
2 2 2
+ + = +
(3.35)
Mas, tendo sido assumido que o Perceptron classifica incorretamente um vetor de
entrada ( ) k x pertencente ao sub-conjunto
1
! , teremos que ( ) ( ) 0 < k x k w
T
. Portanto, pode-
se deduzir, a partir da Equao (3.35) que
( ) ( ) ( )
2 2 2
1 k x k w k w + +
(3.36)
ou, de forma equivalente,
( ) ( ) ( )
2 2 2
1 k x k w k w + , n k , , 1 " =
(3.37)
Adicionando estas inigualdades para n k , , 1 " = e invocando a condio inicial
assumida ( ) 0 0 = w , chegamos seguinte inigualdade:
( ) ( ) n k x n w
n
k
+

=1
2 2
1
(3.38)
onde
( )
( )
2
1
max k x
! k x
=
(3.39)
24
A Equao (3.38) afirma que o quadrado da a norma Euclidiana do vetor de pesos
( ) 1 + n w cresce no mximo linearmente com o nmero de iteraes n.
O segundo resultado da Equao (3.38) est claramente em conflito com o resultado
anterior da Equao (3.33) para valores de n suficientemente grandes.
Na verdade, pode-se afirmar que n no pode ser maior do que algum valor n
max
para
o qual as Equaes (3.33) e (3.38) so ambas satisfeitas com o sinal de igualdade. Ou seja,
n
max
a soluo da equao
max
2
0
2 2
max
n
w
n
=
(3.40)
Resolvendo para n
max
, dado um vetor soluo
0
w ,encontraremos
2
2
0
max
w
n =
(3.41)
Temos, assim, provado que para ( ) 1 = n para todo n, ( ) 0 0 = w e dado que existe
um vetor soluo
0
w , a regra para adaptao dos pesos sinpticos do Perceptron deve
terminar aps, no mximo,
max
n iteraes. Note tambm a partir das Equaes (3.28),
(3.39) e (3.41) que no h uma nica soluo para
0
w ou
max
n .
Podemos, agora, afirmar que o teorema da convergncia da regra de adaptao de
incremento fixo para o Perceptron como segue:
Sejam os sub-conjuntos de vetores de treino
1
! e
2
! linearmente separveis;
Sejam as entradas apresentadas ao Perceptron originadas destes dois sub-conjuntos;
O Perceptron converge aps algumas iteraes
0
n , no sentido de que
( ) ( ) ( ) ! = + = + = 2 1
0 0 0
n w n w n w um vetor soluo para
max 0
n n .
25
Convergncia da Regra de Adaptao de Incremento Varivel
(Razo de Aprendizado
( ) n
Varivel )
Consideremos agora o procedimento de correo de erro absoluto para a adaptao
de um Perceptron de uma nica camada, para o qual ( ) n varivel. Em particular, seja
( ) n o menor inteiro para o qual
( ) ( ) ( ) ( ) ( ) n x n w n x n x n
T T
>
(3.42)
Com este procedimento podemos afirmar que: se o produto interno ( ) ( ) n x n w
T
na
iterao n tem um sinal incorreto, ento ( ) ( ) n x n w
T
1 + na iterao 1 + n pode ter o sinal
correto. Isto sugere que, se ( ) ( ) n x n w
T
tem um sinal incorreto, podemos modificar a
seqncia de treino na iterao 1 + n fazendo ( ) ( ) n x n x = +1 .
Em outras palavras, cada padro apresentado repetidamente ao Perceptron at que
o padro seja classificado corretamente.
Note tambm que o uso de um valor inicial ( ) 0 w diferente de zero meramente
resulta no decrscimo ou acrscimo do nmero de iteraes requeridas para convergncia
dependendo de como ( ) 0 w se relaciona com a soluo
0
w . Indiferentemente do valor
atribudo a ( ) 0 w , o Perceptron tem sua convergncia garantida.
Na Tabela 3.2 apresentado um sumrio do algoritmo de convergncia do
Perceptron. O smbolo ( ) sgn , usado no passo 3 da tabela para computar a resposta atual do
Perceptron, representa a funo signum, descrita no Captulo 1 deste texto.
Podemos, ento, expressar a resposta quantizada ( ) n y do Perceptron na forma
compacta:
( ) ( ) ( ) ( ) n x n w n y
T
sgn =
(3.43)
26
Variveis e Parmetros:
Vetor de entrada ( ) n x de dimenso ( ) [ ] 1 1 + m ; ( ) ( ) ( ) ( ) [ ]
T
m
n x n x n x n x 1
2 1
! + =
Vetor de pesos ( ) n w de dimenso ( ) [ ] 1 1 + m ; ( ) ( ) ( ) ( ) ( ) [ ]
T
m
n w n w n w b n w n
2 1
! =
Bias = ( ) n b
Resposta atual (quantizada) = ( ) n y
Resposta desejada = ( ) n d
Parmetro razo de aprendizado (constante positiva <1) =
1.
Inicializao: Faa ( ) 0 0 = w . Ento execute as etapas seguintes do algoritmo para os
instantes de tempo " , 2 , 1 = n
2.
Ativao: No instante de tempo n ative o Perceptron aplicando o vetor de entrada ( ) n x
e a resposta desejada ( ) n d .
3. Cmputo da Resposta Atual: Compute a resposta atual do Perceptron atravs de
( ) ( ) ( ) ( ) n x n w n y
T
sgn = , onde ( ) sgn a funo signum.
4. Adaptao do Vetor de Pesos: Atualize o vetor de pesos do Perceptron atravs de
( ) ( ) ( ) ( ) [ ] ( ) n x n y n d n w n w + = + 1 onde
( )
( )
( )
+
=
2
1
classe pertence se 1
C n x
C n x
n d
5. Continuao: Fazer 1 + = n n e voltar etapa 2.
Tabela 3.2 Sumrio do Algoritmo de Convergncia do Perceptron
27
Note que o vetor de entrada ( ) n x um vetor ( ) [ ] 1 1 + m , cujo primeiro elemento
fixo em (+1) ao longo de todo o processo computacional. De forma correspondente, o vetor
de pesos ( ) n w um vetor ( ) [ ] 1 1 + m , cujo primeiro elemento igual ao bias ( ) n b . Outro
ponto a salientar na Tabela 3.2 a introduo de uma resposta desejada quantizada ( ) n d ,
definida por
( )
( )
( )
+
=
2
1
C n x
C n x
n d
(3.44)
Ento, a adaptao do vetor de pesos ( ) n w pode ser sumarizada na forma da regra
de aprendizado por correo de erro:
( ) ( ) ( ) ( ) [ ] ( ) n x n y n d n w n w + = + 1 (3.45)
onde o parmetro razo de aprendizado, e a diferena ( ) ( ) n y n d representa um sinal
de erro. O parmetro razo de aprendizado uma constante positiva limitada ao intervalo
1 0 < . Na escolha de um valor para , dentro deste intervalo, preciso considerar dois
requisitos conflitantes:
Manter a estabilidade da trajetria (estimativas estveis para os pesos) requer valores

pequenos para ;
Adaptao rpida com respeito s mudanas reais nas distribuies subjacentes do

processo responsvel pela gerao do vetor de entrada x requer valores grandes para
.
28
3.4 Referncias Bibliogrficas do Captulo 3:
[1] M. H. Hassoun, Fundamentals of Artificial Neural Networks, MIT Press,
Massachusetts, 1995.
[2] R. D. Strum e D. E. Kirk, First Principles of Discrete Systems and Digital Signal
Processing, Addison-Wesley, 1989.
[3] S. Haykin, Adaptive Filter Theory, 3
rd
ed., Prentice Hall, Upper Saddle River, New
Jersey, 1996.
[4] S. Haykin, Neural Networks, 2
nd
ed., Prentice Hall, Upper Saddle River, New Jersey,
1999.
[5] Z.L.Kovcs, Redes Neurais Artificiais, Editora Acadmica So Paulo, So Paulo,
1996.

Cap 3 - O Perceptron

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Cap 3 - O Perceptron

Hochgeladen von

Copyright:

Verfügbare Formate

PUCRS - FENG - DEE - Mestrado em Engenharia Eltrica

Redes Neurais Artificiais

Manter a estabilidade da trajetria (estimativas estveis para os pesos) requer valores

Adaptao rpida com respeito s mudanas reais nas distribuies subjacentes do

Das könnte Ihnen auch gefallen