Topico1 EA072 2s2014 Parte1 PDF

EA072 Prof. Fernando J.
Von Zuben
DCA/FEEC/Unicamp
Redes Neurais Artificiais e Mquinas

de Aprendizado (Parte 1)
ndice
1.
2.
3.
4.
5.
6.
7.
8.
Leituras complementares e Referncias Bibliogrficas ............................................ 3

Nmeros e nomenclatura ......................................................................................... 8
Alguns fatos histricos relevantes .......................................................................... 21
Algumas questes operacionais ............................................................................. 23
A teoria das trs estruturas .................................................................................... 25
Crebro Eletrnico .................................................................................................. 27
Neurocomputao .................................................................................................. 30
Nveis de Organizao no Sistema Nervoso ............................................................ 36
8.1 Neurnios e Sinapses .......................................................................................... 37
8.2 Base Biolgica e Fsica da Aprendizagem e Memria ......................................... 53
9. Neurnio artificial ................................................................................................... 55
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)
EA072 Prof. Fernando J. Von Zuben

DCA/FEEC/Unicamp
10. Exemplos mais usuais de funes de ativao........................................................ 57

11. Produto interno e projeo .................................................................................... 59
12. Funo de expanso ortogonal ............................................................................... 61
13. Redes neurais e perceptron com uma camada intermediria ................................ 62
14. Contribuio de cada neurnio em uma rede MLP ................................................ 64
15. O papel dos pesos sinpticos .................................................................................. 72
16. Superfcie de erro ................................................................................................... 75
17. Aprendizado a partir de dados amostrados............................................................ 77
18. O problema do OU-exclusivo em MLP .................................................................... 83
19. Otimizao no-linear e capacidade de generalizao ........................................... 90
19.1 Gradiente, hessiana e algoritmos de otimizao ................................................ 96
19.2 Mnimos locais .................................................................................................. 100
19.3 Condio inicial para os pesos da rede neural .................................................. 101
20. Processo Iterativo para MLP Mtodo Padro-a-Padro .................................... 102
21. Processo Iterativo para MLP Mtodo em Lote ou Batelada .............................. 103
22. Referncias ........................................................................................................... 104
Nota: Este material contm contribuies dos Profs. Mrcio Luiz de Andrade Netto e Leandro Nunes de Castro
Silva, os quais j participaram do oferecimento da disciplina IA353 Redes Neurais, junto ao Programa de PsGraduao da FEEC/Unicamp.

DCA/FEEC/Unicamp
1. Leituras complementares e Referncias Bibliogrficas

Pginas WEB:
ftp://ftp.sas.com/pub/neural/FAQ.html (comp.ai.neural-nets FAQ)
http://nips.djvuzone.org/ (Todos os artigos on-line da conferncia Neural Information Processing
Systems (NIPS))
http://ieeexplore.ieee.org/Xplore (Todas as publicao on-line do IEEE, inclusive de conferncias
em redes neurais artificiais, como a International Joint Conference on Neural Networks
(IJCNN))
Peridicos:
IEEE Transactions on Neural Networks and Learning Systems
Neural Networks (Pergamon Press)
Neural Computation (MIT Press)
Neurocomputing (Elsevier)
International Journal of Neural Systems (World Scientific Publishing)
Biological Cybernetics (Springer)
IEEE Transaction on Systems, Man, and Cybernetics (Part B)
Neural Processing Letters (Springer)
Information Sciences (Elsevier)
Cognitive Science (CSS)
Learning & Nonlinear Models (SBIC - Brasil)
Machine Learning (Springer)

DCA/FEEC/Unicamp
Livros:
1.
Arbib, M.A. (ed.) (2002) The Handbook of Brain Theory and Neural Networks, The MIT
Press, 2nd. edition, ISBN: 0262011972.
2.
Bertsekas, D.P. & Tsitsiklis, J.N. (1996) Neuro-Dynamic Programming, Athena Scientific,
ISBN: 1886529108.
3.
Bishop, C.M. (1996) Neural Networks for Pattern Recognition, Oxford University Press,
ISBN: 0198538642.
4.
Bishop, C.M. (2007) Pattern Recognition and Machine Learning, Springer, ISBN:
0387310738.
5.
Braga, A.P., de Carvalho, A.P.L.F. & Ludermir, T.B. (2007) Redes Neurais Artificiais
Teoria e Aplicaes, Editora LTC, 2a. edio, ISBN: 9788521615644.
6.
Chauvin, Y. & Rumelhart, D.E. (1995) Backpropagation: Theory, Architectures, and

Applications, Lawrence Erlbaum Associates, ISBN: 080581258X.
7.
Cherkassky, V. & Mulier, F. (2007) Learning from Data: Concepts, Theory, and Methods,
2nd edition, Wiley-IEEE Press, ISBN: 0471681822.
8.
Cristianini N. & Shawe-Taylor, J. (2000) An Introduction to Support Vector Machines and

Other Kernel-Based Learning Methods, Cambridge University Press, ISBN: 0521780195.
9.
da Silva, I.N., Spatti, D.H. & Flauzino, R.A. (2010) Redes Neurais Artificiais Para Engenharia
e Cincias Aplicadas, Artliber Editora Ltda., ISBN: 9788588098534.

DCA/FEEC/Unicamp
10. Dayan, P. & Abbot, L.F. (2001) Theoretical Neuroscience: Computational and Mathematical
Modeling of Neural Systems, The MIT Press, ISBN: 0262041995.
11. Duda, R.O., Hart, P.E. & Stork, D.G. (2000) Pattern Classification, 2nd edition, WileyInterscience, ISBN: 0471056693.
12. Edelman, G.M. (1988) Neural Darwinism: The Theory of Neuronal Group Selection, Basic
Books, ISBN: 0465049346.
13. Fausett, L. (2004) Fundamentals of Neural Networks: Architectures, Algorithms, and
Applications, Dorling Kindersley India, ISBN: 8131700534.
14. Fiesler, E. & Beale, R. (1996) Handbook of Neural Computation, Institute of Physics
Publishing, ISBN: 0750303123.
15. Gardner, H. (2011) Frames of Mind: The Theory of Multiple Intelligences, 3rd edition,
BasicBooks, ISBN: 0465024335.
16. Hassoun, M. (2003) Fundamentals of Artificial Neural Networks, A Bradford Book, ISBN:
0262514672.
17. Hastie, T., Tibshirani, R. & Friedman, J.H. (2001) The Elements of Statistical Learning,
Springer, ISBN: 0387952845.
18. Haykin, S. (2008) Neural Networks and Learning Machines, 3rd edition, Prentice Hall,
ISBN: 0131471392.
19. Hecht-Nielsen, R. (1990) Neurocomputing, Addison-Wesley Publishing Co., ISBN:
0201093553.

DCA/FEEC/Unicamp
20. Hertz, J., Krogh, A. & Palmer, R. (1991) Introduction to the Theory of Neural Computation,
Addison-Wesley, ISBN: 0201515601.
21. Kearns, M.J., Vazirani, U. (1994) An Introduction to Computational Learning Theory, The
MIT Press, ISBN: 0262111934.
22. Kohonen, T. (1989) Self-Organization and Associative Memory, 3rd edition, SpringerVerlag, ISBN: 0387513876. (1st Edition: 1984; 2nd edition: 1988)
23. Kohonen, T. (2000) Self-Organizing Maps, 3rd Edition, Springer, ISBN: 3540679219.
24. Luenberger, D.G. (1984) Linear and Nonlinear Programming, 2nd edition, Addison-Wesley,
ISBN: 0201157942.
25. Mackay, D.J.C. (2003) Information Theory, Inference and Learning Algorithms, Cambridge
University Press, ISBN: 0521642981.
26. Mardia, K.V., Kent, J.T., Bibby, J.M. (1980) Multivariate Analysis. Academic Press, ISBN:
0124712525.
27. Marsland, S. (2009) Machine Learning: An Algorithmic Perspective, Chapman and
Hall/CRC, ISBN: 1420067184.
28. Masters, T. (1995) Advanced Algorithms for Neural Networks: A C++ Sourcebook, John
Wiley and Sons, ISBN: 0471105880.
29. Minsky, M.L. (1988) The Society of Mind, Simon & Schuster, ISBN: 0671657135.

DCA/FEEC/Unicamp
30. Minsky, M.L. & Papert, S.A. (1988) Perceptrons: Introduction to Computational Geometry,
Expanded edition, The MIT Press, ISBN: 0262631113. (1st edition: 1969)
31. Mitchell, T.M. (1997) Machine Learning, McGraw-Hill, ISBN: 0071154671.
32. Ripley, B.D. (2008) Pattern Recognition and Neural Networks, Cambridge University Press,
ISBN: 0521717701.
33. Rumelhart, D.E. & McClelland, J.L. (1986) Parallel Distributed Processing: Explorations in
the Microstructure of Cognition, volumes 1 & 2. The MIT Press, ISBN: 026268053X.
34. Schalkoff, R.J. (1997) Artificial Neural Networks, The McGraw-Hill Companies, ISBN:
0071155546.
35. Schlkopf, B. & Smola, A.J. (2001) Learning with Kernels: Support Vector Machines,
Regularization, Optimization, and Beyond, The MIT Press, ISBN: 0262194759.
36. Sutton, R.S. & Barto, A.G. (1998) Reinforcement Learning: An Introduction, The MIT Press,
ISBN: 0262193981.
37. Vapnik V.N. (1998) Statistical Learning Theory, Wiley-Interscience, ISBN: 0471030031.
38. Vapnik V.N. (1999) The Nature of Statistical Learning Theory, 2nd edition, Springer, ISBN:
0387987800.
39. Weigend, A.S. & Gershenfeld, N.A. (eds.) (1993) Time Series Prediction: Forecasting the
Future and Understanding the Past, Perseus Press, ISBN: 0201626020.
40. Wilson, R.A. & Keil, F.C. (eds.) (2001) The MIT Encyclopedia of the Cognitive Sciences,
The MIT Press, ISBN: 0262731444.

DCA/FEEC/Unicamp
2. Nmeros e nomenclatura
Descoberta do microscpio: ~1590
Descoberta da clula: ~1680
Clula como unidade constituinte dos seres vivos: ~1830
Constituintes bsicos do crebro so os neurnios: Ramn y Cajl, ~1909
O crebro humano pesa ~1,5 quilos e consome ~20% da energia do corpo;
100 gramas de tecido cerebral requerem ~3,5ml de oxignio por minuto;
O crebro humano apresenta ~1011 neurnios e ~1014 sinapses ou conexes, com uma
mdia de ~1000 conexes por neurnio, podendo chegar a ~10000 conexes.
Em seres humanos, 70% dos neurnios esto localizados no crtex;
Tipos de clulas neurais: horizontal, estrelada, piramidal, granular, fusiforme.
Classificao de acordo com a funo: sensoriais, motoras, intrnsecas.

DCA/FEEC/Unicamp
O dimetro do corpo celular de um

neurnio mede de ~5m (clula
granular)
~60m
(clula
piramidal);
Em termos fisiolgicos, um neurnio
uma clula com a funo especfica
de
receber,
informao
processar
a
outras
enviar
partes
do
organismo.
Um nervo formado por um feixe de
axnios, com cada axnio associado
a um nico neurnio;
Os nervos apresentam comprimentos
variados, podendo chegar a metros.

DCA/FEEC/Unicamp
Estrutura de um nervo
10

DCA/FEEC/Unicamp
A estrutura e as funcionalidades do crebro so governadas por princpios bsicos de

alocao de recursos e otimizao sujeita a restries.
LAUGHLIN, S.B. & SEJNOWSKI, T.J. (2003) Communication in neuronal networks, Science, vol. 301, no. 5641,
pp. 18701874.
O ser humano pode reagir simultaneamente a uma quantidade bem limitada de

estmulos, o que pode indicar que mecanismos de alocao de recursos (e.g. glicose,
oxignio) baseados em prioridades so implementados no crebro.
NORMAN, D.A. & BOBROW, D.G. (1975) On data-limited and resource-limited processes, Cognitive Psychology,
vol. 7, pp. 44-64.
Alguns autores defendem que o crtex humano pode ser modelado na forma de uma
rede mundo pequeno (BASSETT & BULLMORE, 2006; SPORNS & HONEY, 2006;
SPORNS, 2010) ou ento uma rede complexa (AMARAL & OTTINO, 2004).
AMARAL, L. & OTTINO, J. (2004) Complex networks, The European Physical Journal B Condensed Matter and
Complex Systems, vol. 38, no. 2, pp. 147-162.
BASSETT, D.S. & BULLMORE, E. (2006) Small-world brain networks, Neuroscientist, vol. 12, no. 6, pp. 512-523.
SPORNS, O. & HONEY, C.J. (2006) Small worlds inside big brains, Proceedings of the National Academy of
Science, vol. 103, no. 51, pp. 19219-19220.
SPORNS, O. (2010) Networks of the Brain, The MIT Press, ISBN: 0262014696.
11

DCA/FEEC/Unicamp
H um expressivo aumento na densidade de conexes sinpticas da vida embrionria

at a idade de 2 anos. Quando se atinge a idade de 2 anos, o ser humano apresenta a
maior concentrao de sinapses, a qual se mantm num nvel elevado at o incio da
puberdade. At o trmino da puberdade, h uma queda acentuada no nmero de
sinapses.
Esse processo de ampliao e reduo de sinapses, contudo, no homogneo, pois
nas regies sensrio-motoras este processo ocorre mais cedo, enquanto que ele
retardado em reas associadas aos processos cognitivos.
A reduo de sinapses dramtica: o nmero de sinapses ao trmino da puberdade
pode chegar a 50% do nmero existente com a idade de 2 anos. H uma perda de at
100.000 sinapses por segundo na adolescncia.
KOLB, B & WHISHAW, I.Q. (2008) Fundamentals of Human Neuropsychology, Worth Publishers, 6th. edition,
ISBN: 0716795868.
12

DCA/FEEC/Unicamp
d
e
n
s
i
d
a
d
e
c
o
n
c
e
p
n
a
s
c
i
m
e
n
t
o
f
i
m
d
a
p
u
b
e
r
d
a
d
e
s
e
n
i
l
i
d
a
d
e
Evoluo da densidade de sinapses ao longo da vida de um ser humano

Acredita-se ser impossvel que o cdigo gentico de um indivduo seja capaz de
conduzir todo o processo de organizao topolgica do crebro. Apenas aspectos
gerais dos circuitos envolvidos devem estar codificados geneticamente.
13

DCA/FEEC/Unicamp
Logo, para explicar as conformaes sinpticas, recorre-se a dois mecanismos gerais

de perda de sinapses: experience expectant e experience dependent (KOLB &
WHISHAW, 2008).
Podas baseadas em experience expectant esto vinculadas experincia sensorial para
a organizao das sinapses. Geralmente, os padres sinpticos so os mesmos para
membros de uma mesma espcie. A formao de sinapses no crtex visual depende da
exposio a atributos como linha de orientao, cor e movimento.
Podas baseadas em experience dependent esto vinculadas a experincias pessoais
nicas, tal como falar uma lngua distinta. Defende-se que o padro de conexes do
lobo frontal seja formado por podas baseadas em experience dependent.
De fato, a atividade do crtex pr-frontal tende a ser at 4 vezes mais intensa em
crianas do que em adultos, o que permite concluir que poda de parte das conexes e
fortalecimento de outras contribuem para a maturao cognitiva.
CASEY, B.J., TOTTENHAM, N., LISTON, C. & DURSTON, S. (2005) Imaging the developing brain: what have we
learned about cognitive development?, Trends in Cognitive Science, vol. 9, no. 3, pp. 104-110.
14

DCA/FEEC/Unicamp
Em sntese, possvel afirmar que o padro de conexes no crebro se inicia sem

muita organizao e com uma grande densidade de sinapses. Com a experincia de
vida, um equilbrio atingido. Logo, como o padro de conexes de um ser humano
adulto obtido a partir da experincia de vida, cada pessoa vai apresentar um padro
de conexes diferente, particularmente nas reas especializadas em cognio. Por
outro lado, o sistema sensrio-motor em um adulto normal deve apresentar uma
conformao similar de outros adultos normais, visto que a poda nessas reas
experience expectant.
FRANCO, A.R. (2009) Resource Allocation of the human brain: a competitive equilibrium approach, Ph. D.
Thesis, The University of New Mexico, Albuquerque, New Mexico, USA.
Voltando agora a ateno para o neurnio biolgico, pode-se afirmar que se trata de
uma clula especializada em transmitir pulsos eltricos, sendo que as suas principais
partes constituintes so:
Membrana celular: a pele da clula;
Citoplasma: tudo que est envolvido pela membrana;
15

DCA/FEEC/Unicamp
Ncleo: contm os cromossomos (DNA);

Ribossomos: geram protenas a partir de mRNAs;
Mitocndria: gera energia para a clula (produz ATP);
Soma: corpo celular, excluindo dendritos e axnio;
Dendritos: parte do neurnio que recebe informao de outros neurnios;
Axnio: parte do neurnio que transmite informao para outros neurnios;
Bainha de mielina: revestimento externo lipdico do axnio, responsvel por
evitar a disperso dos sinais eltricos, como uma capa isolante;
Terminais pr-sinpticos: rea do neurnio que armazena neurotransmissores, os
quais so liberados por potenciais de ao.
Os neurnios sensoriais normalmente tm longos dendritos e axnios curtos. Por outro
lado, os neurnios motores tm um longo axnio e dendritos curtos (transmitem
informao para msculos e glndulas). J os neurnios intrnsecos realizam a
comunicao neurnio-a-neurnio e compem o sistema nervoso central.
16

DCA/FEEC/Unicamp
Alm das clulas condutoras, o

crebro possui as clulas nocondutoras, formando a glia
(neurglia).
Os astrcitos se caracterizam
pela riqueza e dimenses de
seus
prolongamentos
cito-
plasmticos, distribudos em
todas as direes. Funes:
prover
suporte
estrutural,
nutrientes e regulao qumica.

Mxima
distncia
de
um
neurnio a um vaso sanguneo:

~50m.
17

DCA/FEEC/Unicamp
Neurnio piramidal do crtex de um hamster
18

DCA/FEEC/Unicamp
Rede de neurnios piramidais do crtex de um hamster
19

DCA/FEEC/Unicamp
Desenho do crtex realizado por RAMN Y CAJL (1909)
20

DCA/FEEC/Unicamp
3. Alguns fatos histricos relevantes

Idade da Iluso
MCCULLOCH & PITTS (1943)
WIENER (1948): ciberntica
MINSKY & PAPPERT (1969): a disputa entre as portas lgicas e os neurnios
artificiais para determinar a unidade bsica de processamento.
Idade das Trevas
Entre 1969 e 1984, houve muito pouca pesquisa cientfica envolvendo redes
neurais artificiais
Renascimento
HOPFIELD (1982)
RUMELHART & MCCLELLAND (1986)
21

DCA/FEEC/Unicamp
Desenvolvimento da capacidade de processamento e memria dos computadores

digitais (simulao computacional / mquina virtual) (anos 80 e 90)
GARDNER (1983; 2011): Mltiplas inteligncias
1.
2.
3.
4.
5.
6.
7.
Vivacidade verbal
Vivacidade matemtico-lgica
Aptido espacial
Gnio cinestsico
Dons musicais
Aptido interpessoal (liderana e ao cooperativa)
Aptido intrapsquica (modelo preciso de si mesmo)
EDELMAN (1988): Neurodarwinismo

MINSKY (1988): Sociedade da mente
22

DCA/FEEC/Unicamp
4. Algumas questes operacionais

O crebro capaz de perceber regularidades no meio e gerar abstraes e associaes
que capturam a estrutura destas regularidades, possibilitando a predio de
observaes futuras e o planejamento de aes visando o atendimento de mltiplos
objetivos.
Organizao bsica do sistema nervoso (viso de engenharia)
estmulo
sensores
Crebro
+
Redes Perifricas
atuadores
resposta
O uso das mos: propriedades inatas

Tratamento da linguagem: propriedades no-inatas
Nosso crebro se desenvolve conectando clulas cerebrais individuais para criar vias
neurais. As experincias de vida moldam a massa ceflica.
23

DCA/FEEC/Unicamp
Assimetria cerebral Aprendizado

Hemisfrio esquerdo (paradigma sequencial): lgica, produo e compreenso da
linguagem, processamento serial (considera informaes pontuais a cada instante),
processamento simblico, inferncia, planejamento, noo de tempo.
Hemisfrio direito (paradigma paralelo): aprendizado e memria espacial, sntese da
percepo, sentimentos e emoes, pensamento associativo, processamento global da
informao, raciocnio por analogia, comparao e identificao de imagens.
Grandes avanos no estudo do crebro:
Neuroimagem funcional (ressonncia magntica)
Neuroprtese
Clulas-tronco (se diferenciando em neurnios)
Doenas do sistema nervoso:
Perda de memria
Esclerose
Alzheimer
Parkinson
24

DCA/FEEC/Unicamp
Nos anos 60, psiclogos e antroplogos realizaram estudos com populaes do mundo
ocidental e outras isoladas, como nativos de Papua-Nova Guin, e concluram que
existem seis expresses corporais bsicas comuns a todos os povos, de qualquer raa,
origem ou etnia: felicidade, tristeza, surpresa, nojo, raiva e medo.
1
5. A teoria das trs estruturas
Em anos recentes, foi proposta uma nova teoria que procura entender o crebro a
partir de trs estruturas distintas, as quais, com a maturidade do indivduo, passam a
operar conjuntamente.
A primeira dessas estruturas o tronco cerebral, tambm denominado crebro
reptiliano. operacional no nascimento e responsvel por nossos reflexos e msculos
involuntrios, como o corao. o tronco cerebral, por exemplo, que nos faz piscar
quando objetos se aproximam dos nossos olhos.
1 Esta seo est baseada em contedos do livro de Philippa Perry, Como manter a mente s, The School of Life, 2012.
25

DCA/FEEC/Unicamp
As outras duas estruturas so o crebro mamfero, ou hemisfrio direito, e o

neomamfero,
ou
hemisfrio
esquerdo.
Essas
duas
estruturas
tm
maior
desenvolvimento nos primeiros cinco anos de vida. Em nossos primeiros dois anos, o
hemisfrio direito muito ativo, enquanto que o esquerdo menos ativo. Nos anos
seguintes, o hemisfrio esquerdo inicia um perodo de notvel atividade.
O hemisfrio direito o mais influente em nossas emoes e instintos. Ele no apenas
se desenvolve primeiro, como tambm permanece no controle. As bases de nossa
personalidade j esto estabelecidas antes que o hemisfrio esquerdo tenha habilidade
para influenci-las.
Usamos o hemisfrio esquerdo para processar experincias em linguagem, para
articular nossos pensamentos e ideias e para elaborar planos de ao. Um cientista, por
exemplo, usa muito o hemisfrio esquerdo.
Muitas vezes, temos boas razes para fazer uma coisa sensata, mas acabamos fazendo
uma outra coisa mesmo assim. A sua parte sensata (o hemisfrio esquerdo) tem a
26

DCA/FEEC/Unicamp
linguagem, com que dialogamos conosco, mas a outra parte (o hemisfrio direito)
parece ter o poder.
Essencialmente, o hemisfrio esquerdo explica/racionaliza (coloca em palavras) os
sentimentos do hemisfrio direito.
6. Crebro Eletrnico
Primeiro computador eletrnico de propsito geral: ENIAC (1946).
No princpio, os computadores eram chamados de crebros eletrnicos, pois
acreditava-se que eles representavam um caminho direto para a reproduo da
inteligncia.
Neurnios so de 6 a 7 ordens de magnitude mais lentos do que portas lgicas de
silcio (103 seg. 109 seg.)
Eficincia energtica:
Crebro 1016 Joules/operao/seg

Computador 106 Joules/operao/seg
27

DCA/FEEC/Unicamp
Surgimento de uma nova e promissora metodologia: simulao computacional

(mquina virtual).
Simulao de pensamento, resoluo de problemas e mesmo sntese de linguagem
natural nascimento da Inteligncia Artificial (IA)
Embora o computador tenha se transformado em um dos maiores sucessos
tecnolgicos da histria da humanidade, ele no atendeu s expectativas de reproduzir
comportamento inteligente.
Muitos so os exemplos de tarefas que so fceis para o homem e difceis para a
mquina, e vice-versa.
J est disponvel um conhecimento avanado da arquitetura fisiolgica do crebro,
mas ainda um mistrio o mecanismo fundamental empregado pelo crebro para
realizar computao de alto nvel.
Teoria de redes complexas: ao conjunta de um grande nmero de ns, por
acoplamento espao-temporal.
28

DCA/FEEC/Unicamp
Da mesma forma que invivel determinar, a partir do acompanhamento sequencial

do estado lgico de seus componentes e das micro-operaes realizadas, a tarefa
(computao de alto nvel) que est sendo executada por um computador
convencional, tambm invivel deduzir os mecanismos de processamento de alto
nvel do crebro a partir do acompanhamento da atividade cerebral, em termos de
sinais produzidos pela ativao dos neurnios (SCHALKOFF, 1997).
Mais bem sucedido, talvez, pode ser o caminho contrrio, ou seja, extrair
conhecimento acerca do desempenho e do potencial de processamento do crebro a
partir de (ou baseado em) simulaes em computadores digitais de modelos
matemticos de redes neurais.
29

DCA/FEEC/Unicamp
7. Neurocomputao
muito comum a associao do conceito de computao com aquele predominante no
caso dos computadores com arquitetura do tipo von Neumann: algoritmos so
elaborados e, em seguida, implementados na forma de programas de computador a
serem executados.
No entanto, a computao realizada pelo crebro requer um outro tipo de definio,
que contemple processamento paralelo e distribudo, alm de aprendizado.
Uma arquitetura neurocomputacional baseada na interconexo de unidades de
processamento simples e similares, denominadas neurnios artificiais e dotadas de
grande poder de adaptao.
H uma diferena de paradigmas entre computadores com arquitetura do tipo
von Neumann e redes neurais artificiais (RNAs): os primeiros realizam processamento
e armazenagem de dados em dispositivos fisicamente distintos, enquanto RNAs usam
o mesmo dispositivo fsico para tal.
30

DCA/FEEC/Unicamp
A motivao que est por trs deste paradigma alternativo de processamento

computacional a possibilidade de elaborar mecanismos distintos de soluo para
problemas intratveis ou ainda no-resolvidos com base na computao convencional,
alm de criar condies para reproduzir habilidades cognitivas e de processamento de
informao muito desejadas em aplicaes de engenharia, mas apresentadas apenas
por algumas espcies animais.
muito importante saber distinguir entre problemas passveis ou no de tratamento
por intermdio deste paradigma conexionista, assim como saber explorar devidamente
a natureza multidisciplinar desta rea emergente de atuao cientfica. Duas
caractersticas geralmente presentes em problemas para os quais uma rede neural
artificial
representa
uma
das
poucas
alternativas
de
soluo
so:
multidimensionalidade e variveis sujeitas a interaes no-lineares, desconhecidas ou

matematicamente intratveis de forma direta.
31

DCA/FEEC/Unicamp
Unidade Central de
Processamento
Computador
Registradores
I/O
Unidade de
Controle
UCP
Barramentos
Barramentos
internos
Memria
Unidade
Aritmtica e
Lgica
32

DCA/FEEC/Unicamp
Todos os problemas
Problemas
factveis
Problemas computveis
Cenrio desafiador para a computao digital

Como abordar os problemas na regio hachurada?
33

DCA/FEEC/Unicamp
Exemplo genrico de um neurocomputador
34

DCA/FEEC/Unicamp
Rede = ns + conexes (paradigma conexionista)

35

DCA/FEEC/Unicamp
8. Nveis de Organizao no Sistema Nervoso

O sistema nervoso pode ser organizado em diferentes nveis: molculas, sinapses,
neurnios, camadas, mapas e sistemas.
Uma estrutura facilmente identificvel no sistema nervoso o neurnio, especialista
em processamento de sinais.
Dependendo das condies de operao, os neurnios so capazes de gerar um sinal,
mais especificamente um potencial eltrico, que utilizado para transmitir informao
a outras clulas.
h
N e tw o rk o f
n e u ro n s
N e u ro n
B ra in
S yn a p se
36

DCA/FEEC/Unicamp
8.1 Neurnios e Sinapses

Os neurnios utilizam uma variedade de mecanismos bioqumicos para o
processamento e transmisso de informao, incluindo os canais inicos.
Os canais inicos permitem um fluxo contnuo de entrada e sada de correntes
(eltricas), a liberao de neurotransmissores e a gerao e propagao de potenciais
de ao.
O processo de transmisso de sinais entre neurnios fundamental para a capacidade
de processamento de informao do crebro.
Uma das descobertas mais relevantes em neurocincia foi a de que a efetividade da
transmisso de sinais pode ser modulada, permitindo que o crebro se adapte a
diferentes situaes.
A plasticidade sinptica, ou seja, a capacidade das sinapses sofrerem modificaes,
o ingrediente-chave para o aprendizado da maioria das RNAs.
Os neurnios podem receber e enviar sinais de/para vrios outros neurnios.
37

DCA/FEEC/Unicamp
Os neurnios que enviam sinais, chamados de neurnios pr-sinpticos ou

enviadores, fazem contato com os neurnios receptores ou ps-sinpticos em
regies especializadas, denominadas de sinapses.
D endrites
S ynaptic
clefts
A x on
A x on hillock
M ielin sheath
C ell body
(som a)
A sinapse , portanto, a juno entre o axnio de um neurnio pr-sinptico e o

dendrito ou corpo celular de um neurnio ps-sinptico (ver figura acima).
38

DCA/FEEC/Unicamp
A capacidade de processamento de informao das sinapses permite que elas alterem

o estado de um neurnio ps-sinptico, eventualmente gerando um pulso eltrico,
denominado potencial de ao, no neurnio ps-sinptico.
Logo, um neurnio pode ser visto como um dispositivo capaz de receber estmulos (de
entrada) de diversos outros neurnios e propagar sua nica sada, funo dos estmulos
recebidos e do estado interno, a vrios outros neurnios.
Existem diversos mecanismos envolvidos na transmisso de informao (sinais) entre
neurnios. Como os neurnios so clulas encapsuladas por membranas, pequenas
aberturas nestas membranas (canais) permitem a transferncia de informao entre
eles.
Os mecanismos bsicos de processamento de informao so baseados no movimento
de tomos carregados, ou ons:
Os neurnios habitam um ambiente lquido contendo uma certa concentrao de
ons, que podem entrar ou sair do neurnio atravs dos canais.
39

DCA/FEEC/Unicamp
Um neurnio capaz de alterar o potencial eltrico de outros neurnios,

denominado de potencial de membrana, que dado pela diferena do potencial
eltrico dentro e fora do neurnio.
Quando um potencial de ao chega ao final do axnio, ele promove a liberao de
neurotransmissores (substncias qumicas) na fenda sinptica, os quais se difundem
e se ligam a receptores no neurnio ps-sinptico.
Essa ligao entre neurotransmissores e receptores conduz abertura dos canais
inicos, permitindo a entrada de ons na clula. A diferena de potencial resultante
apresenta a forma de um pulso eltrico.
Esses pulsos eltricos se propagam pelo neurnio ps-sinptico e so integrados no
corpo celular. A ativao do neurnio ps-sinptico ir se dar no caso do efeito
resultante destes pulsos eltricos integrados ultrapassar um dado limiar.
Alguns neurotransmissores possuem a capacidade de ativar um neurnio enquanto
outros possuem a capacidade de inibir a ativao do neurnio.
40

DCA/FEEC/Unicamp
A sinapse uma fenda entre os terminais pr-sinptico e ps-sinptico, medindo ~20

nm.
41

DCA/FEEC/Unicamp
42

DCA/FEEC/Unicamp
43

DCA/FEEC/Unicamp
Neurotransmissores putativos: serotonina, endorfina, dopamina, etc. Ao todo, so mais

de 30 compostos orgnicos.
O mal de Parkinson, por exemplo, atribudo a uma deficincia de dopamina.
44

DCA/FEEC/Unicamp
45

DCA/FEEC/Unicamp
A ativao de um neurnio tambm denominada de spiking, firing, ou disparo de um

potencial de ao (triggering of an action potential).
46

DCA/FEEC/Unicamp
Passos envolvidos no estabelecimento e extino do potencial de ao:

1. Em uma clula em repouso, a parte externa da membrana mais positiva que a
parte interna, havendo mais ons de potssio dentro da clula e mais ons de sdio
fora da clula.
2. Pela ao dos neurotransmissores na sinapse, ons de sdio se movem para dentro
da clula, causando uma diferena de potencial denominada potencial de ao.
Com esta entrada de ons de sdio, o interior da clula passa a ser mais positivo
que o exterior.
3. Em seguida, ons de potssio fluem para fora da clula, restaurando a condio de
interior mais negativo que exterior.
4. Com as bombas de sdio-potssio, restaurada finalmente a condio de maior
concentrao de ons de potssio dentro da clula e maior concentrao de ons
de sdio fora da clula.
Segue-se um perodo refratrio, durante o qual a membrana no pode ser estimulada,
evitando assim a retropropagao do estmulo.
47

DCA/FEEC/Unicamp
Bombas de sdio e potssio: os ons de sdio que haviam entrado no neurnio durante
a despolarizao, so rebombeados para fora do neurnio mediante o funcionamento
das bombas de sdio e potssio, que exigem gasto de energia.
Para cada molcula de ATP empregada no bombeamento, 3 ons de sdio so
bombeados para fora e dois ons de potssio so bombeados para dentro da clula.
Esta etapa ocorre aps a faixa azul da figura anterior.
Neurnio perifrico
Neurnio do crtex
48

DCA/FEEC/Unicamp
crtex
corresponde
superfcie
externa
do
crebro:
uma
estrutura
predominantemente bi-dimensional com vrios dobramentos, fissuras e elevaes.

Diferentes partes do crtex possuem diferentes funes (ver figura abaixo).
49

DCA/FEEC/Unicamp
Ouvindo palavras
Lendo palavras
Falando palavras
Pensando em palavras
Functional magnetic resonance imaging or functional MRI (fMRI)
50

DCA/FEEC/Unicamp
Reconstruo computadorizada da destruio do crebro de Phineas Gage por uma barra

de ferro no ano de 1848.
51

DCA/FEEC/Unicamp
Presena de vias de comunicao no crebro
52

DCA/FEEC/Unicamp
8.2 Base Biolgica e Fsica da Aprendizagem e Memria

O sistema nervoso est continuamente sofrendo modificaes e atualizaes.
Virtualmente todas as suas funes, incluindo percepo, controle motor, regulao
trmica e raciocnio, so modificadas por estmulos.
Observaes comportamentais permitiram verificar graus de plasticidade do sistema
nervoso: existem mudanas rpidas e superficiais, mudanas lentas e profundas, e
mudanas mais permanentes (porm, ainda modificveis).
Em geral, efeitos globais so resultantes de alteraes locais nos neurnios.
Existem diversas formas de modificao em uma rede neural:
Dendritos podem ser criados, assim como podem ser eliminados;
Alguns dendritos e o axnio podem se esticar ou ser encolhidos permitindo ou
eliminando, respectivamente, a conexo com outras clulas;
Novas sinapses podem ser criadas ou sofrerem alteraes;
Sinapses tambm podem ser removidas;
53

DCA/FEEC/Unicamp
Todo neurnio pode sofrer regenerao ou pode morrer;

Novos neurnios podem ser gerados e incorporados ao sistema nervoso.
Toda esta vasta gama de adaptaes estruturais pode ser convenientemente
condensada simplesmente referindo-se s sinapses, pois estas modificaes envolvem
a modulao sinptica de forma direta ou indireta. Sendo assim, a aprendizagem via
modulao sinptica o mecanismo mais importante para as redes neurais, sejam elas
biolgicas ou artificiais.
A modulao sinptica poder depender de mecanismos de adaptao de neurnios
individuais e de redes neurais como um todo.
Assim como a aprendizagem, a memria tambm resultado de um processo
adaptativo das sinapses. Ela causada por variaes da eficincia sinptica de alguns
neurnios, como resultado da atividade neural.
Estas alteraes resultam em caminhos novos ou facilitados de desenvolvimento e
transmisso de sinais atravs dos circuitos neurais.
54

DCA/FEEC/Unicamp
Na verdade, um dos resultados de um processo de aprendizagem a criao de um

padro de conexes sinpticas mais permanente, que por sua vez resulta na
memorizao (aprendizagem) de uma determinada experincia.
Note, portanto, que a diferena entre aprendizagem e memria sutil: a aprendizagem
pode ser vista como o processo adaptativo que resulta em uma mudana da eficincia
e estrutura sinptica, enquanto a memria pode ser interpretada como o resultado deste
processo adaptativo.
9. Neurnio artificial
Modelo matemtico: Simplificaes da realidade com o propsito de representar
aspectos relevantes de um sistema em estudo, sendo que detalhes de menor
significncia so descartados para viabilizar a modelagem.
55

DCA/FEEC/Unicamp
x2
xm
bk Limiar(bias)
wk1
Funo de
ativao
wk2
Entradas
x1
Pesos das
conexes
wkm
uk
yk
Figura 1 Modelo matemtico de um

neurnio artificial
f(uk)
Sada
Juno
somadora
y
=
f
(
u
)
=
f
w
x
+
b
k
k
A sada do neurnio k pode ser descrita por: k
kj j
j =1
possvel simplificar a notao acima de forma a incluir o bias simplesmente

definindo um sinal de entrada de valor x0 = 1 com peso associado wk0 = bk:
( )
yk = f (uk ) = f wkj x j = f w T x
j =0
56

DCA/FEEC/Unicamp
10. Exemplos mais usuais de funes de ativao
e pu k
1
y = f (u k ) = pu
=
e k + 1 1 + e pu k
y
= pu k (1 u k ) > 0
u k
0.8
1
0.7
p=3
0.8
0.6
p=1.5
p=3
p=0.8
0.5
0.6
p=1.5
0.4
p=0.8
0.4
0.3
0.2
0.2
0.1
0
-5
0
-5
a)
b)
Figura 2 Funo logstica (a) e sua derivada em relao entrada interna (b)
57

DCA/FEEC/Unicamp
e pu k e pu k
y = f (u k ) = tanh( pu k ) = pu
e k + e pu k
y
= p (1 u 2k ) > 0
u k
2.5
1
p=2.2
2
p=1
0.5
p=0.6
p=2.2
1.5
p=1
p=0.6
-0.5
0.5
-1
-5
a)
0
-5
b)
Figura 3 Funo tangente hiperblica (a) e sua derivada em relao entrada interna (b)
58

DCA/FEEC/Unicamp
11. Produto interno e projeo

v1
v1- av2
av2
v2
Figura 4 Projeo realizada pelo produto interno no 2
Sejam v1, v2 2 elementos no-nulos. Considere um escalar a tal que av2

corresponda projeo de v1 na direo de v2. Ento, pode-se afirmar que
av 2 v 1 av 2 ,
conduzindo a
av 2 , v1 av 2 = 0 .
Logo,
59

DCA/FEEC/Unicamp
a v 2 , v1 a 2 v 2 , v 2 = 0 ,
permitindo obter a na forma
a=
v 2 , v1
v2 , v2 .
Isto significa que a projeo de v1 na direo de v2 (v2 0) assume a forma:
projv2 ( v1 ) =
v 2 , v1
v2
v2 , v2
Mantendo constante o mdulo de v1, a sua projeo na direo de v2 to maior

quanto mais colineares forem esses dois vetores.
60

DCA/FEEC/Unicamp
12. Funo de expanso ortogonal

1
0.8
1
0.8
0.6
f ( x)
j
f (vT x)
j
0.6
0.4
0.4
0.2
0
4
0.2
4
2
0
-4
-2
x2
-2
-2
-4
-4
(a)
f j (x) = e
0, 5x 2
T
f
(
v
x) = e
(b) j
x1
0, 5 [1 0 ] 1
x2
T
T
Figura 5 Funo de expanso ortogonal em que v = [1 0] e x =[ x1 x 2 ]
A funo de expanso ortogonal conhecida na literatura em lngua inglesa como

ridge function.
61

DCA/FEEC/Unicamp
13. Redes neurais e perceptron com uma camada intermediria

O processo de conexo entre neurnios artificiais leva gerao de sinapses e
construo de redes neurais artificiais.
yj
wi0
w
ui
xij
yi
wij
w
Figura 6 Estabelecimento de conexo entre dois neurnios artificiais
As estruturas mais conhecidas so em camadas, onde a sada de cada neurnio de uma

camada precedente entrada para todos os neurnios da camada seguinte.
62

DCA/FEEC/Unicamp
1
v10
v11
+
y1
1
x1
v1m
w11
v20
w 12
^s
1
^s
r
y2
v21
+
xm
w10
w 1n
v2m
w r0
wr1
w r2
vn0
yn
vn1
+
w rn
vnm
Figura 7 Rede neural perceptron com uma camada intermediria

Do ingls Multilayer Perceptron (MLP)
( )
m
n
s k = wkj f v ji xi = wkj f vTj x = g k (x , ), k = 1,..., r
j =0
i =0
j =0
n
63

DCA/FEEC/Unicamp
14. Contribuio de cada neurnio em uma rede MLP

O mapeamento no-linear realizado por uma rede neural do tipo perceptron de uma
camada intermediria uma combinao linear de funes de expanso ortogonal,
ou seja, funes que tm a forma de tangente hiperblica em uma direo e so
constantes nas demais direes ortogonais a esta nica direo em que a forma da
funo se manifesta.
Como um exemplo, vamos tomar amostras de um mapeamento do 2 para o 1, e
utilizar uma rede neural com 5 neurnios na camada intermediria para buscar
aproximar este mapeamento, o qual pode ser visualizado no 3.
Os pesos sinpticos resultantes do processo de treinamento esto apresentados na
sequncia, sendo que a rede neural tem ao todo 3 5 + 6 1 = 21 pesos ajustveis.
So 2 entradas, 5 neurnios na camada intermediria e 1 sada, mais as entradas
constantes (entradas de polarizao) de todos os 6 neurnios da rede neural.
64

DCA/FEEC/Unicamp
Pesos sinpticos da camada intermediria (cada coluna representa os pesos de um

neurnio):
-0.20008939714462 -0.70051908010040 0.39699221844113 -0.10003863267278 0.69606262467282
0.70018168528932 0.10015860417667 0.19860028823484 -0.29996195303800 0.29869112235480
-0.30006398146599 0.80022209855791 0.49372400421686 0.50005427222963 0.89515012131364
Pesos sinpticos da camada de sada:

0.99989340388393
0.79971888341317
0.90007841696146
0.38564988369799
0.79996881679466
0.71442550587375
Obs: O peso de polarizao o primeiro peso de cada neurnio.
65

DCA/FEEC/Unicamp
Figura 8 Mapeamento a ser aproximado
66

DCA/FEEC/Unicamp
Figura 9 Contribuio do neurnio 1, j multiplicada pelo peso do neurnio de sada.
67

DCA/FEEC/Unicamp
68

DCA/FEEC/Unicamp
69

DCA/FEEC/Unicamp
70

DCA/FEEC/Unicamp
71

DCA/FEEC/Unicamp
15. O papel dos pesos sinpticos

p
y = c0 + cn g (bn x + a n )
n =1
a1
u1
y1
1
c0
b1
c1
y
a2
c2
u2
y2
b2
a : deslocamento no eixo x
y = c0 + c1 g (b1 x + a1 ) + c2 g (b2 x + a 2 ) b : inclinao da sigmide

c : amplitude da sigmide
72

DCA/FEEC/Unicamp
Exemplo: Forma construtiva de aproximao de um mapeamento no-linear

empregando neurnios com funo de ativao do tipo tangente hiperblica. Exemplo
considerando um nico estmulo de entrada.
f (w ) = c1 g (b1 x + a1 ) + c2 g (b2 x + a2 ) + c3 g (b3 x + a3 ) + c4 g (b4 x + a4 ) + c5 g (b5 x + a5 ) + c0

142
4 43
4 14
4244
3 142
4244
3 142
4 43
4 14
4 43
4 {
a
bias
73

DCA/FEEC/Unicamp
0.6
0.6
0.4
0.4
0.2
0.2
-0.2
-0.2
-0.4
-0.4
-0.6
-0.6
-0.8
-0.8
-1
a+b+c+d
-1
0.6
0.6
0.4
0.4
0.2
bias
0.2
-0.2
-0.2
-0.4
-0.4
a+b
-0.6
-0.6
-0.8
a+b+c+d+e
-0.8
-1
-1
0.6
0.6
0.4
0.4
0.2
0.2
-0.2
-0.2
-0.4
-0.4
a+b+c
-0.6
-0.8
a+b+c+d+e+bias
-0.6
-0.8
-1
-1
Figura 14 Composio aditiva de ativaes na reproduo de um mapeamento no-linear

O mapeamento a ser aproximado encontra-se na ltima figura direita.
74

DCA/FEEC/Unicamp
16. Superfcie de erro

Seja X uma regio compacta do m e seja g: X m a funo a ser aproximada
(formulao para uma nica sada, r = 1);
O conjunto de dados de aproximao {(x l , sl ) m }lN=1 gerado considerando-se
que os vetores de entrada xl esto distribudos na regio compacta X m de acordo
com uma funo densidade de probabilidade fixa dP: X m [0,1] e que os vetores
de sada sl so produzidos pelo mapeamento definido pela funo g na forma:
sl = g ( x l ) + l , l = 1,..., N ,
onde l uma varivel aleatria de mdia zero e varincia fixa.

A funo g que associa a cada vetor de entrada x X uma sada escalar s pode
m
N
ser aproximada com base no conjunto de dados de aproximao {(x l , sl ) }l =1
por uma composio aditiva de funes de expanso ortogonal na forma:
75

DCA/FEEC/Unicamp
m
n
sl = g (xl , ) = w j f v ji xli = w j f vTj xl
j =0
i =0
j =0
n
onde o vetor contendo todos os pesos da rede neural.

Logo, o erro quadrtico mdio produzido na sada da rede neural, considerando as N
amostras, assume a forma:
1
J ( ) =
N
(s l sl )
l =1
1
=
N
g
s
(
(
x
,
)
=
l
l
l =1
1
1
= w j f v ji xli sl =
N l =1 j = 0
N
i =0
w j f v j xl sl
l =1 j = 0
P
1
Sendo P a dimenso do vetor , ento tem-se que: J : .
P +1
A superfcie de erro definida por J ( ) reside no espao , sendo que deve-se
P
buscar em um ponto que minimiza J ( ) , supondo que se queira minimizar o erro
entre a sada produzida pelo rede neural e a sada desejada.

76

DCA/FEEC/Unicamp
17. Aprendizado a partir de dados amostrados

O aprendizado supervisionado visto como um problema de otimizao no-linear
A funo-objetivo (critrio de desempenho a ser otimizado) e os parmetros
ajustveis:
min J ( )
Formalizao matemtica do que se quer otimizar + mtodo de soluo

Soluo na forma fechada Busca iterativa
Os dados de entrada/sada e a questo dos 3 mapeamentos envolvidos no processo:
1. O mapeamento a ser aproximado (do qual se conhece apenas dados amostrados);
2. O mapeamento resultante do processo de aproximao;
3. O mapeamento entre cada vetor de pesos e o erro: superfcie de erro.
77

DCA/FEEC/Unicamp
Figura 15 Mapeamento desconhecido a ser aproximado
78

DCA/FEEC/Unicamp
Figura 16 Exemplo de regio de operao. uma regio compacta (fechada e

limitada).
79

DCA/FEEC/Unicamp
Figura 17 Amostras expressando o comportamento da funo para pontos especficos

da regio de operao. Essas amostras comporo os conjuntos de treinamento e
validao (sendo que os dois conjuntos so independentes entre si)
80

DCA/FEEC/Unicamp
(a)
(b)
(c)
(d)
Figura 18 (a) Funo a ser aproximada (agora considerando apenas uma entrada); (b)
Amostras disponveis; (c) Resultado de um processo de aproximao com
sobretreinamento; (d) Resultado de um processo de aproximao sem sobretreinamento.
81

DCA/FEEC/Unicamp
(a)
(b)
Figura 19 Comparao de desempenho para dados de treinamento e validao, de

modo a medir a capacidade de generalizao dos mapeamentos produzidos.
O mapeamento da esquerda apresenta um erro de treinamento muito baixo, mas um
erro de validao bastante elevado, quando comparado ao mapeamento da direita.
82

DCA/FEEC/Unicamp
18. O problema do OU-exclusivo em MLP

Considere os pontos (0,0),(0,1),(1,0) e (1,1) no plano 2, conforme apresentado na
Figura 20. O objetivo determinar uma rede com duas entradas xi {0,1} (i=1,2), e
( x , x ) = (0,0) ou (1,1) y = 0
uma sada y {0,1} de maneira que: 1 2
( x 1 , x 2 ) = (1,0) ou (0,1) y = 1
(1,0)
(1,1)
y=0
y=1
x
(0,0)
(0,1)
Figura 20 O problema do OU-exclusivo
83

DCA/FEEC/Unicamp
Inicialmente ser analisado o comportamento de um neurnio tipo perceptron (veja

Figura 21) no processo de soluo do problema exposto acima. A sada y pode ser
representada na forma:
g(u) = 1 se u 0
y = g(w1x1 + w2x2 + w0) onde
g(u) = 0 se u < 0
1
w0
x1
w1
x2
w2
Figura 21 Neurnio tipo perceptron, com duas entradas (mais a polarizao)

Para qualquer valor dos parmetros w0 , w1 e w2, a funo g(u) separa o espao de
entradas em duas regies, sendo que a curva de separao uma linha reta.
84

DCA/FEEC/Unicamp
0.5
0
5
5
0
x2
0
-5
-5
x1
Figura 22 Mapeamento de entrada-sada para o perceptron da Figura 21,

com w0 = 6, w1 = 4 e w2 = 3
Aqui tomou-se a funo g() como sendo a funo sinal, pois as sadas so binrias.
85

DCA/FEEC/Unicamp
No problema do OU-exclusivo (Figura 20), pode-se constatar que no existe uma

nica linha reta divisria de forma que os pontos (0,0) e (1,1) se posicionem de um
lado enquanto que (0,1) e (1,0) permaneam do outro lado da linha.
Logo, pode-se imediatamente concluir que um neurnio tipo perceptron no apresenta
grau de liberdade suficiente para resolver o problema proposto, o que foi corretamente
constatado por Minsky & Papert, em 1969.
No entanto, esses autores tambm acreditavam que no havia razo para supor que
redes multicamadas pudessem conduzir a uma soluo para o problema proposto. Esta
hiptese s foi definitivamente rejeitada com o desenvolvimento do algoritmo de
retro-propagao (back-propagation), j nos anos 80, o qual permite o ajuste
automtico de pesos para redes neurais multicamadas, arquitetura necessria para a
realizao de mapeamentos no-lineares.
Considere o problema de mapeamento de uma rede neural tipo perceptron, com uma
camada intermediria (Figura 23), aplicada ao problema do OU-exclusivo.
86

DCA/FEEC/Unicamp
w10
1
w11
w12
x1
x2
w20
w0
z1
z2
w1
w2
w21
w22
Figura 23 Perceptron de trs camadas (uma camada intermediria)

A camada de entrada fornece um vetor de entrada (x1,x2) para a camada intermediria,
enquanto que a camada intermediria produz duas sadas z1=sgn(w10+w11x1+w12x2) e
z2=sgn(w20+w21x1+w22x2). Na camada de sada, o sinal de sada da rede neural dado
por y=sgn(w0+w1z1+w2z2).
Surge uma questo: Existem parmetros wij (i=1,2; j=0,1,2) e wk (k = 0,1,2) tais que
y = 0 para as entradas (0,0) e (1,1) e y = 1 para as entradas (1,0) e (0,1)?
87

DCA/FEEC/Unicamp
As sadas da primeira camada (z1 e z2) podem ser consideradas como variveis
intermedirias utilizadas na gerao da sada y.
Do que j foi visto a respeito de um neurnio tipo perceptron, sabe-se que existem
pesos w1j (j=0,1,2) tais que (veja curva de separao L1 na Figura 24(a)):
(0,1) produza z1 = 1
(0,0),(1,0),(1,1) produza z1 = 0.
De forma similar, existem pesos w2j (j=0,1,2) tais que (veja curva de separao L2 na
Figura 24(a)):
(0,1),(0,0),(1,1) produza z2 = 1
(1,0) produza z2 = 0
88

DCA/FEEC/Unicamp
L1
(0,1)
(1,1)
L3
(0,1)
(1,1)
L2
x
(1,0)
(0,0)
(a)
z
(0,0)
(b)
Figura 24 Realizao da funo OU-exclusivo

A discusso acima mostra que existem pesos wij (i=1,2; j=0,1,2) de maneira que a
entrada (0,1) resulte em z1 = 1, z2 = 1, e a entrada (1,0) resulte em z1 = 0, z2 = 0,
enquanto que (0,0) e (1,1) produzam z1 = 0, z2 = 1. J que (0,0) e (1,1) podem ser
separados linearmente de (0,1), como mostrado na Figura 24(b) pela curva de
separao L3, pode-se concluir que a funo booleana desejada pode ser obtida
utilizando-se perceptrons em cascata, ou seja, 3 neurnios do tipo perceptron.
89

DCA/FEEC/Unicamp
19. Otimizao no-linear e capacidade de generalizao

Diversos tipos de parmetros da rede neural poderiam ser submetidos a processos de
ajuste durante o treinamento, como (i) pesos sinpticos; (ii) parmetros da funo de
ativao de cada neurnio; (iii) nmero de neurnios na camada intermediria; (iv)
nmero de camadas intermedirias.
Iremos nos restringir aqui ao ajuste dos pesos sinpticos. Neste caso, o processo de
treinamento supervisionado de redes neurais artificiais multicamadas equivalente a
um problema de otimizao no-linear irrestrita, em que a superfcie de erro
minimizada a partir do ajuste dos pesos sinpticos.
Iremos nos restringir tambm a perceptrons com uma nica camada intermediria,
visto que com apenas uma camada intermediria a rede neural j apresenta
capacidade de aproximao universal (CYBENKO, 1989; HORNIK et al., 1989;
HORNIK et al., 1990; HORNIK et al., 1994).
90

DCA/FEEC/Unicamp
Um problema comum a todos os modelos de aproximao de funes que possuem

capacidade de aproximao universal, no apenas redes neurais artificiais do tipo
MLP, a necessidade de controlar adequadamente o seu grau de flexibilidade.
Como o conjunto de amostras disponvel para treinamento supervisionado finito,
infinitos mapeamentos podem produzir o mesmo desempenho de aproximao,
independente do critrio de desempenho adotado. Esses mapeamentos alternativos vo
diferir justamente onde no h amostras disponveis para diferenci-los.
Visando maximizar a capacidade de generalizao do modelo de aproximao (no
caso, uma rede neural MLP), ou seja, buscando encontrar o grau de flexibilidade
adequado para o modelo de aproximao (dada a demanda da aplicao), um
procedimento recomendado dividir o conjunto de amostras disponvel para
treinamento em dois: um conjunto que ser efetivamente empregado no ajuste dos
pesos (conjunto de treinamento) e um conjunto que ser empregado para definir o
momento de interromper o treinamento (conjunto de validao).
91

DCA/FEEC/Unicamp
Deve-se assegurar que ambos os conjuntos sejam suficientemente representativos do

mapeamento que se pretende aproximar. Assim, minimizar o erro junto ao conjunto de
validao implica em maximizar a capacidade de generalizao. Logo, espera-se que a
rede neural que minimiza o erro junto ao conjunto de validao (no usado para o
ajuste dos pesos) tenha o melhor desempenho possvel junto a novas amostras.
A figura alto/esquerda a seguir mostra um mapeamento unidimensional a ser
aproximado (desconhecido pela rede neural) e amostras sujeitas a rudo de mdia zero
(nica informao disponvel para o treinamento da rede neural). A figura alto/direita
mostra o resultado da aproximao produzida por uma rede neural com muito poucos
neurnios, a qual foi incapaz de realizar a aproximao (tem baixa flexibilidade).
92

DCA/FEEC/Unicamp
1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
-0.2
-0.2
-0.4
-0.4
-0.6
-0.6
-0.8
-0.8
-1.0
-1.0
-3
-2
-1
-3
1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
-0.2
-0.2
-0.4
-0.4
-0.6
-0.6
-0.8
-0.8
-1.0
-1.0
-3
-2
-1
-3
-2
-2
-1
-1
Figura 25 Dados amostrados, funo a ser aproximada e modelos de aproximao com diferentes
capacidades de generalizao
93

DCA/FEEC/Unicamp
J as figuras baixo/esquerda e baixo/direita mostram o resultado de uma mesma rede

neural (com nmero suficiente de neurnios), mas esquerda ocorreu sobretreinamento, enquanto que direita o treinamento foi interrompido quando
minimizou-se o erro junto a dados de validao (no apresentados).
Curvas tpicas de erro de treinamento e validao so apresentadas a seguir.
_ _ _ Erro de treinamento, ____ Erro de Validao
_ _ _ Erro de treinamento, ____ Erro de Validao

0.18
0.04
0.16
0.035
0.14
0.03
0.12
0.025
0.1
0.02
0.08
0.015
0.06
0.01
0.04
0.005
0.02
0
50
100
pocas
150
200
100
200
300
400
500
pocas
Figura 26 Ilustraes tpicas da evoluo, ao longo das pocas de treinamento, dos erros de
treinamento e de validao em treinamento supervisionado de redes MLP.
94

DCA/FEEC/Unicamp
No entanto, nem sempre o erro de validao apresenta este comportamento, e cada

caso deve ser analisado isoladamente. Como a curva do erro de validao oscila
bastante e esboa um comportamento pouco previsvel, no indicado desenvolver
detectores automticos de mnimos e encerrar o treinamento ali. O mais indicado
sobre-treinar a rede e armazenar os pesos associados ao mnimo do erro de validao.
No existe um consenso sobre como fazer o melhor particionamento do conjunto de
dados, ou seja, sobre como dividi-lo de forma que possamos encontrar uma rede com
a melhor capacidade de generalizao em todos os casos. Uma sugesto de partida
pode ser 80% das amostras para treinamento e 20% para validao.
Quando as amostras correspondem a dados rotulados em problemas de classificao
de padres, procure respeitar a distribuio junto a cada classe.
95

DCA/FEEC/Unicamp
19.1 Gradiente, hessiana e algoritmos de otimizao

Considere uma funo contnua e diferencivel at 2a. ordem em todos os pontos do
domnio de interesse, tal que: f: n
e x n
Expanso em srie de Taylor em torno do ponto x* n:

f ( x ) = f ( x*) + f ( x*)T (x x *) +
f ( x*)
x
f ( x1*)
f ( x*) = x 2
M
f ( x*)
x
1
(x x *)T 2 f (x*)(x x *) + O (3)
2
2 f ( x*)
2
x
1
2
f ( x*)
2 f ( x*) = x 2 x1
2 f ( x*)
x x
n 1
Vetor gradiente
2 f ( x*)
2 f ( x*)
L
x1x 2
x1x n
2
f ( x*)
x 22
2
f ( x*)
L
x n2
Matriz hessiana
96

DCA/FEEC/Unicamp
O algoritmo de retropropagao do erro (do ingls backpropagation) empregado

para obter o vetor gradiente, onde cada elemento do vetor gradiente est associado a
um peso da rede neural e indica o quanto a sada influenciada por uma variao
incremental neste peso.
Na funo cos(x) a seguir, observam-se as aproximaes de primeira, segunda e quarta
ordem em torno do ponto x = 0.
cos(x)
F4(x)
1
-1
-1
-2
-6
-2
-6
-3
F1(x)
F2(x)
-3
x
97

DCA/FEEC/Unicamp
Existem vrias tcnicas para obter exatamente ou aproximadamente a informao de

2a. ordem em redes neurais MLP (BATTITI, 1992; BISHOP, 1992).
O processo de otimizao no-linear envolvido no ajuste de pesos de uma rede neural
vai realizar aproximaes locais de primeira ordem ou de primeira e segunda ordem
junto superfcie de erro e realizar ajustes incrementais e recursivos na forma:
k +1 = k + passo * direo
Parte-se de uma condio inicial 0 e aplica-se iterativamente a frmula acima, sendo
que a direo depende da informao local de primeira e segunda ordem. Cada
proposta de algoritmo de otimizao vai diferir na forma de computar o passo e a
direo de ajuste, a cada iterao.
A figura a seguir apresenta uma classificao dos principais algoritmos empregados
para o treinamento supervisionado de redes neurais artificiais.
98

DCA/FEEC/Unicamp
ESTRATGIAS DE TREINAMENTO
1a ORDEM
SEM DIFERENCIAO
BE
GA
SA
BP
2a ORDEM
GRAD
CG
N-LM
SCG
FR
PR
EMPRICOS
OSS
QN
DFP
QP
MOD .
BFGS
Figura 27 Taxonomia de algoritmos de otimizao para treinamento supervisionado de redes

neurais MLP.
Aquele que utilizado no toolbox fornecido pelo professor o gradiente conjungado

escalonado (do ingls Scaled Conjugate Gradient SCG). Uma vantagem deste
algoritmo que ele apresenta um custo computacional (memria e processamento por
iterao) linear com o nmero de pesos e no quadrtico, como a maioria dos
algoritmos de 2a. ordem.
99

DCA/FEEC/Unicamp
19.2 Mnimos locais

Como o processo de ajuste iterativo e baseado apenas em informaes locais, os
algoritmos de otimizao geralmente convergem para o mnimo local mais prximo,
que pode representar uma soluo inadequada (com nvel de erro acima do aceitvel).
10
-5
-10
Mnimo local
-15
Mnimo global
-20
-2
-1.5
-1
-0.5
0.5
1.5
Figura 28 Exemplo ilustrativo de mnimos local e global (considerando uma nica varivel).
Note que algoritmos de 2a. ordem tendem a convergir mais rpido para os mnimos
locais, mas no se pode afirmar que eles convergem para mnimos de melhor
qualidade que aqueles produzidos pelos algoritmos de primeira ordem.
100

DCA/FEEC/Unicamp
19.3 Condio inicial para os pesos da rede neural

Embora existam tcnicas mais elaboradas, os pesos da rede neural podem ser
inicializados com valores pequenos e aleatoriamente distribudos em torno de zero.
Esta inicializao tende a promover as seguintes propriedades da rede neural inicial:
o O mapeamento inicial realizado pela MLP tende a se aproximar de um
hiperplano, no apresentando, assim, nenhuma tendncia definida, em termos
de comportamento no-linear;
o A ativao de todos os neurnios se encontra fora da regio de saturao,
facilitando o processo de ajuste de pesos, a ser iniciado.
Tcnicas mais elaboradas tendem a considerar conhecimento prvio acerca da
natureza da tarefa a ser desempenhada pela rede neural.
101

DCA/FEEC/Unicamp
20. Processo Iterativo para MLP Mtodo Padro-a-Padro

Defina uma condio inicial para o vetor de pesos w e escolha um passo pequeno;
Faa k = 0 e calcule J (w (k ) ) ;
Enquanto o critrio de parada no for atendido, faa:
Ordene aleatoriamente os padres de entrada-sada;
Para l variando de 1 at N, faa:
Apresente o padro l de entrada rede;
Calcule J l (w(k ) ) e J l (w (k ) );
w ( k + 1) = w (k ) J l (w (k ) );
k = k + 1;
Calcule J (w (k ) ) ;
102

DCA/FEEC/Unicamp
21. Processo Iterativo para MLP Mtodo em Lote ou Batelada

Defina uma condio inicial para o vetor de pesos w e escolha um passo pequeno;
Faa k = 0 e calcule J (w (k ) ) ;
Enquanto o critrio de parada no for atendido, faa:
Para l variando de 1 at N, faa:
Apresente o padro l de entrada rede;
Calcule J l (w(k ) ) e J l (w (k ) );
w ( k + 1) = w (k )
J l (w ( k ) );
N
l =1
k = k + 1;
Calcule J (w (k ) ) ;
103

DCA/FEEC/Unicamp
22. Referncias
ARBIB, M.A. (ed.) The Handbook of Brain Theory and Neural Networks, The MIT Press, 1998.
BATTITI, R. First- and Second-Order Methods for Learning: Between Steepest Descent and Newton's
Method, Neural Computation, vol. 4, no. 2, pp. 141-166, 1992.
BISHOP, C. Exact Calculation of the Hessian Matrix for the Multilayer Perceptron, Neural Comp., vol. 4,
no. 4, pp. 494-501, 1992.
CYBENKO, G. Approximation by superposition of sigmoidal functions, Mathematics of Control, Signals
and Systems, vol. 2, no. 4, pp. 303-314, 1989.
DAYAN, P., ABBOT, L.F. Theoretical Neuroscience: Computational and Mathematical Modeling of Neural
Systems, The MIT Press, 2001.
EDELMAN, G.M. Neural Darwinism: The Theory of Neuronal Group Selection, Basic Books, 1988.
GARDNER, H. Frames of Mind: The Theory of Multiple Intelligences, BasicBooks, 1983.
HAYKIN, S. Neural Networks: A Comprehensive Foundation, 2nd edition, Prentice-Hall, 1999.
HAYKIN, S. Neural Networks and Learning Machines, 3rd edition, Prentice Hall, 2008.
HEBB, D. O. The Organization of Behavior, Wiley, 1949.
104

DCA/FEEC/Unicamp
HINTON, G.E. Connectionist learning procedures, Artificial Intelligence, 40: 185-234, 1989.
HINTON, G. E. & SEJNOWSKI, T.J. Learning and relearning in Boltzmann machines, in D. E. Rumelhart,
J. L. McClelland & The PDP Research Group (eds.) Parallel Distributed Processing: Explorations in
the Microstructure of Cognition, MIT Press, vol. 1, pp. 282-317, 1986.
HOPFIELD, J.J. Neural networks and physical systems with emergent collective computational abilities,
Proceedings of the National Academy of Sciences of the U.S.A., vol. 79, pp. 2554-2558, 1982.
HORNIK, K., STINCHCOMBE, M., WHITE, H. Multi-layer feedforward networks are universal
approximators, Neural Networks, vol. 2, no. 5, pp. 359-366, 1989.
HORNIK, K., STINCHCOMBE, M., WHITE, H. Universal approximation of an unknown function and its
derivatives using multilayer feedforward networks, Neural Networks, vol. 3, no. 5, pp. 551-560, 1990.
HORNIK, K., STINCHCOMBE, M., WHITE, H., AUER, P. Degree of Approximation Results for Feedforward
Networks Approximating Unknown Mappings and Their Derivatives, Neural Computation, vol. 6, no.
6, pp. 1262-1275, 1994.
MCCULLOCH, W.S. & PITTS, W. A logical calculus of the ideas immanent in nervous activity, Bulletin of
Mathematical Biophysics, vol. 5, pp. 115-133, 1943.
MINSKY, M.L. The Society of Mind, Simon & Schuster, 1988.
105

DCA/FEEC/Unicamp
MINSKY, M.L. & PAPERT, S.A. Perceptrons: Introduction to Computational Geometry, Expanded edition,
The MIT Press, 1988 (1st edition: 1969).
NERRAND, O., ROUSSEL-RAGOT, P., PERSONNAZ, L., DREYFUS, G. Neural Networks and Nonlinear
Adaptive Filtering: Unifying Concepts and New Algorithms. Neural Computation, vol. 5, no. 2, pp.
165-199, 1993.
MARR, D. A theory for cerebral neocortex, Proceedings of the Royal Society of London, Series B, 176:
161-234, 1970.
RAMN Y CAJAL, S. Histologie du systme nerveux de l'homme et des vertbr, A. Maloine, Paris, 1909.
RUMELHART, D.E. & MCCLELLAND, J.L. Parallel Distributed Processing: Explorations in the
Microstructure of Cognition, vols. 1 & 2, The MIT Press, 1986.
SCHALKOFF, R.J. Artificial Neural Networks, The McGraw-Hill Companies, 1997.
WIENER, N. Cybernetics, The MIT Press, 1948.
WILSON, R.A., KEIL, F.C. (eds.) The MIT Encyclopedia of the Cognitive Sciences, The MIT Press,
2001.
106

Topico1 EA072 2s2014 Parte1 PDF

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Topico1 EA072 2s2014 Parte1 PDF

Hochgeladen von

Copyright:

Verfügbare Formate

EA072 Prof. Fernando J.

Redes Neurais Artificiais e Mquinas

Leituras complementares e Referncias Bibliogrficas ............................................ 3

EA072 Prof. Fernando J. Von Zuben

10. Exemplos mais usuais de funes de ativao........................................................ 57

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben

1. Leituras complementares e Referncias Bibliogrficas

Neural Networks (Pergamon Press)

Neural Computation (MIT Press)

International Journal of Neural Systems (World Scientific Publishing)

Biological Cybernetics (Springer)

IEEE Transaction on Systems, Man, and Cybernetics (Part B)

Neural Processing Letters (Springer)

Information Sciences (Elsevier)

Cognitive Science (CSS)

Learning & Nonlinear Models (SBIC - Brasil)

Machine Learning (Springer)

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben

Chauvin, Y. & Rumelhart, D.E. (1995) Backpropagation: Theory, Architectures, and

Cristianini N. & Shawe-Taylor, J. (2000) An Introduction to Support Vector Machines and

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben

EA072 Prof. Fernando J. Von Zuben

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben

EA072 Prof. Fernando J. Von Zuben

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben

O dimetro do corpo celular de um

EA072 Prof. Fernando J. Von Zuben

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben

A estrutura e as funcionalidades do crebro so governadas por princpios bsicos de

O ser humano pode reagir simultaneamente a uma quantidade bem limitada de

EA072 Prof. Fernando J. Von Zuben

H um expressivo aumento na densidade de conexes sinpticas da vida embrionria

EA072 Prof. Fernando J. Von Zuben

Evoluo da densidade de sinapses ao longo da vida de um ser humano

EA072 Prof. Fernando J. Von Zuben

Logo, para explicar as conformaes sinpticas, recorre-se a dois mecanismos gerais

EA072 Prof. Fernando J. Von Zuben

Em sntese, possvel afirmar que o padro de conexes no crebro se inicia sem

EA072 Prof. Fernando J. Von Zuben

Ncleo: contm os cromossomos (DNA);

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben

Alm das clulas condutoras, o

nutrientes e regulao qumica.

neurnio a um vaso sanguneo:

EA072 Prof. Fernando J. Von Zuben

Neurnio piramidal do crtex de um hamster

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben

Rede de neurnios piramidais do crtex de um hamster

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben

Desenho do crtex realizado por RAMN Y CAJL (1909)

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben

3. Alguns fatos histricos relevantes

EA072 Prof. Fernando J. Von Zuben