Sie sind auf Seite 1von 106

EA072 Prof. Fernando J.

Von Zuben
DCA/FEEC/Unicamp

Redes Neurais Artificiais e Mquinas


de Aprendizado (Parte 1)
ndice
1.
2.
3.
4.
5.
6.
7.
8.

Leituras complementares e Referncias Bibliogrficas ............................................ 3


Nmeros e nomenclatura ......................................................................................... 8
Alguns fatos histricos relevantes .......................................................................... 21
Algumas questes operacionais ............................................................................. 23
A teoria das trs estruturas .................................................................................... 25
Crebro Eletrnico .................................................................................................. 27
Neurocomputao .................................................................................................. 30
Nveis de Organizao no Sistema Nervoso ............................................................ 36
8.1 Neurnios e Sinapses .......................................................................................... 37
8.2 Base Biolgica e Fsica da Aprendizagem e Memria ......................................... 53
9. Neurnio artificial ................................................................................................... 55
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

10. Exemplos mais usuais de funes de ativao........................................................ 57


11. Produto interno e projeo .................................................................................... 59
12. Funo de expanso ortogonal ............................................................................... 61
13. Redes neurais e perceptron com uma camada intermediria ................................ 62
14. Contribuio de cada neurnio em uma rede MLP ................................................ 64
15. O papel dos pesos sinpticos .................................................................................. 72
16. Superfcie de erro ................................................................................................... 75
17. Aprendizado a partir de dados amostrados............................................................ 77
18. O problema do OU-exclusivo em MLP .................................................................... 83
19. Otimizao no-linear e capacidade de generalizao ........................................... 90
19.1 Gradiente, hessiana e algoritmos de otimizao ................................................ 96
19.2 Mnimos locais .................................................................................................. 100
19.3 Condio inicial para os pesos da rede neural .................................................. 101
20. Processo Iterativo para MLP Mtodo Padro-a-Padro .................................... 102
21. Processo Iterativo para MLP Mtodo em Lote ou Batelada .............................. 103
22. Referncias ........................................................................................................... 104
Nota: Este material contm contribuies dos Profs. Mrcio Luiz de Andrade Netto e Leandro Nunes de Castro
Silva, os quais j participaram do oferecimento da disciplina IA353 Redes Neurais, junto ao Programa de PsGraduao da FEEC/Unicamp.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

1. Leituras complementares e Referncias Bibliogrficas


Pginas WEB:
ftp://ftp.sas.com/pub/neural/FAQ.html (comp.ai.neural-nets FAQ)
http://nips.djvuzone.org/ (Todos os artigos on-line da conferncia Neural Information Processing
Systems (NIPS))
http://ieeexplore.ieee.org/Xplore (Todas as publicao on-line do IEEE, inclusive de conferncias
em redes neurais artificiais, como a International Joint Conference on Neural Networks
(IJCNN))
Peridicos:
IEEE Transactions on Neural Networks and Learning Systems

Neural Networks (Pergamon Press)

Neural Computation (MIT Press)

Neurocomputing (Elsevier)

International Journal of Neural Systems (World Scientific Publishing)

Biological Cybernetics (Springer)

IEEE Transaction on Systems, Man, and Cybernetics (Part B)

Neural Processing Letters (Springer)

Information Sciences (Elsevier)

Cognitive Science (CSS)

Learning & Nonlinear Models (SBIC - Brasil)

Machine Learning (Springer)

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Livros:
1.

Arbib, M.A. (ed.) (2002) The Handbook of Brain Theory and Neural Networks, The MIT
Press, 2nd. edition, ISBN: 0262011972.

2.

Bertsekas, D.P. & Tsitsiklis, J.N. (1996) Neuro-Dynamic Programming, Athena Scientific,
ISBN: 1886529108.

3.

Bishop, C.M. (1996) Neural Networks for Pattern Recognition, Oxford University Press,
ISBN: 0198538642.

4.

Bishop, C.M. (2007) Pattern Recognition and Machine Learning, Springer, ISBN:
0387310738.

5.

Braga, A.P., de Carvalho, A.P.L.F. & Ludermir, T.B. (2007) Redes Neurais Artificiais
Teoria e Aplicaes, Editora LTC, 2a. edio, ISBN: 9788521615644.

6.

Chauvin, Y. & Rumelhart, D.E. (1995) Backpropagation: Theory, Architectures, and


Applications, Lawrence Erlbaum Associates, ISBN: 080581258X.

7.

Cherkassky, V. & Mulier, F. (2007) Learning from Data: Concepts, Theory, and Methods,
2nd edition, Wiley-IEEE Press, ISBN: 0471681822.

8.

Cristianini N. & Shawe-Taylor, J. (2000) An Introduction to Support Vector Machines and


Other Kernel-Based Learning Methods, Cambridge University Press, ISBN: 0521780195.

9.

da Silva, I.N., Spatti, D.H. & Flauzino, R.A. (2010) Redes Neurais Artificiais Para Engenharia
e Cincias Aplicadas, Artliber Editora Ltda., ISBN: 9788588098534.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

10. Dayan, P. & Abbot, L.F. (2001) Theoretical Neuroscience: Computational and Mathematical
Modeling of Neural Systems, The MIT Press, ISBN: 0262041995.
11. Duda, R.O., Hart, P.E. & Stork, D.G. (2000) Pattern Classification, 2nd edition, WileyInterscience, ISBN: 0471056693.
12. Edelman, G.M. (1988) Neural Darwinism: The Theory of Neuronal Group Selection, Basic
Books, ISBN: 0465049346.
13. Fausett, L. (2004) Fundamentals of Neural Networks: Architectures, Algorithms, and
Applications, Dorling Kindersley India, ISBN: 8131700534.
14. Fiesler, E. & Beale, R. (1996) Handbook of Neural Computation, Institute of Physics
Publishing, ISBN: 0750303123.
15. Gardner, H. (2011) Frames of Mind: The Theory of Multiple Intelligences, 3rd edition,
BasicBooks, ISBN: 0465024335.
16. Hassoun, M. (2003) Fundamentals of Artificial Neural Networks, A Bradford Book, ISBN:
0262514672.
17. Hastie, T., Tibshirani, R. & Friedman, J.H. (2001) The Elements of Statistical Learning,
Springer, ISBN: 0387952845.
18. Haykin, S. (2008) Neural Networks and Learning Machines, 3rd edition, Prentice Hall,
ISBN: 0131471392.
19. Hecht-Nielsen, R. (1990) Neurocomputing, Addison-Wesley Publishing Co., ISBN:
0201093553.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

20. Hertz, J., Krogh, A. & Palmer, R. (1991) Introduction to the Theory of Neural Computation,
Addison-Wesley, ISBN: 0201515601.
21. Kearns, M.J., Vazirani, U. (1994) An Introduction to Computational Learning Theory, The
MIT Press, ISBN: 0262111934.
22. Kohonen, T. (1989) Self-Organization and Associative Memory, 3rd edition, SpringerVerlag, ISBN: 0387513876. (1st Edition: 1984; 2nd edition: 1988)
23. Kohonen, T. (2000) Self-Organizing Maps, 3rd Edition, Springer, ISBN: 3540679219.
24. Luenberger, D.G. (1984) Linear and Nonlinear Programming, 2nd edition, Addison-Wesley,
ISBN: 0201157942.
25. Mackay, D.J.C. (2003) Information Theory, Inference and Learning Algorithms, Cambridge
University Press, ISBN: 0521642981.
26. Mardia, K.V., Kent, J.T., Bibby, J.M. (1980) Multivariate Analysis. Academic Press, ISBN:
0124712525.
27. Marsland, S. (2009) Machine Learning: An Algorithmic Perspective, Chapman and
Hall/CRC, ISBN: 1420067184.
28. Masters, T. (1995) Advanced Algorithms for Neural Networks: A C++ Sourcebook, John
Wiley and Sons, ISBN: 0471105880.
29. Minsky, M.L. (1988) The Society of Mind, Simon & Schuster, ISBN: 0671657135.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

30. Minsky, M.L. & Papert, S.A. (1988) Perceptrons: Introduction to Computational Geometry,
Expanded edition, The MIT Press, ISBN: 0262631113. (1st edition: 1969)
31. Mitchell, T.M. (1997) Machine Learning, McGraw-Hill, ISBN: 0071154671.
32. Ripley, B.D. (2008) Pattern Recognition and Neural Networks, Cambridge University Press,
ISBN: 0521717701.
33. Rumelhart, D.E. & McClelland, J.L. (1986) Parallel Distributed Processing: Explorations in
the Microstructure of Cognition, volumes 1 & 2. The MIT Press, ISBN: 026268053X.
34. Schalkoff, R.J. (1997) Artificial Neural Networks, The McGraw-Hill Companies, ISBN:
0071155546.
35. Schlkopf, B. & Smola, A.J. (2001) Learning with Kernels: Support Vector Machines,
Regularization, Optimization, and Beyond, The MIT Press, ISBN: 0262194759.
36. Sutton, R.S. & Barto, A.G. (1998) Reinforcement Learning: An Introduction, The MIT Press,
ISBN: 0262193981.
37. Vapnik V.N. (1998) Statistical Learning Theory, Wiley-Interscience, ISBN: 0471030031.
38. Vapnik V.N. (1999) The Nature of Statistical Learning Theory, 2nd edition, Springer, ISBN:
0387987800.
39. Weigend, A.S. & Gershenfeld, N.A. (eds.) (1993) Time Series Prediction: Forecasting the
Future and Understanding the Past, Perseus Press, ISBN: 0201626020.
40. Wilson, R.A. & Keil, F.C. (eds.) (2001) The MIT Encyclopedia of the Cognitive Sciences,
The MIT Press, ISBN: 0262731444.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

2. Nmeros e nomenclatura
Descoberta do microscpio: ~1590
Descoberta da clula: ~1680
Clula como unidade constituinte dos seres vivos: ~1830
Constituintes bsicos do crebro so os neurnios: Ramn y Cajl, ~1909
O crebro humano pesa ~1,5 quilos e consome ~20% da energia do corpo;
100 gramas de tecido cerebral requerem ~3,5ml de oxignio por minuto;
O crebro humano apresenta ~1011 neurnios e ~1014 sinapses ou conexes, com uma
mdia de ~1000 conexes por neurnio, podendo chegar a ~10000 conexes.
Em seres humanos, 70% dos neurnios esto localizados no crtex;
Tipos de clulas neurais: horizontal, estrelada, piramidal, granular, fusiforme.
Classificao de acordo com a funo: sensoriais, motoras, intrnsecas.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

O dimetro do corpo celular de um


neurnio mede de ~5m (clula
granular)

~60m

(clula

piramidal);
Em termos fisiolgicos, um neurnio
uma clula com a funo especfica
de

receber,

informao

processar
a

outras

enviar

partes

do

organismo.
Um nervo formado por um feixe de
axnios, com cada axnio associado
a um nico neurnio;
Os nervos apresentam comprimentos
variados, podendo chegar a metros.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Estrutura de um nervo

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

10

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

A estrutura e as funcionalidades do crebro so governadas por princpios bsicos de


alocao de recursos e otimizao sujeita a restries.
LAUGHLIN, S.B. & SEJNOWSKI, T.J. (2003) Communication in neuronal networks, Science, vol. 301, no. 5641,
pp. 18701874.

O ser humano pode reagir simultaneamente a uma quantidade bem limitada de


estmulos, o que pode indicar que mecanismos de alocao de recursos (e.g. glicose,
oxignio) baseados em prioridades so implementados no crebro.
NORMAN, D.A. & BOBROW, D.G. (1975) On data-limited and resource-limited processes, Cognitive Psychology,
vol. 7, pp. 44-64.

Alguns autores defendem que o crtex humano pode ser modelado na forma de uma
rede mundo pequeno (BASSETT & BULLMORE, 2006; SPORNS & HONEY, 2006;
SPORNS, 2010) ou ento uma rede complexa (AMARAL & OTTINO, 2004).
AMARAL, L. & OTTINO, J. (2004) Complex networks, The European Physical Journal B Condensed Matter and
Complex Systems, vol. 38, no. 2, pp. 147-162.
BASSETT, D.S. & BULLMORE, E. (2006) Small-world brain networks, Neuroscientist, vol. 12, no. 6, pp. 512-523.
SPORNS, O. & HONEY, C.J. (2006) Small worlds inside big brains, Proceedings of the National Academy of
Science, vol. 103, no. 51, pp. 19219-19220.
SPORNS, O. (2010) Networks of the Brain, The MIT Press, ISBN: 0262014696.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

11

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

H um expressivo aumento na densidade de conexes sinpticas da vida embrionria


at a idade de 2 anos. Quando se atinge a idade de 2 anos, o ser humano apresenta a
maior concentrao de sinapses, a qual se mantm num nvel elevado at o incio da
puberdade. At o trmino da puberdade, h uma queda acentuada no nmero de
sinapses.
Esse processo de ampliao e reduo de sinapses, contudo, no homogneo, pois
nas regies sensrio-motoras este processo ocorre mais cedo, enquanto que ele
retardado em reas associadas aos processos cognitivos.
A reduo de sinapses dramtica: o nmero de sinapses ao trmino da puberdade
pode chegar a 50% do nmero existente com a idade de 2 anos. H uma perda de at
100.000 sinapses por segundo na adolescncia.

KOLB, B & WHISHAW, I.Q. (2008) Fundamentals of Human Neuropsychology, Worth Publishers, 6th. edition,
ISBN: 0716795868.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

12

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

d
e
n
s
i
d
a
d
e

c
o
n
c
e
p

n
a
s
c
i
m
e
n
t
o

f
i
m
d
a

p
u
b
e
r
d
a
d
e

s
e
n
i
l
i
d
a
d
e

Evoluo da densidade de sinapses ao longo da vida de um ser humano


Acredita-se ser impossvel que o cdigo gentico de um indivduo seja capaz de
conduzir todo o processo de organizao topolgica do crebro. Apenas aspectos
gerais dos circuitos envolvidos devem estar codificados geneticamente.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

13

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Logo, para explicar as conformaes sinpticas, recorre-se a dois mecanismos gerais


de perda de sinapses: experience expectant e experience dependent (KOLB &
WHISHAW, 2008).
Podas baseadas em experience expectant esto vinculadas experincia sensorial para
a organizao das sinapses. Geralmente, os padres sinpticos so os mesmos para
membros de uma mesma espcie. A formao de sinapses no crtex visual depende da
exposio a atributos como linha de orientao, cor e movimento.
Podas baseadas em experience dependent esto vinculadas a experincias pessoais
nicas, tal como falar uma lngua distinta. Defende-se que o padro de conexes do
lobo frontal seja formado por podas baseadas em experience dependent.
De fato, a atividade do crtex pr-frontal tende a ser at 4 vezes mais intensa em
crianas do que em adultos, o que permite concluir que poda de parte das conexes e
fortalecimento de outras contribuem para a maturao cognitiva.
CASEY, B.J., TOTTENHAM, N., LISTON, C. & DURSTON, S. (2005) Imaging the developing brain: what have we
learned about cognitive development?, Trends in Cognitive Science, vol. 9, no. 3, pp. 104-110.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

14

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Em sntese, possvel afirmar que o padro de conexes no crebro se inicia sem


muita organizao e com uma grande densidade de sinapses. Com a experincia de
vida, um equilbrio atingido. Logo, como o padro de conexes de um ser humano
adulto obtido a partir da experincia de vida, cada pessoa vai apresentar um padro
de conexes diferente, particularmente nas reas especializadas em cognio. Por
outro lado, o sistema sensrio-motor em um adulto normal deve apresentar uma
conformao similar de outros adultos normais, visto que a poda nessas reas
experience expectant.
FRANCO, A.R. (2009) Resource Allocation of the human brain: a competitive equilibrium approach, Ph. D.
Thesis, The University of New Mexico, Albuquerque, New Mexico, USA.

Voltando agora a ateno para o neurnio biolgico, pode-se afirmar que se trata de
uma clula especializada em transmitir pulsos eltricos, sendo que as suas principais
partes constituintes so:
Membrana celular: a pele da clula;
Citoplasma: tudo que est envolvido pela membrana;
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

15

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Ncleo: contm os cromossomos (DNA);


Ribossomos: geram protenas a partir de mRNAs;
Mitocndria: gera energia para a clula (produz ATP);
Soma: corpo celular, excluindo dendritos e axnio;
Dendritos: parte do neurnio que recebe informao de outros neurnios;
Axnio: parte do neurnio que transmite informao para outros neurnios;
Bainha de mielina: revestimento externo lipdico do axnio, responsvel por
evitar a disperso dos sinais eltricos, como uma capa isolante;
Terminais pr-sinpticos: rea do neurnio que armazena neurotransmissores, os
quais so liberados por potenciais de ao.
Os neurnios sensoriais normalmente tm longos dendritos e axnios curtos. Por outro
lado, os neurnios motores tm um longo axnio e dendritos curtos (transmitem
informao para msculos e glndulas). J os neurnios intrnsecos realizam a
comunicao neurnio-a-neurnio e compem o sistema nervoso central.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

16

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Alm das clulas condutoras, o


crebro possui as clulas nocondutoras, formando a glia
(neurglia).
Os astrcitos se caracterizam
pela riqueza e dimenses de
seus

prolongamentos

cito-

plasmticos, distribudos em
todas as direes. Funes:
prover

suporte

estrutural,

nutrientes e regulao qumica.


Mxima

distncia

de

um

neurnio a um vaso sanguneo:


~50m.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

17

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Neurnio piramidal do crtex de um hamster

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

18

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Rede de neurnios piramidais do crtex de um hamster

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

19

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Desenho do crtex realizado por RAMN Y CAJL (1909)

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

20

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

3. Alguns fatos histricos relevantes


Idade da Iluso
MCCULLOCH & PITTS (1943)
WIENER (1948): ciberntica
MINSKY & PAPPERT (1969): a disputa entre as portas lgicas e os neurnios
artificiais para determinar a unidade bsica de processamento.
Idade das Trevas
Entre 1969 e 1984, houve muito pouca pesquisa cientfica envolvendo redes
neurais artificiais
Renascimento
HOPFIELD (1982)
RUMELHART & MCCLELLAND (1986)
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

21

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Desenvolvimento da capacidade de processamento e memria dos computadores


digitais (simulao computacional / mquina virtual) (anos 80 e 90)
GARDNER (1983; 2011): Mltiplas inteligncias
1.
2.
3.
4.
5.
6.
7.

Vivacidade verbal
Vivacidade matemtico-lgica
Aptido espacial
Gnio cinestsico
Dons musicais
Aptido interpessoal (liderana e ao cooperativa)
Aptido intrapsquica (modelo preciso de si mesmo)

EDELMAN (1988): Neurodarwinismo


MINSKY (1988): Sociedade da mente

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

22

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

4. Algumas questes operacionais


O crebro capaz de perceber regularidades no meio e gerar abstraes e associaes
que capturam a estrutura destas regularidades, possibilitando a predio de
observaes futuras e o planejamento de aes visando o atendimento de mltiplos
objetivos.
Organizao bsica do sistema nervoso (viso de engenharia)

estmulo

sensores

Crebro
+
Redes Perifricas

atuadores

resposta

O uso das mos: propriedades inatas


Tratamento da linguagem: propriedades no-inatas
Nosso crebro se desenvolve conectando clulas cerebrais individuais para criar vias
neurais. As experincias de vida moldam a massa ceflica.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

23

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Assimetria cerebral Aprendizado


Hemisfrio esquerdo (paradigma sequencial): lgica, produo e compreenso da
linguagem, processamento serial (considera informaes pontuais a cada instante),
processamento simblico, inferncia, planejamento, noo de tempo.
Hemisfrio direito (paradigma paralelo): aprendizado e memria espacial, sntese da
percepo, sentimentos e emoes, pensamento associativo, processamento global da
informao, raciocnio por analogia, comparao e identificao de imagens.
Grandes avanos no estudo do crebro:
Neuroimagem funcional (ressonncia magntica)
Neuroprtese
Clulas-tronco (se diferenciando em neurnios)
Doenas do sistema nervoso:
Perda de memria

Esclerose

Alzheimer

Parkinson

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

24

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Nos anos 60, psiclogos e antroplogos realizaram estudos com populaes do mundo
ocidental e outras isoladas, como nativos de Papua-Nova Guin, e concluram que
existem seis expresses corporais bsicas comuns a todos os povos, de qualquer raa,
origem ou etnia: felicidade, tristeza, surpresa, nojo, raiva e medo.
1

5. A teoria das trs estruturas

Em anos recentes, foi proposta uma nova teoria que procura entender o crebro a
partir de trs estruturas distintas, as quais, com a maturidade do indivduo, passam a
operar conjuntamente.
A primeira dessas estruturas o tronco cerebral, tambm denominado crebro
reptiliano. operacional no nascimento e responsvel por nossos reflexos e msculos
involuntrios, como o corao. o tronco cerebral, por exemplo, que nos faz piscar
quando objetos se aproximam dos nossos olhos.

1 Esta seo est baseada em contedos do livro de Philippa Perry, Como manter a mente s, The School of Life, 2012.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

25

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

As outras duas estruturas so o crebro mamfero, ou hemisfrio direito, e o


neomamfero,

ou

hemisfrio

esquerdo.

Essas

duas

estruturas

tm

maior

desenvolvimento nos primeiros cinco anos de vida. Em nossos primeiros dois anos, o
hemisfrio direito muito ativo, enquanto que o esquerdo menos ativo. Nos anos
seguintes, o hemisfrio esquerdo inicia um perodo de notvel atividade.
O hemisfrio direito o mais influente em nossas emoes e instintos. Ele no apenas
se desenvolve primeiro, como tambm permanece no controle. As bases de nossa
personalidade j esto estabelecidas antes que o hemisfrio esquerdo tenha habilidade
para influenci-las.
Usamos o hemisfrio esquerdo para processar experincias em linguagem, para
articular nossos pensamentos e ideias e para elaborar planos de ao. Um cientista, por
exemplo, usa muito o hemisfrio esquerdo.
Muitas vezes, temos boas razes para fazer uma coisa sensata, mas acabamos fazendo
uma outra coisa mesmo assim. A sua parte sensata (o hemisfrio esquerdo) tem a
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

26

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

linguagem, com que dialogamos conosco, mas a outra parte (o hemisfrio direito)
parece ter o poder.
Essencialmente, o hemisfrio esquerdo explica/racionaliza (coloca em palavras) os
sentimentos do hemisfrio direito.

6. Crebro Eletrnico
Primeiro computador eletrnico de propsito geral: ENIAC (1946).
No princpio, os computadores eram chamados de crebros eletrnicos, pois
acreditava-se que eles representavam um caminho direto para a reproduo da
inteligncia.
Neurnios so de 6 a 7 ordens de magnitude mais lentos do que portas lgicas de
silcio (103 seg. 109 seg.)
Eficincia energtica:

Crebro 1016 Joules/operao/seg


Computador 106 Joules/operao/seg

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

27

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Surgimento de uma nova e promissora metodologia: simulao computacional


(mquina virtual).
Simulao de pensamento, resoluo de problemas e mesmo sntese de linguagem
natural nascimento da Inteligncia Artificial (IA)
Embora o computador tenha se transformado em um dos maiores sucessos
tecnolgicos da histria da humanidade, ele no atendeu s expectativas de reproduzir
comportamento inteligente.
Muitos so os exemplos de tarefas que so fceis para o homem e difceis para a
mquina, e vice-versa.
J est disponvel um conhecimento avanado da arquitetura fisiolgica do crebro,
mas ainda um mistrio o mecanismo fundamental empregado pelo crebro para
realizar computao de alto nvel.
Teoria de redes complexas: ao conjunta de um grande nmero de ns, por
acoplamento espao-temporal.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

28

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Da mesma forma que invivel determinar, a partir do acompanhamento sequencial


do estado lgico de seus componentes e das micro-operaes realizadas, a tarefa
(computao de alto nvel) que est sendo executada por um computador
convencional, tambm invivel deduzir os mecanismos de processamento de alto
nvel do crebro a partir do acompanhamento da atividade cerebral, em termos de
sinais produzidos pela ativao dos neurnios (SCHALKOFF, 1997).
Mais bem sucedido, talvez, pode ser o caminho contrrio, ou seja, extrair
conhecimento acerca do desempenho e do potencial de processamento do crebro a
partir de (ou baseado em) simulaes em computadores digitais de modelos
matemticos de redes neurais.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

29

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

7. Neurocomputao
muito comum a associao do conceito de computao com aquele predominante no
caso dos computadores com arquitetura do tipo von Neumann: algoritmos so
elaborados e, em seguida, implementados na forma de programas de computador a
serem executados.
No entanto, a computao realizada pelo crebro requer um outro tipo de definio,
que contemple processamento paralelo e distribudo, alm de aprendizado.
Uma arquitetura neurocomputacional baseada na interconexo de unidades de
processamento simples e similares, denominadas neurnios artificiais e dotadas de
grande poder de adaptao.
H uma diferena de paradigmas entre computadores com arquitetura do tipo
von Neumann e redes neurais artificiais (RNAs): os primeiros realizam processamento
e armazenagem de dados em dispositivos fisicamente distintos, enquanto RNAs usam
o mesmo dispositivo fsico para tal.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

30

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

A motivao que est por trs deste paradigma alternativo de processamento


computacional a possibilidade de elaborar mecanismos distintos de soluo para
problemas intratveis ou ainda no-resolvidos com base na computao convencional,
alm de criar condies para reproduzir habilidades cognitivas e de processamento de
informao muito desejadas em aplicaes de engenharia, mas apresentadas apenas
por algumas espcies animais.
muito importante saber distinguir entre problemas passveis ou no de tratamento
por intermdio deste paradigma conexionista, assim como saber explorar devidamente
a natureza multidisciplinar desta rea emergente de atuao cientfica. Duas
caractersticas geralmente presentes em problemas para os quais uma rede neural
artificial

representa

uma

das

poucas

alternativas

de

soluo

so:

multidimensionalidade e variveis sujeitas a interaes no-lineares, desconhecidas ou


matematicamente intratveis de forma direta.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

31

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Unidade Central de
Processamento

Computador

Registradores
I/O

Unidade de
Controle

UCP
Barramentos

Barramentos
internos

Memria

Unidade
Aritmtica e
Lgica

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

32

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Todos os problemas

Problemas
factveis
Problemas computveis

Cenrio desafiador para a computao digital


Como abordar os problemas na regio hachurada?
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

33

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Exemplo genrico de um neurocomputador

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

34

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Rede = ns + conexes (paradigma conexionista)


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

35

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

8. Nveis de Organizao no Sistema Nervoso


O sistema nervoso pode ser organizado em diferentes nveis: molculas, sinapses,
neurnios, camadas, mapas e sistemas.
Uma estrutura facilmente identificvel no sistema nervoso o neurnio, especialista
em processamento de sinais.
Dependendo das condies de operao, os neurnios so capazes de gerar um sinal,
mais especificamente um potencial eltrico, que utilizado para transmitir informao
a outras clulas.
h

N e tw o rk o f
n e u ro n s

N e u ro n
B ra in

S yn a p se

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

36

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

8.1 Neurnios e Sinapses


Os neurnios utilizam uma variedade de mecanismos bioqumicos para o
processamento e transmisso de informao, incluindo os canais inicos.
Os canais inicos permitem um fluxo contnuo de entrada e sada de correntes
(eltricas), a liberao de neurotransmissores e a gerao e propagao de potenciais
de ao.
O processo de transmisso de sinais entre neurnios fundamental para a capacidade
de processamento de informao do crebro.
Uma das descobertas mais relevantes em neurocincia foi a de que a efetividade da
transmisso de sinais pode ser modulada, permitindo que o crebro se adapte a
diferentes situaes.
A plasticidade sinptica, ou seja, a capacidade das sinapses sofrerem modificaes,
o ingrediente-chave para o aprendizado da maioria das RNAs.
Os neurnios podem receber e enviar sinais de/para vrios outros neurnios.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

37

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Os neurnios que enviam sinais, chamados de neurnios pr-sinpticos ou


enviadores, fazem contato com os neurnios receptores ou ps-sinpticos em
regies especializadas, denominadas de sinapses.

D endrites
S ynaptic
clefts
A x on

A x on hillock
M ielin sheath

C ell body
(som a)

A sinapse , portanto, a juno entre o axnio de um neurnio pr-sinptico e o


dendrito ou corpo celular de um neurnio ps-sinptico (ver figura acima).

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

38

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

A capacidade de processamento de informao das sinapses permite que elas alterem


o estado de um neurnio ps-sinptico, eventualmente gerando um pulso eltrico,
denominado potencial de ao, no neurnio ps-sinptico.
Logo, um neurnio pode ser visto como um dispositivo capaz de receber estmulos (de
entrada) de diversos outros neurnios e propagar sua nica sada, funo dos estmulos
recebidos e do estado interno, a vrios outros neurnios.
Existem diversos mecanismos envolvidos na transmisso de informao (sinais) entre
neurnios. Como os neurnios so clulas encapsuladas por membranas, pequenas
aberturas nestas membranas (canais) permitem a transferncia de informao entre
eles.
Os mecanismos bsicos de processamento de informao so baseados no movimento
de tomos carregados, ou ons:
Os neurnios habitam um ambiente lquido contendo uma certa concentrao de
ons, que podem entrar ou sair do neurnio atravs dos canais.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

39

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Um neurnio capaz de alterar o potencial eltrico de outros neurnios,


denominado de potencial de membrana, que dado pela diferena do potencial
eltrico dentro e fora do neurnio.
Quando um potencial de ao chega ao final do axnio, ele promove a liberao de
neurotransmissores (substncias qumicas) na fenda sinptica, os quais se difundem
e se ligam a receptores no neurnio ps-sinptico.
Essa ligao entre neurotransmissores e receptores conduz abertura dos canais
inicos, permitindo a entrada de ons na clula. A diferena de potencial resultante
apresenta a forma de um pulso eltrico.
Esses pulsos eltricos se propagam pelo neurnio ps-sinptico e so integrados no
corpo celular. A ativao do neurnio ps-sinptico ir se dar no caso do efeito
resultante destes pulsos eltricos integrados ultrapassar um dado limiar.
Alguns neurotransmissores possuem a capacidade de ativar um neurnio enquanto
outros possuem a capacidade de inibir a ativao do neurnio.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

40

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

A sinapse uma fenda entre os terminais pr-sinptico e ps-sinptico, medindo ~20


nm.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

41

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

42

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

43

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Neurotransmissores putativos: serotonina, endorfina, dopamina, etc. Ao todo, so mais


de 30 compostos orgnicos.
O mal de Parkinson, por exemplo, atribudo a uma deficincia de dopamina.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

44

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

45

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

A ativao de um neurnio tambm denominada de spiking, firing, ou disparo de um


potencial de ao (triggering of an action potential).

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

46

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Passos envolvidos no estabelecimento e extino do potencial de ao:


1. Em uma clula em repouso, a parte externa da membrana mais positiva que a
parte interna, havendo mais ons de potssio dentro da clula e mais ons de sdio
fora da clula.
2. Pela ao dos neurotransmissores na sinapse, ons de sdio se movem para dentro
da clula, causando uma diferena de potencial denominada potencial de ao.
Com esta entrada de ons de sdio, o interior da clula passa a ser mais positivo
que o exterior.
3. Em seguida, ons de potssio fluem para fora da clula, restaurando a condio de
interior mais negativo que exterior.
4. Com as bombas de sdio-potssio, restaurada finalmente a condio de maior
concentrao de ons de potssio dentro da clula e maior concentrao de ons
de sdio fora da clula.
Segue-se um perodo refratrio, durante o qual a membrana no pode ser estimulada,
evitando assim a retropropagao do estmulo.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

47

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Bombas de sdio e potssio: os ons de sdio que haviam entrado no neurnio durante
a despolarizao, so rebombeados para fora do neurnio mediante o funcionamento
das bombas de sdio e potssio, que exigem gasto de energia.
Para cada molcula de ATP empregada no bombeamento, 3 ons de sdio so
bombeados para fora e dois ons de potssio so bombeados para dentro da clula.
Esta etapa ocorre aps a faixa azul da figura anterior.

Neurnio perifrico
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

Neurnio do crtex
48

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

crtex

corresponde

superfcie

externa

do

crebro:

uma

estrutura

predominantemente bi-dimensional com vrios dobramentos, fissuras e elevaes.


Diferentes partes do crtex possuem diferentes funes (ver figura abaixo).

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

49

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Ouvindo palavras

Lendo palavras

Falando palavras
Pensando em palavras
Functional magnetic resonance imaging or functional MRI (fMRI)
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

50

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Reconstruo computadorizada da destruio do crebro de Phineas Gage por uma barra


de ferro no ano de 1848.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

51

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Presena de vias de comunicao no crebro

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

52

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

8.2 Base Biolgica e Fsica da Aprendizagem e Memria


O sistema nervoso est continuamente sofrendo modificaes e atualizaes.
Virtualmente todas as suas funes, incluindo percepo, controle motor, regulao
trmica e raciocnio, so modificadas por estmulos.
Observaes comportamentais permitiram verificar graus de plasticidade do sistema
nervoso: existem mudanas rpidas e superficiais, mudanas lentas e profundas, e
mudanas mais permanentes (porm, ainda modificveis).
Em geral, efeitos globais so resultantes de alteraes locais nos neurnios.
Existem diversas formas de modificao em uma rede neural:
Dendritos podem ser criados, assim como podem ser eliminados;
Alguns dendritos e o axnio podem se esticar ou ser encolhidos permitindo ou
eliminando, respectivamente, a conexo com outras clulas;
Novas sinapses podem ser criadas ou sofrerem alteraes;
Sinapses tambm podem ser removidas;
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

53

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Todo neurnio pode sofrer regenerao ou pode morrer;


Novos neurnios podem ser gerados e incorporados ao sistema nervoso.
Toda esta vasta gama de adaptaes estruturais pode ser convenientemente
condensada simplesmente referindo-se s sinapses, pois estas modificaes envolvem
a modulao sinptica de forma direta ou indireta. Sendo assim, a aprendizagem via
modulao sinptica o mecanismo mais importante para as redes neurais, sejam elas
biolgicas ou artificiais.
A modulao sinptica poder depender de mecanismos de adaptao de neurnios
individuais e de redes neurais como um todo.
Assim como a aprendizagem, a memria tambm resultado de um processo
adaptativo das sinapses. Ela causada por variaes da eficincia sinptica de alguns
neurnios, como resultado da atividade neural.
Estas alteraes resultam em caminhos novos ou facilitados de desenvolvimento e
transmisso de sinais atravs dos circuitos neurais.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

54

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Na verdade, um dos resultados de um processo de aprendizagem a criao de um


padro de conexes sinpticas mais permanente, que por sua vez resulta na
memorizao (aprendizagem) de uma determinada experincia.
Note, portanto, que a diferena entre aprendizagem e memria sutil: a aprendizagem
pode ser vista como o processo adaptativo que resulta em uma mudana da eficincia
e estrutura sinptica, enquanto a memria pode ser interpretada como o resultado deste
processo adaptativo.

9. Neurnio artificial
Modelo matemtico: Simplificaes da realidade com o propsito de representar
aspectos relevantes de um sistema em estudo, sendo que detalhes de menor
significncia so descartados para viabilizar a modelagem.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

55

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

x2

xm

bk Limiar(bias)

wk1
Funo de
ativao

wk2

Entradas

x1

Pesos das
conexes

wkm

uk

yk

Figura 1 Modelo matemtico de um


neurnio artificial

f(uk)
Sada

Juno
somadora

y
=
f
(
u
)
=
f
w
x
+
b
k
k
A sada do neurnio k pode ser descrita por: k
kj j
j =1

possvel simplificar a notao acima de forma a incluir o bias simplesmente


definindo um sinal de entrada de valor x0 = 1 com peso associado wk0 = bk:

( )

yk = f (uk ) = f wkj x j = f w T x
j =0

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

56

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

10. Exemplos mais usuais de funes de ativao

e pu k
1
y = f (u k ) = pu
=
e k + 1 1 + e pu k

y
= pu k (1 u k ) > 0
u k
0.8

1
0.7

p=3

0.8

0.6

p=1.5
p=3

p=0.8

0.5

0.6

p=1.5
0.4

p=0.8

0.4
0.3

0.2
0.2

0.1
0
-5

0
-5

a)

b)

Figura 2 Funo logstica (a) e sua derivada em relao entrada interna (b)
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

57

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

e pu k e pu k
y = f (u k ) = tanh( pu k ) = pu
e k + e pu k

y
= p (1 u 2k ) > 0
u k

2.5
1

p=2.2
2

p=1

0.5

p=0.6

p=2.2
1.5

p=1

p=0.6

-0.5
0.5

-1
-5

a)

0
-5

b)

Figura 3 Funo tangente hiperblica (a) e sua derivada em relao entrada interna (b)

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

58

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

11. Produto interno e projeo


v1

v1- av2

av2

v2

Figura 4 Projeo realizada pelo produto interno no 2

Sejam v1, v2 2 elementos no-nulos. Considere um escalar a tal que av2


corresponda projeo de v1 na direo de v2. Ento, pode-se afirmar que

av 2 v 1 av 2 ,
conduzindo a
av 2 , v1 av 2 = 0 .

Logo,

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

59

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

a v 2 , v1 a 2 v 2 , v 2 = 0 ,
permitindo obter a na forma

a=

v 2 , v1
v2 , v2 .

Isto significa que a projeo de v1 na direo de v2 (v2 0) assume a forma:

projv2 ( v1 ) =

v 2 , v1
v2
v2 , v2

Mantendo constante o mdulo de v1, a sua projeo na direo de v2 to maior


quanto mais colineares forem esses dois vetores.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

60

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

12. Funo de expanso ortogonal


1

0.8

1
0.8

0.6

f ( x)
j

f (vT x)
j

0.6
0.4

0.4
0.2
0
4

0.2

4
2

0
-4

-2

x2

-2

-2
-4

-4

(a)

f j (x) = e

0, 5x 2

T
f
(
v
x) = e
(b) j

x1

0, 5 [1 0 ] 1

x2

T
T
Figura 5 Funo de expanso ortogonal em que v = [1 0] e x =[ x1 x 2 ]

A funo de expanso ortogonal conhecida na literatura em lngua inglesa como


ridge function.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

61

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

13. Redes neurais e perceptron com uma camada intermediria


O processo de conexo entre neurnios artificiais leva gerao de sinapses e
construo de redes neurais artificiais.

yj

wi0

w
ui
xij

yi

wij

w
Figura 6 Estabelecimento de conexo entre dois neurnios artificiais

As estruturas mais conhecidas so em camadas, onde a sada de cada neurnio de uma


camada precedente entrada para todos os neurnios da camada seguinte.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

62

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp
1

v10
v11
+

y1

1
x1

v1m

w11

v20

w 12

^s
1

^s
r

y2

v21
+

xm

w10

w 1n

v2m

w r0
wr1

w r2

vn0
yn

vn1
+

w rn

vnm

Figura 7 Rede neural perceptron com uma camada intermediria


Do ingls Multilayer Perceptron (MLP)

( )

m
n
s k = wkj f v ji xi = wkj f vTj x = g k (x , ), k = 1,..., r
j =0
i =0
j =0
n

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

63

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

14. Contribuio de cada neurnio em uma rede MLP


O mapeamento no-linear realizado por uma rede neural do tipo perceptron de uma
camada intermediria uma combinao linear de funes de expanso ortogonal,
ou seja, funes que tm a forma de tangente hiperblica em uma direo e so
constantes nas demais direes ortogonais a esta nica direo em que a forma da
funo se manifesta.
Como um exemplo, vamos tomar amostras de um mapeamento do 2 para o 1, e
utilizar uma rede neural com 5 neurnios na camada intermediria para buscar
aproximar este mapeamento, o qual pode ser visualizado no 3.
Os pesos sinpticos resultantes do processo de treinamento esto apresentados na
sequncia, sendo que a rede neural tem ao todo 3 5 + 6 1 = 21 pesos ajustveis.
So 2 entradas, 5 neurnios na camada intermediria e 1 sada, mais as entradas
constantes (entradas de polarizao) de todos os 6 neurnios da rede neural.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

64

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Pesos sinpticos da camada intermediria (cada coluna representa os pesos de um


neurnio):
-0.20008939714462 -0.70051908010040 0.39699221844113 -0.10003863267278 0.69606262467282
0.70018168528932 0.10015860417667 0.19860028823484 -0.29996195303800 0.29869112235480
-0.30006398146599 0.80022209855791 0.49372400421686 0.50005427222963 0.89515012131364

Pesos sinpticos da camada de sada:


0.99989340388393
0.79971888341317
0.90007841696146
0.38564988369799
0.79996881679466
0.71442550587375

Obs: O peso de polarizao o primeiro peso de cada neurnio.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

65

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Figura 8 Mapeamento a ser aproximado

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

66

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Figura 9 Contribuio do neurnio 1, j multiplicada pelo peso do neurnio de sada.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

67

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Figura 10 Contribuio do neurnio 2, j multiplicada pelo peso do neurnio de sada.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

68

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Figura 11 Contribuio do neurnio 3, j multiplicada pelo peso do neurnio de sada.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

69

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Figura 12 Contribuio do neurnio 4, j multiplicada pelo peso do neurnio de sada.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

70

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Figura 13 Contribuio do neurnio 5, j multiplicada pelo peso do neurnio de sada.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

71

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

15. O papel dos pesos sinpticos


p

y = c0 + cn g (bn x + a n )
n =1

a1
u1

y1
1

c0

b1
c1
y

a2
c2
u2

y2

b2

a : deslocamento no eixo x

y = c0 + c1 g (b1 x + a1 ) + c2 g (b2 x + a 2 ) b : inclinao da sigmide


c : amplitude da sigmide

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

72

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Exemplo: Forma construtiva de aproximao de um mapeamento no-linear


empregando neurnios com funo de ativao do tipo tangente hiperblica. Exemplo
considerando um nico estmulo de entrada.

f (w ) = c1 g (b1 x + a1 ) + c2 g (b2 x + a2 ) + c3 g (b3 x + a3 ) + c4 g (b4 x + a4 ) + c5 g (b5 x + a5 ) + c0


142
4 43
4 14
4244
3 142
4244
3 142
4 43
4 14
4 43
4 {
a

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

bias

73

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp
0.6

0.6

0.4

0.4

0.2

0.2

-0.2

-0.2

-0.4

-0.4

-0.6

-0.6

-0.8

-0.8
-1

a+b+c+d
-1

0.6

0.6

0.4

0.4

0.2

bias

0.2

-0.2

-0.2

-0.4

-0.4

a+b

-0.6

-0.6

-0.8

a+b+c+d+e

-0.8
-1

-1

0.6

0.6

0.4

0.4

0.2

0.2

-0.2

-0.2

-0.4

-0.4

a+b+c

-0.6
-0.8

a+b+c+d+e+bias

-0.6
-0.8

-1

-1

Figura 14 Composio aditiva de ativaes na reproduo de um mapeamento no-linear


O mapeamento a ser aproximado encontra-se na ltima figura direita.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

74

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

16. Superfcie de erro


Seja X uma regio compacta do m e seja g: X m a funo a ser aproximada
(formulao para uma nica sada, r = 1);
O conjunto de dados de aproximao {(x l , sl ) m }lN=1 gerado considerando-se
que os vetores de entrada xl esto distribudos na regio compacta X m de acordo
com uma funo densidade de probabilidade fixa dP: X m [0,1] e que os vetores
de sada sl so produzidos pelo mapeamento definido pela funo g na forma:
sl = g ( x l ) + l , l = 1,..., N ,

onde l uma varivel aleatria de mdia zero e varincia fixa.


A funo g que associa a cada vetor de entrada x X uma sada escalar s pode
m
N
ser aproximada com base no conjunto de dados de aproximao {(x l , sl ) }l =1

por uma composio aditiva de funes de expanso ortogonal na forma:

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

75

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

m
n
sl = g (xl , ) = w j f v ji xli = w j f vTj xl
j =0
i =0
j =0
n

onde o vetor contendo todos os pesos da rede neural.


Logo, o erro quadrtico mdio produzido na sada da rede neural, considerando as N
amostras, assume a forma:

1
J ( ) =
N

(s l sl )
l =1

1
=
N

g
s
(
(
x
,

)
=
l
l
l =1

1
1

= w j f v ji xli sl =

N l =1 j = 0
N
i =0

w j f v j xl sl
l =1 j = 0

P
1
Sendo P a dimenso do vetor , ento tem-se que: J : .
P +1
A superfcie de erro definida por J ( ) reside no espao , sendo que deve-se
P
buscar em um ponto que minimiza J ( ) , supondo que se queira minimizar o erro

entre a sada produzida pelo rede neural e a sada desejada.


Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

76

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

17. Aprendizado a partir de dados amostrados


O aprendizado supervisionado visto como um problema de otimizao no-linear
A funo-objetivo (critrio de desempenho a ser otimizado) e os parmetros
ajustveis:
min J ( )

Formalizao matemtica do que se quer otimizar + mtodo de soluo


Soluo na forma fechada Busca iterativa
Os dados de entrada/sada e a questo dos 3 mapeamentos envolvidos no processo:
1. O mapeamento a ser aproximado (do qual se conhece apenas dados amostrados);
2. O mapeamento resultante do processo de aproximao;
3. O mapeamento entre cada vetor de pesos e o erro: superfcie de erro.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

77

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Figura 15 Mapeamento desconhecido a ser aproximado

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

78

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Figura 16 Exemplo de regio de operao. uma regio compacta (fechada e


limitada).

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

79

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Figura 17 Amostras expressando o comportamento da funo para pontos especficos


da regio de operao. Essas amostras comporo os conjuntos de treinamento e
validao (sendo que os dois conjuntos so independentes entre si)
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

80

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

(a)

(b)

(c)

(d)

Figura 18 (a) Funo a ser aproximada (agora considerando apenas uma entrada); (b)
Amostras disponveis; (c) Resultado de um processo de aproximao com
sobretreinamento; (d) Resultado de um processo de aproximao sem sobretreinamento.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

81

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

(a)

(b)

Figura 19 Comparao de desempenho para dados de treinamento e validao, de


modo a medir a capacidade de generalizao dos mapeamentos produzidos.
O mapeamento da esquerda apresenta um erro de treinamento muito baixo, mas um
erro de validao bastante elevado, quando comparado ao mapeamento da direita.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

82

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

18. O problema do OU-exclusivo em MLP


Considere os pontos (0,0),(0,1),(1,0) e (1,1) no plano 2, conforme apresentado na
Figura 20. O objetivo determinar uma rede com duas entradas xi {0,1} (i=1,2), e

( x , x ) = (0,0) ou (1,1) y = 0
uma sada y {0,1} de maneira que: 1 2
( x 1 , x 2 ) = (1,0) ou (0,1) y = 1

(1,0)

(1,1)
y=0
y=1

x
(0,0)

(0,1)

Figura 20 O problema do OU-exclusivo

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

83

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Inicialmente ser analisado o comportamento de um neurnio tipo perceptron (veja


Figura 21) no processo de soluo do problema exposto acima. A sada y pode ser
representada na forma:
g(u) = 1 se u 0
y = g(w1x1 + w2x2 + w0) onde
g(u) = 0 se u < 0
1

w0

x1

w1

x2

w2

Figura 21 Neurnio tipo perceptron, com duas entradas (mais a polarizao)


Para qualquer valor dos parmetros w0 , w1 e w2, a funo g(u) separa o espao de
entradas em duas regies, sendo que a curva de separao uma linha reta.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

84

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

0.5

0
5
5
0
x2

0
-5

-5

x1

Figura 22 Mapeamento de entrada-sada para o perceptron da Figura 21,


com w0 = 6, w1 = 4 e w2 = 3
Aqui tomou-se a funo g() como sendo a funo sinal, pois as sadas so binrias.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

85

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

No problema do OU-exclusivo (Figura 20), pode-se constatar que no existe uma


nica linha reta divisria de forma que os pontos (0,0) e (1,1) se posicionem de um
lado enquanto que (0,1) e (1,0) permaneam do outro lado da linha.
Logo, pode-se imediatamente concluir que um neurnio tipo perceptron no apresenta
grau de liberdade suficiente para resolver o problema proposto, o que foi corretamente
constatado por Minsky & Papert, em 1969.
No entanto, esses autores tambm acreditavam que no havia razo para supor que
redes multicamadas pudessem conduzir a uma soluo para o problema proposto. Esta
hiptese s foi definitivamente rejeitada com o desenvolvimento do algoritmo de
retro-propagao (back-propagation), j nos anos 80, o qual permite o ajuste
automtico de pesos para redes neurais multicamadas, arquitetura necessria para a
realizao de mapeamentos no-lineares.
Considere o problema de mapeamento de uma rede neural tipo perceptron, com uma
camada intermediria (Figura 23), aplicada ao problema do OU-exclusivo.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

86

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

w10
1

w11
w12

x1

x2

w20

w0

z1

z2

w1

w2

w21
w22

Figura 23 Perceptron de trs camadas (uma camada intermediria)


A camada de entrada fornece um vetor de entrada (x1,x2) para a camada intermediria,
enquanto que a camada intermediria produz duas sadas z1=sgn(w10+w11x1+w12x2) e
z2=sgn(w20+w21x1+w22x2). Na camada de sada, o sinal de sada da rede neural dado
por y=sgn(w0+w1z1+w2z2).
Surge uma questo: Existem parmetros wij (i=1,2; j=0,1,2) e wk (k = 0,1,2) tais que
y = 0 para as entradas (0,0) e (1,1) e y = 1 para as entradas (1,0) e (0,1)?

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

87

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

As sadas da primeira camada (z1 e z2) podem ser consideradas como variveis
intermedirias utilizadas na gerao da sada y.
Do que j foi visto a respeito de um neurnio tipo perceptron, sabe-se que existem
pesos w1j (j=0,1,2) tais que (veja curva de separao L1 na Figura 24(a)):

(0,1) produza z1 = 1
(0,0),(1,0),(1,1) produza z1 = 0.
De forma similar, existem pesos w2j (j=0,1,2) tais que (veja curva de separao L2 na
Figura 24(a)):
(0,1),(0,0),(1,1) produza z2 = 1
(1,0) produza z2 = 0

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

88

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

L1

(0,1)

(1,1)

L3

(0,1)

(1,1)

L2

x
(1,0)

(0,0)

(a)

z
(0,0)

(b)

Figura 24 Realizao da funo OU-exclusivo


A discusso acima mostra que existem pesos wij (i=1,2; j=0,1,2) de maneira que a
entrada (0,1) resulte em z1 = 1, z2 = 1, e a entrada (1,0) resulte em z1 = 0, z2 = 0,
enquanto que (0,0) e (1,1) produzam z1 = 0, z2 = 1. J que (0,0) e (1,1) podem ser
separados linearmente de (0,1), como mostrado na Figura 24(b) pela curva de
separao L3, pode-se concluir que a funo booleana desejada pode ser obtida
utilizando-se perceptrons em cascata, ou seja, 3 neurnios do tipo perceptron.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

89

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

19. Otimizao no-linear e capacidade de generalizao


Diversos tipos de parmetros da rede neural poderiam ser submetidos a processos de
ajuste durante o treinamento, como (i) pesos sinpticos; (ii) parmetros da funo de
ativao de cada neurnio; (iii) nmero de neurnios na camada intermediria; (iv)
nmero de camadas intermedirias.
Iremos nos restringir aqui ao ajuste dos pesos sinpticos. Neste caso, o processo de
treinamento supervisionado de redes neurais artificiais multicamadas equivalente a
um problema de otimizao no-linear irrestrita, em que a superfcie de erro
minimizada a partir do ajuste dos pesos sinpticos.
Iremos nos restringir tambm a perceptrons com uma nica camada intermediria,
visto que com apenas uma camada intermediria a rede neural j apresenta
capacidade de aproximao universal (CYBENKO, 1989; HORNIK et al., 1989;
HORNIK et al., 1990; HORNIK et al., 1994).

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

90

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Um problema comum a todos os modelos de aproximao de funes que possuem


capacidade de aproximao universal, no apenas redes neurais artificiais do tipo
MLP, a necessidade de controlar adequadamente o seu grau de flexibilidade.
Como o conjunto de amostras disponvel para treinamento supervisionado finito,
infinitos mapeamentos podem produzir o mesmo desempenho de aproximao,
independente do critrio de desempenho adotado. Esses mapeamentos alternativos vo
diferir justamente onde no h amostras disponveis para diferenci-los.
Visando maximizar a capacidade de generalizao do modelo de aproximao (no
caso, uma rede neural MLP), ou seja, buscando encontrar o grau de flexibilidade
adequado para o modelo de aproximao (dada a demanda da aplicao), um
procedimento recomendado dividir o conjunto de amostras disponvel para
treinamento em dois: um conjunto que ser efetivamente empregado no ajuste dos
pesos (conjunto de treinamento) e um conjunto que ser empregado para definir o
momento de interromper o treinamento (conjunto de validao).
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

91

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Deve-se assegurar que ambos os conjuntos sejam suficientemente representativos do


mapeamento que se pretende aproximar. Assim, minimizar o erro junto ao conjunto de
validao implica em maximizar a capacidade de generalizao. Logo, espera-se que a
rede neural que minimiza o erro junto ao conjunto de validao (no usado para o
ajuste dos pesos) tenha o melhor desempenho possvel junto a novas amostras.
A figura alto/esquerda a seguir mostra um mapeamento unidimensional a ser
aproximado (desconhecido pela rede neural) e amostras sujeitas a rudo de mdia zero
(nica informao disponvel para o treinamento da rede neural). A figura alto/direita
mostra o resultado da aproximao produzida por uma rede neural com muito poucos
neurnios, a qual foi incapaz de realizar a aproximao (tem baixa flexibilidade).

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

92

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp
1.0

1.0

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

0.0

0.0

-0.2

-0.2

-0.4

-0.4

-0.6

-0.6

-0.8

-0.8

-1.0

-1.0
-3

-2

-1

-3

1.0

1.0

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

0.0

0.0

-0.2

-0.2

-0.4

-0.4

-0.6

-0.6

-0.8

-0.8

-1.0

-1.0

-3

-2

-1

-3

-2

-2

-1

-1

Figura 25 Dados amostrados, funo a ser aproximada e modelos de aproximao com diferentes
capacidades de generalizao
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

93

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

J as figuras baixo/esquerda e baixo/direita mostram o resultado de uma mesma rede


neural (com nmero suficiente de neurnios), mas esquerda ocorreu sobretreinamento, enquanto que direita o treinamento foi interrompido quando
minimizou-se o erro junto a dados de validao (no apresentados).
Curvas tpicas de erro de treinamento e validao so apresentadas a seguir.
_ _ _ Erro de treinamento, ____ Erro de Validao

_ _ _ Erro de treinamento, ____ Erro de Validao


0.18

0.04

0.16

0.035

0.14

0.03

0.12

0.025

0.1

0.02
0.08

0.015
0.06

0.01

0.04

0.005

0.02
0

50

100
pocas

150

200

100

200

300

400

500

pocas

Figura 26 Ilustraes tpicas da evoluo, ao longo das pocas de treinamento, dos erros de
treinamento e de validao em treinamento supervisionado de redes MLP.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

94

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

No entanto, nem sempre o erro de validao apresenta este comportamento, e cada


caso deve ser analisado isoladamente. Como a curva do erro de validao oscila
bastante e esboa um comportamento pouco previsvel, no indicado desenvolver
detectores automticos de mnimos e encerrar o treinamento ali. O mais indicado
sobre-treinar a rede e armazenar os pesos associados ao mnimo do erro de validao.
No existe um consenso sobre como fazer o melhor particionamento do conjunto de
dados, ou seja, sobre como dividi-lo de forma que possamos encontrar uma rede com
a melhor capacidade de generalizao em todos os casos. Uma sugesto de partida
pode ser 80% das amostras para treinamento e 20% para validao.
Quando as amostras correspondem a dados rotulados em problemas de classificao
de padres, procure respeitar a distribuio junto a cada classe.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

95

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

19.1 Gradiente, hessiana e algoritmos de otimizao


Considere uma funo contnua e diferencivel at 2a. ordem em todos os pontos do
domnio de interesse, tal que: f: n

e x n

Expanso em srie de Taylor em torno do ponto x* n:


f ( x ) = f ( x*) + f ( x*)T (x x *) +

f ( x*)
x
f ( x1*)

f ( x*) = x 2
M
f ( x*)
x

1
(x x *)T 2 f (x*)(x x *) + O (3)
2

2 f ( x*)

2
x

1
2
f ( x*)
2 f ( x*) = x 2 x1

2 f ( x*)
x x
n 1

Vetor gradiente
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

2 f ( x*)
2 f ( x*)
L
x1x 2
x1x n

2
f ( x*)

x 22

2
f ( x*)
L
x n2

Matriz hessiana
96

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

O algoritmo de retropropagao do erro (do ingls backpropagation) empregado


para obter o vetor gradiente, onde cada elemento do vetor gradiente est associado a
um peso da rede neural e indica o quanto a sada influenciada por uma variao
incremental neste peso.
Na funo cos(x) a seguir, observam-se as aproximaes de primeira, segunda e quarta
ordem em torno do ponto x = 0.
cos(x)

F4(x)
1

-1

-1

-2
-6

-2
-6

-3

F1(x)

F2(x)

-3

x
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

97

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

Existem vrias tcnicas para obter exatamente ou aproximadamente a informao de


2a. ordem em redes neurais MLP (BATTITI, 1992; BISHOP, 1992).
O processo de otimizao no-linear envolvido no ajuste de pesos de uma rede neural
vai realizar aproximaes locais de primeira ordem ou de primeira e segunda ordem
junto superfcie de erro e realizar ajustes incrementais e recursivos na forma:

k +1 = k + passo * direo
Parte-se de uma condio inicial 0 e aplica-se iterativamente a frmula acima, sendo
que a direo depende da informao local de primeira e segunda ordem. Cada
proposta de algoritmo de otimizao vai diferir na forma de computar o passo e a
direo de ajuste, a cada iterao.
A figura a seguir apresenta uma classificao dos principais algoritmos empregados
para o treinamento supervisionado de redes neurais artificiais.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

98

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

ESTRATGIAS DE TREINAMENTO

1a ORDEM

SEM DIFERENCIAO

BE

GA

SA

BP

2a ORDEM

GRAD

CG

N-LM

SCG

FR

PR

EMPRICOS

OSS

QN

DFP

QP

MOD .

BFGS

Figura 27 Taxonomia de algoritmos de otimizao para treinamento supervisionado de redes


neurais MLP.

Aquele que utilizado no toolbox fornecido pelo professor o gradiente conjungado


escalonado (do ingls Scaled Conjugate Gradient SCG). Uma vantagem deste
algoritmo que ele apresenta um custo computacional (memria e processamento por
iterao) linear com o nmero de pesos e no quadrtico, como a maioria dos
algoritmos de 2a. ordem.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

99

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

19.2 Mnimos locais


Como o processo de ajuste iterativo e baseado apenas em informaes locais, os
algoritmos de otimizao geralmente convergem para o mnimo local mais prximo,
que pode representar uma soluo inadequada (com nvel de erro acima do aceitvel).
10

-5

-10

Mnimo local

-15

Mnimo global
-20
-2

-1.5

-1

-0.5

0.5

1.5

Figura 28 Exemplo ilustrativo de mnimos local e global (considerando uma nica varivel).

Note que algoritmos de 2a. ordem tendem a convergir mais rpido para os mnimos
locais, mas no se pode afirmar que eles convergem para mnimos de melhor
qualidade que aqueles produzidos pelos algoritmos de primeira ordem.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

100

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

19.3 Condio inicial para os pesos da rede neural


Embora existam tcnicas mais elaboradas, os pesos da rede neural podem ser
inicializados com valores pequenos e aleatoriamente distribudos em torno de zero.
Esta inicializao tende a promover as seguintes propriedades da rede neural inicial:
o O mapeamento inicial realizado pela MLP tende a se aproximar de um
hiperplano, no apresentando, assim, nenhuma tendncia definida, em termos
de comportamento no-linear;
o A ativao de todos os neurnios se encontra fora da regio de saturao,
facilitando o processo de ajuste de pesos, a ser iniciado.
Tcnicas mais elaboradas tendem a considerar conhecimento prvio acerca da
natureza da tarefa a ser desempenhada pela rede neural.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

101

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

20. Processo Iterativo para MLP Mtodo Padro-a-Padro


Defina uma condio inicial para o vetor de pesos w e escolha um passo pequeno;
Faa k = 0 e calcule J (w (k ) ) ;
Enquanto o critrio de parada no for atendido, faa:
Ordene aleatoriamente os padres de entrada-sada;
Para l variando de 1 at N, faa:
Apresente o padro l de entrada rede;
Calcule J l (w(k ) ) e J l (w (k ) );

w ( k + 1) = w (k ) J l (w (k ) );
k = k + 1;
Calcule J (w (k ) ) ;

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

102

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

21. Processo Iterativo para MLP Mtodo em Lote ou Batelada


Defina uma condio inicial para o vetor de pesos w e escolha um passo pequeno;
Faa k = 0 e calcule J (w (k ) ) ;
Enquanto o critrio de parada no for atendido, faa:
Para l variando de 1 at N, faa:
Apresente o padro l de entrada rede;
Calcule J l (w(k ) ) e J l (w (k ) );
w ( k + 1) = w (k )

J l (w ( k ) );

N
l =1

k = k + 1;
Calcule J (w (k ) ) ;

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

103

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

22. Referncias
ARBIB, M.A. (ed.) The Handbook of Brain Theory and Neural Networks, The MIT Press, 1998.
BATTITI, R. First- and Second-Order Methods for Learning: Between Steepest Descent and Newton's
Method, Neural Computation, vol. 4, no. 2, pp. 141-166, 1992.
BISHOP, C. Exact Calculation of the Hessian Matrix for the Multilayer Perceptron, Neural Comp., vol. 4,
no. 4, pp. 494-501, 1992.
CYBENKO, G. Approximation by superposition of sigmoidal functions, Mathematics of Control, Signals
and Systems, vol. 2, no. 4, pp. 303-314, 1989.
DAYAN, P., ABBOT, L.F. Theoretical Neuroscience: Computational and Mathematical Modeling of Neural
Systems, The MIT Press, 2001.
EDELMAN, G.M. Neural Darwinism: The Theory of Neuronal Group Selection, Basic Books, 1988.
GARDNER, H. Frames of Mind: The Theory of Multiple Intelligences, BasicBooks, 1983.
HAYKIN, S. Neural Networks: A Comprehensive Foundation, 2nd edition, Prentice-Hall, 1999.
HAYKIN, S. Neural Networks and Learning Machines, 3rd edition, Prentice Hall, 2008.
HEBB, D. O. The Organization of Behavior, Wiley, 1949.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

104

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

HINTON, G.E. Connectionist learning procedures, Artificial Intelligence, 40: 185-234, 1989.
HINTON, G. E. & SEJNOWSKI, T.J. Learning and relearning in Boltzmann machines, in D. E. Rumelhart,
J. L. McClelland & The PDP Research Group (eds.) Parallel Distributed Processing: Explorations in
the Microstructure of Cognition, MIT Press, vol. 1, pp. 282-317, 1986.
HOPFIELD, J.J. Neural networks and physical systems with emergent collective computational abilities,
Proceedings of the National Academy of Sciences of the U.S.A., vol. 79, pp. 2554-2558, 1982.
HORNIK, K., STINCHCOMBE, M., WHITE, H. Multi-layer feedforward networks are universal
approximators, Neural Networks, vol. 2, no. 5, pp. 359-366, 1989.
HORNIK, K., STINCHCOMBE, M., WHITE, H. Universal approximation of an unknown function and its
derivatives using multilayer feedforward networks, Neural Networks, vol. 3, no. 5, pp. 551-560, 1990.
HORNIK, K., STINCHCOMBE, M., WHITE, H., AUER, P. Degree of Approximation Results for Feedforward
Networks Approximating Unknown Mappings and Their Derivatives, Neural Computation, vol. 6, no.
6, pp. 1262-1275, 1994.
MCCULLOCH, W.S. & PITTS, W. A logical calculus of the ideas immanent in nervous activity, Bulletin of
Mathematical Biophysics, vol. 5, pp. 115-133, 1943.
MINSKY, M.L. The Society of Mind, Simon & Schuster, 1988.
Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

105

EA072 Prof. Fernando J. Von Zuben


DCA/FEEC/Unicamp

MINSKY, M.L. & PAPERT, S.A. Perceptrons: Introduction to Computational Geometry, Expanded edition,
The MIT Press, 1988 (1st edition: 1969).
NERRAND, O., ROUSSEL-RAGOT, P., PERSONNAZ, L., DREYFUS, G. Neural Networks and Nonlinear
Adaptive Filtering: Unifying Concepts and New Algorithms. Neural Computation, vol. 5, no. 2, pp.
165-199, 1993.
MARR, D. A theory for cerebral neocortex, Proceedings of the Royal Society of London, Series B, 176:
161-234, 1970.
RAMN Y CAJAL, S. Histologie du systme nerveux de l'homme et des vertbr, A. Maloine, Paris, 1909.
RUMELHART, D.E. & MCCLELLAND, J.L. Parallel Distributed Processing: Explorations in the
Microstructure of Cognition, vols. 1 & 2, The MIT Press, 1986.
SCHALKOFF, R.J. Artificial Neural Networks, The McGraw-Hill Companies, 1997.
WIENER, N. Cybernetics, The MIT Press, 1948.
WILSON, R.A., KEIL, F.C. (eds.) The MIT Encyclopedia of the Cognitive Sciences, The MIT Press,
2001.

Tpico 1 Redes Neurais Artificiais e Mquinas de Aprendizado (Parte 1)

106

Das könnte Ihnen auch gefallen