Beruflich Dokumente
Kultur Dokumente
Liva Ralaivola
liva@lif.univ-mrs.fr
Contexte
Plan
Historique
Perceptron linaire
Perceptron multi-couches
Historique (1/2)
Motivations biologiques
systmes apprenants composs de rseaux connects de
plusieurs units
capacits de mmoire/adaptabilit de ces systmes
Historique (2/2)
Caractristiques rseau de neurones biologique
nombre de neurones dans le cerveau : 1011 neurones chacun
tant connect 104 autres neurones
temps de transmission de linformation entre deux neurones
du cerveau : 103
mais temps dactivation du rseau trs rapide : 101 secondes
pour la reconnaissance dun proche
connexions en boucles
Caractristiques rseau de neurones artificiels
nombre de neurones : de lordre de quelques centaines au
maximum avec quelques dizaines de connexions
temps de transmission de linformation entre deux neurones :
1010 secondes
difficult dapprentissage avec des connexions en boucle
x=
x1
w0
w1
x2
w2
Pd
i=1 wi xi
+ w0 )
"
#
w0
1
= 0 o w = w1 et x
=
wx
x
w2
Extensions
perceptron multi-couches
kernel adatron [Friess et al., 1998]
voted perceptron [Freund and Schapire, 1999]
Perceptron multi-couches
(1/9)
Neurone formel
P
sj = i wji ai
aj = (sj )
wkj
si , ai wji
(x) = tanh(x)
+1
sk , ak
(x) =
1
1+exp(x)
+1
Perceptron multi-couches
biais : activation = 1
x=
x1
x2
y1
=y
y2
Perceptron multi-couches
(2/9)
Fonction implmente : f : Rd Rm
Erreur quadratique, en posant op = f (xp )
E(w) =
`
X
p=1
Ep (w)
avec
1
1X
2
(opq ypq )2
Ep (w) = kop yp k =
2
2 q=1
Perceptron multi-couches
(3/9)
, t : pas dapprentissage, pas dapprentissage adaptatif
Proprits de t pour descente de gradient stochastique
X
t
t ,
t <
Exercices
Montrer que pour assez petit la descente de gradient permet
de diminuer chaque tape lerreur E
De quelle forme peut tre t ?
Perceptron multi-couches
(4/9)
P
sj = i wji ai
aj = (sj )
k wkj
kSucc(j)
Perceptron multi-couches
(5/9)
Algo. apprentissage : 1 couche cache, (x) = (1 + ex )1
Rpter jusqu convergence
pour chaque exemple (xp , yp ) faire
propager linformation
pour chaque neurone de sortie k calculer
k ak (1 ak )(ypk ak )
pour chaque neuroneP
cach j calculer
j aj (1 aj ) kSucc(j) k wkj
t
par
calculer le pas wij
t
= j ai
wij
mettre jour les wji avec
t
wji wji + wij
passer litration suivante
tt+1
Perceptron multi-couches
(6/9)
t
avec
Ajout dun moment : mise jour selon wji wji + wij
t1
wij ,
t wij j ai + ij
0<1
Perceptron mutli-couches
(7/9)
Exemple dautres fonctions derreurs
Erreur quadratique pnalise (weight decay)
E(w) =
`
X
p=1
Ep +
2
,
wij
>0
i,j
`
X
op = f (xp )
p=1
Perceptron multi-couches
(8/9)
Capacits de modlisation des perceptrons multi-couches
[Cybenko, 1988, Cybenko, 1989]
toute fonction continue borne peut tre approche avec une
erreur arbitrairement petite par un PMC une couche cache
toute fonction peut tre approche avec une erreur
arbitrairement petite par un PMC deux couches caches
Importance de la rgularisation [Bartlett, 1997]
contrle de la taille des poids pour la gnralisation
Perceptron multi-couches
(9/9)
Notions non prsentes
partage de poids
slection automatique de la structure
par ajout de neurones
par suppression de connexions
gradient conjugu
gradient exponentiel
...
Rseaux rcurrents
Rseaux RBF
Conclusion
Perceptron linaire
algorithmes dapprentissage
limitation du perceptron linaire
Perceptron multi-couches
neurone formel avec activation sigmoidale
calcul de gradient par rtropropagation
qualit de lapprentissage malgr les minima locaux
gradient stochastique
choix de larchitecture
rgularisation
Rfrences
[Bartlett, 1997] Bartlett, P. L. (1997). For valid generalization the size of the weights
is more important than the size of the network. In Adv. in Neural Information Processing Systems, volume 9, page 134.
[Cybenko, 1988] Cybenko, G. (1988). Continuous valued neural networks with two
hidden layers are sufficient. Technical report, Department of Computer Science,
Tufts University, Medford, MA.
[Cybenko, 1989] Cybenko, G. (1989). Approximation by superpositions of a sigmoidal
function. Mathematics of Control, Signals, and Systems, 2 :303314.
[Freund and Schapire, 1999] Freund, Y. and Schapire, R. E. (1999). Large Margin
Classification Using the Perceptron Algorithm. Machine Learning, 37(3) :277296.
[Friess et al., 1998] Friess, T., Cristianini, N., and Campbell, N. (1998). The KernelAdatron Algorithm : a Fast and Simple Learning Procedure for Support Vector Machines. In Shavlik, J., editor, Machine Learning : Proc. of the 15th Int. Conf. Morgan
Kaufmann Publishers.