Beruflich Dokumente
Kultur Dokumente
Las redes neuronales son modelos computacionales que buscan imitar el funcio-
namiento de las neuronas biológicas.
Para construir una red neuronal, es necesario hacerla pasar por un proceso de
aprendizaje.
.. Pn
. Σ i=0 xi
xn
x1
w1 w0
..
.
Σ cd
xn wn
Esta neurona elemental es conocida como una unidad de umbral lineal (linear
threshold unit o ltu) y representa una familia de funciones parametrizada por los
pesos w1, w2, . . . , wn, en particular, la función de salida será:
( Pn
1 Si i=0 wi xi > 0
f (x) =
0 en otro caso
Gaussiana: Pn 2
1
− 2σ
f (x) = e i=1 (xi −ci )
Activación Gaussiana
1.00
0.90
0.80
0.70
0.60 1.00
0.5
0.50 2
0.40
0.30
0.20
0.10
0.00
-5 -4.5 -4 -3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
1
f (x) = Pn
1+ e− i=1 wi xi
Activación Sigmoidal
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-5 -4.5 -4 -3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
Esta función también se conoce como función logı́stica. Una razón importante
para preferir esta función a la función umbral , es que 1/(1 + e−x) es continua y
diferenciable.
1 − e−x
−x
.
1+e
x1
N1
N4
N6
x2
N2
N5
x3
N3
Toda red neuronal determina una familia de funciones de salida. Una configuración
de pesos determina a una función individual de la familia.
Las redes neuronales más utilizadas de tipo feed-forward , que son grafos dirigidos
acı́clicos.
Para lograr que una red neuronal pueda representar una función es necesario
someterla a un proceso de aprendizaje.
Debemos estar conscientes que por el sólo hecho de elegir una cierta estructura
para la red estamos incurriendo en un sesgo inductivo.
Si queremos aprender una función f (x) podemos usar una red neuronal de alguna
arquitectura y pesos que hay que definir.
La red se inicializa con valores aleatorios para los pesos wi. Si se está procesando
un ejemplo de entrenamiento con salida correcta d y la red entrega salida y, el
peso wi de la entrada xi se ajusta de acuerdo a la regla:
wi ← wi + η(d − y)xi.
La medida anterior considera el error mirando todos los ejemplos, por lo cual es
apropiada para métodos de aprendizaje batch.
Una de sus ventajas es que funciona con cualquier función de activación diferen-
ciable.
o(x) = w · x
Ahora:
n
∂E ∂ 1X 2
= (dk − o(xk))
∂wi ∂wi 2 k=1
n
1X ∂ 2
= (dk − o(xk))
2 k=1 ∂wi
n
X ∂
= (dk − ok ) (dk − o(xk))
k=1
∂w i
n
X ∂
= (dk − ok ) (dk − w · xk)
k=1
∂w i
n
X
= (dk − ok )(−xk,i),
k=1
x0 = 1
x1
w1 w0
..
. σ (net)
S
xn wn
Donde:
net = w · x
y
1
o = σ(net) =
1 + e−net
dσ(x)
= σ(x)(1 − σ(x)).
dx
n
∂E ∂ 1X 2
= (dk − ok )
∂wi ∂wi 2 k=1
n
1X ∂ 2
= (dk − ok )
2 k=1 ∂wi
n
X ∂
= (dk − ok ) (dk − ok )
k=1
∂w i
n
X ∂ok
= (dk − ok ) −
k=1
∂wi
Finalmente: n
∂E X
=− (dk − ok )ok (1 − ok )xk,i
∂wi
k=1
x1
..
. (1) zj
wji (2)
wkj yk
xi j k yk dk
..
.
xn
zJ
yK
J K yK dK
Donde y1, . . . , yL son las salidas de la red y d1, . . . , dL son los datos usados para
entrenar.
K
1X
E(x) = (dm − ym)2
2 m=1
(2) ∂E
∆wkj = −η (2)
= η(dk − yk )f 0(netk )zj ,
∂wkj
PJ
donde k = 1, . . . , K y j = 1, . . . , J y netk = l=0 wkl zl y donde f es la función
de activación.
(1)
Para obtener la regla de actualización de pesos de wji es necesario aplicar la
regla de la cadena, obteniéndose lo siguiente:
" K
#
(1) (2)
X
∆wji = ρh (dk − yk )f 0(netk )wkj f 0(netj )xi
k=1
Caso particular de una red con una capa escondida, con conexiones completas hacia adelante y
unidades sigmoidales.
δk ← yk (1 − yk )(tk − yk )
Funciones Arbitrarias: Cualquier función puede aproximarse con una red con
dos capas escondidas de unidades sigmoidales y una capa de salida de unidades
lineales (sin umbral).