Beruflich Dokumente
Kultur Dokumente
APRENDIZAJE
MEDIANTE REDES
NEURONALES
10.1 Introduccin
Hasta mediada la dcada de los 80, la inmensa mayora de los sistemas que
utilizaban tcnicas de LA. estaban basados en el llamado paradigma simblico.
En este enfoque tenemos por un lado el conocimiento (representado segn los
casos mediante reglas, frames, lgica de primer orden, etc.) y por el otro un
algoritmo que resuelve el problema que se plantea.
No obstante, hay problemas que son extremadamente difciles de resolver
dentro de este paradigma, como por ejemplo los problemas de tipo perceptual
(reconocimiento del habla, de imgenes, etc.) ya que es bastante complicado
el desarrollo de algoritmos para este tipo de tareas y la estructuracin del
conocimiento necesario para resolverlos.
Una aproximacin alternativa la constituye el paradigma conexionista o conexionismo. Este paradigma tiene sus races en la inspiracin en los modelos
biolgicos, concretamente en los modelos del sistema nervioso. El que todas las capacidades intelectuales que posee cualquier humano sean generadas
por una enorme coleccin de elementos (neuronas) relativamente simples hace
pensar que podra resultar interesante llevar a cabo una imitacin (aunque sea
ms o menos burda) de estos mecanismos, para obtener "dispositivos inteligentes" (Redes Neuronales Artificiales, o R.N.A.). La intencin de este paradigma
es aportar una nueva perspectiva que sea capaz de superar las limitaciones de
las aproximaciones de tipo simblico.
211
212
213
214
215
Figura 10.3: Conectividad entre neuronas: redes con conexiones hacia adelante (izquierda) y redes recurrentes (derecha).
216
10.4 Pereeptrones
10.4.1 Modelo bsico
El perceptrn es la forma ms sencilla de red neurona!. De hecho, el modelo ms simple de perceptrn consiste en una nica neurona cuya estructura
corresponde con la vista en el apartado anterior, es decir:
La funcin de combinacin consiste en una suma ponderada de las entradas
La funcin de activacin tiene forma de escaln, con un umbral de activacin que denominamos 0 (Figura 10.4)
Los perceptrones, tal y como se han descrito, se pueden utilizar para tareas
de clasificacin sencillas, en las que cada patrn se clasifica en uno de dos tipos
posibles. As, la entrada al perceptrn sera el ejemplo a clasificar, y la salida
sera O l segn ste corresponda a la clase C\ o a la clase C?-
10.4. Perceptrones
217
Figura 10.5: Para el caso bidimensional, el perceptrn dibuja una recta que separa a
las dos clases.
El problema para que el perceptrn distinga correctamente entre las dos
clases consistir en orientar adecuadamente el hiperplano (en la Figura 10.5,
orientar adecuadamente la recta). Por lo tanto, necesitamos un algoritmo que
nos permita calcular el O y los w adecuados. Este procedimiento es el que se
describe en el siguiente apartado.
218
Figura 10.6: Un perceptrn con n entradas y umbral d es equivalente a otro con una
entrada adicional igual a -1 y umbral 0.
En general, el perceptrn, ante una determinada entrada producir un resultado y, que no siempre coincidir con el resultado deseado d. El error cometido por el perceptrn al clasificar un ejemplo lo denotaremos por (d - y).
El procedimiento para calcular el conjunto de pesos deseado va a ser de tipo
iterativo. En cada iteracin vamos a cambiar cada uno de los pesos con el objeto
de minimizar el error cometido al clasificar los patrones. Este procedimiento
resulta bastante sencillo, ya que en cada iteracin vamos a hacer para cada
peso Wi\
Wi = iVi + n(d-y)Xi
Es decir, si el perceptrn acierta la clase, no hay que modificar nada (tenemos que d - y - 0). Si el perceptrn falla, a cada peso le sumamos o restamos
(dependiendo del signo de d - y) el valor de la entrada correspondiente, multiplicada por un factor de proporcionalidad, rj. Al factor (d - y) se le suele
abreviar como 6. Por ello, este algoritmo tambin se denomina "regla delta".
La explicacin intuitiva de tal procedimiento es la siguiente:
Si el perceptrn se activa (salida = 1) cuando debera permanecer inactivo (salida = 0), tendremos que rebajar los pesos de los enlaces con la
10.4. Perceptrones
219
220
221
Esta funcin tiene una forma similar a la de tipo escaln pero es continua
y diferenciable en todos los puntos, cuestin sta que es necesaria para la
derivacin del algoritmo.
222
error del que es responsable cada neurona. Los pesos que entran a la misma
habr que modificarlos proporcionalmente a este error. Cada neurona de la
capa k es responsable de una cantidad de error que denominaremos 5^:
223
Es decir, el error 8j viene dado en funcin de los errores 6k. Aqu es donde
se hace necesaria una retropropagacin de los 8, que da nombre al algoritmo.
Por tanto, el algoritmo consta de dos fases diferenciadas:
En la primera fase, de propagaran hacia adelante, se calculan las salidas
de la red ante un ejemplo de entrada.
En la fase de propagacin hacia atrs (o retropropagarn), se van calculando los correspondientes trminos de error (5) y actualizando los pesos
desde la ltima capa hasta la primera.
El esquema del algoritmo se puede observar en la pgina 226.
Derivacin matemtica
Adems de como se ha visto en el apartado anterior, el algoritmo de retropropagacin se puede considerar como una bsqueda por descenso de gradiente
en el espacio de pesos. Lo que buscamos es el conjunto de pesos que minimiza
el error cometido.
Como tendremos errores positivos y negativos, vamos a minimizar el cuadrado del error. As, el cuadrado del error cometido al clasificar un determinado patrn lo podemos expresar como:
224
donde los y>k representan las salidas de los nodos de la capa k y los dk las
salidas que deberan proporcionar. El factor de \ se ha introducido por conveniencia, como se ver ms adelante.
Buscamos una regla iterativa, similar a la del modelo simple de perceptrn,
que nos indique cmo debemos modificar los pesos Wij en cada iteracin (recordemos que Wij representa un peso cualquiera que va desde la capa i hasta
laj).
La grfica del error cometido frente a los valores de los pesos formar una
superficie (en general, una hipersuperficie). En la direccin del eje formado por
cada peso, la superficie tendr una pendiente (la derivada parcial del error con
respecto a ese peso, g^r). Al aplicar el mtodo de descenso de gradiente, nos
tenemos que mover pendiente abajo en la direccin de cada eje para minimizar
el error (en cada iteracin hay que modificar cada peso Wij proporcionalmente
a 9^-), es decir, el incremento de cada peso, Ait/y, ser:
Como vemos, esta ecuacin es muy similar a la regla delta del perceptrn.
225
y k valdr:
226
5k fpara
(dk-yk)f'(netk)
fpara
fdesde
desde capa = k hasta 1
actualizar los pesos wy = ti>y + n^jyt
fdesde
fpara
fmi entras
f algo ritmo
Despus de haber observado todos los ejemplos de entrada (y haber ajustado los pesos para cada uno de ellos) se dice que la red ha completado una
227
228
Es decir, en cada iteracin, al cambio de peso determinado por las ecuaciones de retropropagacin se le aade una fraccin a (entre O y 1) del
cambio realizado en la iteracin anterior (Aifi/*"1*).
229
230
10.7 Ejercicios
1. Disear manualmente un perceptrn bsico que implemente la funcin
XOR.
2. Al igual que en los perceptrones, tambin se puede dar una explicacin
geomtrica del funcionamiento de los rboles de decisin (Captulo 9).
Desde este punto de vista, cul de los dos enfoques sera ms potente?.
Atendiendo a otras consideraciones Para qu tipo de problemas resultara ms apropiado un rbol de decisin que un perceptrn?.
3. Suponer un modelo de neurona, distinto al utilizado en el perceptrn,
que emplea las siguientes funciones de combinacin y activacin:
Por qu este tipo de problemas es especialmente difcil de resolver utilizando un perceptrn multicapa?.