Beruflich Dokumente
Kultur Dokumente
SEDE MEDELLIN
FACULTAD DE MINAS
Por:
Pablo Andrés Deossa Molina
En Cumplimiento Parcial
De los Requisitos Para Obtener el Titulo De
Ingeniero De Control
Director
Jairo José Espinosa Oviedo
Ingeniero Electrónico, MSc, PhD
Junio de 2009
Página | 2
CONTENIDO
1 Contextualización............................................................................................................. 7
2 Justificación...................................................................................................................... 7
3 Redes Neuronales: .......................................................................................................... 8
3.1 Introducción.............................................................................................................. 8
3.2 Beneficios................................................................................................................. 8
3.2.1 no linealidad ......................................................................................................... 8
3.2.2 mapeo entrada salida........................................................................................... 8
3.2.3 adaptabilidad ........................................................................................................ 8
3.3 Modelos de neuronas .............................................................................................. 9
3.3.1 Pesos sinápticos .................................................................................................. 9
3.3.2 Sumador ............................................................................................................... 9
3.3.3 Función de activación .......................................................................................... 9
3.3.4 Perceptron de una capa..................................................................................... 10
3.3.5 Perceptron multicapa ......................................................................................... 10
4 Aprendizaje .................................................................................................................... 11
4.1.1 Inteligencia artificial y las redes neuronales ...................................................... 11
4.2 Métodos comunes de aprendizaje......................................................................... 12
4.2.1 Aprendizaje por corrección del error.................................................................. 12
5 Filtro De Kalman ............................................................................................................ 13
5.1 Filtro de kalman lineal ............................................................................................ 13
5.1.1 estimación óptima .............................................................................................. 14
5.2 Filtro de kalman extendido..................................................................................... 15
5.3 Filtro kalman extendido modificado o simplificado................................................ 17
5.4 Consideraciones acerca del filtro de kalman ........................................................ 18
6 Entrenamiento De Redes Neuronales Con Filtro De Kalman....................................... 19
6.1.1 Datos de entrenamiento..................................................................................... 20
6.1.2 Red neuronal ...................................................................................................... 21
6.1.3 Estimación.......................................................................................................... 21
6.1.4 Diferencia entre estimaciones............................................................................ 21
6.1.5 Error.................................................................................................................... 22
6.1.6 Pesos.................................................................................................................. 22
Página | 3
7 Aplicación Entrenamiento De Una Red Neuronal Con Filtro De Kalman ..................... 23
7.1 Caso trivial ............................................................................................................. 23
7.2 Resultados: ............................................................................................................ 24
7.2.1 Prueba lineal ...................................................................................................... 24
7.2.2 Aproximación no lineal ....................................................................................... 26
7.3 Caso general .......................................................................................................... 29
7.4 Aproximación de una ecuación diferencial ............................................................ 29
7.5 Entrenamiento........................................................................................................ 30
7.6 Validación............................................................................................................... 32
8 Conclusiones Y Trabajo Futuro ..................................................................................... 34
9 Bibliografía ..................................................................................................................... 35
Página | 4
Tabla de figuras
Figura3-1 Modelo Basico De Perceptron.................................................................................................................. 9
Figura 3-2 Perceptron De Una Capa........................................................................................................................10
Figura3-3 Perceptron Multicapa.............................................................................................................................10
Figura4-1 Modelo simplificado de aprendizaje......................................................................................................11
Figura 4-2 Red Neuronal Con Retroalimentacion (Haykin) ...................................................................................12
Figura 5-1 Sistema Dinamico Lineal ........................................................................................................................13
Figura 6-1 Diagrama De Operacion De La Red .......................................................................................................19
Figura 6-2 Distribucion De Datos Aleatorios Para Entrenamiento .......................................................................20
Figura 6-3 Espacio De Solucion De Los Datos De Entrenamiento.........................................................................20
Figura7-1 Datos De Entrenamiento Para Caso Lineal ............................................................................................24
Figura7-2 Entrenamiento De La Red.......................................................................................................................24
Figura7-3 Error De Convergencia............................................................................................................................25
Figura7-4 Salida de la red entrenada por EKF........................................................................................................26
Figura7-5 Datos De Entrenamiento Para Caso No Lineal ......................................................................................27
Figura7-6 Entrenamiento De La Red.......................................................................................................................27
Figura7-7 Error De Convergencia............................................................................................................................28
Figura7-8 Salida De La Red Entrenada Por Ekf.......................................................................................................28
Figura7-9 Sistema Masa Resorte.............................................................................................................................29
Figura 7-10 Espacio De Soluciones Para El Sistema Masa Resorte.......................................................................30
Figura 7-11 Función De Entrenamiento Para El Sistema Masa Resorte...............................................................31
Figura 7-12 Detalle De La Funcion Objetivo Del Sistema Masa Resorte..............................................................31
Figura 7-13 Salida De La Red Neuronal Y Datos De Prueba...................................................................................32
Figura 7-14 Detalle De La Salida De La Red Y Los Datos De Prueba .....................................................................32
Figura 7-15 Comportamiento Del Error De Entrenamiento..................................................................................33
Figura 7-16 Grafica De Prueba De Generalidad .....................................................................................................33
Página | 5
Tabla de ecuaciones
Ecuación 3-1 Modelo Matematico De Una Neurona............................................................................................... 9
Ecuación 4-1 Error Del Metodo...............................................................................................................................12
Ecuación 4-2 Regla Delta .........................................................................................................................................12
Ecuación 4-3 Ecuacion Para Calcular El Valor Sinaptico ........................................................................................12
Ecuación 5-1 Sistema Dinamico Lineal....................................................................................................................13
Ecuación 5-2 Ecuacion De Salida Del Proceso Lineal .............................................................................................14
Ecuación 5-3 Funcion De Costo Para Estimacion Optima......................................................................................14
Ecuación 5-4 Propagación Del Estado Estimado....................................................................................................15
Ecuación 5-5 Propagacion De La Covarianza Del Error..........................................................................................15
Ecuación 5-6 Matriz De La Ganacia De Kalman......................................................................................................15
Ecuación 5-7 Actualizacion Del Estado Estimado...................................................................................................15
Ecuación 5-8 Actualizacion De La Covarianza Del Error ........................................................................................15
Ecuación 5-9 Sistema Dinamico No Lineal En Espacio De Estado.........................................................................16
Ecuación 5-10 Matriz De Ganancia De Kalman Para Ekf Modificado ...................................................................17
Ecuación 5-11 Vevtor De Estados Para Ekf Modificado.........................................................................................17
Ecuación 5-12 Matriz De Covariancia Del Error Para Ekf Modificado..................................................................17
Ecuación 6-1 Calculo De La Matriz P Con La Ecuaccion De Riccati .......................................................................21
Ecuación 6-2 Ecuacion Alternativa Para Calcula La Matriz P.................................................................................21
Página | 6
1 Contextualización
La propiedad más importante de una red neuronal es su habilidad para “aprender” desde
su entorno y mejorar su desempeño a lo largo del proceso. El aprendizaje se ve reflejado
sobre los valores de los pesos sinápticos de la red. Así el método de aprendizaje es el
cómo calcular estos pesos.
En la literatura es amplio el campo de métodos para realizar este entrenamiento, en este
trabajo se desea hacer el entrenamiento basado en el filtro de kalman extendido, el cual
extiende el alcance a sistemas no lineales y posee bajo las condiciones adecuadas, la
características de estimador optimo. Si bien los pesos de la red son nuestras variables a
estimar y la salida de la red es la medición, podemos entonces hacer un entrenamiento
óptimo basado en la salida de la red respecto a una referencia de entrenamiento.
2 Justificación
El filtro de kalman es una herramienta muy poderosa y optima que posee una
característica natural para trabajar con ruidos tanto en la panta como ruido de medición.
Adicionalmente su costo computacional (al ser visto solo como una herramienta
matemática) es relativamente bajo, ya que solo requiere de la información de estado
anterior para sus estimaciones. El objetivo de este trabajo es realizar la implementación
del algoritmo y enfocarlo al entrenamiento de redes neuronales y analizar los problemas y
ventajas de esta herramienta empleada como método de aprendizaje.
Página | 7
3 Redes Neuronales:
3.1 Introducción
Las redes neuronales surgen del hecho que el procesamiento del cerebro humano difiere
enormemente de la computación clásica digital. El cerebro es una computadora de
procesamiento paralelo, de alta complejidad y no lineal. El componente básico de este
sistema, la neurona, es la unidad básica de procesamiento. Una neurona en desarrollo
presenta plasticidad. Su plasticidad le permite adaptar el sistema nervioso al entorno y
memorizar o mecanizar la función. Sin embargo, aun después del aprendizaje de la tarea,
la neurona sigue en desarrollo.
En la forma más general una red neuronal, pasa a ser una maquina que está diseñada
para modelar una tarea particular del cerebro. Usualmente es implementada basada en
componentes electrónicos o simulada en software en una computadora digital. Para un
buen rendimiento una red neuronal es una interconexión masiva de célula de computo
llamadas neuronas o “unidades de procesamiento”.
“Una red neuronal es un procesador paralelo masivo distribuido compuesto por unidades
simples de procesamiento, que es propenso por naturaleza para almacenar conocimiento
experimental y hacerlo disponible para el uso. Se asemeja al cerebro en dos aspectos:
El conocimiento es adquirido por la red desde el entorno a través de un proceso de
aprendizaje
Los pesos de las conexiones entre las neuronas, conocidos como pesos sinápticos son
usados para guardar el conocimiento adquirido.
3.2 Beneficios
3.2.1 NO LINEALIDAD
Las redes neuronales puede ser lineales y no lineales, una red construida a base de la
interconexión de neuronas no lineales será una red no lineal.
3.2.2 MAPEO ENTRADA SALIDA
Un paradigma popular de aprendizaje es conocido como “aprendizaje supervisado” e
implica la modificación de los pesos de la red neuronal en base a ejemplos de
entrenamiento. Donde cada ejemplo tipifica una respuesta deseada y el entrenamiento
minimiza la diferencia entre la salida de la red y los datos de entrenamiento.
3.2.3 ADAPTABILIDAD
Una red ya entrenada tiene la capacidad de volverse a adaptar a nuevas condiciones, no
se debe confundir este termino con robustez, esto se debe a que si tenemos un sistema
que cambie rápidamente debido a perturbaciones externas, la red esta variando
rápidamente, así, se debe buscar que las constates de tiempo de los datos sean lo
suficientemente largos para poder diferenciar las perturbaciones de comportamiento
natural de la red.
3.3 Modelos de neuronas
Como se menciono antes, la neurona es la unidad fundamental para la operación de una
red neuronal. Un diagrama de bloques ilustra el modelo de una neurona artificial.
Página | 9
3.3.4 PERCEPTRON DE UNA CAPA
Se denomina de una capa, cuando solo existe un nodo computacional o neurona antes de
la salida. Esto sin contar la capa de entrada de la red
Página | 10
4 Aprendizaje
4.1.1 INTELIGENCIA ARTIFICIAL Y LAS REDES NEURONALES
El objetivo de la inteligencia artificial (IA) es desarrollar algoritmos que estén en capacidad
de hacer tareas en las cuales los humanos son mejores actualmente. Los sistemas de IA
deben poseer tres características, las cuales las RN cumplen a cabalidad (Haykin):
1. Almacenar el conocimiento
2. Aplicar el conocimiento
3. Adquirir nuevo conocimiento
Para introducir el tema del aprendizaje se muestra un modelo simplificado del proceso de
aprendizaje:
Aprendizaje Ejecucion
•Datos de •Pesos
entrenamiento •Entrenamieto •Salida de la red
Ambiente Base de
conociminetos
Página | 11
4.2 Métodos comunes de aprendizaje
Existen una gran cantidad de métodos de aprendizaje o entrenamiento para las redes
neuronales. No es el objetivo hacer mención de todos, a modo de ejemplo se muestra el
aprendizaje por corrección del error el cual se aproxima un poco al filtro del kalman al
estar basado en el error entre la salida de la red y la respuesta deseada, pero como se
puede observar no hay forma de garantizar que la estimación es la mejor
4.2.1 APRENDIZAJE POR CORRECCIÓN DEL ERROR
Si se considera una neurona simple de la siguiente manera:
La neurona k es referenciada por el vector que es producido por una o mas nerunas
de la capa oculta que a su vez es referenciada por un vector de entradas, la salida de la
neurona k es llamada esta representa la única salida de la red. Y es comparada con
la respuesta deseada denominada y se produce una señal de error asi:
Ecuación 4-1 Error Del Método
Este error es usado como señal de control y se implementa en una función de costo la
cual se debe minimizar definida por:
Para minimizar la función se usa el método “regla delta” o “Regla de Widrow-Hoof” 1 donde
se tiene un vector correspondiente al peso de la neurona excitado por asi:
Ecuación 4-2 Regla Delta
Donde denota la tasa de aprendizaje de la red y siempre es mayor que cero. Una vez
calculado el valor de del delta se procede a calcular el valor del peso sináptico:
Ecuación 4-3 Ecuación Para Calcular El Valor Sináptico
1
En honor a Widrow y Hoff , 1960
Página | 12
5 Filtro De Kalman
Donde:
Es la matriz de transición de estados de la iteración k a la iteración k+1
Es el vector de estados de la iteración k
Representa el vector de ruido del proceso, este ruido es gausiano con media
cero
Se define la matriz de covarianza del ruido como:
Página | 13
Ecuación 5-2 Ecuación De Salida Del Proceso Lineal
Donde:
Es la matriz de medición
Representa el vector de ruido de medición, este ruido también es gausiano con
media cero
Se define la matriz de covarianza del ruido como:
Se considera que el ruido de medición no está correlacionado con el ruido del proceso.
5.1.1 ESTIMACIÓN ÓPTIMA
Para verificar que la estimación es óptima se parte de la ecuación
Los requisitos se satisfacen por la esperanza del error al cuadrado, que está definida por:
Página | 14
Principio de ortogonalidad y con media cero, tal que:
Página | 15
Se considera un sistema dinámico no lineal descrito por:
Se define:
Para :
Para
Propagación del estado estimado:
Página | 16
Propagación de la covarianza del error
Donde:
Es el número de estados del sistema, en este caso particular, el número de pesos
sinápticos de la red neuronal
Es el número de salidas del sistema
es la matriz de covarianza del error de predicción, es el vector de
estados, es el vector de salidas, es el vector de salidas estimadas,
es la matriz de ganancia de Kalman, es la matriz de covariancia del
ruido del proceso, es la matriz de covariancia del ruido de medición,
Página | 17
es la matriz que contiene las derivadas parciales de la salida respecto a cada uno
de los parámetros .
Página | 18
6 Entrenamiento De Redes Neuronales Con Filtro De Kalman
El filtro de kalman, formulado como un sistema dinámico lineal en ecuaciones de estado,
provee una solución al problema lineal de filtrado optimo. Este se aplica en ambientes
estacionario como no estacionarios. La solución es recursiva, de forma que cada
actualización de un estado es calculada a partir del estado anterior y el nuevo dato de
entrada. Esto hace que no sea necesario almacenar todos los datos.
El uso de un algoritmo basado en el filtro de kalman extendido reside en que el algoritmo
de gradiente descendente y mínimos cuadrados recursivos y el de retro propagación son
solo casos específicos del filtro de kalman (Sanchez Camperos y Alanìs Garcia)
Para la aplicación del filtro como método de entrenamiento, los estados del filtro pasan a
ser los pesos sinápticos de la red. Y la salida de la red neuronal es la medición que usa el
filtro.
El algoritmo construido para esta tesis opera bajo la siguiente idea:
Página | 19
6.1.1 DATOS DE ENTRENAMIENTO
1400
1200
1000
800
600
400
200
0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
4
x 10
1.5
0.5
-0.5
-1
-1.5
-2
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Página | 20
6.1.2 RED NEURONAL
Las redes usadas en este trabajo son la arquitectura “feed forward”, los valores iniciales
de los pesos son condiciones aleatorias, esto implica que no se garantiza nuca que los
pesos iniciales estén cerca de la solución de estimación.
6.1.3 ESTIMACIÓN
La estimación del EKF penaliza los pesos de manera mayor los pesos relacionados con
las derivadas que tengan mayor cambio, no hay un método específico para estimar los
valores de las covarianzas de los ruidos del sistema y del ruido de medición.
La Ecuación 5-8 Actualización De La Covarianza Del Error calcula la matriz denominada
como P, esta matriz la cual depende de H que son de las derivadas de la red respecto a
los pesos, la ganancia de Kalman, el estado anterior de la matriz P y la matriz de
covarianza de ruido del proceso.
Esta matriz puede presentar problemas de singularidad cuando tiende a ser de
dimensiones muy grandes, debido a esto se consulta alternativas para el cálculo de esta:
1. Calculo de la matriz P con la ecuación de Riccati:
Este desarrollo está basado en la implementación de mínimos cuadrados recursivos, ver
(Mohammed, Munter A. and George)
Ecuación 6-1 Calculo De La Matriz P Con La Ecuación De Riccati
En la estimación de los pesos, el EKF calcula los gradientes de la red neuronal respecto a
los pesos, y tiende a corregir en la dirección de mayor cambio, claro está, el peso con
mayor gradiente, es el que se penaliza de una manera mayor. Análogamente cuando la
derivada es de valor pequeño, se asume que la estimación de ese peso es muy acertada
y se procura no cambiarlo. En realidad lo que se hace es buscar los mínimos de la
función, donde el mínimo ideal es ubicar el mínimo global, que minimice la diferencia entre
la salida de la red y los datos de entrenamiento.
6.1.4 DIFERENCIA ENTRE ESTIMACIONES
La diferencia punto a punto entre los datos de entrenamiento y la salida de la red,
multiplicada por la ganancia de kalman es sumada a los pesos de la estimación anterior,
así cuando la diferencia de las salida tiende a cero, la actualización de los pesos se
Página | 21
detiene. Los pesos estimados son utilizados en la siguiente iteración para recalcular los
valores antes mencionados
6.1.5 ERROR
En el algoritmo se programa dos tipos de errores, el primero el error punto a punto
utilizado en la diferencia entre estimaciones, y un error cuadrático que mide la diferencia
entre todos los puntos de la salida entregada por la red y la función objetivo, este ultimo
error es solo usado como un indicador para ver la aproximación de la red, y en realidad no
influye en el desarrollo de la estimación de los pesos, pero también se uso como criterio
de parada para la estimación
6.1.6 PESOS
El resultado del entrenamiento total de la red se ve reflejado en los pesos estimados, hay
dos factores de parada para el algoritmo, el número de iteraciones o el error antes
mencionado. Durante el proceso de estimación, en algún momento durante el
entrenamiento, este error alcanza un valor mínimo, para propósitos de análisis, los pesos
con los cuales la red tuvo menor error son almacenados y serán contrastados con la
estimación arrojada por los pesos finales del entrenamiento.
Página | 22
7 Aplicación Entrenamiento De Una Red Neuronal Con Filtro De
Kalman
7.1 Caso trivial
Para probar la funcionalidad del método, se comienza por realizar el entrenamiento en
una red básica, una sola neurona con función de activación lineal de la siguiente forma:
Donde U es la entrada, w es el valor del peso sináptico y B el valor del bias de la neurona.
A pesara de ser un caso trivial, se hará el procedimiento completo con el filtro extendido
de kalman, es decir se linealiza la función en cada punto. De esta manera obtendremos:
Que el jacobiano de la red Y, respecto a los pesos w es:
Con
Página | 23
7.2 Resultados:
7.2.1 PRUEBA LINEAL
Entrenando con los siguientes 200 datos:
Datos de entrenamiento
200
Entrenamiento
180
160
140
120
100
80
60
40
20
0
0 20 40 60 80 100 120 140 160 180 200
Resultados de entrenamiento
300
280
260
240
220
200
180
160
140
120
100
0 10 20 30 40 50 60
Página | 24
Y el error de convergencia de la red es:
Error de convergencia
3.5
2.5
1.5
0.5
-0.5
0 20 40 60 80 100 120 140 160 180 200
Y por ultimo después del entrenamiento se obtiene los siguientes valores para los pesos
de la red entrenada por EKF.
Los cuales son resultados esperables. Ya que lo que se busca es aproximar un recta de
cruce por el origen con pendiente de 1.
Página | 25
El resultado de la red ya entrenada, probada con 50 datos interpolados diferentes a los de
entrenamiento es:
240
230
220
210
200
0 10 20 30 40 50 60
Página | 26
Datos de entrenamiento
1
Entrenamiento
0.8
0.6
0.4
0.2
-0.2
-0.4
-0.6
-0.8
-1
0 100 200 300 400 500 600 700 800 900 1000
Resultados de entrenamiento
1
0.5
-0.5
-1
-1.5
0 100 200 300 400 500 600
Página | 27
El error de convergencia, el cual se queda oscilando con forma de la señal alrededor de
cero:
Error de convergencia
3
2.5
1.5
0.5
-0.5
0 100 200 300 400 500 600 700 800 900 1000
0.6
0.4
0.2
-0.2
-0.4
-0.6
-0.8
-1
0 100 200 300 400 500 600
Se debe recordar que es un caso de una sola neurona con función de activación lineal,
pero debido a la linealización del algoritmo en cada punto hace posible la estimación.
Para este caso la aproximación también es buena. Enfatizando que los datos de prueba
son iguales a los de entrenamiento, esta prueba es un poco más exigente para la
neurona, pero no confirma la generalidad de la red.
Página | 28
7.3 Caso general
Con el fin de hacer una red neuronal genérica, se hace la implementación del filtro para
esta condición. Con esto se busca tener una herramienta capaz de resolver una gama
más amplia de problemas y hacerla en realidad viable para cualquier aplicación.
Para el caso de entrenamiento, se usa como datos de entrenamiento dos señales
aleatorias no correlacionadas, con una amplitud al menos igual a la amplitud de la función
objetivo, el objetivo es abarcar la mayor cantidad de puntos en el espacio de estados de la
solución.
Se representa una masa m en una superficie sin fricción, colgando de un resorte para
este modelo se conoce la bien conocida ecuación donde F es la fuerza, k la
constate de elasticidad del resorte y x la deformación, esta ley es conocida como la ley de
Hooke.
A partir de la segunda ley de newton se procede a hacer una sumatoria de fuerzas y con
esto obtenemos la ecuación diferencial cuya solución será usada en el presente
entrenamiento.
Página | 29
7.5 Entrenamiento
Para el entrenamiento se usan 2 conjuntos de datos con distribución normal media cero y
varianza 10. Donde cada uno representa c1, y c2 respectivamente con una longitud de
8500 datos cada uno. El objetivo, es primero probar la red aproximando un conjunto de
datos de validación, de las mismas características de la red.
Para este caso se tiene las siguientes características en la red y su entrenamiento:
Elemento Cantidad
Entradas 2
Neuronas en capa oculta 15
Salidas 1
Datos para entrenamiento 8500
Datos para prueba 1500
40
30
20
10
-10
-20
-30
-40
-50
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
Página | 30
La combinación de estas 2 señales con la ecuación de la solución del sistema será la
función objetivo con la forma:
40
Funcion Entrenamiento
30
20
10
-10
-20
-30
-40
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
40
Funcion Entrenamiento
30
20
10
-10
-20
-30
-40
1600 1650 1700 1750 1800
Página | 31
7.6 Validación
Para la validación se toman datos aleatorios correspondientes al 15% de la cantidad de
entrenamiento, esos datos fueron generados en el mismo momento que los datos de
entrenamiento. Pero fueron separados para esta etapa.
10
-5
-10
-15
-20
-25
0 200 400 600 800 1000 1200 1400 1600
Red
Datos
10
-5
-10
-15
Página | 32
El comportamiento del error es una función que tiende a decrecer mientras el filtro estima
los parámetros óptimos, después de estos parámetros óptimos, la función crece,
alejándose de los valores óptimos.
10000
8000
6000
4000
2000
0
0 1000 2000 3000 4000 5000 6000 7000 8000 9000
Red
10 Datos
-5
-10
Página | 33
8 Conclusiones Y Trabajo Futuro
Página | 34
9 Bibliografía
Andrews, Grewal. Kalman Filtering Theory And Practice Using Matlab. New York: Wiley, 2001.
G. Zill, Dennis. Ecuaciones diferenciales con problemas de valores en la frontera. Mexico:
Thomson, 2006|.
Haykin, Simon. Neural Networks. A comprehensive Foundation. Pearson, India, 1999.
Mohammed, Dahleh, Dahled Munter A. and Verghse George. Lectures on dynamic Systems and
Control. Massachusetts: Massachusetts Institute of Technology, 2007.
Sanchez Camperos, Edgar Nelson y Alanìs Garcia, Alma Yolanda. Redes Neuronales. Conceptos
fundamentales y aplicaciones a control automatico. Guadalajara: Pearson, Prentice Hall, 2006.
Sum, John, y otros. «On the kalman filtering method in Neural-Network traning and pruning.» IEEE
TRANSACTIONS ON NEURAL NETWORKS (1991).
Página | 35