Beruflich Dokumente
Kultur Dokumente
Reconciliación Nacional”
UNIVERSIDAD NACIONAL
DE PIURA
GRUPO: G-04
1
INDICE
INTRODUCCIÓN ................................................................................................................................ 8
CAPITULO I: INTRODUCCION ...................................................................................................... 9
1. MODELAMIENTO DE SISTEMAS INTELIGENTES ....................................................... 9
2. INTELIGENCIA ARTIFICIAL ............................................................................................ 10
3. HISTORIA DE LA INTELIGENCIA ARTIFICIAL .......................................................... 14
4. EL ALGORITMO INDUCTIVO C4.5 ................................................................................. 19
CAPITULO II: REDES NEURONALES ARTIFICIALES ........................................................... 21
1. REDES NEURONALES......................................................................................................... 21
2. MODELO BIOLÓGICO........................................................................................................ 22
3. MODELO NEURONAL......................................................................................................... 25
3.1. Funciones de Activación ................................................................................................. 27
3.2. Umbrales e Inclinación ................................................................................................... 28
3.3. El Comienzo: McCulloch-Pitts....................................................................................... 29
3.4. Problemas Linealmente Separables y Capas Neurales ................................................ 31
3.4.1. Problemas Linealmente Separables....................................................................... 31
3.4.2. Capas Neutrales....................................................................................................... 34
4. APRENDIZAJE O ENTRENNAMIENTO .......................................................................... 37
4.1. Aprendizaje con Profesor o Supervisado ...................................................................... 37
4.2. Regla de Hebb ................................................................................................................. 39
4.3. Aprendizaje para redes Unicapa ................................................................................... 39
4.3.1. Regla de Aprendizaje perceptrónico ..................................................................... 39
4.3.2. Regla Delta, o corrección de error ......................................................................... 46
4.4. Aprendizaje para Redes Multicapa ............................................................................... 48
4.4.1. Estructura y Notación General .............................................................................. 48
5. RED BACKPROPAGATION................................................................................................ 50
5.1. Funcionamiento de las Redes Backpropagation........................................................... 53
6. REDES SELF ORGANIZING MAPS (S.O.M.) ................................................................... 54
6.1. Parámetros de las Redes S.O.M. .................................................................................... 56
6.2. Campos de Aplicación .................................................................................................... 58
7. SISTEMAS TUTORES INTELIGENTES ........................................................................... 60
7.1. Arquitectura y Componentes ......................................................................................... 61
7.2. Módulo del Alumno ........................................................................................................ 64
7.2.1. Estilo de Aprendizaje .............................................................................................. 66
7.2.2. Planilla de Estilos de Aprendizaje ......................................................................... 66
CAPITULO III: EXPERIMENTACION-EJEMPLOS .................................................................. 68
2
1. DISEÑO EXPERIMENTAL .................................................................................................. 68
1.1. El algoritmo Backpropagation ....................................................................................... 69
1.2. El algoritmo Genético ..................................................................................................... 70
1.3. El set de Entrenamiento ................................................................................................. 71
1.4. Evaluación del Método ................................................................................................... 73
1.5. Parámetros de los Algoritmos ........................................................................................ 74
1.5.1. Parámetros Fijos ..................................................................................................... 74
1.5.2. Variables Independientes ....................................................................................... 75
1.5.3. Variables Dependientes .......................................................................................... 75
1.6. Tipos de Gráficos ............................................................................................................ 76
2. EXPERIMENTOS .................................................................................................................. 77
2.1. Red Neuronal ................................................................................................................... 77
2.1.1. Tasas de Aprendizaje y Momento Óptimos .......................................................... 77
2.1.2. Valores de inicialización Óptimos.......................................................................... 81
2.2. Algoritmos genéticos ....................................................................................................... 83
2.2.1. Función de Selección ............................................................................................... 83
2.2.2. Función de Cruza .................................................................................................... 85
2.2.3. Función de Mutación .............................................................................................. 88
2.2.4. Valores de Inicialización ......................................................................................... 93
2.3. Comparación de Ambos Métodos .................................................................................. 97
CAPITULO IV: CONCLUSIONES ................................................................................................ 103
1. CONCLUSIONES................................................................................................................. 103
2. BIBLIOGRAFIA................................................................................................................... 104
3
IMAGENES
Imagen 01: Relación entre la Inteligencia Artificial (IA), LA Ingeniería del Conocimiento (INCO) y
otras áreas. Fuente: Universidad de Buenos Aires -Fernando Sagueiro. ........................................... 11
Imagen 02: Salto Sináptico. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de Física,
Universidad de Concepción, Concepción, Chile. ................................................................................. 23
Imagen 03: Cuadro comparativo entre el cerebro humano y una computadora. Fuente:
Universidad de Buenos Aires -Fernando Sagueiro. ............................................................................. 25
Imagen 04: Esquema de Neurona. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de
Física, Universidad de Concepción, Concepción, Chile. ...................................................................... 26
Imagen 05: Escalón. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de Física,
Universidad de Concepción, Concepción, Chile. ................................................................................. 27
Imagen 06: Sigmoidea. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de Física,
Universidad de Concepción, Concepción, Chile. ................................................................................. 27
Imagen 07: Esquema con inclinación. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento
de Física, Universidad de Concepción, Concepción, Chile. ................................................................. 28
Imagen 08: Función And. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de Física,
Universidad de Concepción, Concepción, Chile. ................................................................................. 29
Imagen 09: Función Or. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de Física,
Universidad de Concepción, Concepción, Chile. ................................................................................. 30
Imagen 10: Función xOr. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de Física,
Universidad de Concepción, Concepción, Chile. ................................................................................. 30
Imagen 11: Función Lógica “simple”. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento
de Física, Universidad de Concepción, Concepción, Chile. ................................................................. 31
Imagen 12: And sobre el plano. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de
Física, Universidad de Concepción, Concepción, Chile. ...................................................................... 32
Imagen 13: xOr sobre el plano. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de
Física, Universidad de Concepción, Concepción, Chile. ...................................................................... 33
Imagen 14: Separabilidad Lineal. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de
Física, Universidad de Concepción, Concepción, Chile. ...................................................................... 34
Imagen 15: Red Unicapa. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de Física,
Universidad de Concepción, Concepción, Chile. ................................................................................. 35
Imagen 16: Red Multicapa. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de Física,
Universidad de Concepción, Concepción, Chile. ................................................................................. 36
Imagen 17: Aprendizaje con Profesor o Supervisado. Fuente: Fernando Izaurieta y Carlos Saavedra
Departamento de Física, Universidad de Concepción, Concepción, Chile. ........................................ 38
Imagen 18: Funcionamiento de un Perceptrón. Fuente: Fernando Izaurieta y Carlos Saavedra
Departamento de Física, Universidad de Concepción, Concepción, Chile. ........................................ 41
Imagen 19: Infinitas Soluciones. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de
Física, Universidad de Concepción, Concepción, Chile. ...................................................................... 43
Imagen 20: Patrones de Entrenamiento para el Experimento 1. Fuente: Fernando Izaurieta y Carlos
Saavedra Departamento de Física, Universidad de Concepción, Concepción, Chile. ........................ 43
Imagen 21: Reconocimiento de letras del Patrones de Entrenamiento para el Experimento 1.
Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de Física, Universidad de Concepción,
Concepción, Chile. ................................................................................................................................ 44
Imagen 22: Patrones de Entrenamiento 2. Fuente: Fernando Izaurieta y Carlos Saavedra
Departamento de Física, Universidad de Concepción, Concepción, Chile. ........................................ 45
4
Imagen 23: Reconocimiento en Patrones de Entrenamiento 2. Fuente: Fernando Izaurieta y Carlos
Saavedra Departamento de Física, Universidad de Concepción, Concepción, Chile. ........................ 45
Imagen 24: Sinapsis para X, O e I. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de
Física, Universidad de Concepción, Concepción, Chile. ...................................................................... 45
Imagen 25: Otras Sinapsis para X, O e I. Fuente: Fernando Izaurieta y Carlos Saavedra
Departamento de Física, Universidad de Concepción, Concepción, Chile. ........................................ 46
Imagen 26: Predictor Lineal. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de Física,
Universidad de Concepción, Concepción, Chile. ................................................................................. 47
Imagen 27: Experimento de Predicción. Fuente: Fernando Izaurieta y Carlos Saavedra
Departamento de Física, Universidad de Concepción, Concepción, Chile. ........................................ 48
Imagen 28: Red Multicapa. Fuente: Fernando Izaurieta y Carlos Saavedra Departamento de Física,
Universidad de Concepción, Concepción, Chile. ................................................................................. 49
Imagen 29: Etapas hacia adelante y hacia atrás. Fuente: Fernando Izaurieta y Carlos Saavedra
Departamento de Física, Universidad de Concepción, Concepción, Chile. ........................................ 50
Imagen 30: Modelo Backpropagation [Rumelhart et al., 1986] de red neuronal artificial (NN). Es
una red multicapa, con conexiones hacia adelante y sin conexiones recurrentes. Fuente:
Universidad de Buenos Aires -Fernando Sagueiro. ............................................................................. 52
Imagen 31: Modelo S.O.M. [Kohonen, 2001] de red neuronal artificial (NN). Es una red multicapa,
con conexiones hacia adelante y con conexiones recurrentes. Fuente: Universidad de Buenos Aires
-Fernando Sagueiro. ............................................................................................................................. 55
Imagen 32: Pasaje de una grilla de 3 dimensiones a una región patrón del tipo triángulo equilátero
en el plano utilizando un mapa de 25x25 puntos y una red del tipo S.O.M. Se muestran los
resultados para las iteraciones 20 (32.a), 250 (32.b), 500 (32.c), 1000 (32.d), 10000 (32.e), 25000
(32.f), 50000 (32.g) y 100000 (32.h).Fuente: Universidad de Buenos Aires -Fernando Sagueiro. .... 58
Imagen 32: Campos de aplicación de las redes neuronales artificiales Fuente: Universidad de
Buenos Aires -Fernando Sagueiro........................................................................................................ 59
Imagen 33: Topologías de redes e hitos ordenados cronológicamente. Fuente: Universidad de
Buenos Aires -Fernando Sagueiro........................................................................................................ 60
Imagen 34: Estructura clásica de un Sistema Tutor Inteligente propuesta por Carbonell [Carbonell,
1970]. Fuente: Universidad de Buenos Aires -Fernando Sagueiro. .................................................... 64
Imagen 35: Distribución de los tiempos de entrenamiento Fuente: Universidad de Buenos Aires -
Fernando Sagueiro. .............................................................................................................................. 69
Imagen 36: Características de los sets de datos. Fuente: Universidad de Buenos Aires -Fernando
Sagueiro. ............................................................................................................................................... 73
Imagen 37: Tiempos de entrenamiento. Tasa de aprendizaje=0.01 Fuente: Universidad de Buenos
Aires -Fernando Sagueiro. .................................................................................................................... 77
Imagen 38: Tendencias de error de entrenamiento. Tasa de aprendizaje=0.01 Fuente: Universidad
de Buenos Aires -Fernando Sagueiro................................................................................................... 78
Imagen 39: Tiempos de entrenamiento. Tasa de aprendizaje=0.05 Fuente: Universidad de Buenos
Aires -Fernando Sagueiro. .................................................................................................................... 78
Imagen 40: Tendencia del error de entrenamiento. Tasa de aprendizaje=0.05 Fuente: Universidad
de Buenos Aires -Fernando Sagueiro................................................................................................... 78
Imagen 41: Tiempos de entrenamiento. Tasa de aprendizaje=0.1 Fuente: Universidad de Buenos
Aires -Fernando Sagueiro. .................................................................................................................... 79
Imagen 42: Tendencia del error de entrenamiento. Tasa de aprendizaje=0.1 Fuente: Universidad
de Buenos Aires -Fernando Sagueiro................................................................................................... 79
Imagen 43: Tiempos de entrenamiento. Tasa de aprendizaje=0.25 Fuente: Universidad de Buenos
Aires -Fernando Sagueiro. .................................................................................................................... 79
5
Imagen 44: Tendencia del error de entrenamiento. Tasa de aprendizaje=0.25 Fuente: Universidad
de Buenos Aires -Fernando Sagueiro................................................................................................... 80
Imagen 45: Mejores tiempos individuales de entrenamiento. Tasa de aprendizaje=0.25 Fuente:
Universidad de Buenos Aires -Fernando Sagueiro. ............................................................................. 80
Imagen 46: Tiempos de entrenamiento. Valor de Iniciación de la Red Neuronal. Fuente:
Universidad de Buenos Aires -Fernando Sagueiro. ............................................................................. 82
Imagen 47: Tiempos del error de entrenamiento. Valor de Iniciación de la Red Neuronal. Fuente:
Universidad de Buenos Aires -Fernando Sagueiro. ............................................................................. 82
Imagen 48: Mejores tiempos individuales de entrenamiento. Fuente: Universidad de Buenos Aires
-Fernando Sagueiro. ............................................................................................................................. 82
Imagen 49: Tiempo de Entrenamiento. Función de Selección. Fuente: Universidad de Buenos Aires
-Fernando Sagueiro. ............................................................................................................................. 84
Imagen 50: Tendencia del Error de Entregamiento. Función de Selección Fuente: Universidad de
Buenos Aires -Fernando Sagueiro........................................................................................................ 84
Imagen 51: Mejores tiempos individuales de entrenamiento. Fuente: Universidad de Buenos Aires
-Fernando Sagueiro. ............................................................................................................................. 84
Imagen 52: Tiempos de Entrenamiento. Función de Cruza. Fuente: Universidad de Buenos Aires -
Fernando Sagueiro. .............................................................................................................................. 86
Imagen 53: Tendencia del Error de entrenamiento. Fuente: Universidad de Buenos Aires -Fernando
Sagueiro. ............................................................................................................................................... 86
Imagen 54: Mejores tiempos individuales de entrenamiento. Fuente: Universidad de Buenos Aires
-Fernando Sagueiro. ............................................................................................................................. 87
Imagen 55: Tiempo de Entrenamiento. Función de mutación numérica. Fuente: Universidad de
Buenos Aires -Fernando Sagueiro........................................................................................................ 88
Imagen 56: Tendencias del Error de entrenamiento. Función de mutación numérica lineal
creciente. Fuente: Universidad de Buenos Aires -Fernando Sagueiro. .............................................. 89
Imagen 57: Tendencias del Error de entrenamiento. Función de mutación numérica lineal
decreciente. Fuente: Universidad de Buenos Aires -Fernando Sagueiro. .......................................... 89
Imagen 58: Tendencias del Error de entrenamiento. Función de mutación numérica uniforme.
Fuente: Universidad de Buenos Aires -Fernando Sagueiro. ............................................................... 90
Imagen 59: Tiempos de entrenamiento. Función de mutación binaria. Fuente: Universidad de
Buenos Aires -Fernando Sagueiro........................................................................................................ 90
Imagen 60: Tendencias del Error de entrenamiento. Función de mutación binaria lineal creciente.
Fuente: Universidad de Buenos Aires -Fernando Sagueiro. ............................................................... 91
Imagen 61: Tendencias del Error de entrenamiento. Función de mutación binaria lineal
decreciente. Fuente: Universidad de Buenos Aires -Fernando Sagueiro. .......................................... 91
Imagen 62: Tendencias del Error de entrenamiento. Función de mutación binaria uniforme.
Fuente: Universidad de Buenos Aires -Fernando Sagueiro. ............................................................... 92
Imagen 63: Tiempos de entrenamiento. Iniciación Random. Fuente: Universidad de Buenos Aires -
Fernando Sagueiro. .............................................................................................................................. 94
Imagen 64: Mejores tiempos individuales de entrenamiento. Fuente: Universidad de Buenos Aires
-Fernando Sagueiro. ............................................................................................................................. 94
Imagen 65: Tendencias del Error de Entrenamiento. Iniciación Random. Fuente: Universidad de
Buenos Aires -Fernando Sagueiro........................................................................................................ 94
Imagen 66: Tiempos de entrenamiento. Iniciación Random selectiva. Fuente: Universidad de
Buenos Aires -Fernando Sagueiro........................................................................................................ 95
Imagen 67: Mejores tiempos individuales de entrenamiento. Fuente: Universidad de Buenos Aires
-Fernando Sagueiro. ............................................................................................................................. 95
6
Imagen 68: Tendencias del Error de entrenamiento. Iniciación Random selectiva. Fuente:
Universidad de Buenos Aires -Fernando Sagueiro. ............................................................................. 95
Imagen 69: Comparación de tiempos de entrenamiento. Fuente: Universidad de Buenos Aires -
Fernando Sagueiro. .............................................................................................................................. 97
Imagen 70: Comparación de la tendencia del error de entrenamiento. Fuente: Universidad de
Buenos Aires -Fernando Sagueiro........................................................................................................ 97
Imagen 71: Comparación de error de entrenamiento. Fuente: Universidad de Buenos Aires -
Fernando Sagueiro. .............................................................................................................................. 98
Imagen 72: Mejores tiempos individuales de entrenamiento. Fuente: Universidad de Buenos Aires
-Fernando Sagueiro. ............................................................................................................................. 98
Imagen 73: Tiempos individuales de entrenamiento. Fuente: Universidad de Buenos Aires -
Fernando Sagueiro. .............................................................................................................................. 99
Imagen 74: Comparación de la cantidad de aciertos. Fuente: Universidad de Buenos Aires -
Fernando Sagueiro. .............................................................................................................................. 99
Imagen 75: Comparación de la cantidad de aciertos. Fuente: Universidad de Buenos Aires -
Fernando Sagueiro. .............................................................................................................................. 99
Imagen 76: Mejores Porcentajes de aciertos sobre el set de entrenamiento. Fuente: Universidad
de Buenos Aires -Fernando Sagueiro................................................................................................. 100
Imagen 77: Mejores porcentajes de aciertos sobre el set de validación. Fuente: Universidad de
Buenos Aires -Fernando Sagueiro...................................................................................................... 100
7
INTRODUCCIÓN
El hombre se ha caracterizado siempre por su búsqueda constante de nuevas vías para mejorar
sus condiciones de vida. Estos esfuerzos le han servido para reducir el trabajo en aquellas
operaciones en las que la fuerza juega un papel primordial. Los progresos obtenidos han
permitido dirigir estos esfuerzos a otros campos, como por ejemplo, a la construcción de
problemas que antes resultaban engorrosos de resolver. Sin embargo, se observa una limitación
importante: ¿qué ocurre cuando el problema que se quiere resolver no admite un tratamiento
algorítmico, como es el caso, por ejemplo, de la clasificación de objetos por rasgos comunes?
Este ejemplo demuestra que la construcción de nuevas máquinas más versátiles requiere un
enfoque del problema desde otro punto de vista. Los desarrollos actuales de los científicos se
dirigen al estudio de las capacidades humanas como una fuente de nuevas ideas para el diseño
de las nuevas máquinas. Así, la inteligencia artificial es un intento por descubrir y describir
aspectos de la inteligencia humana que pueden ser simulados mediante máquinas. Esta
8
CAPITULO I: INTRODUCCION
Algunas tecnologías como los agentes inteligentes, las redes neuronales, los sistemas
expertos y los Sistemas Tutores Inteligentes, que hace unos años solo existían en forma teórica
que se encuentran en la etapa de producción y no son solo casos de estudio en los laboratorios
universitarios. Además, estas tecnologías están disponibles para las grandes empresas y los
centros de alta tecnología, así como también para aplicaciones pequeñas y medianas, que
En los últimos años las tecnologías han evolucionado muy rápidamente y la Inteligencia
Artificial (IA) surge como una de las ramas de estudio más recientes y promisorias en el campo
de las Ciencias de la Computación. Ello hace que existan muchas aplicaciones poco exploradas
lo cual torna a este campo en un área interesante para los investigadores, estudiantes y
administradores que puedan utilizar en forma directa los resultados de las investigaciones.
A finales del siglo XIX se realizaron estudios sistemáticos, basados en distintas ciencias,
Se crearon muchas teorías a partir de estas investigaciones, desde las fisiológicas, que
y diferencias de potencial hasta las filosóficas que intentan explicar el funcionamiento del
9
Se observa que cada autor da una definición de la inteligencia: desde la enunciación muy
organismos” [Maturama, 1998], pasando por investigadores como Piaget [Piaget, 1989] que
nueva”.
Es aquí donde la investigación sobre Inteligencia Artificial (IA) intenta asimilar estas
Inteligentes (STI) que contemplan el aprendizaje humano y como la enseñanza con base
pedagógica. Es por ello, que el objetivo de este capítulo es presentar un marco conceptual que
dé lugar al Estado del Arte de la Inteligencia Artificial (AI) y los Sistemas Tutores Inteligentes
(STI).
2. INTELIGENCIA ARTIFICIAL
inteligencia en abstracto, la Inteligencia Artificial (IA) es un intento por descubrir y aplicar los
Artificial (IA) ha presentado productos sorprendentes en sus aplicaciones [Stuart et al., 1995].
Hoy en día, el campo de la Inteligencia Artificial (IA) enmarca varias subáreas tales como los
10
Imagen 01: Relación entre la Inteligencia Artificial (IA), LA Ingeniería del
Conocimiento (INCO) y otras áreas. Fuente: Universidad de Buenos Aires -
Fernando Sagueiro.
La inteligencia artificial (IA) surge, así como una disciplina cuyo objetivo es proveer
técnicas para el desarrollo de programas capaces de simular la inteligencia que utilizan los
humanos para solucionar problemas en una gran cantidad de dominios [Krishnamoorthy et al,
1996], por lo que la IA provee un conjunto de formalismos que pueden representar los
[Krishnamoorthy et al, 1996; Newell, 1969] las actividades esenciales asociadas con la
inteligencia son:
problemática planteada.
• Encontrar similitudes entre situaciones, sin importar las diferencias que las separan.
• Encontrar las diferencias entre situaciones, sin importar lo similares que puedan
11
• parecer.
Por su amplio contenido, es difícil definir a la Inteligencia Artificial (IA), pero resulta de
interés para este trabajo arribar a un concepto esclarecedor, por lo que se expondrán diferentes
Si bien existen muchas definiciones de Inteligencia Artificial (IA) en las que cada autor la
presenta de una manera ligeramente diferente, aquí se resumirán las más representativas,
establece Stuart [Stuart et al., 1995] quien define a un sistema como racional “si hace
lo correcto”, es decir, una acción a la que llega por medio de procesos lógicos
mesurables.
cronológicamente:
12
• Haugeland en 1985 la definió como: “El nuevo y excitante esfuerzo de hacer pensar
la frase”.
• Según Charniak y McDermott en 1985 es: “El estudio de las facultades mentales a
• Para Kurzweil en 1990 es: “El arte de crear máquinas que realicen funciones que
requieran una cierta inteligencia cuando estas tareas son desempeñadas por
personas”.
• Schalkoff en 1990 la definió como: “Un campo de estudio que busca explicar y emular
• Para Rich y Knight en 1991 es: “El estudio para hacer a las computadoras realizar
• Según Winston en 1992 es: “El estudio de la computación para hacer posible el
13
Todas estas definiciones mencionadas son válidas y cada una agrega un aspecto al amplio
general de su evolución. Esta evolución permitirá observar cómo van surgiendo las nuevas
herramientas y aplicaciones que facilitarán los diseños de los Sistemas Tutores Inteligentes
(STI).
Stuart [Stuart et al., 1995] reconoce que los primeros trabajos en Inteligencia Artificial fueron
realizados por Culloch y Pitts en 1943, quienes centraron sus investigaciones en tres áreas
fundamentales:
interruptor (encendido/apagado) con respecto al valor de las neuronas vecinas. Seis años
después, en 1949 Hebb [Hebb, 1949] creó una regla simple para modificar el peso (o
intensidad) de estas conexiones. Un año más tarde, Shannon [Shannon, 1950] y Turing en
1953 [Turing et al., 1953] escribieron programas que jugaban al ajedrez ejecutados en
computadoras que seguían el paradigma de Von Newmann. Para esta misma época se creó
SNARC [Minsky, 1954], una red neuronal que simulaba 40 neuronas utilizando 3000 tubos
14
Según Stuart [Stuart, 1995] en 1954 Newell y Simon ya tenían programas que podían
utilizar razonamiento lógico, utilizando la teoría lógica. Simon declaró haber inventado un
programa computacional capaz de pensar de manera no numérica. Pero fue, según Stuart
[Stuart et al., 1995], en los finales de la década de los cincuenta en la que se adoptó el nombre
que McCarthy le había dado a este campo de la computación por más de 20 años: Inteligencia
Artificial.
Si bien en los comienzos de la década de los cincuenta el poder computacional era muy
limitado, se desarrollaron teorías que hoy son básicas en el campo de la Inteligencia Artificial,
sobre todo en el campo del pensamiento humano y los protocolos que las personas utilizan a lo
campo de la IA; si bien el uso de tiempo de CPU era difícil de encontrar, en ese mismo año
construye el Geometry Theorem Prover [Gelernter, 1959], que, como la lógica teórica, se
utiliza para probar teoremas utilizando representaciones explícitas de axiomas. Stuart [Stuart
et al., 1995] resalta que, luego de más de 45 años, muchos de los trabajos escritos entre 1958
y 1959 permanecen vigentes a la fecha de hoy. También en esta época, Friedberg [Friedberg
las universidades más grandes del mundo (como el Massachussets Institute of Technology y
Standford University, entre otras) y el programa de Slagle llamado SAINT creado en 1963
[Slagle, 1963] era capaz de solucionar problemas de cálculo que se les entregaban a los
15
estudiantes del primer año. Para 1968 Bertram con su SIR (Semantic Information Retrieval)
de palabras de este idioma). Luego fue mejorado por un programa que entendía el lenguaje
natural, en 1972, por Winograd [Winograd, 1972]. En 1873 Woods construyó el sistema
LUNAR [Woods, 1973], que permitía a los geólogos realizar preguntas, en inglés, acerca de
muestras de rocas traídas por el programa espacial norteamericano Apollo desde la luna. Este
incrementando el paralelismo y haciendo más robustas las aplicaciones [Stuart et al., 1995].
Recién en esta época, todos los trabajos expuestos respondían de manera satisfactoria a un
pequeño conjunto de elementos de prueba, pero fallaban a la hora de trabajar con el universo
completo de posibilidades: esto se debe a que la “IA” representaba los hechos de un problema
de una manera determinada y establecía una serie de pasos a seguir para resolverlos. Antes de
suponía que la escalabilidad de los problemas era solo cuestión de mejorar el hardware.
En 1979 se publicó el informe Lighthill [Lighthill, 1973] que contenía grandes críticas
la “IA”. A este informe se le suma que las posibles aplicaciones de los algoritmos desarrollados
hasta la fecha era muy pocas, poniendo el ejemplo de que un Perceptron [Rosenblatt, 1958]
entradas, solo podía representar un conjunto muy limitado de situaciones, y no fue hasta 1980
multicapa.
16
En este período Buchanan desarrolla el programa Dendral [Buchanan et al., 1969]
información que provenía de un espectrómetro de masa. Este programa, según Stuart [Stuart
et al., 1995] funcionaba de forma aceptable para moléculas complejas, probando con esto que
las técnicas de la “IA” pueden ser aplicadas a dominios reales y no solamente a casos de
laboratorio. Este fue el primer programa utilizado que contenía información sobre el dominio
y las reglas para resolverlas, además se lo puede ver como uno de los precursores de los KBES
(Knowledge Based Expert Systems.). Una de las primeras aplicaciones útiles fue MyCin de
como un experto, y considerablemente mejor que un doctor recién recibido. Es una de las
primeras aplicaciones que integra las incertezas dentro del dominio como una forma de emular
la complejidad del dominio médico, ya que varias enfermedades pueden tener los mismos
[Duda et al., 1980] generó una gran publicidad cuando recomendó una exploración en
profundidad de un sitio geológico, dando por resultado el descubrimiento de uno de los más
en los que participaron Schank y Abelson en 1977, Schank y Riesbeck en 1981 y Dyer en
1983 A su vez, se intentó describir la organización de la memoria del cuerpo humano, por
A partir del comienzo de la década de los ochenta, la Inteligencia Artificial dejó los
laboratorios para convertirse en una industria. Un ejemplo de ello es el Sistema Experto (SE)
“R1” utilizado por la Digital Equipment Corporation. Con este sistema la organización
17
conformaba órdenes y pedidos de los nuevos sistemas de computadora, logrando ahorros para
lenguaje Prolog (o un lenguaje similar) como si fuese lenguaje de máquina, pudiendo realizar
millones de inferencias por segundo. Esto impulsó el interés por la “IA”, haciéndola avanzar
Más tarde, comenzó el período que Stuart [Stuart et al., 1995] ubica de la década de
intentó refinar las teorías ya existentes para su correcto funcionamiento. Por ejemplo, Tate
framework para facilitar el trabajo, el que fue utilizado incluso para programar las misiones
sistemas inteligentes, como plantea Pearl (1978) y defiende Cheeseman [Cheeseman, 1985].
de programación. Se deja atrás la programación estructurada con la que se armaron las primeras
[Minsky, 1974] y se encamina hacia la programación por agentes. En 1987 se creó SOAR de
Laird, Newell y Rosenbloom [Laird. et al, 1987] que fue una de las primeras
18
sensores, pero en una visión más general se comportaba como una arquitectura de resolución
A finales de la década de los noventa e inicio del siglo XXI, con el advenimiento del
costos de hardware más reducidos, se terminó por aceptar a la Inteligencia Artificial (IA) como
un campo práctico y no solo teórico, en el cual los desarrollos aplicables son posibles más allá
utilizan hoy en día, a nivel masivo como en actual “clippo”, el asistente de Microsoft Word,
que utiliza una red bayesiana para satisfacer las necesidades del usuario del procesador de texto.
La Inteligencia Artificial (IA) comprende otras áreas que son: los sistemas basados en
conocimiento (KBES), las redes neuronales, la ingeniería del conocimiento (INCO), los
sistemas expertos y los Sistemas Tutores Inteligentes (STI). En lo que sigue, se describen
someramente cada una de ellas para lograr una idea completa del ámbito de la Inteligencia
Artificial (IA).
Es un algoritmo ideado por Quinlan [Quinlan, 1993], dentro de los métodos inductivos
del Aprendizaje Automático, que aprende a partir de ejemplos preclasificados y se utilizan para
modelar las clasificaciones en los datos mediante árboles de decisión. Estos algoritmos han
El C4.5 [Quinlan, 1993] junto con antecesor el ID3 [Quinlan, 1987] forman parte de la
familia de los Top Down Induction Trees (TDIDT). La idea de ambos algoritmos es de
considerar todas las pruebas posibles que pueden dividir el conjunto de datos de entrada y
19
Para cada atributo discreto, se considera una prueba con n resultados, siendo n el número de
valores posibles que puede tomar el atributo. Para cada atributo continuo, se realiza una prueba
binaria sobre cada uno de los valores que toma el atributo en los datos. Existen dos tipos de
ejemplos:
donde la población tiene una varianza muy baja a reglas que se adapten muy bien a las
Se pretende entonces que el conocimiento adquirido cubra todos los ejemplos positivos y
ningún ejemplo negativo, manteniendo que los ejemplos sean representativos de los conceptos
ejemplos de entrenamiento, a partir de los que el sistema aprende, debe ser similar a la
20
CAPITULO II: REDES NEURONALES ARTIFICIALES
1. REDES NEURONALES
computadores comunes que son de tipo secuencial, o sea, realizan sólo una operación a la vez.
interneuronales.
• Poseen un alto nivel de tolerancia a fallas, es decir, pueden sufrir un daño considerable
biológicos.
21
Entre las motivaciones principales para el estudio del funcionamiento de las redes neuronales
La clave de esto se encuentra en la inmensa plasticidad del cerebro, existen tareas cotidianas
para el cerebro que sería impensable realizar mediante computación tradicional. Un ejemplo
de esto es la capacidad reconocer a una persona en un tiempo de 100 a 200 ms. En ese breve
de una persona que quizás ha cambiado de aspecto (luce distinto o simplemente envejeció) en
un paisaje cambiante (que puede contener muchos otros rostros). En la actualidad, tareas mucho
más simples consumen días de trabajo de los computadores más veloces. La plasticidad se
antes recibido. Esa capacidad hace que cuando nos presentan por primera vez a alguien,
sepamos automáticamente que es una persona y no un objeto u otro ser biológico. Debido a
estas características y muchas otras, las neuroredes se han convertido en una gran ayuda en el
comportamiento iterativo no lineal las une de modo natural al caos y teorías de la complejidad.
De hecho, las posibilidades son tan amplias que se empieza a hablar de un nuevo campo, a
2. MODELO BIOLÓGICO
Una neurona es una célula viva que consta de un cuerpo celular relativamente esférico de
5 a 10 micrones de diámetro, denominado soma, del que se desprende una rama principal o
22
axón y varias ramas más cortas llamadas dendritas. A su vez, el axón presenta ramas en torno
Típicamente, las neuronas son 6 ó 5 órdenes de magnitud más lentas que una compuerta
lógica de silicio, los eventos en un chip de silicio toman alrededor de nanosegundos (109 s),
mientras que en una neurona este tiempo es del orden de los milisegundos (103 ). Sin embargo,
con un número inmenso de neuronas con interconexiones masivas entre ellas. Se estima que el
número de neuronas en el cerebro es del orden de 10, y que el número de conexiones sinápticas
de las neuronas codifican sus salidas como una serie de breves pulsos periódicos, llamados
potenciales de acción, que se originan cercanos al soma de la célula y se propagan a través del
axón. Luego, este pulso llega a las sinapsis y de ahí a las dendritas de la neurona siguiente.
Una sinapsis es una interconexión entre dos neuronas, un dibujo esquemático de ella se incluye
en la siguiente imagen. En ella, el botón sináptico corresponde al término del axón de una
23
Una de las características que diferencia a las neuronas de otras células, es la capacidad de
el cuerpo celular reciben señales de entrada, el cuerpo celular las combina e integra y emite
❖ Química: La señales que se transmiten entre los terminales axónicos y las dendritas se
fluyen a través de unos contactos denominados sinapsis, estando estos localizados entre
los terminales axónicos y las dendritas de las neuronas siguientes, dejando entre estos
❖ Eléctrica: La señal generada por la neurona, que se transporta a lo largo del axón es un
defiere de la del líquido del exterior, con una concentración diez veces mayor de iones
potasio, mientras que el medio externo contiene diez veces más iones sodio. Esta
exterior de la membrana celular del orden de los 70 mV que se conoce con el nombre
esto es la emisión por parte de la neurona, de trenes de impulsos cuya frecuencia varía
de impulsos).
24
Imagen 03: Cuadro comparativo entre el cerebro humano y una
computadora. Fuente: Universidad de Buenos Aires -Fernando Sagueiro.
Esta imagen muestra una comparación entre las unidades fundamentales informáticas y su
similitud con las células del cerebro humano. Esta tabla se basa en el libro Artificial Intelligence
A Modern Approach de Stuart [Stuart et al., 1995] pero los datos computacionales son
3. MODELO NEURONAL
Aquí se desea introducir un modelo sencillo de la neurona, para construir redes, nuestro fin
modelar exactamente el comportamiento fisiológico de la neurona, sino más bien sólo sus
características más relevantes, que entran en juego en su interacción con toda la red.
Las n neuronas xi están enviando señales de entradas, que son los valores numéricos de “algo”.
Los valores wji representan los pesos sinápticos en las dendritas de yj. Obsérvese la notación:
el primer índice denota a la neurona hacia donde se dirige la información, el segundo índice
25
Imagen 04: Esquema de Neurona. Fuente: Fernando Izaurieta y Carlos
Saavedra Departamento de Física, Universidad de Concepción,
Concepción, Chile.
biológica se sumaban las entradas provenientes de todas las dendritas. Entonces tenemos que
𝒚𝒋(𝒊𝒏) ∑ 𝒘𝒋 𝒊 𝒙𝒊
𝒊:𝟏
(1)
En donde el índice (in) denota “input” o entrada. Como mencionamos la neurona se activa si
la entrada total supera un cierto umbral. Lo que se hace para esto es aplicar una función de
activación φ sobre 𝑦𝑗 (𝑖𝑛) , que puede ser, por ejemplo, una función tipo escalón o sigmoidea,
como la tangente hiperbólica. Entonces tenemos que la señal de output o salida de la neurona
yj es:
𝒚𝒋 = 𝛗(𝒚𝒋(𝒊𝒏) )
(2)
26
3.1. Funciones de Activación
Además, a veces se suele usar como función de activación una relación lineal, generalmente la
función identidad. Esta se usa por lo general para neuronas de entrada a la red o sensores. Esto
27
Si la función de activación de una neurona es lineal, decimos que es una neurona lineal, en
caso contrario, decimos que es una neurona no lineal. Aquí, las neuronas lineales se las
3.2.Umbrales e Inclinación
Anteriormente, se explicó que una neurona se activa o “dispara” si su entrada total supera
un cierto umbral. Ahora bien, muchas veces es deseable modificar este umbral, haciendo más
difícil que la neurona dispare (subir el umbral) o más fácil (bajar el umbral). Es posible hacer
esto directamente. Sin embargo, esto suele ser un poco engorroso al programar.
𝒚𝒋(𝒊𝒏) = ∑ 𝒘𝒋 𝒊 𝒙𝒊 ; 𝒄𝒐𝒏 𝒙𝒐 = 𝟏
𝒊=𝟎
(3)
28
3.3.El Comienzo: McCulloch-Pitts
Después de las definiciones previas, es conveniente revisar un ejemplo sencillo, pero muy
Este consiste en el primer modelo que se creó de red neural, el año 1943, antes de que se
Ellos demostraron que todas las funciones lógicas se pueden describir mediante
combinaciones apropiadas de neuronas de este tipo, y que por lo tanto, se podía crear, en
principio, una red capaz de resolver cualquier función computable. Además, el modelo sirve
para explicar algunos fenómenos biológicos sencillos. De esta forma es posible describir
29
Imagen 09: Función Or. Fuente: Fernando Izaurieta y Carlos Saavedra
Departamento de Física, Universidad de Concepción, Concepción, Chile.
En todos estos ejemplos, se supone que el umbral de cada neurona no lineal es 2. O sea,
𝟎 𝒔𝒊 𝒚𝒊𝒏 < 𝟐
𝒚={
𝟏 𝒔𝒊 𝒚𝒊𝒏 ≥ 𝟐
(4)
Ahora es muy fácil comprobar que las tablas de verdad efectivamente se cumplen (Se
asume que 1=Verdadero y 0=Falso.), por ejemplo, la primera línea de la tabla de verdad para
el And:
(5)
30
Es fácil comprobar que la red mostrada efectivamente cumple con la tabla de verdad.
Sin embargo, llama la atención el que su red sea más compleja que la de las funciones And u
Or, pese a que sólo se diferencia de la función Or en la primera línea. Pudiéramos darnos el
trabajo de buscar una red diferente para representar xOr, buscando algo más sencillo.
Existen varias otras redes que también la representan, pero ninguna de ellas sencillas como la
Fijémonos primero en que consiste la “complejidad”. En las redes And u Or las neuronas de
entrada y la de salida están conectadas directamente, en cambio, se puede demostrar que para
la función xOr habrá siempre por lo menos, una conexión indirecta. Para entender esta
diferencia se debe incorporar dos nuevos conceptos: Problemas linealmente separables y Capas
Neurales.
Volvamos a una red simple, como la del And u Or, pero más general, como la de la siguiente
31
Sabemos que la entrada 𝑦 (𝑖𝑛) estará dada por:
𝒚(𝒊𝒏) = 𝒘𝒐 + 𝒘𝟏𝒙𝟏 + 𝒘𝟐𝒙𝟐
(6)
y la respuesta, por:
𝟎 𝒔𝒊 𝒚𝒊𝒏 < 𝟎
𝒚={
𝟏 𝒔𝒊 𝒚𝒊𝒏 ≥ 𝟎
(7)
Esto divide al plano formado por x1 y x2 en dos regiones: en una, se tendrá que y =0 e 𝑦 (𝑖𝑛) <0,
en la otra se tendrá que y =1 e 𝑦 (𝑖𝑛) ≥ 0. La frontera entre ambas está dada por la ecuación
lineal de la recta:
𝒘𝟎 + 𝒘𝟏𝒙𝟏 + 𝒘𝟐𝒙𝟐 = 𝟎
(8)
Veamos por ejemplo que ocurre con la función And. Tenemos que 𝑦 (𝑖𝑛) = x1+x2-2, la
frontera es x1+x2=2. Si superponemos las respuestas que nos debe arrojar la red con el
32
Si la entrada está en la región “Clase 1” producirá una salida 1, si está en la “Clase 0”, una
salida de 0. Vemos que se pueden separar las entradas que deben producir una salida 1 de las
que deben producir una salida 0 por una línea recta. Se dice entonces que el problema es
linealmente separable. Para resolver un problema linealmente separable, nos basta con una
red “sencilla”.
una línea recta que deje a un lado las entradas que deben producir 0, y al otro, las que deben
producir 1. En este caso, decimos que el problema no es linealmente separable. Por eso no
Lo que en realidad estamos haciendo es un caso muy sencillo del problema general de
33
y “Clase 0” o “Clase Falsa”. El concepto de separabilidad lineal se extiende de modo natural a
entradas de más dimensiones. Las entradas que pertenecen a una clase y las que no pertenecen
a esta simplemente tienen que poder separarse por el hiperplano ∑𝑛𝑖=0 𝑤𝑗 𝑥𝑖 = 0 en el espacio
x de las entradas.
Neurales.
Cuando trabajamos con grandes cantidades de neuronas, es natural ordenar aquellas que tienen
comportamientos similares en “capas”, como en la figura 14. De ahí que se usen los subíndices
34
Imagen 15: Red Unicapa. Fuente: Fernando Izaurieta y Carlos Saavedra
Departamento de Física, Universidad de Concepción, Concepción, Chile.
Se acostumbra no contabilizar la capa de entrada, por lo tanto, se dice que la red de la imagen
15 es “Unicapa”. Las sinapsis obviamente están ordenadas en una matriz wji de n x (m+1).
Evidentemente, de nuestro análisis anterior, tenemos que una red unicapa sólo puede resolver
problemas linealmente separables. En una red unicapa, las neuronas de salida pueden ser
lineales o no lineales.
Pero es evidente que podemos seguir añadiendo capas, como se muestra en la imagen siguiente.
35
Imagen 16: Red Multicapa. Fuente: Fernando Izaurieta y Carlos Saavedra
Departamento de Física, Universidad de Concepción, Concepción, Chile.
En una red multicapa, las capas ocultas, que en nuestra figura corresponde a la Capa 2,
siempre son no lineales. Se puede demostrar muy fácilmente que si se construye una red
multicapa con capas ocultas lineales, ésta es equivalente a una red Unicapa.
Podemos ver fácilmente la idea de paralelismo al observar las capas de las redes. Cada
neurona de una capa no necesita de las demás en su misma capa para trabajar, son capaces por
con la nueva tecnología VLSI (Very Large Scale Integrated), en donde se han implementado
Una red multicapa es capaz de resolver problemas más complejos, pero su proceso de
36
4. APRENDIZAJE O ENTRENNAMIENTO
que se adaptan las sinapsis, para que la red responda de un modo distinto a los estímulos del
medio. Recordemos que, en una neurored, toda la información adquirida se guarda en el valor
de cada peso sináptico. De hecho, las neuronas de la mayor parte de los seres vivos con sistema
nervioso, desde un caracol hasta el hombre son esencialmente iguales. Lo que nos hace más
reconocer las vocales. Los pasos del proceso son los siguientes:
𝑁
El profesor dispone de un conjunto de N pares de entrenamiento, {𝑥𝑖 (𝑛); 𝑑𝑗 (𝑛)} 𝑛=1, en donde
x1 (n) es la n-ésima entrada y dj (n) es la respuesta correcta a esa entrada. En nuestro ejemplo,
significa que tenemos todas las vocales dibujadas en un papel (x (n)) y que nosotros sabemos
las respuestas correctas (dj (n)) a cada una de las figuras, los sonidos A, E, I, O, U.
Introducimos una de las entradas xi (n) y esperamos que nuestra red nos responda. Sería como
La neurored responde mediante una salida oj (n). Digamos, el niño nos respondió “Esa es una
E”.
Luego comparamos ambas señales, la respuesta deseada dj (n) y la respuesta de la red oj (n),
creando una señal de error, ej (n)=dj (n) -oj (n). “Mmm...el niño no está tan despierto como
esperaba...”.
37
Luego, con la señal de error ej (n), corrijo las sinapsis de la red mediante algún algoritmo de
los que se verá a continuación. “No hijo, esta no es una E, es una A...”.
general, pueden haber muchas épocas, y el aprendizaje se detiene cuando la red responda
correctamente a todos los pares de entrenamiento. En general, cuando adaptemos las sinapsis,
(9)
en donde wj i (n) son los pesos sinápticos con los que la red responderá al n-ésimo ejemplo.
Esto equivale a no cambiar los pesos sinápticos en forma radical, sino que simplemente los
variamos en una cantidad “pequeña” ∆wj i (n) con respecto a su estado anterior. Lo que
diferencia a los algoritmos o reglas de aprendizaje, es básicamente como encontrar ∆wj i (n).
El que hayan distintos algoritmos tiene cierta base biológica. Neuronas de distintas partes del
Esta es la más antigua y la más famosa de las reglas de aprendizaje, su base es completamente
biológica. Fue encontrada por el neurofisiologo Hebb en 1949, quien descubrió que si dos
(10)
donde las capas de neuronas xi e yj están distribuidas como en la imagen 15. A la constante de
valor de 1 (o de -1), ∆wj i (n)= 𝜼, y esa sinapsis se reforzará. En cambio, si una tomase el valor
simultáneamente tocaba una campanilla. Después de repetir esto muchas veces, Pavlov tocó
sólo la campanilla, sin alimento. Y el perro, sólo oyendo la campanilla, salivaba. La explicación
es muy simple. Al activarse simultáneamente las neuronas que controlan la salivación y las que
para el reconocimiento de patrones, pero por ser red Unicapa, sólo se pueden usar patrones
1958, por Rosenblatt. Es usual pensar que la retina es simplemente un receptor (como el
detector CCD de una cámara de vídeo), pero en realidad es una red altamente compleja. Sólo
39
ha podido ser reproducida en ojos para robots y retinas artificiales para ciegos en la última
década, mediante los llamados circuitos neuromórficos. La retina, además de ser un receptor,
Un perceptrón es una red de una sola capa, como la de la imagen 15. Las neuronas de salida
son no lineales, con función de activación tipo escalón. En nuestros experimentos numéricos,
−𝟏 𝒔𝒊 𝒚𝒋(𝒊𝒏) < 𝟎
𝒚𝒋 = { 𝟎 𝒔𝒊 𝒚𝒋(𝒊𝒏) = 𝟎
𝟏 𝒔𝒊 𝒚𝒋(𝒊𝒏) > 𝟎
(11)
Nótese que se incluyó un punto neutro. A este se le suele llamar punto de indeterminación.
A veces incluso se usa una región en torno al origen que produce una salida de cero, a la cual
se le llama banda de indeterminación. Simplemente dice que la neurona no sabe que responder.
Cada neurona de salida representa a una clase determinada, si una de ellas se activa con una
entrada, significa que pertenece a esa clase, si está desactiva, que no pertenece. Aquí, incluimos
La entrada x corresponde al i-ésimo píxel de la imagen. Digamos por ejemplo que tenemos
una red que nos clasifica una entrada como X u O. Lo que queremos es que funcione como se
la con O, a la clase O:
40
Imagen 18: Funcionamiento de un Perceptrón. Fuente: Fernando
Izaurieta y Carlos Saavedra Departamento de Física, Universidad de
Concepción, Concepción, Chile.
Algoritmo Perceptrónico. Veamos ahora como entrenar esta red que cuenta mo y m1 número
Paso 0:
Inicializar las sinapsis de la red, se puede elegir wj i (0) = 0 ó valores aleatorios. se elige una
Paso 1:
Mientras la condición de parada del paso 5 sea falsa, realizar los pasos del 2 al 5.
Paso 2:
Para cada par de entrenamiento, (xi (n); dj (n)) ;n=1; …; N, hacer los pasos del 3 y 4.
Paso 3:
j =1; …; m1
𝒎𝟎
(𝒊𝒏)
𝒚𝒋 (𝒏) = ∑ 𝒘𝒋 𝒊 (𝒏)𝒙𝒊 (𝒏)
𝒊=𝟎
(12)
41
−𝟏 𝒔𝒊 𝒚𝒋(𝒊𝒏) < 𝟎
𝒚𝒋 (𝒏) = { 𝟎 𝒔𝒊 𝒚𝒋(𝒊𝒏) = 𝟎
𝟏 𝒔𝒊 𝒚𝒋(𝒊𝒏) > 𝟎
(13)
Paso 4:
(14)
Paso 5:
Si los pesos sinápticos no cambian para cada patrón de entrenamiento durante la última vez
Se ve claramente que en nuestro caso, ∆wj i (n)= 𝜼dj (n) xi (n) o 0, dependiendo de si hubo
Supongamos que la j-ésima neurona respondió de forma incorrecta, dijo -1 en vez de 1. Esto
significa que 𝑦𝑗 (𝑖𝑛) (n) fue demasiado pequeño, debemos hacer que crezca haciendo que más
ésima entrada, xi (n) es +1, entonces la i-ésima sinapsis, wj i (n), debería ser positiva y lo más
grande posible también: debemos hacerla crecer. Si por el contrario, xi (n) es -1, debemos hacer
bajar a wj i (n). Esto es lo que se refleja en la forma en que hemos construido el ∆wj i (n), si
dj (n) es +1, entonces ∆wj i (n) tiene el mismo signo que xi (n). En el caso contrario, es todo al
revés.
sinápticos que servirán para solucionar el problema. Basta con multiplicar por una constante la
distintos pesos sinápticos. Además, generalmente, no es un solo hiperplano el que nos podría
42
delimitar bien la frontera, sino que más bien hay infinitos, como se muestra en la siguiente
imagen:
43
Cada imagen es de 7 x 9 = 63 píxels, un píxel negro corresponde a un +1 y uno blanco a un -1,
se usó 𝜂 =1. Las sinapsis se inicializaron con 0. Para construir el vector x1 de entradas,
Después del entrenamiento, algunos patrones que fueron clasificados correctamente fueron los
siguientes:
Aquí observamos el funcionamiento de la red que se ha construido, que a pesar de ser muy
simple, tiene plasticidad y es capaz de generalizar. A pesar de que nunca vio esos patrones
con errores durante su entrenamiento, fue capaz de reconocer a qué letra correspondían.
Para ampliar el experimento nos preguntamos: ¿Se podrá realizar con patrones más grandes?
Para responder esas preguntas, construimos un perceptrón que sólo clasificara entre X, O e I,
Trabajamos exactamente del mismo modo que con el ejemplo anterior. Los patrones de
44
Imagen 22: Patrones de Entrenamiento 2. Fuente: Fernando Izaurieta y
Carlos Saavedra Departamento de Física, Universidad de Concepción,
Concepción, Chile.
Se necesitaron sólo tres épocas. Algunos patrones que fueron clasificados correctamente, son:
sinapsis, obteniéndose 3 gráficas: Una para las sinapsis que se conectan con la neurona de la
45
Simplemente observando se puede entender cómo funcionan las sinapsis, y qué regiones son
Pero dijimos que las sinapsis no eran únicas. Si empezamos con valores iniciales aleatorios
Esta es una regla muy popular, en ella se usa una red de una sola capa, igual que la
algoritmo más sencillo, simplemente calculamos el error ej (n) = dj (n) – yj (n) correspondiente
(15)
Si las neuronas de salida tienen a la identidad como función de activación, φj (𝑦𝑗 (𝑖𝑛) (𝑛)) = 1,
y entonces,
(16)
que es la forma más común del algoritmo. Esta regla en realidad es un caso particular muy
pequeño, la convergencia se hará muy lenta, y si se elige muy grande, el proceso se volverá
inestable y no convergerá. Existen criterios para determinar cotas superiores para 𝜂, pero suelen
dinámico al que estamos describiendo por un único parámetro x. Lo único que conocemos de
él es su historia, muestreando x cada cierto período T. Lo que queremos hacer es predecir cuál
será la respuesta del sistema en el próximo instante. Esto lo hacemos mediante una interacción
dinámico. La red conoce todas las entradas desde x (T) hasta x (nT), y debe predecir el valor
de x ([n +1]T). El papel de respuesta deseada lo juega x ([n +1]T) y el de entrada el historial
del proceso.
47
Es completamente análogo al proceso de aprendizaje con profesor, excepto por que el número
función identidad. Nuestro sistema dinámico era una señal senoidal con variaciones aleatorias.
predecir mejor.
Debemos recordar que en este tipo de redes, las funciones de activación de las capas ocultas
son siempre no lineales. Además, veremos de las ecuaciones que necesitamos una función de
y tiene 𝑚𝐿 neuronas. La de entrada es la capa 0, y tiene 𝑚0 neuronas. Decimos que nuestra red
48
Imagen 28: Red Multicapa. Fuente: Fernando Izaurieta y Carlos Saavedra
Departamento de Física, Universidad de Concepción, Concepción, Chile.
Supondremos que cada capa tiene sus neuronas de inclinación, que por lo general no
dibujaremos en los diagramas. En general, las neuronas de cada capa están completamente
En el funcionamiento de nuestra red, nos encontraremos con dos tipos de señales: Señales de
Señales de Función:
Es el estímulo que entra en la capa 0, y pasa hacia adelante, capa por capa del modo tradicional,
Señales de Error:
Luego de la etapa hacia adelante, viene la retropropagación del error, hacia atrás. Cuando
corregimos las sinapsis, corregimos las de la capa L primero. Luego, observando las sinapsis
de la capa L, corregimos las de la capa L ¡ 1, y así sucesivamente hasta la primera capa. A esto
se le llama señal de error, vamos desde las últimas capas hasta las primeras corrigiendo
49
Imagen 29: Etapas hacia adelante y hacia atrás. Fuente: Fernando
Izaurieta y Carlos Saavedra Departamento de Física, Universidad de
Concepción, Concepción, Chile.
5. RED BACKPROPAGATION
aprendizaje automático que logró que una red neuronal basada en el Perceptron [Rosenblatt,
1958] aprendiera la asociación que existe entre los patrones de entrada y las clases
correspondientes de salidas.
programas computacionales que mejoran con la experiencia. Estos sistemas deben ser capaces
conceptos.
Para lograrlo, se modificó la red del Perceptron de Rosenblatt [Rosenblatt, 1958] agregándole
capas ocultas, con conexión hacia delante y sin conexiones recurrentes [Rumelhart, 1986]. No
fue suficiente con introducir algunas modificaciones topológicas a la red, sino que se requerían
Generalizada [Rumelhart et al., 1986], logrando así, una ampliación del rango de aplicación
50
conocimiento en las capas ocultas, logrando así la correspondencia entre las entradas y las
salidas.
El funcionamiento general de una red neuronal artificial del tipo Backpropagation, como el de
otras redes neuronales, puede dividirse en dos partes: la etapa de entrenamiento y la etapa de
red. Los valores generados por las neuronas de entrada se propagan desde la capa de
entrada hacia las capas superiores hasta generar una salida, en la capa de salida de la
de salida con el valor deseado para cada neurona en particular y se obtiene un error para
❖ Segunda Fase: Los errores de las unidades de salida se transmiten hacia atrás, pasando
por todas las neuronas de las capas intermedias que contribuyan directamente a la
intermedias en la salida original. Este proceso se repite capa por capa hasta llegar a la
capa de entrada y hasta que cada neurona haya recibido un error que describa su aporte
al error total.
propagación hacia atrás, donde los errores se calculan con respecto a los aportes de las
neuronas desde la capa de salida hasta la capa de entrada y es con respecto al valor del
51
error recibido que se reajustan los pesos de las conexiones entre cada par de neuronas
en la red, de manera de que el error total cometido para ese patrón disminuya.
En la fase de funcionamiento normal, los pesos no se modifican y por lo tanto, dados los
atributos en las neuronas de entrada, se obtienen las distintas activaciones de las neuronas de
salida como cualquiera de las redes neuronales que no cumplen con la característica “Winner
Dado que la fase de funcionamiento es similar a las redes estudiadas se debe realizar un análisis
o superficie de error asociada a la red, buscando el estado de mínimo error estable a través del
camino descendente de la superficie de error [Rumelhart, 1986]. Es por esto que de debe
proporcional al gradiente decreciente de dicha función de error. En la Figura 2.5 se puede ver
52
5.1.Funcionamiento de las Redes Backpropagation
Dada una neurona Ui y su salida Yi, el cambio que se produce en el peso de la conexión
que une la salida de dicha neurona con la unidad Uj (wij) para un patrón de aprendizaje p
es:
(17)
(18)
aprendizaje. La regla delta generalizada difiere con la regla delta en el valor concreto de dpj.
En las redes con capas ocultas como esta se desconocen las salidas internas deseadas de las
capas para poder calcular los pesos en función del error cometido. Sin embargo, inicialmente
podemos conocer la salida deseada de las neuronas de salida. Para la unidad Uj de salida, se
define:
(19)
Donde dpj es la salida deseada de la red para la neurona j y el patrón p y Netj es la entrada neta
(20)
Donde el rango de k cubre todas las neuronas a las que está conectada la salida de Uj y el error
que se produce en una neurona oculta es la suma de todos los errores cometidos por las
53
neuronas a las que está conectada su salida, multiplicados por el peso de la conexión
correspondiente.
paso (t+1) del cambio de los pesos en el instante (t). Esto permite la convergencia de la red en
por un mínimo y los pesos deben ser menores para poder alcanzarlo, por lo tanto, el paso que
(21)
Donde ß es una constante que determina el efecto en la iteración (t+1) del cambio de los pesos
Existen evidencias que demuestran que las neuronas del cerebro se organizan en varias zonas,
donde la información captada del entorno, por los órganos sensoriales y se representa
formar mapas topológicos de las informaciones recibidas del exterior. Esto le brinda la
capacidad de operar con elementos semánticos ya que algunas de sus áreas simplemente
podrían ordenar neuronas especializadas con características de alto nivel construyendo mapas
espaciales para atributos y características. En esto se basa Teuvo Kohonen [Kohonen, 2001]
quien en 1982 presentó un modelo de red neuronal con capacidad para formar mapas de
características. Kohonen plantea que un estímulo externo por sí solo es suficiente para forzar
54
la formación de los mapas y establecer características comunes entre los datos de entrada a la
red y su salida.
Los mapas autoorganizados de Kohonen o redes neuronales S.O.M. (Self Organizing Maps)
Las redes S.O.M. son modelos de redes con conexiones hacia delante (feedforward), y
conexiones laterales de inhibición (w≤ 0) implícitas, para que cada una de las neuronas de
salida tenga influencia sobre sus vecinas. Esto es necesario para el entrenamiento, donde solo
una de las neuronas de salida se activará dado un vector p de atributos en la capa de entrada.
All” o “el ganador se lleva todo”. Las redes deben ser entrenadas Off-Line y luego, con los
pesos de todas las conexiones fijos, puede ponerse en funcionamiento normal. En la imagen 31
55
6.1.Parámetros de las Redes S.O.M.
No es suficiente configurar las características de las redes S.O.M., se debe proveer de datos
parámetros adicionales, de manera experimental (ya que los valores óptimos dependen de los
valores ingresados como datos) para lograr la mejor clasificación. Los parámetros de las redes
• La cantidad de Neuronas Artificiales: Las redes S.O.M. generan una grilla de clusters
ejemplo, para una red de n neuronas artificiales se pueden generar n2 clusters o familias
de datos.
El valor mínimo de n es dos, ya que una sola neurona carecería de sentido (porque
forma un único cluster que englobará todos los datos) mientras que el valor máximo no
está acotado por el algoritmo, pero éste intentará crear la menor cantidad posible de
clusters para los datos de entrada, con lo que el uso de, por ejemplo, diez neuronas
artificiales para los datos con grupos muy evidentes pueden generar solamente dos o
de entrenamiento) todos los datos relevados exactamente una vez. Como la red está
los valores de los pesos que se utilizaron para clasificar el dato n se pueden ver
56
modificados, por lo que se requiere que la información sea presentada más de una vez
para que la red almacene la clasificación de todos los datos, mientras continúa
solo una, mientras que no existe un limite máximo, pero como el tiempo que insume el
período de aprendizaje es muy elevado, repetirlo muchas veces puede llevar días,
A lo largo de las distintas iteraciones que proporcionan los ciclos, por medio del
ésimo del ciclo i-ésimo al ciclo i-ésimo+1. Con esto se lograrán agrupaciones o familias
la red. La figura muestra como una red o malla (donde cada unión del polígono es
determinada por una red S.O.M.) se puede ajustar a una región bidimensional (en este
caso de forma triangular). Se comienza con los pesos asignados en forma aleatoria, pero
como se puede ver, de la imagen 32.f a la 32.h existen 75.000 ciclos de entrenamiento
57
a b c d
e f g h
Imagen 32: Pasaje de una grilla de 3 dimensiones a una región patrón del
tipo triángulo equilátero en el plano utilizando un mapa de 25x25 puntos
y una red del tipo S.O.M. Se muestran los resultados para las iteraciones
20 (32.a), 250 (32.b), 500 (32.c), 1000 (32.d), 10000 (32.e), 25000 (32.f),
50000 (32.g) y 100000 (32.h).Fuente: Universidad de Buenos Aires -
Fernando Sagueiro.
❖ Aleatoriedad: En cada ciclo, las observaciones que son presentadas una vez, pueden
iteraciones precedentes.
6.2.Campos de Aplicación
Los campos de aplicación de las redes neuronales artificiales son variados y están planteados
58
❖ Para optimización: Determinan la solución de un problema tal que sea aceptable.
❖ Para reconocimiento: En este caso se entrena a las redes para lograr detectar patrones
específicos, como pueden ser sonidos, números, letras, lenguaje humano escrito en
❖ Para generalización: Se entrena la red con casos reales y después se la utiliza para
Imagen 33 resume los campos de utilización de las redes neuronales artificiales con éxito.
59
Se puede agregar, a modo de ejemplo, más campos a la imagen 32, como lo son las apuestas y
los juegos de azar, donde se debe analizar para determinar las cotizaciones o premios de las
general, para los procesos de obtención de hierro y acero, manejo de stocks etc. la lista se
extiende a muchos campos más que no vale la pena exponer aquí. En la imagen 33 se exponen
las principales topologías de redes, los investigadores que las desarrollaron y su fecha de
aparición.
Guardia Robles [Guardia Robles, 1993] resume un conjunto de características que deben
60
• Deben ser “inteligentes” en comparación con los sistemas tradicionales de instrucción
instrucción, llegando más lejos, a través del entendimiento de las metas y creencias del
estudiante.
• La interacción puede ser muy variada en un STI: desde sistemas pasivos (que esperan
para que el alumno realice una acción), hasta los que constantemente presentan nueva
información (tutor oportunista), con casos intermedios en los que se enseña un concepto
• No basta con indicarle un error al estudiante, el sistema debe hacer hipótesis basadas
7.1.Arquitectura y Componentes
Los Sistemas Tutores Inteligentes (STI) tienen como principal objetivo impartir la enseñanza
del alumno. Estos sistemas se basan en una arquitectura compuesta por tres grandes módulos:
el módulo del tutor, el módulo del alumno y el módulo del dominio [Villareal et al., 2001].
61
Podría agregarse un cuarto módulo denominado el módulo de evaluación y, un quinto
1. Módulo del Alumno: Este módulo debe representar el estado inicial del alumno y
2001]. Guardia Robles [Guardia Robles, 1993] lo define como: “El modelo del
estudiante, que refleja cuánto conoce el estudiante sobre el dominio, así como las
un diagnóstico.”
2. Módulo del Tutor: Este módulo posee el conocimiento sobre las estrategias y
del alumno, que están almacenadas en el modulo del alumno [Villareal Goulart et
al., 2001]. Pero debe ir más allá de la experiencia en el dominio, ya que debe
por las reglas de producción, estereotipos, etc. De aquí el módulo tutor obtiene el
conocimiento que debe enseñar [Villareal Goulart et al., 2001]. Definido como “El
modelo experto o del dominio, el cual versa sobre la materia o curso que se
62
efectuar el diagnóstico evolutivo luego de cada uno de los estados considerados,
La evaluación de los estudiantes debe ser constante y durante la carga del proceso,
didáctico de la manera correcta [Villareal Goulart et al., 2001]. “La interface, que
Los primeros tres módulos conforman la arquitectura clásica propuesta por Carbonell
[Carbonell, 1970] y también funcional de los STI [Villareal Goulart et al., 2001] se pueden ver
educativos, ya que separó el dominio de la forma en la que éste es utilizado [Villareal Goulart
et al., 2001].
63
Imagen 34: Estructura clásica de un Sistema Tutor Inteligente propuesta
por Carbonell [Carbonell, 1970]. Fuente: Universidad de Buenos Aires -
Fernando Sagueiro.
Existen visiones no clásicas de los Sistemas Tutores Inteligentes (STI), como lo es la propuesta
manera:
❖ Son dos sistemas expertos: Uno encargado de diagnosticar el estado actual del alumno
El diseño del modelo del estudiante se centra, según Barr [Barr et al., 1983] alrededor de las
preguntas: ¿Qué es lo que se desea que el estudiante sepa acerca del mecanismo de resolución
de una problemática? ¿Qué tipos de conocimientos debe tener un estudiante para poder
64
• Los componentes del mecanismo para la resolución de un problema.
estudiante conoce algo acerca del componente. Dado el contexto del problema, la selección de
que el componente hace y cómo se relaciona con otros componentes en la operación del
mecanismo. Es decir que cada vez que el estudiante chequea, manipula o examina un
componente, indica de algún modo lo que él conoce o desconoce acerca de la operación del
mecanismo.
La función central del módulo del estudiante, para Sierra [Sierra et al., 2003] se puede resumir
necesario interpretar o hacer presunciones en base a las acciones del estudiante. Estas
Por lo tanto, es importante conocer el estado y el estilo de aprendizaje de cada uno de los
alumnos para que el módulo tutor pueda tomar las decisiones pedagógicas correctas.
Ésta es una de las salidas más importantes del módulo del alumno y una de las entradas del
módulo tutor. El módulo tutor, luego, realimentará las técnicas utilizadas, los temas expuestos
en el dominio y los resultados obtenidos para que se pueda actualizar la representación del
65
7.2.1. Estilo de Aprendizaje
El estilo de aprendizaje puede definirse como la forma en que un individuo aprende, y debido
a que las personas tienen diferentes estilos de aprendizaje, éstos se reflejan las diferentes
investigadores [Felder, 1998] presentan distintas formas para reconocer los estilos de
Una definición de los estilos de aprendizaje puede plantearse como “los rasgos cognitivos,
afectivos y fisiológicos que sirven como indicadores relativamente estables, de cómo los
Por lo tanto se requiere una variedad de mediciones para evaluar los estilos de aprendizaje de
La mayoría de los autores idearon instrumentos para la detección de los estilos de aprendizaje
de los alumnos. En la siguiente sección se detallan las herramientas utilizadas para la toma de
datos necesarios para la verificación de las diferentes hipótesis planteadas en esta tesis.
recolección de los datos de los estudiantes. Estas planillas están confeccionadas por once
grupos de cuatro preguntas cada uno. Cada pregunta está orientada para clasificar al estudiante
en los distintos grupos resultantes de la clasificación de Felder [Felder, 1998], que son:
66
La información que se busca no está relacionada directamente con las formas que describe
Felder, sino que se busca la relación de los estilos de aprendizaje con los modos de enseñanza
La planilla utilizada consta de once grupos de cuatro preguntas cada uno con dos opciones de
respuestas, así como también de datos adicionales que ayudaran a categorizar a los estudiantes.
• Año que cursa: Según el plan de estudios vigente para la carrera seleccionada.
Las planillas son anónimas en este punto del desarrollo, una vez categorizadas y realizada la
inferencia para determinar los estilos pedagógicos más efectivos para los estudiantes, es decir
que cada estudiante pueda seleccionarlo de acuerdo a su preferencia. Un usuario del Sistema
Tutor Inteligente (STI) deberá llenar por primera vez la planilla para que el sistema realice una
categorización inicial que luego podrá llegar a ser modificada a lo largo del tiempo por el
comportamiento del estudiante dentro del sistema. Los estudiantes deben entregar la planilla
con su nombre y número de padrón, pero en esta etapa del análisis se ignorará este dato.
67
CAPITULO III: EXPERIMENTACION-EJEMPLOS
En este capítulo se presentan los resultados experimentales obtenidos por ambos métodos de
realizados, la manera en que se diseñaron los experimentos, y el objetivo perseguido por éstos.
permitirán establecer una medida de comparación entre ambos métodos y determinar las
1. DISEÑO EXPERIMENTAL
Los experimentos realizados fueron diseñados con el objetivo de establecer las siguientes tres
características:
2.1)
(sección 2.2)
variación de los resultados con respecto a dicho valor promedio. Esta afirmación se hace
Los resultados obtenidos se analizaron de la siguiente manera: se tomó como valor del método
para una variable en particular al valor promedio sobre el total de experimentos realizados (50
corridas). Se utilizó el desvío estándar para determinar el grado de variación de los valores de
68
Los valores individuales de cada experimento también se analizaron con el objetivo de realizar
comparaciones entre distintas configuraciones. En este caso se estudió cual es el mejor valor
obtenido por cada configuración. Sin embargo, este valor no fue tomado como un valor general
del método ya que en muchos casos se presentaron grandes variaciones entre los valores
obtenidos. Sólo fueron considerados para tener una medida del “mejor caso”.
Los resultados presentados a lo largo de este capítulo fueron obtenidos tras más de 400 horas
experimento:
que minimizan los tiempos de entrenamiento de este método. Los parámetros de configuración
69
• Tasa de aprendizaje
• Tasa de momento
Los parámetros óptimos obtenidos durante esta primera etapa fueron utilizados luego para
comparar los resultados obtenidos por este método con los resultados obtenidos por el
algoritmo genético.
El primer paso en la aplicación de este método consiste en la generación aleatoria del conjunto
de pesos de la red neuronal. El valor de inicialización esta dado por una distribución uniforme,
Luego se procede a la aplicación del método utilizando las tasas de aprendizaje y de momento
seleccionadas. La aplicación del algoritmo continuará hasta que la red alcance un nivel de error
menor al umbral prefijado o cuando se hayan realizado una cantidad de ciclos predeterminada.
Si la red alcanza un nivel de error menor al umbral prefijado se considera que el método fue
capaz de entrenar la red. Caso contrario, se considera que la red no pudo ser entrenada.
La segunda serie de experimentos tuvo como objetivo determinar cuales son los operadores
empleados por el algoritmo genético. Los parámetros y/o operadores estudiados en este caso
fueron:
• Función de selección
• Función de cruza
• Tipo de mutación
70
Dependiendo de los parámetros seleccionados la aplicación del método tendrá características
Los parámetros óptimos obtenidos durante esta etapa fueron utilizados luego para comparar los
resultados obtenidos por este método con los resultados obtenidos por el algoritmo
backpropagation.
El set de entrenamiento que se utilizará durante la evaluación del método propuesto debe
propuesto sobre aplicaciones reales. Al poseer un elevado número de ejemplos se podrá evaluar
71
El set de datos utilizado a lo largo de los experimentos realizados consiste en 690 solicitudes
de tarjetas de créditos. Este problema, conocido como Australian Credit Card Problem, es
El set de entrenamiento este compuesto de 690 ejemplos, cada uno de los cuales es una
solicitud. Cada ejemplo posee 14 atributos que describen las características del solicitante, de
los cuales 8 poseen valores discretos y 6 poseen valores numéricos. La salida de cada ejemplo
realizó un preprocesamiento de estos ejemplos. A los atributos que toman valores continuos se
los normalizó dentro del intervalo [0,1]. A los atributos que toman valores discretos se los
dividió en N atributos, donde N representa la cantidad de valores que puede tomar el atributo.
De esta manera se obtiene un set de datos de 690 ejemplos, con 47 atributos entradas y una
única salida.
Para poder evaluar las características de la red obtenida se particionó el set de datos en dos
El primer subset se utilizó para realizar el entrenamiento de la red, mientras que el segundo
subset se utilizó para evaluar la red obtenida. El particionamiento se realizó de manera tal que
los subsets resultantes sean representativos, es decir, que posean las mismas características que
el set original.
Para la primera y segunda serie de experimentos se utilizó el mismo particionamiento del set
Para realizar la comparación entre ambos métodos se particionó nuevamente el set de datos,
72
Imagen 36: Características de los sets de datos. Fuente: Universidad de
Buenos Aires -Fernando Sagueiro.
medio por dos motivos. En primer lugar, el error cuadrático medio es inversamente
proporcional a la performance de la red. Una red con bajo error cuadrático medio tiene una
buena performance. El segundo motivo por el que se seleccionó esta unidad de medida es que
puede ser calculada fácilmente en ambos métodos, sin introducir distorsiones sobre el valor
obtenido.
Dado que ambos métodos trabajan con ciclos iterativos distintos (las redes neuronales lo hacen
con epochs mientras que los algoritmos genéticos trabajan con generaciones) se seleccionó
como unidad de medida para comparar tiempos entre ambos métodos al segundo. De esta
manera, en todas las estadísticas se registran el tiempo en segundos desde el comienzo del
73
1.5.Parámetros de los Algoritmos
individuos.
componen.
• Error máximo admisible. Error cuadrático medio a partir del cual una red
puede considerarse entrenada. Se tomó valor de 0.05 para las primeras dos series
deseado y el valor obtenido por la red para que el ejemplo pueda ser considerado
74
1.5.2. Variables Independientes
algoritmo genético.
algoritmo genético.
el algoritmo genético.
operador de mutación.
75
• Tiempo de entrenamiento. Tiempo que transcurre desde el inicio del
• Error. Es el error cuadrático medio de una red neuronal. Para el caso del
de ejemplos evaluados.
1.6.Tipos de Gráficos
Para mostrar los resultados obtenidos a lo largo de los experimentos realizados se utilizarán
análisis.
76
2. EXPERIMENTOS
2.1.Red Neuronal
El objetivo de esta serie de experimentos es determinar cuáles son los parámetros óptimos que
permitan entrenar una red neuronal para el problema en cuestión. Para este grupo de
Descripción:
Variables:
Resultados:
77
Imagen 38: Tendencias de error de entrenamiento. Tasa de
aprendizaje=0.01 Fuente: Universidad de Buenos Aires -Fernando
Sagueiro.
78
Imagen 41: Tiempos de entrenamiento. Tasa de aprendizaje=0.1 Fuente:
Universidad de Buenos Aires -Fernando Sagueiro.
79
Imagen 44: Tendencia del error de entrenamiento. Tasa de
aprendizaje=0.25 Fuente: Universidad de Buenos Aires -Fernando
Sagueiro.
80
Interpretación de los Resultados:
bajas. Esto aumenta la estabilidad del algoritmo. Sin embargo, los resultados
Descripción:
Los experimentos presentados en esta sección tienen como objetivo encontrar cual es el rango
Variables:
81
Resultados:
82
Interpretación de los Resultados:
• El uso de valores de inicialización muy altos evita que la red sea capaz de
2.2.Algoritmos genéticos
configuración del algoritmo genético óptimos que permitan entrenar una red neuronal para el
set de datos analizado. Para este grupo de experimentos se utilizó el primer set de datos.
Descripción:
El objetivo del operador de selección es elegir los individuos de la población que tengan mayor
grado de adaptación.
Variables:
83
Imagen 49: Tiempo de Entrenamiento. Función de Selección. Fuente:
Universidad de Buenos Aires -Fernando Sagueiro.
84
Interpretación de los Resultados:
• Los tiempos promedio obtenidos por todas las funciones de selección analizadas
por torneo y selección proporcional (Imagen 49). Sin embargo, esta última no fue
reflejado en el bajo desvió estándar que muestran sobre el total de corridas (Imagen
49).
Descripción:
El objetivo del operador de cruza es recombinar el material genético de los individuos de una
Variables:
En esta sección se presentan los resultados obtenidos para cuatro operadores de cruza
diferentes.
85
Resultados:
86
Imagen 54: Mejores tiempos individuales de entrenamiento. Fuente:
Universidad de Buenos Aires -Fernando Sagueiro.
Interpretación de los Resultados:
• Los tiempos promedio obtenidos por todas las funciones de cruza analizadas son
relativamente bajo (Imagen 52). Esta característica se debe a que los tiempos de
• Los mejores tiempos individuales se reparten entre los cuatro operadores. Todos los
• El algoritmo genético no pudo entrenar la red neuronal una única vez. Este caso se
• Los tiempos promedio obtenidos por la cruza uniforme son mejores que los
obtenidos por el resto de los operadores analizados (Imagen 54, Imagen 53).
87
2.2.3. Función de Mutación
Descripción:
Variables:
En esta sección se analizan los experimentos realizados para el estudio de tres operadores de
mutación. Para cada uno de éstos se estudiaron también distintos rangos de variación de la
Resultados:
88
Imagen 56: Tendencias del Error de entrenamiento. Función de mutación
numérica lineal creciente. Fuente: Universidad de Buenos Aires -
Fernando Sagueiro.
89
Imagen 58: Tendencias del Error de entrenamiento. Función de mutación
numérica uniforme. Fuente: Universidad de Buenos Aires -Fernando
Sagueiro.
90
Imagen 60: Tendencias del Error de entrenamiento. Función de mutación
binaria lineal creciente. Fuente: Universidad de Buenos Aires -Fernando
Sagueiro.
91
Imagen 62: Tendencias del Error de entrenamiento. Función de mutación
binaria uniforme. Fuente: Universidad de Buenos Aires -Fernando
Sagueiro.
• El uso de mutación binaria demostró no ser una buena opción. Ninguna de las
59).
92
• Dentro de las funciones de mutación numérica estudiadas se observa que
(Imagen 55).
Descripción:
Los experimentos presentados en esta sección tienen como objetivo encontrar cual es el rango
Variables:
93
Resultados:
94
Imagen 66: Tiempos de entrenamiento. Iniciación Random selectiva.
Fuente: Universidad de Buenos Aires -Fernando Sagueiro.
95
Interpretación de los Resultados:
medios y bajos (Imagen 63, Imagen 66, Imagen 65, Imagen 68).
Imagen 66).
valores iniciales dentro del rango [-1 , 1]. Esta característica se hace más notoria
96
2.3.Comparación de Ambos Métodos
Descripción:
Los resultados presentados en esta sección son los más importantes del capítulo ya que
permiten establecer una medida de comparación entre ambos métodos de entrenamiento. Para
experimentos anteriores. Se utilizó también un segundo set de datos, más rico en ejemplos y
que permite tener una mejor medida de la capacidad de entrenamiento y generalización del
método.
Resultados:
97
Imagen 71: Comparación de error de entrenamiento. Fuente: Universidad
de Buenos Aires -Fernando Sagueiro.
98
Imagen 73: Tiempos individuales de entrenamiento. Fuente: Universidad
de Buenos Aires -Fernando Sagueiro.
99
Imagen 76: Mejores Porcentajes de aciertos sobre el set de
entrenamiento. Fuente: Universidad de Buenos Aires -Fernando
Sagueiro.
una marcada superioridad de los algoritmos genéticos por sobre las redes
100
donde se presentan los tiempos individuales de entrenamiento para cada una de
las corridas. En el mismo gráfico se observa que los tiempos obtenidos por el
algoritmo genético presentan menor variación que los obtenidos por la red
promedio.
Sin embargo, la curva del error se muestra siempre por encima de la de los
individuales de entrenamiento para cada una de las corridas. Los valores de los
101
• Si se estudian los porcentajes de aciertos promedios de ambos métodos se
observa una leve superioridad de las redes neuronales por sobre los algoritmos
de generalización similares.
102
CAPITULO IV: CONCLUSIONES
1. CONCLUSIONES
red?
seleccionados. La manera en que se ajustan los pesos sinápticos esta determinada por la tasa
lentos, con un alto riesgo de quedar atrapados en mínimos locales. Por su parte, si se utilizan
algoritmo oscile en torno a la solución sin lograr estabilizarse en la misma. En la primera serie
para el problema estudiado. Estos parámetros óptimos luego fueron utilizados para comparar
algoritmo backpropagation?
genera la red inicial. La forma más habitual de hacerlo es aleatoriamente, con valores obtenidos
seleccionados. Los resultados obtenidos variaron no sólo en el tiempo necesario para alcanzar
alcanzado.
103
2. BIBLIOGRAFIA
Concepción, Chile
• Redes Neuronales Artificiales, Monografías vinculadas con la conferencia del Profesor Dr.
Eduardo Mizraji.
Basualdo.
104