Beruflich Dokumente
Kultur Dokumente
ORGANIZACIÓN EN EL CEREBRO
1. ¿Cómo se detecta o detecta la información sobre el mundo físico por el sistema biológico?
La primera de estas preguntas está en el campo de la fisiología sensorial, y es la única para la cual
se ha logrado una comprensión apreciable. Este artículo se ocupará principalmente de las
preguntas segunda y tercera, que aún están sujetas a una gran cantidad de especulaciones, y
donde los pocos hechos relevantes que actualmente proporciona la neurofisiología aún no se han
integrado en una teoría aceptable.
Con respecto a la segunda pregunta, se han mantenido dos posiciones alternativas. El primero
sugiere que el almacenamiento de la información sensorial se realiza en forma de
representaciones codificadas o imágenes, con algún tipo de mapeo uno a uno entre el estímulo
sensorial y el patrón almacenado. De acuerdo con esta hipótesis, si uno entendiera el código o
"diagrama de cableado" del sistema nervioso, uno debería, en principio, ser capaz de descubrir
exactamente lo que un organismo recuerda reconstruyendo los patrones sensoriales originales de
las "huellas de memoria" que tienen a la izquierda, del mismo modo que podríamos desarrollar un
negativo fotográfico, o traducir el patrón de cargas eléctricas en la "memoria" de una
computadora digital. Esta hipótesis es atractiva por su simplicidad y su inteligibilidad, y se ha
desarrollado una gran familia de modelos cerebrales teóricos en torno a la idea de una memoria
representativa codificada (2, 3, 9, 14). El enfoque alternativo, que se deriva de la tradición del
empirismo británico, arriesga la suposición de que las imágenes de los estímulos nunca se pueden
registrar en absoluto, y que el sistema nervioso central simplemente actúa como una intrincada
red de conmutación, donde la retención toma la forma de nueva conexiones, o vías, entre centros
de actividad. En muchos de los desarrollos más recientes de esta posición (el "conjunto de células"
de Hebb y la "respuesta de objetivo anticipatorio cortical" de Hull, por ejemplo) las "respuestas"
que están asociadas a los estímulos pueden estar contenidas por completo dentro del SNC mismo.
En este caso, la respuesta representa una "idea" en lugar de una acción. La característica
importante de este enfoque es que nunca hay un mapeo simple del estímulo en la memoria, de
acuerdo con algún código que permita su posterior reconstrucción. Cualquier cosa que se retenga
en la formación debe almacenarse de alguna manera como preferencia por una respuesta
particular; es decir, la información está contenida en conexiones o asociaciones en lugar de
representaciones topográficas. (El término respuesta, para el resto de esta presentación, debe
entenderse como cualquier estado distinguible del organismo, que puede o no involucrar actividad
muscular externamente detectable. La activación de algún núcleo de células en el sistema
nervioso central, por ejemplo , puede constituir una respuesta, de acuerdo con esta definición.)
La analogía entre el perceptrón y los sistemas biológicos debería ser evidente para el lector.
Durante las últimas décadas, el desarrollo de la lógica simbólica, las computadoras digitales y la
teoría del cambio ha impresionado a muchos teóricos con la similitud funcional entre una neurona
y el simple encendido-apagado unidades de las cuales se construyen computadoras, y se han
proporcionado los métodos analíticos necesarios para representar funciones lógicas altamente
complejas en términos de dichos elementos. El resultado ha sido una profusión de modelos
cerebrales que corresponden simplemente a mecanismos lógicos para realizar algoritmos
particulares (que representan "recuerdo", comparación de estímulos, transformación y varios
tipos de análisis) en respuesta a secuencias de estímulos, por ejemplo, Rashevsky (14), McCulloch
(10), McCulloch y Pitts (11), Culbertson (2), Kleene (8) y Minsky (13). Un número relativamente
pequeño de teóricos, como Ashby (1) y von Neumann (17, 18), se han preocupado por los
problemas de cómo se puede hacer que una red neuronal imperfecta, que contiene muchas
conexiones aleatorias, realice de manera confiable aquellas funciones que podrían ser
representado por diagramas de cableado idealizados. Desafortunadamente, el lenguaje de la
lógica simbólica y el álgebra de Boole es menos adecuado para tales investigaciones. La necesidad
de un lenguaje adecuado para el análisis matemático de eventos en sistemas donde solo se puede
caracterizar la organización bruta, y se desconoce la estructura precisa, ha llevado al autor a
formular el modelo actual en términos de teoría de probabilidad en lugar de lógica simbólica.
1. Las conexiones físicas del sistema nervioso que están involucradas en el aprendizaje y el
reconocimiento no son idénticas de un organismo a otro. Al nacer, la construcción de las redes
más importantes es en gran medida aleatoria, sujeta a un número mínimo de restricciones
genéticas.
2. El sistema original de células conectadas es capaz de una cierta cantidad de plasticidad; después
de un período de actividad neuronal, es probable que cambie la probabilidad de que un estímulo
aplicado a un conjunto de células provoque una respuesta en otro grupo, debido a algunos
cambios relativamente prolongados en las propias neuronas.
3. A través de la exposición a una gran muestra de estímulos, aquellos que son más "similares" (en
cierto sentido, que deben definirse en términos del sistema físico particular) tenderán a formar
vías hacia los mismos conjuntos de células que responden. Aquellos que son notablemente
"diferentes" tenderán a desarrollar conexiones con diferentes conjuntos de células que
responden.
4. La aplicación de refuerzo positivo y / o negativo (o estímulos que cumplen esta función) puede
facilitar u obstaculizar cualquier formación de conexiones que se encuentre en progreso.
5. La similitud, en dicho sistema, está representada en algún nivel del sistema nervioso por una
tendencia de estímulos similares para activar los mismos conjuntos de células. La similitud no es
un atributo necesario de determinadas clases formales o geométricas de estímulos, sino que
depende de la organización física del sistema de percepción, una organización que evoluciona a
través de la interacción con un entorno determinado. La estructura del sistema, así como la
ecología del entorno estímulo, afectarán, y en gran medida determinarán, las clases de "cosas" en
las que se divide el mundo perceptivo.
LA ORGANIZACIÓN DE UN PERCEPTRON
3. Entre el área de proyección y el área de asociación (An), se supone que las conexiones son
aleatorias. Es decir, cada unidad A en el conjunto An recibe un cierto número de fibras desde
puntos de origen en el conjunto IA, pero estos puntos de origen están dispersos al azar en todo el
área de proyección. Además de su distribución de conexión, las unidades An son idénticas a las
unidades AI y responden en condiciones similares.
4. Las "respuestas", Ri, R ^,. . . , Rn son células (o conjuntos de células) que responden de forma
muy similar a las unidades A. Cada respuesta tiene típicamente un gran número de puntos de
origen ubicados al azar en el conjunto An. El conjunto de unidades A que transmiten impulsos a
una respuesta particular se llamará el conjunto fuente para esa respuesta. (El conjunto fuente de
una respuesta es idéntico a su conjunto de puntos de origen en el sistema A). Las flechas en la Fig.
1 indican la dirección de transmisión a través de la red. Tenga en cuenta que hasta An todas las
conexiones son hacia adelante, y no hay comentarios. Cuando llegamos al último conjunto de
conexiones, entre An y las unidades R, las conexiones se establecen en ambas direcciones. La regla
que rige las conexiones de retroalimentación, en la mayoría de los modelos del perceptrón, puede
ser una de las siguientes alternativas:
(a) Cada respuesta tiene conexiones de retroalimentación excitatoria a las células en su propio
conjunto de orígenes, o
La primera de estas reglas parece más plausible anatómicamente, ya que los Runits podrían estar
ubicados en la misma área cortical que sus respectivos conjuntos fuente, lo que hace altamente
probable la excitación mutua entre las unidades R y las unidades A del conjunto fuente apropiado.
Sin embargo, la regla alternativa (6) conduce a un sistema más fácilmente analizado y, por lo
tanto, se asumirá que la mayoría de los sistemas se evaluarán aquí.
Las respuestas en un sistema organizado de esta manera son mutuamente excluyentes. Si ocurre
RI, tenderá a inhibir Rs, y también inhibirá el conjunto de origen para R2. Del mismo modo, si Ra
debe ocurrir, tenderá a inhibir a RI. Si el impulso total recibido de todas las unidades A en un
conjunto fuente es más fuerte o más frecuente que el impulso recibido por la respuesta
alternativa (antagonista), entonces la primera respuesta tenderá a obtener una ventaja sobre la
otra, y será el que ocurre Si tal sistema debe ser capaz de aprender, entonces debe ser posible
modificar las unidades A o sus conexiones de tal manera que los estímulos de una clase tiendan a
evocar un impulso más fuerte en el conjunto fuente Ri que en el Ra source-set, mientras que los
estímulos de otra clase (diferente) tenderán a evocar un impulso más fuerte en el conjunto de
fuentes de Ra que en el conjunto de fuentes de Ri.
Se supondrá que los impulsos entregados por cada unidad A pueden caracterizarse por un valor, V,
que puede ser una amplitud, frecuencia, latencia o probabilidad de completar la transmisión. Si
una unidad A tiene un valor alto, entonces se considera que todos sus impulsos de salida son más
efectivos, más potentes o más propensos a llegar a sus focos terminales que los impulsos de una
unidad A con un valor inferior. El valor de una unidad A se considera una característica bastante
estable, probablemente en función de la condición metabólica de la célula y la membrana celular,
pero no es absolutamente constante. Se supone que, en general, los períodos de actividad tienden
a aumentar el valor de una celda, mientras que el valor puede decaer (en algunos modelos) con
inactividad. Los modelos más interesantes son aquellos en los que se supone que las células
compiten por materiales metabólicos, mientras que las células más activas ganan a expensas de
las células menos activas. En tal sistema, si no hay actividad, todas las celdas tenderán a
permanecer en una condición relativamente constante, y (independientemente de la actividad) el
valor neto del sistema, tomado en su totalidad, se mantendrá constante en todo momento. Tres
tipos de sistemas, que difieren en su dinámica de valores, han sido investigados
cuantitativamente. Sus principales características lógicas se comparan en la Tabla 1. En el sistema
alfa, una celda activa simplemente gana un incremento de valor para cada impulso y mantiene
esta ganancia indefinidamente. En el sistema beta, a cada conjunto fuente se le permite una cierta
tasa constante de ganancia, los incrementos se distribuyen entre las celdas del conjunto fuente en
proporción a su actividad. En el sistema gamma, las celdas activas ganan valor a expensas de las
celdas inactivas de su conjunto fuente, de modo que el valor total de un conjunto fuente siempre
es constante.
Para fines de análisis, es conveniente distinguir dos fases en la respuesta del sistema a un estímulo
(figura 3). En la fase predominante, una cierta proporción de unidades A (representadas por
puntos sólidos en la figura) responde al estímulo, pero las unidades R siguen inactivas. Esta fase es
transitoria, y rápidamente da paso a la fase postdominante, en la que una de las respuestas se
activa, inhibiendo la actividad en el comFIG. 3A. Fase predominante. Las conexiones inhibitorias no
se muestran. Las unidades negras sólidas están activas. HIGO. 3B. Fase postdominante. El
subconjunto dominante suprime los conjuntos rivales. Conexiones inhibitorias mostradas solo
para Ri. HIGO. 3. Fases de respuesta a un estímulo, complemento de su propio conjunto de
fuentes, y por lo tanto, prevención de la aparición de cualquier respuesta alternativa. La respuesta
que pasa a ser dominante es inicialmente aleatoria, pero si las unidades A están reforzadas (es
decir, si las unidades activas pueden ganar en valor), entonces cuando el mismo estímulo se
presenta nuevamente en un momento posterior, la misma respuesta tendrá una tendencia más
fuerte a recurrir, y se puede decir que el aprendizaje tuvo lugar.
ANÁLISIS DE LA FASE PREDOMINANTE
Los perceptrones considerados aquí siempre asumirán un umbral fijo, 6, para la activación de las
unidades A. Tal sistema se denominará modelo de umbral fijo, en contraste con un modelo de
transductor continuo, donde la respuesta de la unidad A es una función continua de la energía de
estímulo incipiente. Para predecir las curvas de aprendizaje de un perceptrón de umbral fijo, se ha
encontrado que dos variables son de importancia primaria. Se definen de la siguiente manera: Pa =
la proporción esperada de unidades activadas por un estímulo de un tamaño dado, PC = la
probabilidad condicional de que una unidad A que responde a un estímulo dado, Si, también
responda a otro estímulo dado, 82 - Se puede demostrar (Rosenblatt, IS) que a medida que
aumenta el tamaño de la retina, el número de puntos S (Na) deja de ser un parámetro importante
rápidamente, y los valores de Pa y PC se aproximan al valor que tendrían. tener una retina con
infinitos puntos. Para una retina grande, por lo tanto, las ecuaciones son las siguientes:
(Las cantidades e y i son los componentes excitatorios e inhibitorios de la excitación recibida por la
unidad A. del estímulo. Si la suma algebraica a = e + i es igual o mayor que 6, se supone que la
unidad A responde .)
y
L = proporción de los puntos S iluminados por el primer estímulo, Si, que no están iluminados por
S2
G = proporción del conjunto S residual (sobrante del primer estímulo) que se incluye en el segundo
estímulo (82).
Algunas de las características más importantes de Pa se ilustran en la Fig. 4, que muestra Pa como
una función del área retiniana iluminada (R). Tenga en cuenta que Pa puede reducirse en
magnitud aumentando el umbral, 6 o aumentando la proporción de conexiones inhibidoras (y).
Una comparación de las figuras 4b y 4c muestra que si la excitación es aproximadamente igual a la
inhibición, las curvas para Pa en función de R se aplanan, de modo que hay poca variación en Pa
para estímulos de diferentes tamaños. Este hecho es de gran importancia para los sistemas que
requieren Pa para estar cerca de un valor óptimo para funcionar correctamente.
El comportamiento de Pc se ilustra en la Fig. 5 y 6. Las curvas en la Fig. 5 se pueden comparar con
las de Pa en la Fig. 4. Tenga en cuenta que a medida que aumenta el umbral, hay una reducción
aún más pronunciada en el valor de Pc. de lo que fue el caso con Pa. PC también disminuye a
medida que aumenta la proporción de conexiones inhibitorias, como lo hace Pa. Fig. 5, que se
calcula para estímulos no solapantes, ilustra el hecho de que Pc permanece mayor que cero
incluso cuando los estímulos están completamente disyuntos e iluminar sin puntos de retina en
común. En la Fig. 6, se muestra el efecto de cantidades variables de solapamiento entre los
estímulos. En todos los casos, el valor de Pc va a la unidad a medida que los estímulos se
aproximan a la identidad perfecta. Para estímulos más pequeños (curvas de línea discontinua), el
valor de Pc es menor que para estímulos grandes. De manera similar, el valor es menor para
umbrales altos que para umbrales bajos. El valor mínimo de PC será igual a
En la Fig. 6, Pemin corresponde a la curva para 6 = 10. Nótese que bajo estas condiciones, la
probabilidad de que la unidad A responda a ambos estímulos (Pc) es prácticamente cero, excepto
por estímulos que son bastante cercanos a la identidad. Esta condición puede ser de gran ayuda
en el aprendizaje de discriminación.
Hemos indicado que se espera que el perceptrón aprenda, o forme asociaciones, como resultado
de los cambios en el valor que ocurren como resultado de la actividad de las células de la
asociación. Al evaluar este aprendizaje, se puede considerar uno de los dos tipos de experimentos
hipotéticos. En el primer caso, el perceptrón está expuesto a algunas series de patrones de
estímulo (que pueden presentarse en posiciones aleatorias en la retina) y se "fuerza" a dar la
respuesta deseada en cada caso. (Se supone que este forzamiento de respuestas es una
prerrogativa del experimentador. En los experimentos destinados a evaluar el aprendizaje de
prueba y error, con perceptrones más sofisticados, el experimentador no obliga al sistema a
responder de la manera deseada, sino que simplemente aplica los resultados positivos refuerzo
cuando la respuesta es correcta, y refuerzo negativo cuando la respuesta es incorrecta.) Al evaluar
el aprendizaje que ha tenido lugar durante esta "serie de aprendizaje", se supone que el
perceptrón está "congelado" en su estado actual, no más se permiten cambios de valores, y la
misma serie de estímulos se presenta de nuevo exactamente de la misma manera, de modo que
los estímulos caen en posiciones idénticas en la retina. La probabilidad de que el perceptrón
muestre un sesgo hacia la respuesta "correcta" (la que se ha reforzado previamente durante la
serie de aprendizaje) con preferencia a cualquier respuesta alternativa dada se denomina Pr, la
probabilidad de elección correcta de respuesta entre dos alternativas.
Los casos más simples para analizar son aquellos en los que el perceptrón muestra estímulos extraídos
de un "entorno ideal", que consiste en puntos de iluminación colocados al azar, donde no se intenta
clasificar los estímulos de acuerdo con la similitud intrínseca. Por lo tanto, en un experimento de
aprendizaje típico, podríamos mostrar los estímulos del perceptrón 1,000 formados por colecciones
aleatorias de puntos retinianos iluminados, y podríamos reforzar arbitrariamente Ri como la respuesta
"correcta" para los primeros 500 de estos, y R.2 para el 500 restantes. Este entorno es "ideal" solo en el
sentido de que hablamos de un gas ideal en física; es un artefacto conveniente para fines de análisis y no
conduce al mejor rendimiento del perceptrón. En la situación de entorno ideal, la constante c \ siempre es
igual a cero, de modo que, en el caso de Pg (donde c2 también es cero), el valor de Z será cero y Pg
nunca podrá ser mejor que el azar expectativa de 0.5. La evaluación de Pr para estas condiciones, sin
embargo, arroja alguna luz interesante sobre las diferencias entre los sistemas alfa, beta y gamma (Tabla
1). Primero considere el sistema alfa, que tiene la dinámica más simple de los tres. En este sistema, cada
vez que una unidad A está activa durante una unidad de tiempo, gana una unidad de valor. Supondremos
un experimento, inicialmente, en el que N, r (el número de estímulos asociados a cada respuesta) es
constante para todas las respuestas. En este caso, para el sistema de suma,
donde u> = la fracción de respuestas conectadas a cada unidad A Si los conjuntos fuente están disyuntos, w =
I / NR, donde NR es el número de respuestas en el sistema. Para el sistema μ,
La reducción de c3 a cero le da al sistema μ una ventaja definitiva sobre el sistema S. Las curvas de
aprendizaje típicas para estos sistemas se comparan en las Figuras 7 y 8. La Figura 9 muestra el efecto de las
variaciones en Pa sobre el rendimiento del sistema.
Si n, r, en lugar de ser fijo, se trata como una variable aleatoria, de modo que el número de estímulos
asociados a cada respuesta se obtiene por separado de alguna distribución, entonces el rendimiento del
sistema a es mucho peor que las ecuaciones anteriores indicar. Bajo estas condiciones, las constantes para el
sistema μ son
Para esta ecuación (y cualquier otra en la que n, r se trate como una variable aleatoria), es necesario
definir n, r in '. La ecuación 4 es el valor esperado de esta variable, sobre el conjunto de todas las
respuestas. Para el sistema / 3, hay un déficit aún mayor en el rendimiento, debido al hecho de que el
valor neto continúa creciendo independientemente de lo que le ocurra al sistema. Los grandes valores
netos de los subconjuntos activados por un estímulo tienden a amplificar pequeñas diferencias
estadísticas, causando un rendimiento poco confiable. Las constantes en este caso (nuevamente para el
sistema u) son
En los sistemas alfa y beta, el rendimiento será más pobre para el modelo de discriminación de suma que
para el caso de diferencia de medias. En el sistema gamma, sin embargo, se puede mostrar que P, (s) =
PK / O; es decir, no hace diferencia en el rendimiento si se usa el sistema S o el sistema μ. Además, las
constantes para el sistema y, con la variable nsr, son idénticas a las constantes para el sistema alfa μ, con
nsr fijo (Ecuación 6). demuestra la ventaja de
El rendimiento de los tres sistemas se compara en la figura 10, lo que demuestra claramente la ventaja
del sistema y. Reemplazaremos las suposiciones del "entorno ideal" con un modelo para un "entorno
diferenciado", en el que estén presentes varias clases de estímulos distinguibles (como cuadrados,
círculos y triángulos o las letras del alfabeto). Si luego diseñamos un experimento en el que los
estímulos asociados a cada respuesta provienen de una clase diferente, entonces las curvas de
aprendizaje del perceptrón se alteran drásticamente. La diferencia más importante es que la constante c \
(el coeficiente de nsr en el numerador de Z) ya no es igual a cero, por lo que la ecuación 4 ahora tiene
una asíntota no aleatoria. Además, en la forma de P, (la probabilidad de una generalización correcta),
donde c2 = 0, la cantidad Z permanece mayor que cero, y Pa realmente se aproxima a la misma asíntota
que Pr. Por lo tanto, la ecuación para el rendimiento del perceptrón después de la experiencia infinita con
cada clase de estímulos es idéntica para PT y Pg:
Esto significa que en el límite no importa si el perceptrón ha visto un estímulo de prueba particular antes
o no; si los estímulos provienen de un entorno diferenciado, el rendimiento será igualmente bueno en
ambos casos.
Para evaluar el rendimiento del sistema en un entorno diferenciado, es necesario definir la cantidad
PCap. Esta cantidad se interpreta como el valor esperado de PC entre pares de estímulos extraídos al
azar de las clases a y j3. En particular, PcU es el valor esperado de Pc entre miembros de la misma clase,
y Peis es el valor esperado de PC entre un estímulo Si extraído de Clase 1 y un estímulo S2 extraído de
Clase 2. Pclx es el valor esperado de Pc entre miembros de Clase 1 y estímulos extraídos al azar de todas
las demás clases del entorno.
Si Pcll> Pa> PC12, el rendimiento limitante del perceptron (PBoo) será mejor que el azar, y el
aprendizaje de alguna respuesta, RI, ya que la "respuesta de generalización" adecuada para los miembros
de la Clase 1 debería ocurrir finalmente. Si no se cumple la desigualdad anterior, es posible que no se
produzca una mejora sobre el rendimiento fortuito, y es probable que la respuesta de Clase 2 ocurra. Se
puede demostrar (IS) que para la mayoría de las formas geométricas simples, que ordinariamente
consideramos "similares", se puede cumplir la desigualdad requerida, si los parámetros del sistema se
eligen correctamente.
La ecuación para Pr, para la versión suma discriminante de un a-perceptron, en un entorno diferenciado
donde n, r se fija para todas las respuestas, tendrá las siguientes expresiones para los cuatro coeficientes:
Las variaciones que aparecen en estas expresiones no han dado lugar, hasta ahora, a un análisis preciso,
y pueden tratarse como variables empíricas que se determinarán para las clases de estímulos en cuestión.
Si el sigma se establece igual a la mitad del valor esperado de la variable, en cada caso, se puede obtener
una estimación conservadora. Cuando los estímulos de una clase dada son todos de la misma forma y
distribuidos uniformemente sobre la retina, las varianzas del subíndice son iguales a cero. Paw estará
representado por el mismo conjunto de coeficientes, a excepción de c2, que es igual a cero, como es
habitual.
En la Fig. 11, se muestra un conjunto de curvas de aprendizaje típicas para el modelo de entorno
diferenciado, para el sistema de discriminación selectiva. Los parámetros se basan en mediciones para
un problema de discriminación de círculo cuadrado. Tenga en cuenta que las curvas para Pr y Pg se
aproximan a las mismas asíntotas, como se predijo. Los valores de estas asíntotas se pueden obtener
sustituyendo los coeficientes correctos en la ecuación 9. A medida que aumenta el número de células de
asociación en el sistema, el límite de aprendizaje asintótico se acerca rápidamente a la unidad, de modo
que para un sistema de varios miles de células, los errores en el rendimiento debería ser insignificante en
un problema tan simple como el que se ilustra aquí.
SISTEMAS BIVALENTES
En todos los sistemas analizados hasta este punto, los incrementos de valor ganados por una unidad A
activa, como resultado de refuerzo o experiencia, siempre han sido positivos, en el sentido de que una
unidad activa siempre ha ganado en su poder para activar las respuestas a las que está conectado. En el
sistema gamma, es cierto que algunas unidades pierden valor, pero estas son siempre las unidades
inactivas, y las activas ganan en proporción a su tasa de actividad. En un sistema bivalente, son posibles
dos tipos de refuerzo (positivo y negativo), y una unidad activa puede ganar o perder su valor,
dependiendo del estado momentáneo de las cosas en el sistema. Si el refuerzo positivo y negativo puede
controlarse mediante la aplicación de estímulos externos, se vuelven esencialmente equivalentes a
"recompensa" y "castigo", y el experimentador puede usarlos en este sentido. Bajo estas condiciones, un
perceptrón parece ser capaz de aprender por ensayo y error. Sin embargo, un sistema bivalente no
necesariamente implica la aplicación de recompensa y castigo. Si un sistema de respuesta codificado en
binario está organizado de modo que haya una sola respuesta o par de respuestas para representar cada
"bit", o característica de estímulo que se aprende, con retroalimentación positiva a su propio conjunto
fuente si la respuesta es "activada", y retroalimentación negativa (en el sentido de que las unidades A
activas perderán en lugar de ganar en valor) si la respuesta es "desactivada", entonces el sistema sigue
siendo bivalente en sus características. Tal sistema bivalente es particularmente eficiente en la reducción
de algunos de los efectos de sesgo (preferencia por la respuesta incorrecta debido al mayor tamaño o
frecuencia de sus estímulos asociados) que plagan los sistemas alternativos.
Se han considerado varias formas de sistemas bivalentes (15, Capítulo VII). El más eficiente de estos
tiene las siguientes características lógicas.
Si el sistema está bajo un estado de refuerzo positivo, se agrega un AV positivo a los valores de todas las
unidades A activas en los conjuntos fuente de respuestas "on", mientras que un AV negativo se agrega a
las unidades activas en los conjuntos fuente de respuestas "off". Si el sistema está actualmente bajo
reforzamiento negativo, entonces se agrega un AV negativo a todas las unidades activas en el conjunto
fuente de una respuesta "activada", y se agrega un AV positivo a las unidades activas en un conjunto
fuente "desactivado". Si los conjuntos fuente son disyuntos (lo cual es esencial para que este sistema
funcione correctamente), la ecuación para un sistema bivalente -y tiene los mismos coeficientes que el
sistema a monovalente, para el caso μ (Ecuación 11).
Las curvas de rendimiento para este sistema se muestran en la figura 12, donde la probabilidad de
generalización asintótica alcanzable por el sistema se traza para los mismos parámetros de estímulo que
se usaron en la figura 11. Esta es la probabilidad de que todos los bits en una respuesta «bit patrón será
correcto. Claramente, si la mayoría de las respuestas correctas es suficiente para identificar un estímulo
correctamente, el rendimiento será mejor de lo que indican estas curvas.
En una forma de sistema bivalente que utiliza supuestos biológicos más plausibles, las unidades A
pueden ser excitatorias o inhibitorias en su efecto sobre las respuestas conectadas. Un AV positivo en
este sistema corresponde al incremento de una unidad excitadora, mientras que un AV negativo
corresponde al incremento de una unidad inhibidora. Tal sistema funciona de manera similar al
considerado anteriormente, pero se puede demostrar que es menos eficiente.
Los sistemas bivalentes similares a los ilustrados en la Fig. 12 se han simulado en detalle en una serie de
experimentos con la computadora IBM 704 en el Laboratorio Aeronáutico de Cornell. Los resultados
han confirmado la teoría en todas sus predicciones principales, y se informarán por separado en un
momento posterior.
El análisis cuantitativo del rendimiento del perceptrón en las secciones anteriores ha omitido cualquier
consideración del tiempo como una dimensión de estímulo. Un perceptrón que no tiene capacidad para
el reconocimiento de patrones temporales se conoce como un "perceptrón de estímulo momentáneo". Se
puede demostrar (15) que los mismos principios de separabilidad estadística permitirán que el perceptrón
distinga velocidades, secuencias de sonido, etc., siempre que los estímulos dejen algún rastro
temporalmente persistente, como un umbral alterado, que causa la actividad en el A -sistema en el
tiempo t para depender en cierto grado de la actividad en el tiempo t - 1.
También se ha supuesto que los puntos de origen de las unidades A son completamente aleatorias. Se
puede demostrar que mediante una organización adecuada de puntos de origen, en los que la distribución
espacial está restringida (como en los orígenes del área de proyección mostrados en la Fig. 1), las
unidades A se volverán particularmente sensibles a la ubicación de los contornos y al rendimiento será
mejorado
En un desarrollo reciente, que esperamos informar en detalle en el futuro cercano, se ha demostrado que
si se permite que los valores de las unidades A se desintegran a una tasa proporcional a su magnitud,
surge una nueva propiedad llamativa: el perceptrón. se vuelve capaz de la formación de concepto
"espontáneo". Es decir, si el sistema está expuesto a una serie aleatoria de estímulos de dos clases
"diferentes", y todas sus respuestas se refuerzan automáticamente sin tener en cuenta si son "correctas" o
"incorrectas", el sistema tenderá a hacia una condición terminal estable en la que (para cada respuesta
binaria) la respuesta será "1" para los miembros de una clase de estímulo, y "0" para los miembros de la
otra clase; es decir, el perceptrón reconocerá espontáneamente la diferencia entre las dos clases. Este
fenómeno se ha demostrado con éxito en experimentos de simulación con la computadora 704.
Se puede demostrar que un perceptrón, incluso con un único nivel lógico de unidades A y unidades de
respuesta, tiene varias propiedades interesantes en el campo del recuerdo selectivo y la atención
selectiva. Estas propiedades generalmente dependen de la intersección de los conjuntos fuente para
diferentes respuestas, y se discuten en otro lugar en detalle (IS). Al combinar las entradas de audio y de
foto, es posible asociar sonidos o "nombres" auditivos a objetos visuales, y lograr que el perceptrón
realice las respuestas selectivas designadas por el comando "Nombre el objeto de la izquierda" o "
Nombra el color de este estímulo ".
La pregunta bien puede plantearse en este punto donde las capacidades del perceptrón realmente se
detienen. Hemos visto que el sistema descrito es suficiente para el reconocimiento de patrones, el
aprendizaje asociativo y los conjuntos cognitivos necesarios para la atención selectiva y el recuerdo
selectivo. El sistema parece ser potencialmente capaz de reconocimiento de patrones temporales, así
como de reconocimiento espacial, que involucra cualquier modalidad sensorial o combinación de
modalidades. Se puede demostrar que con el refuerzo adecuado será capaz de aprendizaje de prueba y
error, y puede aprender a emitir secuencias ordenadas de respuestas, siempre que sus propias respuestas
se realicen a través de canales sensoriales.
¿Significa esto que el perceptrón es capaz, sin otra modificación en principio, de funciones de orden
superior como las que están involucradas en el habla, la comunicación y el pensamiento humanos? En
realidad, el límite de las capacidades del perceptrón parece estar en el área del juicio relativo y la
abstracción de las relaciones. En su "comportamiento simbólico", el perceptrón muestra algunas
similitudes sorprendentes con los pacientes con daño cerebral de Goldstein (5). Se pueden aprender las
respuestas a estímulos definidos y concretos, incluso cuando la respuesta adecuada requiere el
reconocimiento de una serie de condiciones de calificación simultáneas (como nombrar el color si el
estímulo está a la izquierda, la forma si está a la derecha). Tan pronto como la respuesta requiera el
reconocimiento de una relación entre estímulos (como "Nombre el objeto que queda del cuadrado" o
"Indique el patrón que apareció antes del círculo"), sin embargo, el problema generalmente se vuelve
excesivamente difícil para el perceptrón. La separabilidad estadística sola no proporciona una base
suficiente para una abstracción de orden superior. Algún sistema, más avanzado en principio que el
perceptrón, parece ser requerido en este punto
CONCLUSIONES Y EVALUACIÓN
Las principales conclusiones del estudio teórico del perceptrón se pueden resumir de la siguiente
manera:
2. En tal "ambiente ideal", la probabilidad de una respuesta correcta disminuye hacia su nivel aleatorio
original a medida que aumenta el número de estímulos aprendidos.
4. En un "entorno diferenciado", donde cada respuesta se asocia a una clase distinta de estímulos
mutuamente correlacionados o "similares", la probabilidad de que una asociación aprendida de algún
estímulo específico se retenga correctamente generalmente se acerca a una posibilidad mejor que la
posibilidad asíntota a medida que aumenta el número de estímulos aprendidos por el sistema. Esta
asíntota se puede hacer arbitrariamente cerca de la unidad al aumentar la cantidad de celdas de
asociación en el sistema.
6. El rendimiento del sistema puede mejorarse mediante el uso de un área de proyección sensible al
contorno, y mediante el uso de un sistema de respuesta binaria, en el que cada respuesta, o "bit",
corresponde a alguna característica o atributo independiente del estímulo.
9. La memoria del perceptrón se distribuye, en el sentido de que cualquier asociación puede hacer uso de
una gran proporción de las células del sistema, y la eliminación de una parte del sistema de asociación
no tendría un efecto apreciable en el rendimiento de cualquier discriminación o asociación, pero
comenzaría a aparecer como un déficit general en todas las asociaciones aprendidas.
10. Conjuntos cognitivos simples, recuerdo selectivo y reconocimiento espontáneo de las clases
presentes en un ambiente dado son posibles. El reconocimiento de las relaciones en el espacio y el
tiempo, sin embargo, parece representar un límite a la capacidad del perceptrón para formar
abstracciones cognitivas.
Los psicólogos, y los teóricos del aprendizaje en particular, ahora pueden preguntarse: "¿Qué ha logrado
la teoría actual, más allá de lo que ya se ha hecho en las teorías cuantitativas de Hull, Bush y Mosteller,
etc., o teorías fisiológicas como la de Hebb?" La teoría actual es todavía demasiado primitiva, por
supuesto, para ser considerada como un rival en toda regla de las teorías existentes del aprendizaje
humano. No obstante, como primera aproximación, su principal logro podría establecerse de la siguiente
manera:
1. Parsimonia
Esencialmente, todas las variables y leyes básicas utilizadas en este sistema ya están presentes en la
estructura de la ciencia física y biológica, por lo que hemos encontrado que es necesario postular una
sola variable hipotética (o construcción) que hemos llamado V, el "valor". "de una célula de asociación;
esta es una variable que debe ajustarse a ciertas características funcionales que pueden establecerse
claramente, y que se supone que tiene un correlato físico potencialmente mensurable.
2. Verificabilidad. Las teorías de aprendizaje cuantitativas anteriores, aparentemente sin excepción, han
tenido una característica importante en común: todas se han basado en mediciones del comportamiento,
en situaciones específicas, utilizando estas medidas (después de la manipulación teórica) para predecir
el comportamiento en otras situaciones. Tal procedimiento, en el último análisis, equivale a un proceso
de ajuste de curva y extrapolación, con la esperanza de que las constantes que describen un conjunto de
curvas serán válidas para otras curvas en otras situaciones. Si bien tal extrapolación no es
necesariamente circular, en el sentido estricto, comparte muchas de las dificultades lógicas de la
circularidad, particularmente cuando se usa como una "explicación" del comportamiento. Tal
extrapolación es difícil de justificar en una nueva situación, y se ha demostrado que si las constantes y
parámetros básicos se derivan de nuevo para cualquier situación en la que se descomponen
empíricamente (como el cambio de ratas blancas a humanos), entonces la la "teoría" básica es
esencialmente irrefutable, al igual que cualquier ecuación de ajuste de curvas exitosa es irrefutable. De
hecho, los psicólogos han concedido ampliamente que no tiene mucho sentido tratar de "refutar"
ninguna de las principales teorías de aprendizaje actualmente en uso, ya que, por extensión, o un
cambio en los parámetros, todos han demostrado ser capaces de adaptarse. solo díganos qué
comportamiento puede ocurrir en cualquier organismo conocido, pero permitiría la síntesis de los
sistemas de comportamiento para cumplir requisitos especiales. Otras teorías de aprendizaje tienden a
ser cada vez más cualitativas a medida que se generalizan. Por lo tanto, un conjunto de ecuaciones que
describen los efectos de la recompensa en el aprendizaje del laberinto en T en una rata blanca se reduce
simplemente a una afirmación de que el comportamiento recompensado tiende a ocurrir con mayor
probabilidad cuando intentamos generalizarlo a partir de cualquier especie y situación. La teoría que se
ha presentado aquí no pierde nada de su precisión a través de la generalidad.
La teoría propuesta por Donald Hebb (7) intenta evitar estas dificultades de los modelos basados en el
comportamiento al mostrar cómo el funcionamiento psicológico podría derivarse de la teoría
neurofisiológica. En su intento de lograr esto, la filosofía de enfoque de Hebb parece cercana a la
nuestra, y su trabajo ha sido una fuente de inspiración para gran parte de lo que se ha propuesto aquí.
Hebb, sin embargo, nunca ha logrado realmente un modelo por el cual el comportamiento (o cualquier
dato psicológico) pueda predecirse a partir del sistema fisiológico. Su fisiología es más una sugerencia
sobre el tipo de sustrato orgánico que podría subyacer al comportamiento, y un intento de mostrar la
verosimilitud de un puente entre la biofísica y la psicología.
La presente teoría representa la primera finalización real de dicho puente. Mediante el uso de las
ecuaciones en las secciones anteriores, es posible predecir curvas de aprendizaje a partir de variables
neurológicas, y del mismo modo, predecir variables neurológicas a partir de curvas de aprendizaje.
Queda bien por ver hasta qué punto este puente se enfrenta a repetidos cruces. Mientras tanto, la teoría
presentada aquí demuestra claramente la viabilidad y la fecundidad de un enfoque estadístico
cuantitativo para la organización de los sistemas cognitivos. Mediante el estudio de sistemas como el
perceptrón, se espera que esas leyes fundamentales de organización que son comunes a todos los
sistemas de manejo de información, máquinas y hombres incluidos, puedan eventualmente
ser entendido.