Sie sind auf Seite 1von 9

NEUROBIOLOGÍA DE LA PERCEPCIÓN DEL HABLA

R Holly Fitch; Steve Miller; Paula Tallal (1997). Neurobiology of speech perception. Annual Review of
Neuroscience, 20: 331-53

¿Qué es el habla?

El habla es una señal acústica compuesta de múltiples frecuencias concurrentes, denominadas formantes.
Mientras que los sonidos vocálicos consisten de combinaciones específicas de frecuencias temporalmente
estáticas, frecuencias constantes (véase la Figura 1), las consonantes contienen inicios variables y
transiciones rápidas de frecuencias que cambian en la sílaba de acuerdo con el punto de articulación del que
parten y al que se dirigen (lo que viene determinado por la posición del aparato fonador) y con las frecuencias
requeridas para producir los componentes de las vocales (véase la Figura 2). Aunque existe una amplia
variabilidad en el tamaño y la forma del tracto vocal de los hablantes, y por tanto de la frecuencia fundamental
(el tono) de su habla, las combinaciones relativas de frecuencia requeridas para producir las señales de habla
son consistentes y replicables de un hablante a otro. Así, un sonido /x/ puede ser identificado
consistentemente por un oyente normal a pesar del tono del hablante (p.e. mujer, hombre o niño). Este
fenómeno indica que la frecuencia absoluta per se no es un elemento crítico para el reconocimiento del habla.
Más bien, el reconocimiento depende de la combinación relativa de las frecuencias concurrentes estáticas y
temporales Si una combinación específica de frecuencia produce consistentemente un sonido de habla
específico a pesar de los sonidos precedentes y subsiguientes, entonces el habla puede ser representada de
acuerdo con códigos acústicos relativamente simples. Sin embargo, la situación es más compleja. La Figura 3
muestra los espectrogramas de una serie de sílabas de consonante-vocal (C-V) que comienzan por la misma
consonante. Nótese que las transiciones específicas de los formantes producidos al mover los articuladores
del lugar inicial para la generación de la consonante a la siguiente vocal varían considerablemente
dependiendo de la frecuencia inicia, así como de la siguiente vocal. Esto sucede porque los articuladores
“anticipan” la vocal incluso mientras la consonante está empezando a ser producida. Así, las frecuencias que
incluyen un sonido consonántico en un contexto específico también portan información indicando con
anterioridad que vocal “viene”. Este proceso se llama “coarticulación”.

Resulta interesante que, a pesar de esas variaciones significativas en las características temporales y
espectrales, los oyentes normales sean capaces de identificar consistentemente un sonido de habla dado
(fonema) a pesar del contexto de otros fonemas adyacentes. Para agravar este problema de procesamiento,
muchas de las claves más significativas para distinguir sonidos de habla similares (p.e. la clave que diferencia
/ba/ de /da/) ocurren dentro de un periodo de tiempo extremadamente breve. Por ejemplo, la duración de la
transición del formante mostrado en la Figura 3 es aproximadamente de 40 ms y estos breves componentes
de información acústica deben ser codificados e identificados dentro de los límites temporales del habla.
¿Cómo puede el cerebro humano superar este desafío?
/////////
Estudios conductuales y percepción categorial de la percepción del habla.

La investigación ha demostrado que las pautas acústicas no se traducen directamente, punto por punto, en un
sonido de habla determinado. Más bien, el cerebro procesa la información acústica y le asigna una etiqueta,
basándose en las categorías conocidas de las señales de habla para representar cada categoría fonémica
(fonema). Aunque estas categorías fonémicas pueden estar preparadas innatamente, la investigación con
bebés muestra que los límites psicofisiológicos de estas categorías están ampliamente determinadas por la
experiencia desde el nacimiento (véase Kuhl 1992, para una revisión). Aparentemente, los bebés aprenden a
establecer los límites con los que se categorizan los fonemas de su habla nativa escuchando el habla. Esta
habilidad para crear límites perceptivos entre sonidos de habla se denomina percepción categorial y da como
resultado una pauta de respuesta claramente definida (categorial) cuando un individuo escucha sonidos de
habla que varían acústicamente de modo gradual de un fonema a otro (Figura 5). Históricamente se ha
pensado que este fenómeno distingue la discriminación del habla humano de otros tipos de estímulos
ambientales o musicales, en los que no se esperan tales límites categoriales. De este modo, la percepción
categorial de los humanos para el habla llegó a constituir una marca definitoria para un “módulo de habla”
único en el cerebro humano, un módulo que no se aplica a otros procesos aditivos complejos y que no tiene
un sustrato homólogo en otra especie no humana.

La hipótesis de que la percepción categorial es una prueba psicofisiológica de la naturaleza exclusiva del
procesamiento humano del habla fue severamente rebatida en 1975 cuando Kuhl y Miller demostraron que
una especie no humana (la chinchilla) mostraba percepción categorial para los sonidos del habla humano
[sílabas consonante-vocal (C-V)] (Kuhl 1981, 1987; Kuhl & Miller 1975, 1978). Otro duro golpe para la
hipótesis de que “el habla es especial”, fue que los psicofísicos comenzaran a mostrar la existencia de
percepción categorial para ciertos tipos de señales acústicas de no habla en los humanos (Cutting & Rosner
1974, Miller et al 1976, Pisoni 1977). Desde los 1970, la investigación ha demostrado percepción categorial en
monos para sonidos específicos de la especie (May et al 1989), en aves para llamadas específicas de la
especie (e.g. see Dooling et al 1990). Estos resultados han debilidado gravemente el argumento de que la
percepción del habla humana sea un proceso único y enfatizado el valor crítico de la investigación animal, así
como los estudios del procesamiento auditivo de señales acústicas temporal y espectralmente complejas para
ofrecer una idea comprensiva de las bases neurobiológicas de la percepción del habla en los humanos.
LA PERCEPCIÓN DEL HABLA.
Diehl, R. L.; Lotto A. J. y Holt L. L. (2004). Speech Perception. Annual Review of Psychology, 55: 149-179.

TEORÍA MOTORA DE LA PERCEPCIÓN DEL HABLA


Al comienzo de los años 50, Alvin Liberman, Franklin Cooper, Pierre Delattre y otros investigadores de los
laboratorios Haskins desarrollaron una serie de estudios cruciales sobre la percepción de sonidos de habla
sintética (Delattre et al. 1951, 1952, 1955, 1964; Liberman 1957; Liberman et al. 1952, 1954, 1956). Estos
trabajos sentaron las bases de lo que ahora se conoce sobre las claves acústicas para las unidades
lingüísticas como los fonemas y los rasgos y revelaron que las relaciones entre las señales de habla y las
unidades lingüística es muy compleja. En su momento, Liberman y sus colaboradores estaban convencidos
de que los fonemas percibidos y los rasgos tenían una relación más simple, es decir una relación de uno a
uno con su articulación (la forma en que eran articulados, N.T.), que con su forma acústica. Esto fue lo que
dio lugar a la teoría motora de la percepción del habla.

La teoría motora (TM) ha sufrido cambios significativos desde su formulación inicial (Liberman, 1996), pero
cada versión ha defendido que el objeto de la percepción del habla está constituido por datos articulatorios
más que por datos acústicos o auditivos. Más específicamente, se asume que los datos articulatorios que
recuperan los oyentes humanos son órdenes neuromotoras para los órganos articulatorios (p.e., la lengua, los
labios y las cuerdas vocales) – lo que también se conoce como “gestos intencionales”1- más que datos más
periféricos como los movimientos articulatorios o los gestos reales (Liberman y Mattingly 1985, Liberman et al.
1967).
Este punto de vista de la percepción del habla vino motivado por la observación de que los oyentes son
también hablantes y, como tales, deben disponer de una representación común a la actividad perceptiva y a
la producción. Debido a que los sonidos de habla experimentan un proceso complejo de codificación
responsable de la producción, se supone que los mismos procesos responsables de la producción serían
responsables de la decodificación del mensaje que subyace a los segmentos fonéticos. Se asume que el
solapamiento complejo de los sonidos de la señal de habla debido a la coarticulación se deshace durante la
percepción mediante el uso de las mismas reglas utilizadas en la producción. [Nygaard, N.C. y Pisoni, D. B.
(1995). Speech perception: New directions in research and theory. En J.L. Miller y P.D. Eimas. Speech,
Language, and communication. San Diego, Ca.: Academia Press. (84-86).]
El proceso de la producción del habla se caracteriza según Liberman et al. (1967) por una serie de vínculos
entre niveles descriptivos: fonemas (o conjuntos de rasgos distintivos) → órdenes neuromotoras →
contracciones musculares → forma del tracto vocal → señales acústicas. Mientras que se asume que los
fonemas (o conjuntos de rasgos) mantienen una relación de uno a uno con las órdenes neuromotoras y con
las contracciones musculares, la relación entre las contracciones musculares y la forma del tracto vocal se
piensa que es más compleja, dado que las vocales adyacentes y las consonantes se coarticulan (esto es, se
producen con cierto solapamiento espacial y temporal). Ya que se asume que la relación entre la forma del
trato vocal y la señal acústica es de uno a uno, la relación compleja entre los fonemas y los sonidos de habla
se atribuye principalmente a los efectos de la coarticulación.

Para ilustrar la relación compleja entre los fonemas y su ejecución articulatoria, Liberman et al. (1967) utilizan
los espectrogramas de pautas sintéticas de dos formantes (figura 1) que son percibidos por los oyentes como
las sílabas /di/ y /du/. En estos patrones, la parte estable de los formantes corresponden a los valores de las
vocales /i/ y /u/ y la parte de los formantes cuyas frecuencias cambian rápidamente (transiciones de los
formantes) al inicio de cada sílaba portan información muy importante acerca de la consonante inicial. En
concreto, la elevación del formante primero (F1) de ambas sílabas señala que la consonante es una oclusiva
sonora como /b/, /d/ o /g/, mientras que la transición ascendente del segundo formante (F2) de /di/ y la
transición descendente del segundo formante /F2/ de /du/ ofrecen información crítica acerca del lugar de
articulación (p.e., que la consonantes es /d/ en lugar de /b/ o /g/). El hecho de que dichas diferencias en los

1
Aquí se contrasta la representación abstracta del gesto (gesto intencional) con el movimiento real que ejecuta el
hablante (gesto real). Nota de la Traductora (N.T.).
patrones de transición puedan dar lugar a la misma percepción fonémica es según los defensores de la teoría
motora un sólido apoyo de que la invarianza puede ser observada a nivel articulatorio más que a un nivel
acústico de descripción.

Transición del formante

Parte estable

Figura 1. Versión simplificada de los patrones de formantes de /di/ y /du/. Nótese que las transiciones de los segundos
formantes (el de frecuencia mayor) difiere notablemente en las dos sílabas. No obstante, la consonante se percibe en ambos
casos como /d/. La trayectoria del primer formante, que es equivalente en ambas sílabas no informa del lugar de articulación
y es la misma para las sílabas iniciales de /b/ y /g/ (Adaptado de Delattre et al. 1952).

El decodificador del habla asumido por Liberman et al. (1967) opera “poniendo en marcha el proceso [de
producción del habla] hacia atrás” (p.454). Esta afirmación fue elaborada por Liberman y Mattingly (1985)
como sigue: “Las descripciones de la señal se computan por analogía con el proceso de producción -un
sintetizador del tracto vocal interno e innatamente especificado- que incorpora la información completa acerca
de las características anatómicas y fisiológicas del tracto vocal y también acerca de las consecuencias
articulatorias y acústicas de los gestos lingüísticamente significativos” (pg. 26). Liberman y sus colegas
argumentan que, entre otras ventajas teóricas, la TM es parsimoniosa ya que los mismos mecanismos se
usan tanto para la producción como para la percepción del habla.

Una segunda e importante afirmación de la TM es que la habilidad humana de percibir sonidos de habla no
puede atribuirse a los mecanismos generales de la audición o del aprendizaje perceptivo, sino que depende
de un codificador especializado o módulo que es específico del habla, exclusivo de los humanos y, en las
últimas versiones de la teoría (Liberman 1996, Liberman y Mattingly 1985), innatamente organizado y parte de
una larga especialización biológica para el lenguaje.

En palabras de Nygaard, N.C. y Pisoni, D. B. (1995). (pág.-86): “La teoría motora asume que la percepción
del habla depende de un módulo fonético innato, específico de dominio que se adapta a las características de
la modularidad propuesta por Fodor (1983). Se considera que la percepción del habla es especial porque los
mecanismos y procesos utilizados para extraer el contenido lingüístico de una emisión son distintos de los
utilizados para otra clase de eventos auditivos (Mattingly y Liberman, 1988, 1989). De hecho, se asume que
el sistema perceptivo del habla ha evolucionado con el especial propósito de extraer los gestos articulatorios
intencionados (Liberman, 1982; Mattingly y Liberman, 1988, 1989).
En términos de la naturaleza de la representación neuronal del habla, la teoría motora, aunque bastante
diferente en otros aspectos, asume, como los modelos de la invarianza acústico-fonética, que las
representaciones lingüísticas están constituidas por los segmentos fonéticos abstractos y canónicos o por los
gestos que subyacen a estos segmentos. Se asume que el módulo de la percepción del habla se ajusta a la
intención fonética del hablante, pero no se ofrece explicación de cómo se integra la información acerca de la
voz con la información referente a la intención lingüística. Queda poco claro, que al asumir este tipo de
conceptualización del proceso de percepción del habla, cuándo se debe extraer la información sobre la
identidad del hablante o la prosodia y cómo se usa durante el procesamiento de la señal acústica.
La propuesta de los gestos articulatorios intencionales como los objetos de la percepción y de la naturaleza
especializada del procesamiento del habla ha despertado una gran controversia en el área y. como resultado,
ha generado un considerable número de investigaciones. El apoyo a la teoría motora revisada proviene en
gran parte de su habilidad para dar cuenta de un rango amplio de fenómenos de manera consistente. Sin
embargo, la teoría en sí misma ha recibido escaso soporte empírico directo e inequívoco, en gran parte
porque la naturaleza abstracta de los mecanismos perceptivos propuestos. Obviamente, se necesita una
especificación más precisa de cómo los oyentes extraen los gestos articulatorios subyacentes y como esos
gestos se decodifican en segmentos fonéticos“.

TEORÍA GENERAL AUDITIVA Y ENFOQUES DE APRENDIZAJE SOBRE LA PERCEPCIÓN DEL HABLA

A mediados de los años 1970, diferentes hallazgos empíricos plantearon un reto a la TM, el enfoque entonces
dominante sobre la percepción humana del habla. Anteriores trabajos de los Laboratorios Haskins habían
encontrado claras diferencias entre la percepción de ciertos sonidos de habla y la percepción de sonidos no
lingüísticos análogos a los estímulos de habla (Liberman et al. 1961a, b; Mattingly et al. 1971). Debido a que
estos resultados parecían subestimar la naturaleza de la percepción del habla fueron interpretados como
apoyo para la TM (Liberman et al. 1967, 1972). Sin embargo, Stevens y Klatt (1974), Miller et al. (1976) y
Pisoni (1977) demostraron que en algunas circunstancias la percepción de los estímulos de habla es paralela
a la de los estímulos no lingüísticos, ya que comparten las propiedades temporales críticas. Los autores
señalan que los mecanismos auditivos generales eran responsables de las similitudes observadas en la
respuesta perceptiva. Incluso más sorprendentes fueron las situaciones en que animales no humanos
exhibían aspectos de respuesta perceptiva para el habla (Kuhl y Miller 1975, 1978) algo que había sido
previamente asumido por los defensores de la teoría motora como exclusivo de los humanos (Liberman et al.
1972). Algunos de estos paralelismos entre el la percepción de habla y no habla y entre la percepción de los
humanos y los no humanos se describen con mayor detalle más adelante.

Estimulados por estos y otros hallazgos algunos investigadores del habla [p.e., Diehl 1987); Diehl y Kluender
1989a, b; Holt et al. 1998; Kingston y Diehl 1994, 1995; Kluender 1994; Kuhl 1986; Lotto (2000; Massaro y
Oden, 1980; Nearey 1990; Nearey y Hogan 1986; Ohala 1996; Pastore 1981; Sussman et al. 1998 (Véase
Lane 1965 para revisar una crítica de la TM)] han explorado alternativas a ambas la TM y la Teoría Directa, a
la que nos referiremos aquí como la Teoría General Auditiva (TGA). Contrariamente a la TM, la TGA no
recurre a mecanismos especiales o módulos especiales para explicar la percepción del habla. Más bien la
TGA asume, como hipótesis de trabajo, que los sonidos de habla se perciben utilizando los mismos
mecanismos de la audición y del aprendizaje perceptivo que han evolucionado en los humanos y los
ancestros humanos para manejar otras clases de sonidos ambientales. En contraste con la TM, la TGA asume
que la recuperación de los oyentes del mensaje hablado a partir de la señal acústica (tanto si esos mensajes
están construidos con rasgos distintivos, fonemas, palabras o alguna unidad de alto nivel) no es equivalente,
ni está mediado por la percepción de los gestos.

Recuérdese que la equivalencia percibida de la consonante en /di/ y /du/ ( a pesar de la variación de las
pautas acústicas) fue utilizada como apoyo para la TGA. Una explicación de la TGA para la equivalencia
perceptiva se basaría en la habilidad general del perceptor para hacer uso de claves acústicas imperfectas
para categorizar estímulos complejos. De mismo modo que Brunswik (1956) propuso que la constancia del
objeto en la visión es el resultado de combinar múltiples atributos de validez ecológica variable, el oyente
puede mantener la constancia perceptiva de los estímulos acústicos. Para la TGA esta constancia no requiere
la recuperación de gestos articulatorios o de un modo especial de percepción. Como apoyo de este punto de
vista, Kluender et al. (1987) demostró que los pájaros pueden ser entrenados para discriminar sílabas con una
/d/ natural inicial de otras sílabas cuyo inicio es /b/ o /g/. A pesar de la falta de mecanismos especializados o
experiencia en la producción del habla, los pájaros pueden responder correctamente a las mismas
consonantes en contextos vocálicos nuevos.

La TGA se considera un enfoque más que una teoría porque, como se resume en los párrafos precedentes,
es bastante abstracta, definiéndose fundamentalmente por su oposición a los principales argumentos de la
TM. A este nivel de abstracción, la TGA tiene poco contenido como para ser falsable. Sin embargo, no ofrece
un marco teórico a partir del que se puedan formular y validar argumentos teóricos.

PERCEPCIÓN CATEGORIAL
Un importante descubrimiento temprano de los Laboratorios Haskins fue un efecto conocido como percepción
categorial (Liberman et al. 1957, 1961a, b). En un experimento típico, se presentaba a los sujetos una serie de
combinaciones silábicas consonante-vocal (CV) con una variación en un parámetro acústico (p.e. la curva de
la transición del F2) y cambios en la consonante inicial (/bV/-/dV/-/gV/) y se les pedía que los denominaran,
que los identificaran o que los discriminaran de otros cercanos en la serie. Se hicieron evidentes dos patrones
de resultados. Primero, las funciones de denominación mostraron fronteras claras entre las categorías de
fonemas, segundo la precisión discriminativa era cercana al azar en pares de estímulos dentro de la categoría
fonémica, pero era casi perfecta para pares de estímulos que se encontraban a uno u otro lado de la frontera
fonémica. Estas son las propiedades definitorias de la percepción categoría. Lo que implica que la
discriminabilidad perceptiva del habla está íntimamente relacionada con la presencia o ausencia de
diferencias entre sonidos (p.e. los fonemas). Ya que estas funciones de discriminación categorial no se
encontraron para ciertos estímulos no lingüísticos, aunque eran análogos a los estímulos de habla (Liberman
et al. 1961a,b), los defensores de la teoría motora señalaron a la percepción categorial como el sello de la
percepción en “el modo habla” (Liberman et al. 1967).
/…/

Para complicar esta explicación del aprendizaje del lenguaje se obtuvieron resultados de experimentos
realizados con bebés. Eimas et al. (1971) encontró que los bebés de ambientes lingüísticos de inglés
distinguían las diferencias en el TEV (VOT) para pares de estímulos que van de la frontera en inglés de /ba/ a
/pa/, pero no dan muestras de discriminar diferencias equivalentes cuando los estímulos pertenecen a la
misma categoría2. De acuerdo con la versión última de la TM, los autores interpretaron estos resultados como
evidencia de un modo lingüístico innato de la percepción en humanos. Otro apoyo posterior para esta
perspectiva es el trabajo de Lasky et al. (1975) quién encontró que bebés criados en un ambiente de lengua
española pueden discriminar diferencias cuando los estímulos se sitúan en la frontera de voz del español o en
la del inglés, pero no discriminan dentro de la frontera. La discriminación del contraste de voz del inglés por
los bebés que aprenden español sugiere que la experiencia lingüística no es una condición necesaria para la
discriminación categorial del estímulo de VOT (véase también Aslin et al. 1981).

Recuérdese que la percepción categorial había sido reclamada por los defensores de la TM como el sello del
modo de habla de la percepción (Liberman et al., 1967). Sin embargo, estudios posteriores (Miller et al. 1976,
Pisoni 1977) aportaron evidencia convincente de percepción categorial para diversos tipos de estímulos no
lingüísticos.

/…/

El hallazgo de que la percepción categorial no es única de los sonidos de habla debilitó uno de los
argumentos empíricos de la TM. Un desafío incluso más serio fueron los resultados de experimentos con
animales no humanos. En palabras de Liberman et al. (1972, p. 324):

“Presumiblemente, [los animales] carecen de un procesador especial necesario para decodificar la


señal de habla. Si es así, su percepción del habla tiene que ser diferente de la nuestra. Pueden no
oír categorialmente, por ejemplo, y pueden no oír los patrones [di]-[du] …. Como dos segmentos
silábicos que tienen el primer segmento en común.”

Como en el ejemplo de /di/ - /du/, se ha señalado anteriormente que Kluender et al. (1987) entrenaron a
codornices japonesas a responder a señales con una /d/ inicial, pero evitar la respuesta a señales con una /b/
o /g/ inicial en diferentes contextos silábicos. Con respecto a la afirmación de que la percepción categorial es
una habilidad exclusiva de los humanos Kuhl y sus colaboradores (Kuhl 1981; Kuhl y Miller 1975, 1978; Kuhl y
Padden (1982) presentaron pruebas de percepción categorial de sonidos humanos en chinchillas y macacos.
Por ejemplo, Kuhl y Miller (1978) entrenaron a las chinchillas a responder discriminativamente a dos estímulos

3
Es decir, discriminan entre /ba/ y /pa/, pero no distinguen entre diversas formas de /pa/ o de /ba/. N.T.
situados en los extremos de un continuo de VOT (/da/ 0ms - /ta/ 80 ms) y luego probaron a los animales
utilizando valores intermedios. Sus respuestas de identificación se correspondían casi exactamente con la de
los adultos hablantes de inglés. Posteriores pruebas de generalización con estímulos de VOT labiales (/ba/-
/pa/) y velares (/ga/-/ka/) también mostraron un alto acuerdo con la respuesta de hablantes de inglés (Kuhl
1981),

Los resultados de comparar la percepción del habla y de estímulos no lingüísticos por humanos y animales
indican claramente que los mecanismos auditivos generales (comunes a humanos adultos, bebés, otros
mamíferos, incluso aves) contribuyen a la percepción categorial de los sonidos de habla. Evidentemente, sin
embargo, la experiencia lingüística es un factor significativo en la percepción categorial. Lisker y Abramson
(1970, Abramson y Lisker 1970) encontraron diferencias translingüísticas en la identificación de fronteras y
discriminación de picos [de sonoridad] (véase también Elman et al. 1977, Williams 1977). Aunque los bebés
muestran discriminación tanto en las fronteras del inglés como en las del español, su experiencia lingüística
tiende a mantener y quizás reforzar las fronteras naturales que coinciden con las fronteras fonémicas y a
debilitar las fronteras naturales que no son lingüísticamente funcionales (Werker y Tees 1984). Al organizar
sus sistemas de sonidos, las lenguas explotan las fronteras naturales, pero dentro de sus límites, también las
modifican.

/……../

LOS EFECTOS DEL CONTEXTO FONETICO II: LA COMPENSACIÓN DEBIDA A LA COARTICULACIÓN


Tal como se ha descrito con anterioridad, los fonemas se coarticulan en el lenguaje continuo. Considérese la
producción de las sílabas CV /da/ y /ga/ en inglés. En aislamiento, /d/ se produce con una oclusión anterior del
tracto vocal según la lengua contacta con el paladar duro. Por el contrario, la /g/ se produce con una oclusión
anterior creada por la base de la lengua. Sin embargo, el lugar de articulación de estas sílabas (CV) cambia
cuando se producen en un contexto en el que les precede una /al/ o una /ar/ (p.e. /al da/). La articulación
anterior de /l/ lleva a /d/ y a /g/ a la parte frontal de la boca, mientras que la producción de un fonema posterior
como /r/ lleva la oclusión de /d/ y /g/ en la dirección opuesta.

/…/

¿Cómo se enfrentan los oyentes humanos a estos cambios acústicos contextuales de los fonemas? Para
responder a esta pregunta, Mann (1980) presentó a oyentes una serie de sílabas CV sintetizadas que
variaban en el inicio de F3 de /da/ a /ga/. Estas sílabas eran precedidas de /al/ o /ar/ (con una pausa de 50 ms
entre sílabas). La identificación de la sílaba objetivo dependía del contexto precedente. Se dieron más
respuesta /ga/ tras presentar /al/ que siguiendo /ar/.

/…/

Mientras que la sensibilidad al contexto acústico es problemática para la explicación de la percepción del
habla que se apoya en el reconocimiento de patrones de fonemas, estos resultados apoyan las teorías que
proponen a los gestos como los objetos de la percepción del habla. La relación entre la acústica y la
percepción no es transparente, pero la relación entre el gesto y la percepción es directa. El gesto intencional y
el gesto percibido son consistentes incluso aunque la acústica sea variable. De acuerdo con la TM, el gesto
intencional se recupera accediendo a conocimiento tácito de las consecuencias acústicas de los candidatos
de las órdenes articulatorias (Mann, 1980).

/ …/

Una explicación de la TGA para la compensación de la coarticulación dependería de las interacciones entre
los rasgos de los estímulos en el sistema auditivo o del aprendizaje perceptivo basado en correlaciones de
rasgos. Como apoyo de esta teoría general, Lotto et al. (1997) encontraron respuestas dependientes del
contexto en pájaros. Se entrenó a perdices japonesas a picar un botón cuando se presentaba /da/ o /ga/.
Cuando se presentaba un estímulo ambiguo precedido de /al/ o /ar/, las respuestas de los pájaros cambiaban
en la misma dirección de los humanos. La extensión de los efectos del contexto fonético a las perdices
japonesas plantea serias dudas a la necesidad de especialización de los mecanismos perceptivos. Lotto et al.
(1997) sugieren que los cambios en las respuestas de los pájaros no se deben a factores relacionados con los
gestos, sino a interacciones auditivas entre los componentes espectrales de la sílaba objetivo y del contexto.

/…/

CONCLUSIONES: DESFIOS PARA LA TM Y LA TGA


En esta sección describiremos los que creemos que son los principales desafíos para cada enfoque de la
percepción del habla.

Teoría Motora.
Hemos señalado que la alta correlación entre las medidas de la producción del habla de la producción es por
sí misma poco informativa desde un punto de vista teórico porque las principales perspectivas predicen tal
correlación. La TM debería ofrecer demostraciones de patrones de respuesta que sean específicos de los
humanos para la percepción.
/…/
El principal desafío para la TM es, por tanto, ofrecer una evidencia fuerte de respuestas perceptivas
genuinamente específicas para el habla (y de los humanos).

Teoría General Autiditiva


Hemos descrito la TGA como un enfoque general dentro del que se formulan y verifican hipótesis. / … /

Los desafíos de la TGA son intimidantes. Se sitúan dentro de dos categorías generales que reflejan el énfasis
de la TGA en el procesamiento auditivo y el aprendizaje perceptivo. Nuestro conocimiento del procesamiento
auditivo de los mamíferos es amplio y en constante desarrollo, pero los modelos más detallados se restringen
a la audición periférica. / … / Necesitamos saber bastante más sobre el procesamiento auditivo, más allá de la
vía auditiva, para delimitar nuestros modelos de percepción de habla. Se debe prestar especial atención al
papel de la plasticidad neuronal a niveles superiores de la cadena auditivo.

/…/

No obstante, el principal desafío para la TGA es desarrollar hipótesis basadas en información más precisa
acerca de la representación auditiva del habla y las propiedades estadísticas del habla natural.

Preguntas.
1. ¿Por qué la percepción del habla es una actividad compleja?
2. ¿Qué hace que haya ausencia de invarianza?
3. ¿Qué significa que la percepción es categorial?
4. ¿Cuál es la hipótesis central de la Teoría Motora?
5. ¿Qué críticas hacen los autores a la Teoría Motora?
6. ¿Cuál es la hipótesis central de la Teoría General Auditiva?
7. ¿Qué críticas hacen los autores a la Teoría General Auditiva?
8. ¿En qué se diferencian ambas teorías?
9. ¿Por qué es importante comprobar si también es categorial la percepción de estímulos sonoros distinto
del habla?
10. ¿Por qué es interesante contrastar la habilidad de humanos y otros animales para la discriminación de
sonidos de habla?

Das könnte Ihnen auch gefallen