Sie sind auf Seite 1von 11

SandraMP11

www.wuolah.com/student/SandraMP11

2380

Tema 5. Percepción del habla.pdf


Tema 5. Percepción del habla

3º Psicologia del Lenguaje

Grado en Psicología

UNED - España
UNED - Universidad Nacional de Educación a Distancia

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su
totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1110140

Tema 5. Percepción del habla


1. INTRODUCCIÓN
El sonido se produce cuando un cuerpo vibra y comunica la vibración a las moléculas del entorno y
esta energía es percibida por el oído. Cuando una piedra cae en un estanque de agua, se forman ondas
concéntricas que se expanden a través de la superficie tranquila.
Las piezas básicas del sonido son las ondas puras o simples, que no pueden descomponerse en
niguna otra. Una onda comprende una sucesión de ciclos o patrones de vibración que se repiten en el
tiempo, y cada ciclo está formado por un pico que sube y un valle que baja en torno a un punto central
de energía cero.
Dependiendo de la velocidad de vibración, las ondas varían en el número de ciclos que caben en un
segundo, dando lugar a la variable frecuencia. Las ondas que nacen de movimientos vibratorios
rápidos, tienen una frecuencia alta, con muchos ciclos por segundo y se perciben como agudas. Las

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
ondas que nacen de movimientos vibratorios lentos, tienen una frecuencia baja, con pocos ciclos por
segundo y se perciben como graves. En los seres humanos, las voces masculinas son más graves
porque las cuerdas vocales de los varones son más largas que las de las mujeres.
Otra dimensión importante es la intensidad o amplitud del desplazamiento de onda, entre el pico y el
valle. Desde el punto de vista perceptivo, su unidad es el decibelio (dB). Una conversación normal se
sitúa enter 40 y 60 dB.
La suma de varias ondas simples da lugar a una onda compleja y hay dos clases: periódicas, que
tienen ciclos complejos de vibración que se repiten de forma peródica y aperiódicas en las que no se
pueden apreciar ciclos repetitivos. En las primeras oímos un sonido dotado de un tono y en las
segundas se perciben como ruidos.
Espectogramas.Una onda acústica contiene mucha información que no es posible observar
directamente. Sabemos que una onda compleja se compone de muchas otras simples, cada una con
una frecuencia y una intensidad particulares, por lo que el sonido posee distintos grados de energía en
unas frecuencias u otras. La visualización de la distribución de esta energía a través de las frecuencias
se consigue gracias a los espectogramas obtenidos mediante un espectógrafo.
En los años 40, se construyó el primer espectrógrado de sonido, una máquina capaz de analizar los
sonidos en sus diferentes componentes frecuenciales. Un espectrógrado consistía en una colección de
filtros ajustados a diferentes frecuencias específicas que se activaban cuando pasaba a su través
energía de esa frecuencia. Una vez efectuada la grabación del sonido que se deseaba analizar, éste se
hacía pasar a través de la colección de filtros mientras giraba el tambor. De esta forma, la energía
corespondiente a cada banda de frecuencia pasaba a través del filtro respectivo, que terminaba en una
aguja apoyada sobre el papel. Cuanta mayor era la energía, más cantidad de corriente eléctrica
circulaba por la aguja calentando el papel encerado y oscureciéndolo en mayor medida.
Así se obtuvieron los primeros espectrogramas, en los que aparecían representadas las 3 dimensiones
básicas del sonido: el tiempo en el eje horizontal, las diferentes frecuencias en el vertical y la amplitud
de la intensidad del dibujo.
Para percibir el habla son improtantes los formantes; consisten en las franjas oscuras horizontales de
gran concentración de energía que se observan en la mitad niferior del espectrograma. Están
numerados desde abajo como F1 (primer formante), F2, F3, F4 y F5. Los formantes corresponde a las
resonancias de la garganta, o frecuencias que resultan potenciadas debido a la forma del conducto o
tracto vocal.
Síntesis del habla. Mediante el espectrógrado se pasa de la onda al espectrograma. Pero, ¿sería
posible a aprtir de un espectrograma reconstruir artificialmente la onda completa para ser
escuchada?.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1110140

Uno de los primeros intentos de crear habla artificial fue el Pattern Playback. En los años 80 apareció
un sintetizador desarrollado por Dennis Klatt, que generaba una voz artificial muy parecida a la
natural. Constituye el núcleo de uno de los conversores texto-voz más conocidos, el DECtalk.

2. RASGOS GENERALES DE LA PERCEPCIÓN DEL HABLA


Rapidez. Comparado con cualquier otro código acústico de comunicación, el habla es mucho más
rápida que el más veloz de los códigos. Nuestra capacidad de resolución temporal acústica es muy
limitada. La velocidad más rápida a la que es posible identificar por separado unidades discretas ed
cualquier clase de sonido está en torno a las 7-9 unidades por segundo. Más allá de esa velocidad los
sonidos se funden y se empieza a oír algo como un zumbido que, según aumenta el ritmo, se convierte
en un tono. En cuanto al habla, la velocidad a la que se transmiten los sonidosdurante la comunicación
cotidiana se encuentra entre 20-30 segmentos por segundo.
Robustez. La percepción del lengauje oral es un proceso muy eficaz. Nuestra capacidad de identificar
los sonidos del habla es muy robusta. Podemos mantener conversaciones en las condiciones de ruido
más adversas; es posible someter la onda a increíbles alteraciones y mutilaciones y aun así continuar

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
entendiendo el mensaje.
Complejidad. La percepción del habla es un proceso muy complejo y a la vez automático. Aunque se
ha avanzado mucho en los últimos años, la computadora más potente todavía no es capaz de emular
con fiabildad el reconocimiento del habla. Gracias a la actual potendia de cálculo y la aplicación de
complejos algoritmos matemáticos, conseguimos que un ordenador pueda reconocer lenguaje y
pasarlo a un texto.
Automática. A pesar de su complejidad, la mayor parte de los subprocesos implicados en la
percepción del habla son de naturaleza automática y los llevamos a cabo sin apenas esfuerzo.
Diferente. En algunos aspectos, la percepción del habla difiere de la de los sondiso en general. Una
diferencia importante es que los sonidos del habla pueden identificarse a razón de 20-30 unidades
por segundo, frente a las 7-9 unidades de cualquier otra clase de sonidos. Otra diferencia es el
comportamiento anómalo del habla en lo que se refiere a las tareas de discriminación e identificación.
En cualquier ámbito de la percepción, nuestra maquinaria cognitiva está construida de tal modo que
nos resulta mucho más fácil discriminar entre estímulos que identificarlos. En el habla sucede al
revés.
La discriminación exige comparar dos estímulos presentados al sistema perceptivo y determinar si
son iguales o no. La identificación implica la comparación entre un único estímulo y una
representación mental que tenemos almacenada en nuestra memoria.
En el dominio auditivo, está demostrado que cualquier persona puede dicriminar entre unos 350.000
tonos puros distintos, pero sólo identifica unos pocos de ellos. Sin embargo, en la percepción del habla
somos peores en discriminación que en identificación. Hay sonidos fonéticos difíciles de discriminar
entre sí cuando pertenecen a la misma categoría; nos suenan todos del mismo modo.
Ausencia de invarianza. La percepción del habla o lenguaje oral puede definirse como un proceso
complejo por el cual una señal acústica continua y variable activa representaciones mentales discretas
y estables de los fonemas de una lengua. La comprensión de este proceso remite a un problema que
aun no hemos sabido resolver: la ausencia de invarianza.
La percepción del habla es un proceso robusto y muy flexible y adaptativo, porque el estímulo de
entrada es muy variable. La variabilidad del habla intrasujeto es tan amplia como la intersujeto.
Nuestra voz y nuestra forma de pronunciar pueden cambiar de unas situaciones a otras. A esto se
añade el hecho de que el mismo fonema puede tener ondas muy distintas por la influencia de los
fonemas precedentes y posteriores aunque no seamos conscientes de ello.
Las ondas que suenen /a/ han de tener algo en común que no tienen las ondas que suenan /e/. Ese
algo común es lo que nuestro sistema perceptivo sabe capturar y lo que cuesta tanto hacer entender a
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1110140

los ordenadores en los programas de reconocimientode habla. Ese algo común es lo que se conoce
como invarianza fonética. El problema es que hay sonidos del habla en los que la invarianza on acaba
de aparecer en la señal acústica. Es el problema de la ausencia de invarainza del estímulo del habla.

2.1 Percepción de las vocales


El lenguaje humano puede definirse como una sucesión de movimientos de apertura y cierra de la
boca. Las aperturas corresponderían a las vocales y los cierres a las consonantes. En las consonantes
se produce un estrechamiento en la cavidad bucal muy importante. En las vocales, el sonido se
produce sin dificultad, con una restricción más suave. Las vocales forman el núcleo de las sílabas y
pueden existir sílabas formadas sólo por una vocal, lo cual no sucede con las consonantes.
Las vocales pueden se interiores (lengua en posición delantera), como la /i/ y en menor medida la
/e/; centrales como la /a/ y posteriores (lengua en posición trasera) como la /o/ y sobre todo la /u/.
Según el eje vertical, la lengua puede estar en una posición alta, media o baja. Esta posición determina
el grado de apertura de la boca, siendo /a/ la más abierta, /e/ y /o/ semiabiertas y las vocales /i/
y/u/ cerradas.

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Papel de los formantes
Las distintas posiciones de la lengua y otros órganos móviles hacen que cambie la forma general del
conducto vocal, variando sus resonancias acústicas o formantes. Los formantes osn las resonancias
naturales del tracto vocal que se rigen por la acústica de tubos. Corresponden a las frecuencias que
son reforzadas como consecuencia de la forma que adopta el tubo vocal en cada momento. En los
espectrogramas aparecen como franjas oscuras horizontales de mayor energía.
Es en los formantes donde reside la clave de la percepción de las vocales. Las fuentes de evidencia
proceden de:
– La síntesis de vocales artificiales demustra que cuando se alteran los formantes, el sonido
resultante suena a una vocal distinta.
– El análisis de las vocales naturales mediante espectrogramas permite visualizar y medir los
formantes. Los espectrogramas muestran que a vocales distintas les corresponden formantes
diferentes, localizados en distintos niveles de frecuencia.
De todos los formates, los dos primeros son los más importantes. La investigación demustra que la
mayor parte de las vocales pueden ser identificadas sólo con los dos primeros formantes, F1 y F2. De
manera que F1 y F2 son esenciales para la inteligibilidad de las vocales. Los siguientes, F3,F4 y F5,
cuando se incorporan al estímulo artificial añaden naturalidad, haciendo que el resultado final se
parezca más a la voz humana.
Si se examinan los espectrogramas de las 5 vocales castellanas, ordenadas de la más anteiorr a la más
posterior se constatan dos principios:
• F2 es más alto cuanto más anterior es la vocal. Esto se debe a que el espacio que queda delante
del estrechamiento causado por la lengua es más corto cuanto más anterior se sitúa la lengua.
• F1 es más alto cuanto más abierta es una vocal. F1 depende de la abertura del tubo vocal. La
vocal más abierta, /a/, tiene la F1 más alta de todas.
Por otra parte, el abocinamiento que se produce en la /u/ tiene el efecto de alargar todo el tubo vocal
y el de bajar ambos formantes.
Variabilidad de los formantes
Dado que los formantes dependen del tamaño y la forma del tracto vocal, existen importantes
diferencias individuales a través de los hablantes de disintas edades y sexo. Las frecuencias de los
formantes son inversamente proporcionales a la longitus del tubo. En promedio, las mujeres adultas
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1110140

tienen un tracto vocal más corto que los varones y sus formantes son un 20% más altos o agudos. Los
niños tienen tractos vocales aun más cortos y la frecuencia de sus formantes es el doble que en los
adultos varones.
A pesar de la amplia variedad de valores formánticos para una misma vocal o del solapamiento de
formantes entre algunas vocales distintas, los oyentes no tienen dificultad en entender el lenguaje y
perciben correctamente cada vocal.
Normalización de las vocales
Diferencias físicas entre hablantes resultan en diferencias considerables en los formantes para una
misma vocal. Un oyente para interpretar ambos sonidos debe llevar a término algún proceso de
normalización que transforme los valores formándolos a una escala común que admita la
comparación entre sí.
Una primera explicación fue la teoría de la razón entre formantes, según la cual, la identificación de
las vocales no depende de los valores absolutos, de los formantes, sino de la razón o proporción entre

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
ellos. Las vocales anteriores y cerradas tienen un F1 muy bajo y un F2 muy alto, por lo que la
proporción F2/F1 es grande. En contraste, las vocales abiertas tienen un F1 alto y un F2 bajo, por lo
que F2/F1 es pequeña.
Dado que la razón F2/F1 no es suficiente para explicar todos los casos, se han propuesto otras
hipótesis adicionales sobre la normalización vocálica. Estas se dividen entre:
– Modelos de normalización intrínseca: que consideran que cada vocal porta suficiente
información acústica en sí misma para permitir la normalización.
– Modelos de normalización extrínseca: defienden que los oyentes necesitan información
externa a la vocal para establecer un marco de referencia sobre las características del hablante.
Para los partidarios de la intrínseca es importante la proporción F2/F1, además, la vocal contiene
información adicional que permite resolver la ambigüedad cuando ésta se produce, en concreto, los
formantes superiores (F3) y la frecuencia fundamental de la voz o Fo. Johnson entiende que la
frecuencia fundamental es una pista perceptiva importante para identificar al hablante y así hacer
inferencias acerca del tamaño del tracto vocal necesarias para una correcta interpretación de los
formantes. La evidencia experimental ha mostrado que la percepción de las vocales se halla influida
por los valores que adopta Fo y F3.
Para los defensores de la extrínseca, los oyentes interpretan los formantes en referencia a un contexto
más amplio de habla. El trabajo de referencia se basa en los experimentos de Ladefoged y Broadbent,
que examinaron la identificación de un conjunto de vocales sintetizadas artificialmente dentro de un
contexto silábico. Las vocales se presentaban dentro de una frase que servía de contexto precursor,
cuyos valores promedios de F1 y F2 se manipularon. Los resultados mostraron que la identificación de
las vocales estaba influida por los cambios formánticos de la frase. Estos cambios en la identificación
vocal estaban en línea con lo establecido en la hipótesis: el oyente evaluaba los formantes de la vocal
en relación con el rango de valores contenidos en la frase precursora. Dependiendo de ello, se oía una
vocal u otra.
Percepción continuo de las vocales
Al contrario que algunas consonantes, las vocales se perciben de forma continua. Cualquier variación
en las frecuencias de los formantes es percibida por el oyente y cambios continuos y graduales de los
valores formánticos también se perciben de forma continua.

2.2 Percepción de las consonantes


Las consonantes son producidas por movimientos o gestos articulatorios ráoidos que se imponen
sobre los más lentos de las vocales.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1110140

Al contrario que las vocales, las consonantes no pueden formar el núcleo de una sílaba. No existen
sílabas constituidas sólo por una consonante. No es posible pronunciar algunas consonantes de forma
aislada, sin la ayuda de una vocal. La percepción de las consonantes es esencial para entender el
lenguaje y obedece a procesos más complejos que las vocales.
Transiciones formánticas
Existen múltiples pistas perceptivas en la señal del habla para la identificación de los sonidos
consonánticos. Por encima de todas destaca: las transiciones de los formantes vocálicos. Cuando
pronunciamos una vocal de modo aislado sus formantes presentan una apariencia estable, plana en
dirección horizontal. Si la pronunciamos precedida de una consonante, la trayectoria formántica se ve
alterada por influencia de esa consonante.
Esto ocurre en la transición consonante-vocal si es una sílaba directa o vocal-consonante si es una
sílaba inversa. Estas rápidas inclinaciones formánticas causadas por la presencia de una consonante
se conocen como transiciones de los formantes y constituyen una psita clave para su identificación.
Las transiciones de F1 y F2 son cruciales para percibir las consonantes, sobre todo las de F2.

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Las sílabas /di/ y /du/ cuando se pasan por el sintetizador de voz Pattern Playback suenan como /di/
y /du/ aunque con una voz robótica poco natural. La parte estable de los formantes da lugar a la
percepción de las vocales: F1 y F1 muy separados para la /i/ y juntos para la /u/. Son las transiciones
las que nos hacen oír la consonante /d/ en los dos casos. No hay un patrón de energía común que sea
responsable de la /d/. Esto ilustra el problema de la ausencia de invariancia acústica; la ausencia de
algo constante en la representación espectrográfica que corresponda a una consonante particular.
Percepción categórica
Las vocales se perciben de modo continuo: cambios graduales y continuos de las frecuencias de los
formantes se perciben de forma continua. Por el contrario, las consonantes, especialmente las
oclusivas se perciben de forma categórica. Los cambios continuos y graduales de los sonidos
consonánticos no son percibidos de modo continuo, sino de forma discreta o por categorías.
El estudio de Liberman, Harris, Hoffman y Griffith fue el primero que lo puso de manifiesot.
Sintetizaron una serie de 14 estímulos formados por representaciones esquemáticas de F1 y F2 para
ser escuchados por el Pattern Playback. Todos los estímulos eran iguales excepto en la transición de
F2, que variaba de forma gradual desde un inicio bajo a uno alto. Al pasarlos por el sintetizador de
voz, la mayoría de los participantes percibían ejemplos claros pero no de modo continuo, sino
categorial.
Según la inclinación de F2 se oye una consonante u otra. Cuando F2 tiene un inicio bajo, se oye /b/, si
el inicio es intermedio, en el mismo plano que la vocal se oye /d/, si es alto se oye /g/. ¿Qué ocurre con
los estímulos intermedios?. Si la percepción fuera continua como en las vocales, se percibirían formas
intermedias de las 3 consonantes, pero no sucede así.
Los experimentos que estudian la percepción categórica utilizan dos tipos de taras, cuyos resultados
se comparan entre ellas:
• Tareas de discriminación: se comparan los estímulos enter sí. En el paradigma AX se
presenta un estímulo y a continuación otro, que puede ser el mismo repetido u otro distinto; la
tarea del oyente consisten en responder igual o diferente. En un diseño más complejo, ABX, se
presentan dos estímulos sucesivos que siempre son distintos; a continuación se presenta un
tercero que siempre es uno de los dos anteriores, el oyente debe decidir cuál de los dos es este
tercer estímulo.
• Tarea de identificación: se presenta un único estímulo en cada ensayo y el oyente debe
identificarlo indicando la etiqueta o nombre del estímulo y de qué consonante se trata.
Cuando la percepción es de tipo categórico, la identificación es constante dentro de una categoría y al
cambiar de categoría, la etiqueta cambia también.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1110140

La discriminación guarda relación con la identificación: dentro de una misma categoría los estímulos
son difícilmente discriminables entre sí y las respuestas rozan el nivel de azar; cuando los estímulos
que se comparan pertenecen a categorías distintas, la discriminación es casi perfecta. Este "todo o
nada" no aparece en la percepción continua, donde los resultados son proporcionales a la distancia
entre estímulos.
Contraste sordo-sonoro
El parámetro estrella en la investigación psicolingüística sobre percepción del lenguaje es el conocido
como VOT. De su valor depende que percibamos una oclusiva sorda o sonora.
Para entender cómo afecta el VOT a la percepción, hay que revisar la mecánica articulatoria de las
consonantes oclusivas. Cuando pronunciamos una de ellas, hay una secuencia de los siguientes
movimientos articulatorios:
– Movimiento 1: oclusión o interrupción completa, durante decenas de milisegundos, de la
salida de aire de la boca y de la energía acústica. La oclusión se realiza con los labios en las

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
consonantes labiales /b/ y /p/, con la lengua contra los dientes en las dentales /t/ y /d/ o con
la parte posterior de la lengua contra el velo del paladar en las velares /g/ y /k/.
– Movimiento 2: liberación del aire. Los órganos fonadores se separan bruscamente liberando el
aire a presión y dando lugar a una pequeña explosión.
– Movimiento 3: comienzo de vibración de las cuerdas vocales para el inicio de la vocal que sigue
a la oclusiva.
Los estudios demuestran que existe una sincronización temporal muy fina entre estos 3 movimientos.
Esta perfecta coordinación, cuyo mecanismo responsable se ubica en el área de Broca, puede verse
alterada en ciertos trastornos del habla.
El VOT es la distancia temporal entre los movimientos 2 y 3; los milisegundos que transcurren desde
la liberación brusca del aire hasta el inicio de la vibración de las cuerdas vocales. El VOT puede ser
positivo o negativo. Las oclusivas sordas (/p/, /t/, /k/) se diferencian de las sonoras (/b/,/d/,/g/) en
que tienen un VOT más largo que éstas.
En inglés la frontera de las labiales se sitúa en torno a 25-30 ms: la consonante sorda /p/ tiene un VOT
superior a ese límite y la sonora /b/ inferior. En castellano, el límite se sitúa en torno a un VOT de
0ms. Uno de los trabajos más citados sobre la percepción del VOT es el estudio de Abramson y Lisker.
Se ha discutido mucho sobre si hay percepción categórica en otros sonidos que no sean del habla y en
ciertas condiciones, algunos estímulos de no-habla se perciben de forma discontinua. Por otra parte,
trabajos recientes indican que los oyentes sí pueden percibir diferencias entre los estímulos de una
misma categoría fonética y que ésta cuenta en su interior con una rica estructura interna organizada
en torno a representaciones prototípicas.
Parece que la percepción categórica confiere al oyente la ventaja de centrarse en los aspectos de la
señal que son importantes para identificar los fonemas e ignorar variaciones no esenciales dentro de
la categoría fonética. En palabras de Ryalls: la percepción categórica es característica de ciertas
distinciones de sonidos del habla y generalmente no se la encuentra en los sonidos de no-habla. Se
cree que representa uno de los modos en que el sistema perceptivo humano se ha adaptado a la
percepción del habla. Nos proporciona un medio para manejar esa variación en tiempo real. La
percepción categórica evita que hagamos un enorme esfuerzo potencial en la elaboración de
conjeturas.
Problemas en la percepción del habla:
– Ruido ambiental: normalmente oímos las conversaciones en ambientes ruidosos en los que
tenemos que separar el habla de otros sonidos.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1110140

– Diferencias individuales: hay una gran disparidad en la forma en que pronuncian las palabras
las diversas personas debido a las características de sus aparatos fonadores y de sus dialectos y
acentos.
– Superposición de hablas: muchas veces oímos al mismo tiempo varias conversaciones que se
superponen.
– Rapidez en la pronunciación del habla: nuestro sistema perceptivo tiene que ser vapaz de
identificar con gran rapidez los fonemas, ya que nos pueden llegar unos 20-30 por segundo.
– Rápido desvanecimiento del habla: en la percepción oral las palabras se desvanecen muy
rápido.
Los factores que convierten la percepción del habla en una tarea muy compleja son:
– Problema de la continuidad: el habla es continua y no segmentada en palabras.
– Problema de la ausencia de invarianza: no existe correspondencia exacta entre los artículos

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
acústicos y los segmentos fonéticos.

3. PERCEPCIÓN DEL HABLA EN ANIMALES


Muchos autores, partidarios de la existencia de un mecanismo especializado para percibir el lenguaje,
vieron en la percepción categórica una prueba a su favor, ya que ésta surgía como una propiedad
especial y típica de los sonidos del habla. Su argumentación cobró fuerza con el trabajo de Peter
Eimas, en el que se demostraba que la percepción categórica de algunos fonemas era innata en el ser
humano y se manifestaba desde los primeros meses de vida. Hasta ese momento había una creencia
de que los bebés, así como tienen que aprender a hablar, vienen al mundo sin la habilidad de percibir
los sonidos del habla y tienen que adquirirla a medida que se ven expuestos al lenguaje. Aquel estudio,
demostraría que los seres humanos no nacen como una hoja en blanco.
Años más tarde, Patricia Kuhl y James Miller demostraron que la percepción categórica ocurre en
sujetos tan poco sospechosos de tener lenguaje humano como las chinchillas. En su trabajo, pusieron
a prueba cómo percibían estos animales sílabas formadas por una oclusiva dental y la vocal /a/. Los
estímulos fueron sintetizados artificialmente y formaron una serie que variaba en VOT desde 0ms
hasta 80ms. El experimento consistió en 2 fases:
– En la fase de entrenamiento, las chinchillas fueron divididas en 2 grupos y se utilizaron dos
estímulos. Un grupo aprendió a responder ante los estímulos VOT=0ms cruzando una barrera
que dividía la jaula para evitar una descarga y un sonido molesto y a permanecer en el mismo
lado ante los estímulos VOT=80ms. El otro grupo lo mismo pero con los estímulos invertidos.
– Cuando las respuestas de ambos grupos fueron perfectas, se pasó a la fase de prueba. Ahora,
los animales eran enfrentados a toda la serie completa de estímulos, con todos los grados
intermedios de VOT entre 0 y 80ms.
Lo sorprendente del experimento fue que las respuestas de las chinchillas fueron muy semejantes a
las humanas ante los mismos estímulos. Con los mismos estímulos, Dooling, Okanoya y Brown
obtuvieron años más tarde resultados parecidos en periquitos. Se asestaba así un duro golpe a la
percepción categórica como manifestación o prueba de un mecanismo especial humano.
La percepción categórica podría explicarse como una propiedad general del sistema de audición de
mamíferos y aves, que presentaría diferencias de sensibilidad en su capacidad de discriminar eventos
temporales, como los que están implícitos en el VOT de las oclusivas.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1110140

4. TEORÍAS SOBRE LA PERCEPCIÓN DEL HABLA


4.1 Teoría motora
Es la teoría más antigua de todas, fue propuesta por Alvin Liberman, Franklin Cooper y Pierre
Delattre en un intento de explicar la ausencia de invarianza acústica del habla.
Según la teoría motora, el verdadero objeto de la percepción no es la señal acústica en sí, sino los
movimientos articulatorios y las órdenes motoras que el cerebro envía a los órganos articuladores
paraproducir el habla. Estas órdenes motoras serían invariables para cada fonema y tendrían la
constancia que no aparece en la señal. Los oyentes dispondrían de un decodificador especializado en
reconstruir los gestos motores a partir de la señal acústica. Esta teoría plantea que los oyentes se
sirven de sus mecanismos de producción pare percibir el lenguaje.
Según sus defensores, la capacidad humana para percibir los sonidos del habla no puede ser explicada
en términos de un mecanismo general de audición o de aprendizaje perceptivo, sino que depende de
un decodificador especializado en lenguaje que es único y propio de los seres humanos.

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Algunas evidencias a favor de esta teoría se sitúan en la innegable relación que existe entre los
procesos de producción y percepción del lenguaje. Recientemente, estudios con imágenes por
resonancia magnética funcional sugieren que el cerebro activa zonas motoras del habla mientras se
percibe el lenguaje.

4.2 Teoría realista directa


Esta teoría, desarrollada por Carol Fowler plantea que el objeto de la percepción es de tipo
articulatorio o motor, pero no supone que el oyente deba tener acceso a su sistema de producción
para reconstruir los gestos fonéticos. Niega la existencia de un módulo especializado en decodificar el
lenguaje.
Su base es la perspectiva ecológica de la teoría de la percepción directa de Gibson. Al contrario que
las restantes teorías de la percepción, que presuponen una secuencia de estadios de procesamiento a
partir del estímulo de entrada, Gibson considera que la propia estructura del estímulo ya incorpora
toda la información necesaria para percibir los objetos y eventos del entorno. Los animales perciben
de forma directa todos los elementos de su medio ecológico que son relevantes para su supervivencia.
La percepción es un proceso directo. Gracias a la evolución, los sistemas sensoriales ya están, según
Gibson, perfectamente calibrados para captar el mundo físico en que se desenvuelven.
Fowler entiende que la percepción del lenguaje puede caracterizarse en los mismos términos que, por
ejemplo, la percepción visual de las superficies de objetos. La señal acústica es un estímulo proximal
que proporciona información sobre los estímulos distales, o gestos articuladores que la han
producido. Cuando un oyente escucha el lenguaje capta de forma directa los movimientos
articulatorios que lo han producido, pero no gracias a un mecanismo especial para el lenguaje, sino
del mismo modo en que percibe el origen de otros sonidos de su entorno.
La principal crítica que ha recibido se dirige contra la hipótesis de que los objetos propios de la
percepción del lenguaje sean los gestos articulatorios. Ete reparo procede de quienes defienten la
teoría auditiva general.

4.3 Teoría auditiva general


En contraste con la teoría motora, no se presupone la existencia de mecanismos específicos o de un
módulo decodificador especial. Se asume como hipótesis de trabajo que los sonidos del lenguaje se
perciben y dependen del sistema general de audición y de los principios del aprendizaje perceptivo.
Por otra parte, la percepción del lenguaje no está mediada ni se basa en la percepción de gestos
articuladores. La paradoja de la sílabas /di/ y /du/ se explica por la capacidad general del oyente de
hacer uso de múltiples señales acústicas imperfectas para categorizar estímulos complejos. Para esta
teoría, la percepción de la constancia o invarianza no requiere la recuperación de gestos articuladores.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1110140

Una derivación de la teoría general, es la hipótesis de la potenciación auditiva, según la cual, los
sistemas de sonidos de las distintas lenguas se han adaptado para convertirse en robustas señales que
explotan las características generales del sistema auditivo. De esta manera, las lenguas desarrollan un
inventario de fonemas que optimiza la distintividad fonética entre ellos, de acuerdo con las
capacidades auditivas generales.

5. EFECTO DEL CONTEXTO EN LA PERCEPCIÓN DEL LENGUAJE


El fin último de la percepción del lenguaje oral es extraer significados del sonido, pero en esta
operación hay en realidad 2 fuentes de información que fluyen al mismo tiempo.
Una, la más evidente, es la información acústica del estímulo que alimenta al sistema perceptivo-
cognitivo de abajo-arriba. La otra información fluye en sentido contrario y procede de los niveles
superiores del procesamiento, arriba-abajo. Los modelos artificales de procesamiento computacional
pueden simular razonablemente los primeros, pero tienen dificultades con los segundos.

5.1 Restauración fonémica

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
La demostración más contundente del efecto del contexto sobre la percepción del lenguaje es el
fenómeno de la restauración fonémica.
Richard Warre hizo escuchar grases completas en las que se había sustituido un segmento fonético
por un sonido no lingüístico de intensidad semejante. Cuando se les preguntó a los sujetos después de
escuchar las frases, éstos afirmaron que habían percibido todas las palabras intactas, muchos no
habían sido conscientes de la presencia del ruido intruso. La información cognitiva procedente
deprocesos superiores era capaz de suplir la información física ausente en la señal de habla y
restaurar el fonema que faltaba. Este efecto no ocurría cuando se trataba de estímulos que no eran
palabras. Cuando detectaban el ruido intruso, no podían ubicar bien el lugar de la frase en que había
sido insertado. Por el contrario, si el fonema era reemplazado por un silencio en lugar del ruido,
entonces no se producía la restauración fonémica y el silencio era detectado fácilmente.
En otra línea de investigación, los trabajos con sombreado de frases, llevados a cabo por Marslen-
Wilson, ponen de manifiesto el efecto del contexto. Los resultados muestran que los oyentes pueden
repetir las frases de forma más rápida cuando éstas están bien formadas desde el punto de vista
sintáctico y semántico. La repetición es mucho más lenta si hay que seguir secuencias desordenadas
de palabras.

5.2 Efectos arriba-abajo de alto nivel


Los procesos de alto nivel ejercen su acción desde representaciones superiores a la palabra y tienen
lugar no sólo en el lenguaje oral, sino también en el escrito. Leemos mejor y más deprisa un texto con
estructura y significado coherente, que un conjunto desordenado de palabras o sílabas.
La percepción del habla en situaciones naturales de comunicación se ve muy apoyada por los efectos
del contexto. Los primeros estudios dejaron claro que las palabras presentadas en un fondo de ruido
se identifican mejor en el contexto de una frase que cuando se presentan de forma aislada. En algunos
trabajos, los investigadores grabaron en cintas magnetofónicas conversaciones y narraciones y
después, cortaron algunos fragmentos extrayendo palabras que presentaron de forma aislada y
desordenada.
Los resultados demostraron que sólo la mitad de las palabras aisladas se reconocían correctamente,
mientras que en el contexto de la frase se identificaban prácticamente en su totalidad.