Sie sind auf Seite 1von 12

PSICOLOGÍA DEL LENGUAJE 2017-18 Material elaborado a partir del libro “Psicología del Lenguaje” (Cuetos, F.

tos, F.; González, J. y De Vega, M.). PROHIBIDA SU VENTA. LLANOS MERÍN


TEMA 5. PERCEPCIÓN DEL HABLA

INTRODUCCIÓN. Abordar el estudio del lenguaje oral desde el punto de vista material, de su realización física o acústica, es referirse al habla. El habla es
sonido y, por consiguiente, participará de todas sus propiedades.

1. El sonido se produce cuando un cuerpo vibra y comunica la vibración a las moléculas del entorno (aire, agua) y esta energía es recibida por
el oído.
2. En el vacío no puede oírse el sonido porque faltan moléculas que transportan la energía vibratoria. Cuando una piedra cae en un estanque
de agua, se forman ondas concéntricas que se expanden a través de la superficie. Si observamos qué ocurre con un corcho de pesca o cualquier
otro objeto flotante, vemos que se mueve arriba o abajo, pero no se desplaza en sentido lateral. Lo que se desplaza realmente es la onda, la
energía ondulatoria; las moléculas individuales sólo se mueven localmente y comunican el movimiento a las vecinas.
3. Cuando un objeto vibra en el aire, la onda que se forma es en tres dimensiones: como esferas concéntricas que se expanden desde el punto
de vibración. Nuestro cerebro tiene la capacidad de extraer significados a partir de estos movimientos moleculares. En este movimiento
vibratorio u ondulatorio, las moléculas se acercan y se separan entre sí, transmitiendo las sacudidas de unas a otras. Podemos representar dicho
movimiento mediante una onda, o línea ondulante que sube y baja formando picos y valles. Los picos corresponderían a los momentos en los
que hay una presión positiva y las moléculas se juntan, y los valles, a los momentos de presión negativa, en los que las moléculas se separan.
4. Las piezas básicas del sonido son las ondas puras o simples, que no pueden descomponerse en ninguna otra. Una onda comprende una
sucesión de ciclos o patrones de vibración que se repiten en el tiempo, y cada ciclo está formado por un pico que sube y un valle que baja en
Principales
torno a un punto central de energía cero. Dimensiones/variables de las ondas simples:
características
 Frecuencia: dependiendo de la velocidad de la vibración, las ondas varían en el número de ciclos que caben en un segundo, dando lugar a la
del sonido
frecuencia. Las ondas que nacen de movimientos vibratorios rápidos tienen una frecuencia alta, con
muchos ciclos por segundo (o hercios) y se perciben como agudas. Las ondas que nacen de movimientos
vibratorios lentos tienen una frecuencia baja, con pocos ciclos por segundo y se perciben como graves.
Por ello, en los seres humanos, las voces masculinas son más graves dado que sus cuerdas vocales son
más largas que las de las mujeres (cuando más corta es una cuerda más rápido vibra y, en consecuencia,
más agudo se escucha). Rasgo prosódico universal = entonación ascendente en preguntas.
 Intensidad/Amplitud del desplazamiento de la onda, entre el pico y el valle. Desde el punto de vista perceptivo, su unidad es el decibelio (dB),
que es una medida relativa y no lineal que abarca desde 0 dB, o umbral de la audición, hasta más de 140 dB, que es el umbral del dolor al sonido.
5. La suma de varias ondas simples da lugar a una onda compleja. Son las que existen en la naturaleza, pues las simples sólo se consiguen por
medios electrónicos o con dispositivos especiales. Hay dos clases de ondas complejas:
 Ondas periódicas: tienen ciclos o patrones complejos de vibración que se reputen de forma periódica. Se perciben como un sonido dotado
de un tono o tonalidad. Ej.: notas musicales, silbido, sirena… En el lenguaje, las ondas periódicas corresponden a los sonidos sonoros, producidos
por la vibración de las cuales vocales (vocales y consonantes sonoras como /b/, /d/, /g/, /m/, /n/, /r/, /l/, etc.).
 Ondas aperiódicas: en ellas no se pueden apreciar ciclos repetitivos. Se perciben como ruidos, sin tono. Ej.: sonidos causados por un soplo,
1 un golpe, una fricción… En el lenguaje, las ondas aperiódicas corresponden a los sonidos sordos, producidos por el paso del aire a través de un
sitio estrecho, una pequeña explosión generada por la brusca liberación de una obstrucción (/s/, /f/, /p/, /t/, /k/, etc.).
PSICOLOGÍA DEL LENGUAJE 2017-18 Material elaborado a partir del libro “Psicología del Lenguaje” (Cuetos, F.; González, J. y De Vega, M.). PROHIBIDA SU VENTA. LLANOS MERÍN
TEMA 5. PERCEPCIÓN DEL HABLA

INTRODUCCIÓN

¿Cómo poder visualizar el espectro de frecuencias de la emisión sonora?: el espectrógrafo y espectrograma.

 Una onda acústica contiene mucha información que no es posible observar directamente mediante la mera inspección de su forma. Sabemos
que una onda compleja se compone de muchas ondas simples, cada una con una frecuencia y una intensidad particular, por lo que el sonido
posee distintos grados de energía en unas frecuencias u otras. Visualizar la distribución de esta energía a través de las frecuencias se consigue
gracias a los espectrogramas obtenidos mediante un espectrógrafo.
 Primer espectrógrafo: consistía en una colección de filtros ajustados a diferentes frecuencias específicas que se activaban cuando pasaba
energía de esa frecuencia o próxima a ella. El aparato constaba de un tambor o rodilla rotatorio sobre el que se colocaba u papel especial
encerado que se oscurecía por efecto del calor. Una vez efectuada la grabación del sonido, éste se hacía pasar a través de la colección de filtros
mientras giraba el tambor. La energía correspondiente a cada frecuencia pasaba a través del filtro respectivo, que terminaba en una aguja
apoyada sobre el papel. Cuanto mayor era la energía, más cantidad de corriente eléctrica circulaba por la aguja calentando el papel encerado y
oscureciéndolo en mayor medida. En estos primeros espectrogramas aparecían las tres dimensiones básicas del sonido: el tiempo, en el eje
horizontal, las diferentes frecuencias, en el vertical, y la amplitud en la mayor o menos intensidad del dibujo. Actualmente, la espectrografía
acústica es la técnica preferida en su campo, y se utilizan ordenadores con softwares especializados. Análisis de un espectrograma:
Espectrogramas
1) Ambos, onda y espectrograma, son continuos, únicamente interrumpidos por la
oclusión de aire durante la pronunciación de la vocal oclusiva /k/ (c, de “café”).
2) Las partes “periódicas” de la onda son fonemas sonoros (vocales y consonantes), que
aparecen como estrías o líneas verticales separadas por espacios en blanco. Cada línea
oscura representa el instante en que las cuerdas vocales están abiertas, liberando
energía, mientras que el espacio en blanco corresponde a cuando está cerradas.
3) Los formantes consisten en franjas oscuras horizontales de gran concentración de
energía que se observan en la parte inferior del espectrograma (F1, F2, F3…).
Corresponder a las resonancias de la garganta, o frecuencias que resultan potenciadas
debido a la forma del conducto o tracto vocal. Esto sucede según los principios de la
acústica de tubos (dependiendo de las formas que el “tubo” vocal adopta durante la
articulación, los formantes aparecen en distintas posiciones o frecuencias: esto es clave).
 Mediante el espectrógrafo se pasa de la onda al espectrograma. ¿Sería posible el camino inverso? En este caso hablaríamos de síntesis: pasar de
las partes al todo, o proceso de crear una señal de habla artificial. El Reproductor de Patrones (Pattern Playback) fue el primer aparato capaz de
Síntesis del transformar el dibujo de un espectrograma en sonido. El interés inicial fue crear un aparato capaz de leer textos a personas ciegas, pero fracasó por
habla culpa de la variabilidad natural de los fonemas. Con el desarrollo de la electrónica han surgido sistemas de voz mucho más perfectos que el
2 reproductor de patrones. En los años 80, Dennis Klatt desarrolló un sintetizador que generaba una voy artificial muy parecida a la natural,
basándose en un modelo matemático del tracto vocal humano. Fue el núcleo de uno de los conversores de texto-voz más conocidos, el DECtalk.
PSICOLOGÍA DEL LENGUAJE 2017-18 Material elaborado a partir del libro “Psicología del Lenguaje” (Cuetos, F.; González, J. y De Vega, M.). PROHIBIDA SU VENTA. LLANOS MERÍN
TEMA 5. PERCEPCIÓN DEL HABLA
RASGOS GENERALES DE LA PERCEPCIÓN DEL HABLA

Características de la percepción del habla: dado que el lenguaje hablado es de naturaleza efímera, nuestros procesos perceptivos deben de ser rápidos y eficaces.
RAPIDEZ El habla es mucho más veloz que el más veloz del resto de códigos acústicos. Nuestra capacidad de resolución temporal es muy limitada, dado que la
velocidad más rápida a la que podemos identificar por separado unidades discretas de sonido se sitúa en torno a las 7-9 unidades por segundo. Más allá
de esa velocidad, los sonidos se “funden” y se empieza a oír una especie de “zumbido” indiferenciado que, según aumenta el ritmo, se convierte en un
tono. Sin embargo, cuando oímos el habla, la velocidad a la que se transmiten los sonidos se encuentra entre 20-30 segmentos por segundo, sin que
exista ningún problema para identificarlos.
ROBUSTEZ Nuestra capacidad para identificar los sonidos del habla es muy robusta. Podemos mantener conversaciones en las condiciones de ruido más adversas
y, además, es posible someter a la onde a increíbles alteraciones y mutilaciones y aun así continuar entendiendo el mensaje. Si en una onda acústica del
lenguaje se elimina la energía correspondiente a sus picos, la inteligibilidad apenas se resiente.
COMPLEJIDAD La percepción del habla es un proceso complejo y automático. Una muestra de ello es la dificultad de simular artificialmente los procesos de percepción
del lenguaje: la computadora más potente con el software más complejo todavía no es capaz de emular con fiabilidad el reconocimiento del habla.
AUTOMÁTICA La mayor parte de los subprocesos implicados en la percepción del habla son de naturaleza automática, y los llevamos a cabo sin apenas esfuerzo y sin
conciencia de ellos. Si tuviéramos que emplear conscientemente nuestra atención en las operaciones necesarias para percibir los sonidos lingüísticos,
no nos quedarían recursos cognitivos disponibles, ni tiempo, para procesar los significados.
DIFERENTE Aparte de la importante diferencia de que los sonidos del habla (fonemas) pueden identificarse a razón de 20-30 unidades/segundos (frente a las 7-9
unidades de cualquier otro sonido), existe otra diferencia más: el comportamiento anómalo del habla en lo que se refiere a tareas de discriminación e
identificación. Nuestra maquinaria cognitiva está construida de tal modo que nos resulta mucho más fácil discriminar entre estímulos que identificarlos,
pero en el habla sucede al revés, es decir, somos peores en discriminación que en identificación. Hay sonidos fonéticos, particularmente las
consonantes oclusivas, difíciles de discriminar entre sí cuando pertenecen a la misma categoría (ej.: es difícil distinguir entre las variaciones distintas de
la /b/ o entre variaciones de la /b/ o /k/).
AUSENCIA DE La percepción del habla o lenguaje oral puede definirse como un proceso complejo por el cual una señal acústica continua y altamente variable activa
VARIANZA representaciones mentales discretas y estables de los fonemas de una lengua. La variabilidad intrasujeto es prácticamente tan amplia como la
variabilidad intersujeto (de ahí la dificultad de las pruebas forenses para identificación de hablantes). Nuestra voz y nuestra forma de pronunciar
pueden cambiar mucho de unas situaciones a otras, tanto involuntaria como deliberadamente. A esto hay que añadirle el hecho de que la señal es muy
dependiente del contexto fonético: el mismo fonema puede tener ondas muy distintas por la influencia de los fonemas precedentes y posteriores,
aunque no seamos perceptivamente conscientes de ello. No obstante, por encima de esas variaciones, somos capaces de diferenciar unas ondas
concretas (por ejemplo, las correspondientes a la vocal “a”) de todas las demás porque identificamos elementos comunes (aunque la vocal a la
pronuncie una voz masculina, femenina, aguda, grave, infantil…. Siempre la identificamos como la vocal “a”). A esto se le ha llamado “Invarianza
Fonética” (Invarianza o Constancia). Los análisis de los espectrogramas revelan que la invarianza acústica podría estar en los formantes.
 ¿Existe un mecanismo especializado para percibir el habla? Hay quienes defienden que, probablemente por evolución, el ser humano ha
desarrollado en su cerebro un mecanismo especial, distinto de la percepción general de los sonidos, que se encarga de procesar los sonidos del
habla humana, y que es rápido, automático, encapsulado y blindado. En el polo opuesto se sitúan quienes consideran que lo especial es el
3 estímulo, no el mecanismo perceptivo: el lenguaje se percibe con el mismo mecanismo general con el que percibimos cualquier sonido, pero el
habla humana es un tipo de estimulación sobreaprendidas y nuestro sistema perceptivo tiene un gran entrenamiento en esta clase de sonidos.
PSICOLOGÍA DEL LENGUAJE 2017-18 Material elaborado a partir del libro “Psicología del Lenguaje” (Cuetos, F.; González, J. y De Vega, M.). PROHIBIDA SU VENTA. LLANOS MERÍN
TEMA 5. PERCEPCIÓN DEL HABLA
RASGOS GENERALES DE LA PERCEPCIÓN DEL HABLA

PERCEPCIÓN DE LAS VOCALES. El lenguaje humano puede definirse como una sucesión de movimientos de apertura y cierre
de la boca. Las aperturas corresponderían a las vocales, y los cierres, a las consonantes. En las consonantes se produce un
estrechamiento o restricción en la cavidad bucal muy importante, a veces completa, como en las oclusivas. En las vocales, el
sonido se produce sin dificultad, con una restricción mucho más suave. Las vocales forman el núcleo de las sílabas, y
pueden existir sílabas formadas sólo por una vocal, lo cual no sucede con las consonantes.
De acuerdo con el eje horizontal las vocales pueden ser anteriores (lengua delante) como la /i/ y, en menor medida la /e/;
centrales, como la /a/; y posteriores (lengua detrás) como la /o/ y sobre todo la /u/. Según el eje vertical, la lengua puede
estar en una posición alta, media o baja: esta posición determina también el grado de apertura de la boca, siendo la /a/ la
vocal más abierta, /e/ y /o/ semiabiertas y la /i/ y /u/ cerradas. Imagen = triangulo articulatorio de las vocales castellanas.
 Las distintas posiciones de la lengua y otros órganos móviles (labios, mandíbula, velo del paladar) hacen que cambie la forma general del
conducto vocal, variando sus resonancias acústicas o formantes. Por tanto, los formantes son las resonancias naturales del tracto vocal que se
rigen por la acústica de tubos. En los espectrogramas aparecen como franjas oscuras horizontales de mayor energía. Es en los formantes donde
reside la clave de la percepción de las vocales, y las fuentes de evidencia proceden de:
1) La síntesis de vocales artificiales demuestra que cuando se alteran los formantes, el sonido resultante suena a una vocal distinta.
2) El análisis de las vocales naturales, mediante espectrogramas, permite visualizar y medir los formantes. Los espectrogramas muestran que a
vocales distintas les corresponden formantes diferentes, es decir, localizados en distintos niveles de frecuencia.
 De todos los formantes, los dos primeros contando desde abajo (F1 y F2) son los más importantes, dado que la investigación con estímulos
artificiales demuestra que la mayor parte de las vocales pueden ser identificadas sólo con ellos. De esta forma los formantes F1 y F2 son esenciales
para la inteligibilidad de las vocales. Los formantes F3, F4 y F5, cuando se incorporan al estímulo artificial añaden naturalidad, haciendo que el
Papel de los resultado final se parezca más a la voz humana.
formantes  De esta forma, cada vocal tiene un patrón característico de F1 y F2. Si se examinan los espectrogramas de as cinco vocales castellanas (imagen),
ordenadas desde la más anterior, /i/, a la más posterior, /u/, se constatan dos principios:
1) F2 (2ª resonancia) es más alto cuanto más anterior es la vocal. Esto se
debe a que el espacio que queda delante del estrechamiento causado por la
lengua es más corto cuanto más anterior se sitúa la lengua. Dicho espacio es el
principal responsable de la F2: cuanto más corto, más alta será la resonancia.
2) F1 (1ª resonancia) es más alto cuanto más abierta es una vocal. Depende
principalmente de la abertura de la vocal. La vocal más abierta, la /a/, tiene el
F1 más alto de todos. A medida que las vocales son más cerradas, F1 ocupa
4 posiciones más bajas.
PSICOLOGÍA DEL LENGUAJE 2017-18 Material elaborado a partir del libro “Psicología del Lenguaje” (Cuetos, F.; González, J. y De Vega, M.). PROHIBIDA SU VENTA. LLANOS MERÍN
TEMA 5. PERCEPCIÓN DEL HABLA
RASGOS GENERALES DE LA PERCEPCIÓN DEL HABLA

PERCEPCIÓN DE LAS VOCALES

 Dado que los formantes dependen del tamaño y la forma del tracto vocal, existen importantes diferencias individuales a través de los hablantes
de distintas edades y sexo. Como ocurre en cualquier resonancia de tubos, las frecuencias de los formantes son inversamente proporcionales a la
longitud del tubo, en este caso, del conducto vocal medido desde las cuerdas vocales hasta los labios. De manera que una misma vocal difiere
considerablemente en los valores absolutos de sus formantes, dependiendo de si es pronunciada por una mujer, un varón o un niño; asimismo,
dentro de cada grupo, también hay diferencias según los tamaños individuales. En promedio, las mujeres adultas tienen un tracto vocal más corto
(14,75 cm) que los varones (17,5 cm), y sus formantes son un 20% más altos o agudos. Los niños tienen tractos vocales aún más cortos (8,75 cm) y
la frecuencia de sus formantes es el doble que en los varones adultos.
Variabilidad  Cuando los valores formánticos de cada vocal se representan en un diagrama F1 x F2 (imagen:
de los representación de las vocales inglesas) aparecen nubes o conglomerados de puntos ampliamente
formantes extendidos a lo largo de grandes zonas señaladas por óvalos, uno por cada clase de vocal. Cada punto
representa una vocal individual pronunciada por un hablante concreto. La gráfica demuestra:
1) Alta variabilidad de formantes. La misma vocal articulada por diferentes hablantes da lugar a una gran
variedad de valores formánticos; es decir, los puntos que representan a la misma vocal se extienden por
una amplia región del plano F1 X F2.
2) Solapamiento entre las áreas vocálicas. Vocales diferentes, dichas por hablantes distintos, coinciden a
veces en el plano y tienen los mismos, o muy parecidos, valores para F1 y F2, aunque los oyentes no las
confundan entre sí. Probablemente esto no ocurre con el castellano, que solo tiene 5 vocales frente a las
10-12 del inglés.

 Las vocales se perciben de forma continua. Cualquier variación de las frecuencias de los formantes es percibida por el oyente, y cambios
continuos y graduales de los valores formánticos también se perciben de forma continua. Si sintetizamos un conjunto de vocales artificiales cuyos
formantes tengan valores que vayan desde los típicos de una vocal a los de otra, todos los estímulos intermedios se perciben como vocales
Percepción intermedias entre ambas. Si los escuchamos secuencialmente oiremos sonidos, por ejemplo, desde la /i/ a la /e/, cada vez más abiertos, hasta pasar
continua de de una vocal a otra (imagen). Esto no ocurre con todas las consonantes: las consonantes oclusivas son percibidas de forma categórica y no continua.
las vocales

5
PSICOLOGÍA DEL LENGUAJE 2017-18 Material elaborado a partir del libro “Psicología del Lenguaje” (Cuetos, F.; González, J. y De Vega, M.). PROHIBIDA SU VENTA. LLANOS MERÍN
TEMA 5. PERCEPCIÓN DEL HABLA
RASGOS GENERALES DE LA PERCEPCIÓN DEL HABLA

PERCEPCIÓN DE LAS VOCALES

 Las diferencias físicas entre hablantes resultan en diferencias considerables en los formantes para una misma vocal, de forma que la misma vocal
no se escuchará igual pronunciada por un hablante u otro, dado que sus frecuencias absolutas son distintas. ¿Qué operaciones perceptivo-cognitivas
debe efectuar un oyente para interpretar estos sonidos, muy distintos en sus frecuencias absolutas, como la misma vocal? Debe llevar a cabo algún
proceso de estandarización o normalización que transforme los valores formánticos a una escala común que admita la comparación entre sí. Una
primera explicación fue la Teoría de la razón entre formantes, según la cual la identificación de las vocales no depende de los valores absolutos de
los formantes, sino de la razón o proporción entre ellos (cuánto hay de cada uno). Funciona bien para muchos casos, pero no para otros. Se han
Normalización propuesto otras hipótesis sobre la normalización vocálica que se pueden dividir entre:
de las vocales 1) Modelos de Normalización Intrínseca: cada vocal porta suficiente información acústica en sí misma para permitir la normalización. Consideran
que es importante la proporción F2/F1, pero, además, que la vocal contiene información adicional que permite resolver la ambigüedad cuando se
produce, en concreto, los formantes superiores (especialmente F3) y la frecuencia fundamental de la voz (Fo), que permite identificar al hablante: su
edad, sexo, etc., e inferir así el tamaño de su tracto vocal.
2) Modelos de Normalización Extrínseca: defienden que los oyentes necesitan información externa a la vocal para establecer “un marco de
referencia” sobre las características del hablante (edad, sexo, tamaño de su tracto vocal, etc.). Los oyentes interpretan los formantes en referencia a
un contexto más amplio de habla. Es decir, las vocales individuales se perciben en relacion con el inventario completo de vocales de un hablante
determinado, y este inventario se extrae de fragmentos de habla precedentes. Trabajos de referencia: Ladefoged y Broadbent.

PERCEPCIÓN DE LAS CONSONANTES. Las consonantes son producidas por movimientos o gestos articulatorios rápidos que se imponen sobre los más lentos de las
vocales. La coordinación de los gestos para las consonantes con los gestos vocálicos se organiza en las unidades silábicas, cuyo núcleo es la vocal (las consonantes no
pueden formar el núcleo de la silaba). No es posible pronunciar algunas consonantes de forma aislada sin la ayuda de una vocal (ej.: /p/, /t/, /k/, /b/, /d/, /g/, etc.).

 Existen múltiples pistas perceptivas en la señal del habla para la identificación de los sonidos consonánticos, pero la más importante de ellas son
las transiciones de los formantes vocálicos. Cuando pronunciamos una vocal de modo aislado, sus formantes presentan una apariencia estable, más
o menos plana en dirección horizontal. Si la pronunciamos precedida o seguida de una consonante, la trayectoria formántica se ve alterada hacia
arriba o hacia abajo. Esto ocurre en la transición consonante-vocal, si es una sílaba directa, o vocal-consonante, si es una sílaba inversa.
Transiciones  Las transiciones de F1 y F2 son cruciales para percibir las consonantes, sobre todo las de F2. En unos
formánticas casos las transiciones son hacia arriba, más o menos pronunciadas y, en otros, son hacia abajo,
dependiendo de cada consonante y también de la vocal. No hay una relacion simple del tipo: todas las /d/
darán lugar a una transición hacia arriba o todas las /k/ causarán transiciones hacia abajo.
 Ej.: para las sílabas /di/ o /du/. La parte estable de los formantes da lugar a la percepción de los
6 vocales (F1 y F2 muy separados para la /i/ y juntos para la /u/; las transiciones son las que nos hacen oír
la consonante /d/. la transición F2 es distinta en cada sílaba.
PSICOLOGÍA DEL LENGUAJE 2017-18 Material elaborado a partir del libro “Psicología del Lenguaje” (Cuetos, F.; González, J. y De Vega, M.). PROHIBIDA SU VENTA. LLANOS MERÍN
TEMA 5. PERCEPCIÓN DEL HABLA
RASGOS GENERALES DE LA PERCEPCIÓN DEL HABLA

PERCEPCIÓN DE LAS CONSONANTES

 Las vocales se perciben de modo continuo, con cambios graduales de las frecuencias de los formantes, mientras que las consonantes, y
especialmente las oclusivas (/p/, /t/, /k/, /b/, /d/, /g/), se perciben de forma categórica. Los cambios continuos y graduales de los sonidos
consonánticos no son percibidos de modo continuo, sino de forma discreta o por categorías.
 Estudio de Liberman, Harris, Hoffman y Griffith: sintetizaron una serie
de 14 estímulos formados por representaciones esquemáticas F1 y F2
para ser escuchados por el Pattern Playback. Todos los estímulos eran
iguales excepto en la transición de F2, que variaba de forma gradual
desde un inicio bajo hasta un inicio alto. Resultados: los estímulos 1 a 4 se
escucharon por los oyentes como /be/; los estímulos 5 a 9 como /de/, y
los estímulos 10 a 14 como /ge/. Dentro de cada grupo no se percibieron
diferencias. La parte estable de los formantes corresponde a la vocal /e/.
Percepción  Los experimentos que estudian la percepción categórica utilizan dos tipos de tareas, cuyos resultados se comparan entre ellas:
categórica 1) Tareas de discriminación: en ellas, los estímulos se comparan entre sí. Hay varios paradigmas posibles: en el paradigma AX se presenta un
estímulo y a continuación otro, que puede ser el mismo estímulo repetido y otro distinto, la tarea del oyente consiste en responder “igual” o
“diferente”; en el paradigma ABX, ligeramente más complejo, se presentan dos estímulos sucesivos que siempre son distintos y a continuación se
presenta un tercer estímulo que siempre es uno de los dos anteriores, y el oyente debe decir cuál de los dos es este tercer estímulo. Las tareas
pueden plantearse más fáciles/difícil manipulando ciertas variables, como el tiempo que media entre los estímulos.
2) Tareas de identificación: en ellas, se presenta un único estímulo en cada ensayo y el oyente debe identificarlo indicando, en este caso, de qué
consonante se trata.
 En ambos tipos de prueba los estímulos se presentan en ensayos aleatorios, para evitar cualquier efecto de orden. Cuando la percepción es
categórica, la identificación es constante dentro de una categoría y, al cambiar de categoría, la etiqueta cambia bruscamente.
 La discriminación guarda relación con la identificación: dentro de una misma categoría los estímulos son difícilmente discriminables entre sí y las
respuestas rozan el nivel de azar (50%); cuando los estímulos que se comparan pertenecen a categorías distintas, la discriminación es casi perfecta
(próxima al 100%). Es decir, hay una discontinuidad, un “todo o nada” en la percepción de las consonantes.

7
PSICOLOGÍA DEL LENGUAJE 2017-18 Material elaborado a partir del libro “Psicología del Lenguaje” (Cuetos, F.; González, J. y De Vega, M.). PROHIBIDA SU VENTA. LLANOS MERÍN
TEMA 5. PERCEPCIÓN DEL HABLA
RASGOS GENERALES DE LA PERCEPCIÓN DEL HABLA

PERCEPCIÓN DE LAS CONSONANTES

 El parámetro “estrella” en la investigación psicolingüística sobre percepción del lenguaje es el conocido como voice onset time o VOT (traducido
al castellano de múltiples formas: tiempo hasta el inicio de la voz, tiempo de emisión de voz, TEV, tiempo de emisión vocálica…). De su valor
depende que percibamos una oclusiva sorda o sonora. Prácticamente todas las lenguas del mundo tienen consonantes oclusivas, aunque su
distribución varía de unas a otras. Cuando pronunciamos una de ellas hay una secuencia de los siguientes movimientos articulatorios:
1) Movimiento 1: oclusión o interrupción completa, durante varias decenas de
milisegundos, de la salida del aire de la boca y, por tanto, de la energía acústica. La Consonantes oclusivas castellanas agrupadas por
parejas de sorda-sonora
oclusión se realiza con los labios en las consonantes labiales (/b/ y /p/) y con la parte
Labiales Dentales Velares
posterior de la lengua contra vel velo del paladar en las consonantes velares (/g/ y /k).
Sordas /p/ /t/ /k/
2) Movimiento 2: liberación del aire. Los órganos fonadores se separan bruscamente
(PeTaKa)
Contraste liberando el aire a presión y dando lugar a una pequeña explosión.
Sonoras /b/ /d/ /g/
Sordo- 3) Movimiento 3: comienzo de la vibración de las cuerdas vocales para el inicio de la (BoDeGa)
Sonoro vocal que sigue a la oclusiva.
 Existe una sincronización temporal, de milisegundos, entre estos tres movimientos, a pesar de que pertenecen a grupos musculares y nervios
craneales distintos. Esta perfecta coordinación, cuyo mecanismo responsable probablemente se ubica en el área de Broca de la corteza cerebral,
puede verse alterada en ciertos trastornos del habla.
 La diferencia perceptiva entre /b/ y /p/ o entre /g/ y /k/ está determinada por la relacion temporal entre los movimientos 2 y 3. Son pares de
fonemas que son iguales en todos sus rasgos, salvo en el de la sonoridad. El VOT es la distancia temporal entre los movimientos 2 y 3. Es decir, los
milisegundos que transcurren desde la liberación brusca del aire hasta el inicio de la vibración de las cuerdas vocales. Tomando el movimiento 2
como cero, el VOT puede ser positivo o negativo (Ej.: un VOT de +45 ms significa que primero se produce el movimiento 2 y 45 ms más tarde ocurre el
movimiento 3; un VOT de 0 ms significa que ambos movimientos coinciden en el tiempo; un VOT de -25 ms indica que primero ocurre el movimiento 3
y, al cabo de 25 ms, se produce el movimiento 2, como sucede cuando pronunciamos la /b/ castellana). Las oclusivas sordas (/p/, /t/, /k/) tienen un
VOT más largo que las sonoras (/b/, /d/, /g/).

PROBLEMAS EN LA PERCEPCIÓN DEL HABLA.


1) Ruido ambiental: normalmente oímos las conversaciones en ambientes ruidosos (calle, cafetería…) en los que tenemos que separar el habla de otros sonidos.
2) Diferencias individuales: hay una gran disparidad en la forma en que pronuncian las palabras diversas personas, debido a las características de sus aparatos
fonéticos y de sus dialectos y acentos.
3) Superposición de hablas: muchas veces oímos al mismo tiempo distintas conversaciones que se superponen.
8 4) Rapidez en la pronunciación del habla: nuestro sistema perceptivo tiene que ser capaz de identificar con gran rapidez los fonemas
5) Rápido desvanecimiento del habla.
PSICOLOGÍA DEL LENGUAJE 2017-18 Material elaborado a partir del libro “Psicología del Lenguaje” (Cuetos, F.; González, J. y De Vega, M.). PROHIBIDA SU VENTA. LLANOS MERÍN
TEMA 5. PERCEPCIÓN DEL HABLA
PERCEPCIÓN DEL HABLA EN ANIMALES

 Muchos autores, partidarios de la existencia de un mecanismo especializado para percibir el lenguaje, vieron en la percepción categórica
una prueba a su favor, ya que ésta surgía como una propiedad “especial” y típica de los sonidos del habla. Esta argumentación cobró fuerza
cuando, a principios de los 70, se publica el trabajo de Peter Eimas y su equipo, en el que se demostraba que la percepción categórica de
Trabajo de Peter algunos fonemas era innata del ser humano y se manifestaba desde los primeros meses de su vida. Hasta ese momento había una
Eimas: percepción creencia extendida de que los bebes vienen al mundo sin la habilidad de percibir los sonidos del habla y tienen que adquirirla a medida que
categórica en se ven expuestos al lenguaje. Aquel estudio y otros posteriores demostrarían que los seres humanos no nacen como una hoja en blanco. El
bebés descubrimiento de que los recién nacidos perciben los sonidos del habla de forma categórica, como lo hacen los adultos, supuso un fuerte
apoyo a la tesis de los “especialistas”, que abogan por un mecanismo perceptivo específico para el lenguaje, frente a los “generalistas”,
defensores del mecanismo general de la percepción auditiva. Sin embargo, la evidencia empírica desde entonces se ha ido repartiendo a
favor de ambas posiciones teóricas.
 4 años más tarde del trabajo de Eimas, Patricia Kuhl y James Miller demostraron que la percepción categórica también ocurre en
sujetos como las chinchillas. La chinchilla es un pequeño mamífero cuyo oído presenta importantes similitudes con el humano, por lo que
se utiliza bastante en experimentos sobre audición. Pusieron a prueba cómo percibían estos animales sílabas formadas por una oclusiva
dental (/t/ o /d/) y la vocal /a/. los estímulos fueron sintetizados artificialmente y formaron una serie que variaba en VOT desde 0 ms (que
se percibe como la /d/ inglesa) hasta 80 ms (que se percibe como la /t/ inglesa), en pasos sucesivos del mismo tamaño. Fases:
1) Fase de entrenamiento: las chinchillas fueran divididas en dos grupos y se utilizaron sólo los dos estímulos extremos de la serie. Un grupo
Trabajo de Kuhl y
aprendió a responder ante estímulos de VOT=0 ms cruzando una barrera que dividía la jaula para evitar una descarga eléctrica y un sonido
Miller: percepción
molesto, y permanecer en el mismo lado ante los estímulos de VOT=80 ms, en cuyo caso eran recompensadas con agua para beber. El otro
categórica en
grupo recibió el mismo entrenamiento con los estímulos invertidos.
otras especies
2) Fase de prueba: se inició cuando las respuestas de ambos grupos a los dos estímulos extremos fueron perfectas. Los animales eran
enfrentados a toda la serie completa de estímulos, con todos los grados intermedios de VOT. Los dos estímulos extremos fueron castigados
o recompensados como antes, pero los intermedios fueron siempre recompensados.
Resultados: las respuestas de las chinchillas fueron muy semejantes a las humanas ante los mismos estímulos. Con los mismos estímulos, se
obtuvieron, años más tarde, los mismos resultados en periquitos. De esta forma se demostró que la percepción categórica no es un
mecanismo especial humano. Los resultados procedentes de los animales no invalidan per se la posible existencia de un mecanismo
especial en las personas, pero restan peso al argumento de la percepción categórica exclusiva en humanos.

CAPCIDAD DE LAS RATAS PARA DISCRIMINAR LENGUAS. En un trabajo de Toro, Trobalón y Sebastián-Galles (2003, Universidad de Barcelona) se demostró que
las ratas tienen la capacidad de discriminar lenguas por su estructura rítmica y entonacional. Se entrenó a un grupo de ratas para apretar una palanca cada vez
que oían una frase en japonés y a no hacerlos cuando era en holandés (en otro grupo a la inversa) y posteriormente se les mostraba otras frases distintas en
9 esos idiomas. Las ratas reconocieron las peculiaridades rítmico-prosódicas de cada lengua, pero si las frases se administraban en sentido inverso (habla inverso)
no eran capaces de discriminar. Parece que existen habilidades que los humanos usamos para percibir el lenguaje que son compartidas por todos los mamíferos.
PSICOLOGÍA DEL LENGUAJE 2017-18 Material elaborado a partir del libro “Psicología del Lenguaje” (Cuetos, F.; González, J. y De Vega, M.). PROHIBIDA SU VENTA. LLANOS MERÍN
TEMA 5. PERCEPCIÓN DEL HABLA
TEORÍAS SOBRE LA PERCEPCIÓN DEL HABLA

 Es la teoría más antigua de todas, pero sigue teniendo vigencia hasta hoy. Fue propuesta en la década de los 50 por Liberman, Cooper y
Delattre, en un intento de explicar la ausencia de invarianza acústica en el habla.
 Si observamos la imagen, es sorprendente que ambos estímulos suenen /d/, pese a que
los espectrogramas no tienen aparentemente nada en común. En uno, la transición de F2 es
hacia abajo, y en el otro hacia arriba. Sin embargo, hay “algo” en común que nuestro
sistema perceptivo es capaz de capturar al percibir la misma vocal oclusiva dental en ambos
casos. Para esta teoría, ese “algo” común no hay que buscarlo en el plano acústico de las
ondas o los espectrogramas, sino en el plano motor de los movimientos articuladores que
son el origen de los sonidos del habla. Los dos sonidos, /di/ y /du/, comparten el hecho de
Teoría motora que se han pronunciado del mismo modo, es decir, los movimientos y las órdenes motoras
(Liberman, Cooper emanadas del cerebro han sido básicamente los mismos: por un instante, la lengua
y Delattre) obstruye el paso del aire presionando contra los dientes superiores y lo libera retirándose
bruscamente en una nueva posición para producir la vocal siguiente.
 Según la teoría motora, el verdadero objeto de la percepción son los movimientos articulatorios y las órdenes motoras que el cerebro
envía a los órganos articuladores para producir el habla. Los oyentes dispondrían de un módulo o decodificador especializado (único en
humanos) en reconstruir los gestos motores a partir de la señal acústica. Plantea que los oyentes se sirven de sus mecanismos de
producción para percibir el lenguaje.
 Evidencias a favor: relacion existente entre los procesos de producción y percepción del lenguaje, movimientos de la boca cuando
intentamos comprender un lenguaje no familiar, personas sordas “leen” los labios, o el Efecto de McGurk, que demuestra que los oyentes
combinan la información visual sobre la producción del habla y la información auditiva. Además, los estudios con imágenes con RMf
sugieren que el cerebro activa zonas motoras del habla mientras percibe el lenguaje.

 Desarrollada por Fowler en la década de los 80. Plantea, como la anterior, que el objeto de la percepción es de tipo articulatorio o motor,
pero no supone que el oyente deba tener acceso a su sistema de producción para reconstruir los gestos fonéticos. Por tanto, niega la
existencia de un módulo especializado en decodificar el lenguaje.
 Su base es la perspectiva ecológica de la teoría de la percepción directa de Gibson. Este enfoque, que se dirige a todas las modalidades
Teoría realista sensoriales, considera que la propia estructura del estímulo ya incorpora toda la información necesaria para percibir los objetos y eventos
directa (Fowler) del entorno. Tanto los animales como las personas pueden percibir de forma directa todos los elementos de su medio ecológico que son
relevantes para su supervivencia. La percepción es un proceso “directo” sin necesidad de pasos intermedios, ni de “construcción” como
afirman las demás teorías. Los sistemas sensoriales ya están calibrados para captar el mundo físico.
10  Crítica principal: se dirigen contra la hipótesis de que los objetos propios de la percepción del lenguaje sean los gestos articulatorios, y
procede principalmente de quienes defienden la teoría auditiva general. Ej. de percepción sin conocimiento directo: escuchar música.
PSICOLOGÍA DEL LENGUAJE 2017-18 Material elaborado a partir del libro “Psicología del Lenguaje” (Cuetos, F.; González, J. y De Vega, M.). PROHIBIDA SU VENTA. LLANOS MERÍN
TEMA 5. PERCEPCIÓN DEL HABLA
TEORÍAS SOBRE LA PERCEPCIÓN DEL HABLA

 Sostiene que los mecanismos perceptivos generales de la audición son los responsables de la percepción del lenguaje. No se presupone
la existencia de mecanismos específicos o de un módulo decodificador especial. Se asume como hipótesis de trabajo que los sonidos del
lenguaje se perciben y dependen del sistema general de audición y de los principios del aprendizaje perceptivo.
 La percepción del lenguaje no está mediada ni se basa en la percepción de gestos articuladores. La paradoja de las sílabas /di/y /du/ se
Teoría auditiva explica por la capacidad del oyente de hacer uso de múltiples señales acústicas imperfectas para categorizar estímulos complejos. Del
general mismo modo que algunos autores proponen que la constancia de los objetos en la visión es el resultado de combinar múltiples atributos
visuales, esta teoría sostiene que el oyente podría mantener la constancia perceptiva fonética haciendo uso de múltiples pistas acústicas.
 Una derivación de la teoría general es la hipótesis de la potenciación auditiva, según la cual, los sistemas de sonidos de las distintas
lenguas se han adaptado para convertirse en robustas señales que explotan las características generales del sistema auditivo. Así, las
lenguas desarrollan un inventario de fonemas que optimiza la distintividad fonética entre ellos, de acuerdo con las capacidades auditivas
generales.

EFECTOS DEL CONTEXTO EN LA PERCEPCIÓN DEL LENGUAJE

El fin último de la percepción del lenguaje oral es extraer significados del sonido, pero en esta operación hay
dos fuentes de información que fluyen al mismo tiempo:
1) La información acústica del estímulo que alimenta el sistema perceptivo cognitivo desde fuera hacia
dentro, o de abajo-arriba: son los procesos conocidos como bottom-up.
2) La otra información fluye en sentido contrario y procede de los niveles superiores de procesamiento, es
decir, desde las representaciones de naturaleza sintáctica, semántica y pragmática, que tienen que ver con la
construcción sobre la marcha del significado de lo que escuchamos. Éste es el llamado efecto del contexto y
corresponde a procesos arriba-abajo o top-down.
Acerca de estos dos procesos, los modelos artificiales de procesamiento pueden simular razonablemente bien
los primeros, pero tienen serias dificultades con los segundos.

11
PSICOLOGÍA DEL LENGUAJE 2017-18 Material elaborado a partir del libro “Psicología del Lenguaje” (Cuetos, F.; González, J. y De Vega, M.). PROHIBIDA SU VENTA. LLANOS MERÍN
TEMA 5. PERCEPCIÓN DEL HABLA

EFECTOS DEL CONTEXTO EN LA PERCEPCIÓN DEL LENGUAJE

Restauración fonémica (Warren) Efectos arriba-debajo de alto nivel

 El fenómeno de la restauración fonémica es la demostración más contundente  Los procesos de alto nivel ejercen su acción desde representaciones superiores
del efecto del lenguaje sobre la percepción del lenguaje. Warren hizo escuchar a la palabra y tienen lugar no sólo en el lenguaje oral, sino también en el escrito.
frases completas en las que se había sustituido un segmento fonético, por ejemplo, el Leemos mejor y más deprisa un texto con estructura y significado coherente que
fonema /s/ de la palabra “legislatura”, por un sonido no lingüístico de intensidad un conjunto desordenado de palabras o sílabas.
semejante, como un golpe de tos o un zumbido. Cuando se les preguntó a los sujetos  La percepción del habla en situaciones naturales de comunicación se ve
después de escuchar las frases, éstos afirmaron que habían percibido todas las fuertemente apoyada por los efectos del contexto. Las palabras presentadas en
palabras intactas, y muchos ni siquiera habían sido conscientes de la presencia del un fondo de ruido se identifican mejor en el contexto de una frase que cuando se
ruido intruso. Este efecto se mantenía incluso al repetir la grabación y una vez los presentan de forma aislada. Si grabamos una narración y cortamos y
oyentes eran informados de las condiciones experimentales. La información desordenamos las palabras, solo el 50% se perciben correctamente de forma
cognitiva procedente de procesos superiores (información arriba-abajo) era capaz aislada.
de suplir la información física ausente en la señal de habla y restaurar el fonema
que faltaba. Este efecto no ocurría cuando se trataba de estímulos que no eran EFECTOS DEL CONTEXTO EN POBLACIONES ESPECIALES
palabras. Además, cuando detectaban el ruido, no podían ubicar correctamente el Niños con hipoacusia o sordera tenían problemas no solo con las palabras del
lugar de la frase en el que había sido insertado. Si el fonema era reemplazado por un habla, sino también para leer, siendo con frecuencia lectores deficientes. Su
silencio, entonces no se producía la restauración fonémica y el silencio era dificultad sensorial hace más difícil aprovechar la información tanto del estímulo
detectado fácilmente. hablado (abajo-arriba), como la información de tipo arriba-abajo o del contexto.
 ¿Es un fenómeno perceptivo o posperceptivo? Hay evidencia de que en A causa de su sordera, eran niños que desde el nacimiento habían estado
determinadas condiciones de restauración fonémica es un efecto verdaderamente menos expuestos a las palabras del idioma y, en consecuencia, tenían
perceptivo (lo oyen). Los datos parecen indicar que la influencia de las palabras en la vocabularios más restringidos. Debido a esta experiencia lingüística más pobre,
percepción de los fonemas es perceptiva, mientras que la influencia de la frase es les resultaba más difícil construir los significados durante la lectura y
principalmente de tipo posperceptivo. aprovecharse, así, de la información de tipo arriba-abajo. También ocurre con
 Restauración grafémica: también se ha constatado en el lenguaje escrito, como niños disléxicos: tienen un vocabulario lector muy pobre y escasa familiarización
muestra el fenómeno de las “letras ilusorias”, en el que se pueden percibir letras con las estructuras sintácticas de los textos, de manera que su problema es
donde estas no existen (L3tRA$ $0N $U$tItUID4$ por $YMβ0L0$ o NUM3R0$). doble, es decir, a su dificultad perceptiva en el desciframiento de los grafemas
 Trabajos con sombreado (shadowing) de frases: sombrear una frase es repetir sus (información abajo-arriba) se añade el hecho de que no pueden compensarla
palabras, lo más rápidamente posible, según se van escuchando (“seguirla como una aprovechándose de información de arriba-abajo, dada su escasa experiencia
12
sombra”. Los oyentes pueden repetir frases de forma más rápida cuando éstas están lectora.
bien formadas desde el punto de vista sintáctico y semántico.

Das könnte Ihnen auch gefallen