Sie sind auf Seite 1von 42

Suscríbete a DeepL Pro para poder editar este documento.

Entra en www.DeepL.com/pro para más información.

Vea las discusiones, estadísticas y perfiles de los autores de esta publicación en: https://www.researchgate.net/publication/249690378

Continuidad y graduación en el procesamiento del habla

Artículo - Enero 2003

CITACIONE LECTURA
S
84
26

3 autores, incluyendo:

Universidad Delphine
Dahan dePennsylvania
38 PUBLICACIONES 3.276 CITAS

VER PERFIL
Todo el contenido que sigue a esta página fue subido por Delphine Dahan el 21 de octubre de 2015.

El usuario ha solicitado que se mejore el archivo descargado.


En fonética y fonología en comprensión y producción del lenguaje. Diferencias y
similitudes. N. O. Schiller y A. S. Meyer (Eds.) (2003). Berlín: Mouton de Gruyter
(págs. 39 a 78).

Continuidad y graduación en el procesamiento

del habla James M. McQueen, Delphine Dahan y


Anne Cutler

1. Introducción

La comprensión del lenguaje hablado es un proceso de


decodificación. El mensaje del hablante se codifica en la señal
física del habla en complejos patrones de energía acústica, en las tres
dimensiones de amplitud, frecuencia y tiempo. La tarea del oyente
es extraer el mensaje subyacente de este código. La clave para
descifrar el código es el conocimiento previo del oyente sobre la
forma fonológica de las palabras. Esta información fonológica, sin
embargo, puede ser almacenada en la memoria léxica, es el único
medio por el cual los oyentes pueden extraer un mensaje de los
silbidos, zumbidos y chirridos de la corriente de sonidos que
inciden en sus oídos cuando alguien habla.
En este capítulo, revisamos lo que se conoce actualmente sobre
la forma en que los oyentes mapean la señal del habla en el
conocimiento léxico almacenado. Sostenemos que el proceso de
acceso léxico implica la evaluación paralela de múltiples hipótesis
léxicas. También argumentamos que el acceso léxico es continuo:
no hay etapas de componentes discretos en el proceso, sino que la
información fluye en cascada a través del sistema de
reconocimiento. A continuación describimos las pruebas que
sugieren que este proceso de evaluación está calificado: No sólo no
hay etapas discretas de procesamiento, sino que la información que
pasa por el sistema se califica en lugar de ser categórica. Por
ejemplo, una palabra no se encuentra simplemente en el conjunto
del competidor léxico o fuera de él; cada palabra tiene su propio
grado variable de apoyo. Los resultados recientes sugieren que la
escala con la que se mide el apoyo a las diferentes palabras tiene
una reso- lución que es más fina que la que podría captar un simple
2James M. McQueen, Delphine Dahan y Anne Cutler

análisis fonético de la señal del habla. Es decir, las diferencias


subfonémicas en la señal parecen influir en el acceso léxico.
A continuación, discutimos la producción del discurso a la luz de
estos hallazgos sobre la comprensión del discurso. Mientras que las
suposiciones de continuidad y graduación en el acceso léxico se
sostienen ampliamente en los relatos de descodificación del habla,
ambas suposiciones se cuestionan en algunos relatos de
codificación del habla. Por ejemplo, en una de las principales
teorías del acceso léxico en la producción del habla, hay etapas de
procesamiento discretas, y las representaciones en forma de
palabras contienen sólo información fonética (Levelt, Roelofs y
Meyer 1999). Discutimos por qué el procesamiento de la
información fonética y fonológica puede ser tan diferente en la
codificación del habla y en la decodificación del habla, y sugerimos
que la evidencia de los detalles finos en la señal del habla desafía
un aspecto del modelo de Levelt et al.

2. Evaluación múltiple continua en la decodificación del habla

2.1. Activación

El reconocimiento de una palabra implica la evaluación paralela de


muchas otras palabras candidatas. A medida que el discurso se
desarrolla en el tiempo, las palabras que son consistentes con la
entrada actual se consideran en paralelo. La metáfora de la
"activación múltiple" se utiliza a menudo para describir este
proceso: Se considera que cada palabra candidata tiene asociado un
valor de activación continuamente variable. La activación de un
candidato representa la cantidad de apoyo de la señal del habla que
esa palabra tiene en ese momento. La metáfora de la activación
capta la idea de que se evalúan múltiples palabras de la
competencia al mismo tiempo, y que la evaluación es incremental.
Esta visión de la decodificación del habla es muy plausible dada
la naturaleza de la tarea con la que se enfrenta el oyente. El habla es
muy compleja y cambia rápidamente con el tiempo. Por lo tanto,
procesar el habla de manera incremental puede reducir la carga de
memoria de almacenar todos los detalles acústicos de la señal
actual. También reduce el retraso en el proceso de reconocimiento:
El procesamiento incremental permite que una palabra sea
reconocida tan pronto como
Continuidad y graduación en el procesamiento del
habla 3
puede ser (cuando se ha acumulado suficiente información para
distinguirla de sus competidores), en lugar de después de las
demoras que podrían surgir cuando las diferentes etapas de
procesamiento en serie lleguen a su fin en un modelo no
incremental.
Sin embargo, el procesamiento del habla de manera incremental
implica procesarla sobre la base de información parcial y muy a
menudo ambigua. Hay un número infinito de posibles enunciados
que un hablante podría decir, pero un inventario muy limitado de
sonidos con los que un hablante puede en- codificar cualquier
enunciado. Se puede estimar que es probable que haya más de
1.000 veces más palabras en un idioma dado que hay fonemas. Los
inventarios de fonemas generalmente se encuentran más cerca del
extremo inferior del rango de 10-100 sonidos (Maddieson 1984),
mientras que un léxico es probable que esté en el rango de 10.000-
100.000 palabras (dependiendo de cómo se defina lo que es una
palabra). Por lo tanto, el espacio léxico-fonológico es muy denso,
con muchas palabras que comparten las mismas secuencias de
sonidos (por ejemplo, palabras que comienzan de la misma manera,
palabras que riman y palabras que tienen palabras más cortas
incrustadas completamente en ellas).
La ambigüedad del habla se ve amplificada por la variabilidad de
la señal del habla (incluso el mismo hablante nunca pronunciará la
misma palabra exactamente de la misma manera dos veces), y por
el hecho de que el habla se pronuncia a menudo en un entorno
ruidoso. Por último, la falta de indicaciones plenamente fiables de
los límites de las palabras en el habla continua (tan fiables como los
espacios en blanco entre las palabras escritas en un texto inglés
como éste) añade complejidad al problema del reconocimiento de
palabras. No sólo es probable que un determinado tramo de habla
ofrezca soporte para muchas palabras diferentes, sino que además
no está claro a priori cuántas palabras puede contener ese tramo de
habla y dónde pueden comenzar y terminar.
Por lo tanto, el precio que hay que pagar por los beneficios del
proceso incremental es que conlleva el análisis de una señal
multiplicadora y ambigua. Una forma de hacer frente a esta
ambigüedad, pero sin dejar de lograr un reconocimiento
incremental óptimo, consiste en considerar todos los candidatos
léxicos compatibles con la actual, aunque incompleta, aportación, y
conformarse con una interpretación cuando el apoyo a esta
interpretación supera con seguridad el apoyo a las demás. La
información que llegue más tarde puede entonces ayudar a
confirmar o desconfirmar las interpretaciones anteriores de la
entrada. Este procesamiento se materializa en las suposiciones de
múltiples
4James M. McQueen, Delphine Dahan y Anne Cutler

activación y competencia, compartidas por todos los modelos


actuales de reconocimiento de palabras habladas.
Sin embargo, es importante señalar que la activación de una
palabra puede significar cosas diferentes para diferentes teóricos.
Algunas teorías, como la de que una palabra corresponde a una
representación abstracta de la forma de una palabra, asociada a su
vez a una representación o representaciones, corresponden al
significado de esa palabra. Esta forma de representación es una
categoría que se abstrae de todas las variaciones en la realización
acústica de una palabra. Otras teorías asumen que no existe tal
representación de forma abstracta. Todas las instancias o episodios
de esa palabra se almacenan con todos sus detalles acústicos (los
llamados trazos). En tales cuentas, una palabra es una categoría a
nivel de significado que se abstrae de todas sus instancias basadas
en la forma.
Hay un apoyo empírico considerable para los supuestos de
activación múltiple y evaluación relativa de los candidatos léxicos.
La evidencia de la activación de múltiples palabras candidatas a
medida que la forma de una palabra hablada se desarrolla a lo largo
del tiempo proviene de experimentos de preparación semántica
intermodal. Estos estudios muestran que la información parcial de
la señal del habla puede desencadenar la activación del significado
de múltiples palabras candidatas que coinciden. Se activan los
competidores que comienzan al mismo tiempo (por ejemplo, en
holandés, se encontraron respuestas más rápidas a los asociados
tanto del kapitein, capitán, como del kapitaal, capital, cuando los
oyentes escucharon [k€pDt] que cuando escucharon el comienzo de
una palabra no repetida; Zwitserlood 1989; véase también Moss,
McCormick, y Tyler 1997; Zwitserlood y Schriefers 1995). Las
palabras incrustadas en palabras más largas también pueden
activarse (por ejemplo, en inglés, los oyentes respondían más
rápidamente a un asociado de hueso cuando escuchaban el trombón
que cuando escuchaban una palabra no relacionada; Shillcock 1990,
pero véase también Luce y Lyons 1999, Swinney 1981, y Vroomen
y de Gelder 1997). Además, también se activan las palabras que se
extienden a ambos lados de los límites de la palabra en la entrada.
En inglés, por ejemplo, se encontraron respuestas más rápidas a los
asociados de los labios y los tulipanes cuando los oyentes
escucharon dos labios que en una condición de control (Gow y
Gordon 1995). Del mismo modo, en italiano, las respuestas a un
asociado de visita, visitas, por ejemplo, fueron más rápidas cuando
los oyentes escucharon visi tediati, caras aburridas, que en una
condición de control (Tabossi, Burani y Scott 1995).
Continuidad y graduación en el procesamiento del
habla 5
En los experimentos de memoria de reconocimiento se han
encontrado errores positivos falsos en palabras que no se habían
presentado anteriormente en el ex-período, pero que comenzaron de
la misma manera que las palabras que se habían presentado
anteriormente (Wallace, Stewart y Malone 1995; Wallace y otros
1995, 1998). Estos errores sugieren que las palabras no estudiadas
se activaron efectivamente cuando se escucharon las palabras
estudiadas.
Los experimentos de seguimiento ocular, en los que se recogen
las fijaciones de los participantes a las imágenes de la pantalla de una
computadora mientras se les instruye auditivamente para que hagan
clic en una de las imágenes, también han proporcionado pruebas de
la activación de múltiples candidatos. A medida que el nombre de
la imagen objetivo se va revelando con el tiempo, los participantes
se fijan más en imágenes con nombres compatibles con la
información hablada disponible (por ejemplo, miran la imagen de
un escarabajo cuando se oyen los sonidos iniciales del vaso de
precipitación) que en imágenes no relacionadas (Allopenna,
Magnuson y Tanenhaus 1998; véase también Tanenhaus y otros
2000).
Así, los significados de las palabras candidatas están disponibles
antes de que la palabra que se escuchó realmente pueda ser
identificada sin ambigüedades. Este hecho tiene importantes
consecuencias para las teorías de reconocimiento de palabras
habladas. Demuestra que las representaciones semánticas de las
palabras pueden ser activadas cuando sus correspondientes
representaciones de forma han sido activadas pero antes de que el
soporte de una forma particular haya superado el soporte de otras
formas. Por lo tanto, el proceso de activación es continuo, más que
escalonado, entre los niveles de representación de la forma y el
significado.

2.2. Concurso

Como se activan múltiples candidatos mediante la entrada parcial


hablada, el de- gree de pruebas de cada uno de ellos se evalúa con
respecto a las otras palabras, y esta evaluación relativa afecta al
reconocimiento de la palabra objetivo. Este proceso de competencia
léxica tiene un considerable apoyo em- piratorio. La activación y
evaluación léxica múltiple puede ser in ferida de los efectos de la
manipulación de la densidad léxica del vecindario de las palabras
objetivo (el número y la frecuencia de palabras de sonido similar).
Es más difícil reconocer una palabra en un vecindario denso que en
un vecindario disperso debido a una mayor competencia entre
palabras
6James M. McQueen, Delphine Dahan y Anne Cutler

en el vecindario más denso (Cluff y Luce 1990; Luce 1986; Luce y


Large 2001; Vitevitch y Luce 1998, 1999).
El número de competidores que comienzan en un punto diferente
de la entrada que la palabra objetivo también influye en la facilidad
de reconocimiento del objetivo. Por ejemplo, reconocer una palabra
incrustada en una palabra sin sentido más larga tiende a ser más
difícil cuando la palabra sin sentido contiene una secuencia
coherente con muchas otras palabras que cuando esa secuencia
consiste en menos palabras (Norris, McQueen y Cutler 1995;
Vroomen y de Gelder 1995).
La competencia entre palabras específicas de los candidatos
también ha sido ob- servida. Los oyentes encuentran más difícil
detectar palabras incrustadas en los inicios de palabras más largas
(como saco en [s kr€f], el comienzo del sacrificio) que en
secuencias emparejadas que no son inicios de palabras (como
[s kr€k]; McQueen, Norris, y Cutler 1994). Este tipo de compe-
tencia también se produce cuando el objetivo y el competidor
comienzan en diferentes puntos de la señal (por ejemplo, el
comienzo de la confusión en [dmd], el comienzo de la doméstica,
es más difícil que en el comienzo no verbal [nmd]; McQueen y
otros, 1994).
Los efectos del proceso de competencia se extienden a lo largo
del tiempo. En los paradigmas de primacía, las respuestas a las
palabras objetivo tienden a ser más lentas cuando van precedidas de
palabras primarias fonológicamente relacionadas que cuando van
precedidas de palabras no relacionadas. Esto sugiere no sólo que las
palabras objetivo se activan cuando se escuchan primos
relacionados, y que pierden el proceso de competencia, sino
también que esto tiene consecuencias negativas para el
procesamiento posterior de esos objetivos. Se han encontrado
efectos inhibitorios en experimentos de cebado fonético (en los que
las palabras objetivo van precedidas de primos que comparten
características fonéticas pero no fonemas con los objetivos;
Goldinger y otros 1992; Luce y otros 2000) y en experimentos de
cebado fonológico (en los que los primos y los objetivos comparten
fonemas de inicio; Monsell e Hirsh 1998; Slowiaczek y Ham-
burger 1992). Obsérvese, sin embargo, que los efectos inhibitorios
en la preparación fonológica son a veces débiles o inexistentes
(véase, por ejemplo, Praamstra, Meyer y Levelt 1994, y Radeau,
Morais y Segui 1995). Ello puede deberse a que los efectos
inhibitorios están ocultos por factores estratégicos (véase, por
ejemplo, el análisis de Monsell e Hirsh 1998).
Modelos de reconocimiento de palabras habladas como el modelo Cohort (Mar-
slen-Wilson 1987, 1993), TRACE (McClelland y Elman 1986),
Continuidad y graduación en el procesamiento del
habla 7
1986), Shortlist (Norris 1994), el Modelo de Cohorte Distribuido
(DCM; Gaskell y Marslen-Wilson 1997), el Modelo de Activación
de Vecindarios (NAM; Luce y Pisoni 1998) y PARSYN (Luce et
al. 2000) difieren en muchos aspectos. Sin embargo, todos tienen
una cosa en común. Todos comparten la suposición de que, al
escuchar una sección del discurso, las palabras que son coherentes
con esa entrada se consideran en paralelo, con la evidencia
respectiva de cada palabra evaluada en relación con las otras
palabras.
Este algoritmo de evaluación relativa se implementa de
diferentes maneras en estos modelos. Una forma de implementar el
algoritmo de evaluación relativa es permitir que las
representaciones léxicas compitan directa y activamente entre sí
(como en TRACE, Shortlist y PARSYN). Se han propuesto otras
dos implementaciones. En primer lugar, como en el modelo NAM y
el modelo de Cohorte, la evaluación relativa puede producirse en
una etapa de decisión, en la que se comparan pasivamente los
distintos grados de apoyo a los candidatos (es decir, a diferencia de
los modelos de competencia activa, la evaluación no influye en la
activación de los competidores). La evaluación relativa puede
lograrse mediante la forma indirecta de competencia o la
interferencia que se produce cuando un modelo conectivista con
representaciones léxicas muy distribuidas genera un determinado
patrón de acti- vidad (como en el DCM).
Aunque cada una de estas implementaciones puede dar cuenta de muchos
ef-
los datos disponibles imponen algunas limitaciones a la elección
entre ellos. Un reciente estudio de seguimiento ocular (Dahan y
otros, 2001b) determinó los efectos de la interferencia de un
competidor en la activación del objetivo antes de que se escuchara y
procesara el nombre completo del mismo. Estos datos sugieren que
la evaluación de la activación de un candidato en proporción a la
activación de sus competidores debe realizarse de manera continua.
Por consiguiente, estos resultados ponen en tela de juicio las
implementaciones de la competencia en las que la evaluación
relativa sólo se produce en una etapa discreta del proceso.
Los experimentos que muestran que la competencia puede tener
lugar entre palabras que comienzan en diferentes puntos de la
corriente de habla (por ejemplo, McQueen y otros, 1994) apoyan la
aplicación de la competencia mediante vínculos directos entre los
candidatos y ponen en duda la verosimilitud de los modelos con
competencia en la etapa de decisión. La competencia directa
proporciona un medio más eficaz que la competencia en las etapas
de decisión al
8James M. McQueen, Delphine Dahan y Anne Cutler

qué palabras que no comienzan todas en el mismo punto de la


entrada pueden evaluarse en relación con las demás (véase
McQueen et al. 1995, para más detalles).

2.3. Resumen

La descodificación del habla parece, pues, implicar la activación


paralela de múltiples hipótesis léxicas y la evaluación relativa de
esas hipótesis. Este proceso es incremental y continuo. Las palabras
se activan aunque sólo coincidan parcialmente con la señal (por
ejemplo, cuando un determinado tramo del habla puede continuar
de diferentes maneras, se considerarán varios caminos léxicos
diferentes). Además, la activación no se detiene en el nivel de las
representaciones en forma de palabra; continúa hasta el nivel
semántico, de manera que los significados de los competidores
pueden activarse antes de que se pueda identificar plenamente la
palabra que estaba realmente presente en el in- put. Así pues, la
información fluye en cascada a través del sistema de
reconocimiento, sin subetapas en serie en el proceso.

3. La graduación en la decodificación del habla

¿Cómo se modula la activación léxica durante el proceso de


comprensión? Hay dos aspectos interrelacionados en esta pregunta.
El primero se refiere a los parámetros que determinan si una
palabra determinada debe entrar o salir del conjunto del
competidor. El segundo se refiere a la métrica que se utiliza para
calcular la bondad del ajuste de una palabra dada a la entrada.
Argumentaremos que las palabras no se activan de una manera de
todo o nada. En cambio, las representaciones léxicas se activan de
forma escalonada. Los niveles de activación reflejan el grado de
apoyo que la señal del habla proporciona a determinadas palabras;
cambian continuamente con el tiempo a medida que la información
de la señal cambia. También argumentaremos que una métrica de
evaluación basada en el fonema en el cómputo de la bondad léxica
del ajuste es insuficiente. La información de grano más fino que
puede ser capturada por una transcripción fonética modula la
activación léxica.
Continuidad y graduación en el procesamiento del
habla 9
3.1. Los determinantes de la activación léxica

Nuestra revisión de las pruebas de activación múltiple de las


palabras candidatas y de la competencia entre ellas sugiere que se
consideran todas las palabras que son coherentes con la
información de la señal del habla, y que la información parcial es
suficiente para la activación léxica. Sin embargo, ¿cuáles son las
limitaciones de este proceso? ¿Cuánto material de concordancia
tiene que haber en la señal para causar la activación? Las pruebas
sugieren que la posición de la información coincidente en la
palabra, la longitud de esa palabra y el número de competidores
léxicos que tiene son todos determinantes de su activación. La
frecuencia de aparición de las palabras también desempeña un
papel en la activación léxica (véase, por ejemplo, Dahan, Magnuson
y Tanenhaus 2001a; Luce y Pisoni 1998).
El sistema de reconocimiento parece ser bastante intolerante a los
errores...
información coincidente en la posición inicial de la palabra.
Marslen-Wilson y Zwitserlood (1989) descubrieron, en un
experimento de primacía intermodal holandés, que las respuestas,
por ejemplo, a bij, bee, un asociado de honing, honey, eran más
rápidas después de que los oyentes hubieran escuchado la primacía
de honing que después de que hubieran escuchado una palabra
principal no relacionada. Pero no había un efecto de preparación
excesivo cuando la palabra principal rimaba con la palabra básica y,
de hecho, compartía todos los segmentos con la palabra básica
excepto su fonema inicial, ni cuando era otra palabra (woning,
dwelling) ni cuando era una no palabra (foning). Este resultado
sugiere que puede utilizarse un criterio muy estricto para
determinar si una palabra se considera como candidata: el desajuste
de un fonema en la posición inicial de la palabra puede ser
suficiente para bloquear el acceso al léxico.
Sin embargo, la naturaleza de la diferencia entre las palabras
primarias y las palabras básicas parece ser crítica (Connine, Blasko
y Titone 1993). Connine y otros observaron un efecto de cebado
asociativo intermodal para las palabras base primas (por ejemplo,
servicio como primo, tenis como objetivo) y un efecto de cebado
más débil para las no palabras primas que difieren de las palabras
base en sólo una o dos características (zervicio-tenis), pero ningún
efecto fiable para las no palabras primas que difieren de las
palabras base en más de dos características (gervicio-tenis). Estas
distancias de proezas se calcularon a partir del número de rasgos
articulatorios que comparten los dos fonemas (Jakobson, Fant y
Halle 1952). Marslen-Wilson,
10James M. McQueen, Delphine Dahan y Anne Cutler

Moss y van Halen (1996) observaron una pauta similar de


resultados, utilizando la preparación intramodal (auditiva) en
neerlandés: la facilitación era más fuerte para las palabras clave
precedidas por asociados (por ejemplo, tomaat-rood, tomato-rojo y
tabak-pijp, pipa de tabaco), más débil cuando la clave era una no
palabra que difería por un solo rasgo en su segmento inicial de la
palabra base (pomaat-rood), y más débil aún cuando la diferencia
implicaba dos o más rasgos (nabak-pijp). Sin embargo, a diferencia
del estudio de Connine y otros, la diferencia entre las dos
condiciones de desajuste no era significativa.
También se han llevado a cabo manipulaciones a distancia con la
tarea de vigilancia de los fonemas. La lógica aquí es que las
latencias de respuesta de monitores de fonemas reflejan el grado de
activación léxica. Las influencias léxicas en la toma de decisiones
fonémicas se han modelado ya sea como consecuencia de la
retroalimentación descendente del léxico sobre las representaciones
preléxicas de los fonemas (como en TRACE), o como consecuencia
de un proceso de retroalimentación del léxico a un nivel de
procesamiento en el que se toman decisiones explícitas sobre los
fonemas (como en el modelo Merge, Norris, McQueen y Cutler
2000). Tanto en la cuenta de retroalimentación como en la de feed
forward, si una palabra se activa con más fuerza, facilitará la toma
de decisiones fonéticas con más fuerza. Connine y otros (1997)
pidieron a los oyentes que detectaran la /t/ final, por ejemplo, en el
gabinete de la palabra base, un gabinete de no palabras de mínimo
desajuste (un cambio de característica en el fonema inicial), un
gabinete de no palabras de máximo desajuste (muchas
características cambiadas) y un gabinete de no palabras de control.
Las latencias de control de fonemas fueron más rápidas para los
objetivos en palabras base, más lentas para los objetivos en no
palabras de desajuste mínimo, más lentas aún para los objetivos en
no palabras de desajuste máximo, y más lentas aún para los
objetivos en no palabras de control. Por lo tanto, estos resultados
son coherentes con la afirmación de que la activación de la
lexicología no depende de una coincidencia fonética perfecta en la
posición inicial de la palabra.
Evidencia de activación de palabras que riman con desajuste inicial
también se ha observado utilizando el paradigma del rastreo ocular
(por ejemplo, los oyentes miran la imagen de un hablante cuando
escuchan el vaso; Allopenna y otros, 1998). Sin embargo, la
tendencia a mirar imágenes de competidores que riman es más débil
que la tendencia a mirar imágenes de competidores que empiezan
de la misma manera que la palabra hablada (por ejemplo, mira a un
escarabajo cuando escucha el pico; Allopenna y otros, 1998). Este
hallazgo refleja una
Continuidad y graduación en el procesamiento del
habla 11
tendencia general a que los competidores que comienzan de la
misma manera que las palabras de destino se activen con mayor
fuerza (a pesar de que tal vez haya una mayor falta de coincidencia)
que los competidores de rima (compárense, por ejemplo, los
resultados de Zwitserlood, 1989, que dieron pruebas de la
activación del kapitaal cuando se escucharon los sonidos iniciales
del kapitein, con los de Zwitserlood y Marslen-Wilson, 1989, en los
que aparentemente no hubo activación del bruñido al ganar). Es
probable que esta tendencia se deba a la posición relativa de la
información de desajuste, a las propiedades tempo- rales del habla y
a la competencia léxica. En el ejemplo de Allopenna y otros, el
escarabajo puede ser un candidato tan plausible como el vaso de
precipitados en la secuencia de vasos de precipitados, por lo que
durante al menos algún tiempo es probable que sean competidores
igualmente fuertes. Pero el hablante siempre estará en desventaja
debido a su desajuste inicial; por lo tanto, nunca podrá llegar a ser
un competidor tan fuerte como el vaso objetivo.
El reciente apoyo a esta visión de la dinámica de la activación léxica
viene de un estudio de monitorización de fonemas. Frauenfelder,
Scholten, y Content (2001) encontraron pruebas de la activación
léxica de palabras francesas largas cuando las palabras estaban
distorsionadas por un solo cambio de característica en su fonema
inicial (por ejemplo, vocabulario, pro- ducado como focabulaire).
Las respuestas a los fonemas objetivo fueron más rápidas en estas
palabras distorsionadas que en las no palabras de control, pero sólo
cuando el fonema objetivo era palabra-final (es decir, según
Frauenfelder y otros, sólo cuando había transcurrido el tiempo
suficiente para que las pruebas positivas posteriores en la palabra
anularan los efectos negativos del desajuste inicial).
Frauenfelder y otros (2001) también examinaron el impacto de la
falta de coincidencia que se produce más tarde en la entrada. Por
ejemplo, no había pruebas de activación de vocabulario dado
vocabunario (es decir, las respuestas a los fonemas objetivo en
estas palabras distorsionadas, por ejemplo, la /r/ final de
vocabunario, no eran más rápidas que en las no palabras de
control). Este resultado sugiere que la activación de las palabras ya
activadas (dada su coincidencia perfecta inicial) se reduce
considerablemente cuando se escucha material que no coincide.
Soto-Faraco, Sebastián-Gallés y Cutler (2001) llegaron a una
conclusión similar sobre la base de una serie de experimentos de
cebado de fragmentos intermodales. Las respuestas de los oyentes
españoles al aban- dano, el abandono, por ejemplo, eran más
rápidas, en relación con una condición de control, si acababan de
escuchar el fragmento de emparejamiento aban, y más lentas si
acababan de es c u c h a r el fragmento de emparejamiento abun, el
12James M. McQueen, Delphine Dahan y Anne Cutler

comienzo de la abundancia, la abundancia. Soto-Faraco y otros


sostienen que este efecto inhibitorio refleja la influencia conjunta
del desajuste en la formación y la competencia léxica (por ejemplo,
la inhibición del abandono por la abundancia).
Parece, por lo tanto, que las palabras polisílabas que comienzan
de manera diferente a lo que se escuchó en realidad pueden
activarse a pesar de la falta de coincidencia inicial, y que las
palabras largas, una vez activadas, se penalizan cuando se produce
una falta de coincidencia posterior. Sin embargo, las palabras más
cortas (es decir, monosilábicas) parecen activarse con menos fuerza
cuando no coinciden con la entrada. Las investigaciones sobre los
efectos de la falta de coincidencia inicial con las palabras
monosilábicas han sugerido que la activación robusta de cualquier
candidato monosilábico en particular depende de cuántas palabras
se aproximen a la señal. Milberg, Blumstein y Dworetzky (1988)
observaron la preparación intramodal en decisiones léxicas sobre
objetivos precedidos por no palabras que difieren de las asociadas a
esos objetivos por una o más características del fonema inicial (por
ejemplo, las respuestas al perro fueron más rápidas después de la
primacía del gato que después de una primacía no relacionada, pre-
sumamente debido a la activación del gato). Pero este efecto puede
depender del hecho de que "gat" no es en sí mismo una palabra,
dejando al gato como la mejor opción para la señal. Cuando hay
una palabra candidata alternativa fuerte, como sea, puede que no
haya activación de palabras que no coincidan. Gow (2001), por
ejemplo, no encontró pruebas de activación (en un experimento de
preparación de formas intermodales) de palabras monosilábicas
como "pistolas" cuando los oyentes escucharon de cerca
competidores léxicos como "bollos".
Connine, Blasko, y Wang (1994), también usando un sistema de
tarea de preparación, presentaba a los oyentes estímulos auditivos
en los que el sonido inicial era ambiguo entre dos fonemas
diferentes, como un sonido a medio camino entre la /b/ y la /p/, y en
los que ambas interpretaciones de la secuencia eran una palabra
(por ejemplo, [... Dg], consistente tanto con "grande" como con
"cerdo"). Se observó un cebado facilitador en las respuestas a los
asociados presentados visualmente de ambas palabras (por ejemplo,
pequeño y cerdo). Esto sugiere que el proceso de acceso léxico es
más tolerante a la falta de correspondencia cuando la entrada difiere
de una palabra por menos de un fonema. Pero este efecto no fue
replicado por Marslen-Wilson y otros (1996): No hubo facilitación
de respuestas a la madera, por ejemplo, después de escuchar [?l k],
lo que es consistente tanto con la tabla como con el blanco. Sin
embargo, Marslen-Wilson et al. encontraron un efecto de cebado,
cuando sólo
Continuidad y graduación en el procesamiento del
habla 13
uno de los puntos finales era una palabra: Las respuestas al trabajo,
por ejemplo, un asociado de la tarea, se facilitaron cuando [?
Parece ser que el grado de activación léxica de las palabras que no
coinciden depende del entorno léxico del competidor.
Por último, es importante señalar que la tolerancia al desajuste
en la formación está modulada por el contexto fonológico. Un
cuerpo de re-investigación ha examinado cómo el sistema de
reconocimiento se ocupa de la variación de la señal causada por
procesos fonológicos como la as- similitud (véase, por ejemplo,
Coenen, Zwitserlood, y Boelte 2001; Gaskell y Marslen-Wilson
1996, 1998, 2001; Gow 2001; Marslen-Wilson, Nix, y Gaskell
1995). Estos estudios han demostrado que las palabras pueden
reconocerse a pesar de los cambios fonéticos causados por la
asimilación, pero sólo cuando esos cambios son contextualmente
apropiados. Así, por ejemplo, la palabra noche se activa dada la
entrada [naDp], pero sólo si aparece en un contexto que permita la
asimilación del lugar de articulación de la consonante coronal final
/t/ a la bilabial [p], como en el caso de la nocturna.
Las pruebas sobre el efecto de la falta de coincidencia en la
activación léxica sugieren, por lo tanto, que el proceso de acceso
léxico no es muy tolerante con la información de la falta de
coincidencia. Es poco probable que las palabras que no coinciden
con la señal por más de un fonema se consideren como candidatos
serios si la información de la falta de coincidencia está en el
principio de la palabra o cerca de él, o que se rechacen rápidamente
como candidatos plausibles si la falta de coincidencia se produce
más tarde en la palabra. La posición de la falta de coincidencia, la
longitud de la palabra, el número de competidores léxicos y el con-
texto fonológico parecen influir en la tolerancia del sistema. Sin
embargo, la pauta de resultados en esta cuestión es compleja, y será
necesario seguir trabajando para establecer cómo estos diferentes
factores interactúan en la determinación de la activación léxica. No
obstante, parece claro que, a medida que el discurso se desarrolla a
lo largo del tiempo, las palabras candidatas se vuelven, permanecen
o dejan de estar activas dependiendo tanto de la cantidad de apoyo
de abajo hacia arriba que tengan como de la cantidad de apoyo que
tengan otras palabras. Cuando las pruebas disponibles no favorecen
claramente una palabra, todos los candidatos plausibles permanecen
activados, pero tan pronto como se dispone de información
desambiguante, el sistema parece asentarse rápidamente en el
candidato ganador
14James M. McQueen, Delphine Dahan y Anne Cutler

y rechazar a los perdedores (McQueen, Norris y Cutler 1999;


Norris et al. 2000).

3.2. La bondad de la adaptación...

Esta visión de la dinámica del proceso de acceso al léxico sugiere


que la activación de cada palabra refleja su bondad momento a
momento de encajar con la entrada disponible. ¿Qué métrica se
utiliza en este cálculo? Una posibilidad es que el grado de
activación de una palabra refleje la activación de sus componentes.
La métrica más simple que podría utilizarse para calcular la
activación de una palabra sería contar el número de componentes de
esa palabra que son consistentes con la señal. La activación de la
palabra podría entonces variar en función del número de
componentes coincidentes. Esta métrica dependería, por supuesto,
de un nivel de proceso, previo al acceso léxico, en el que se
reconocerían esos componentes, y de la especificación de cuáles
son esos componentes.
Las teorías de descodificación del habla que asumen
representaciones abstractas de forma léxica a menudo también
asumen representaciones abstractas preléxicas. La diferencia
mínima entre una palabra y cualquier otra en el lenguaje del oyente
debe ser una diferencia fonética (el vecino léxico más cercano de
una palabra no puede diferir de esa palabra en menos de un
fonema). Un candidato obvio para las representaciones abstractas
que existen a nivel preléxico es por lo tanto el fonema, como de
hecho se instancian en Shortlist y TRACE. Otras teorías han
cuestionado los beneficios de un análisis intermedio de la señal, ya
que éste puede descartar información acústica útil. Para estos
modelos, el grado de activación de una palabra refleja la similitud
entre la señal y su representación en forma no descompuesta (Klatt
1979, 1989), o todos los rastros almacenados (Goldinger 1998). No
obstante, la suposición de un nivel preléxico abstracto en muchos
modelos ha llevado a centrar la atención en los efectos de las
diferencias abstractas (como las diferencias fonémicas) en la
activación léxica.
¿Podría la activación léxica depender simplemente del número de
...que coinciden con los fonemas que cada palabra tiene con una
entrada dada? Los resultados de los estudios sobre el desajuste en el
acceso léxico descritos anteriormente sugieren que los niveles de
activación léxica no pueden basarse en esta simple métrica.
Continuidad y graduación en el procesamiento del
habla 15
Varios de esos estudios han demostrado que las diferencias
subfonémicas influyen en la activación léxica. Connine y otros
(1993, 1997) demostraron que el número de características con las
que un fonema no coincide con un fonema especificado
léxicamente influye en el grado de activación de esa palabra.
Otras pruebas de que la activación léxica varía en función de las
diferencias subcategoriales proceden de un estudio de preparación
auditiva de Andruski, Blumstein y Burton (1994). Las respuestas de
decisión léxica a la fruta, por ejemplo, fueron más rápidas cuando
la fruta fue precedida por la pera que cuando fue precedida por una
palabra sin relación (jet). Sin embargo, este efecto de cebado fue
modulado por el tiempo de inicio de la voz (VOT) de las
consonantes iniciales de parada sin voz de los primos relacionados
(por ejemplo, de la [p] de pera). La [p] se presentó en su forma
normal, con el VOT reducido en un tercio, y el VOT reducido en
dos tercios. Las reducciones hicieron que el VOT se pareciera
menos al de un prototipo [p] y más al de la contraparte expresada
[b], pero ambos tipos de reducción produjeron fichas que todavía se
escuchaban como [p]. Aunque las tres formas de la palabra fruta
preparada de pera, las repeticiones fueron significativamente más
lentas después de que se escuchara la primicia más extremadamente
editada que después de la primicia menos extremadamente editada
o la primicia natural. Estos resultados sugieren de nuevo que la
activación léxica está graduada: las palabras que comienzan con
paradas sin voz parecen haber sido activadas más débilmente
cuando sus paradas eran más cortas de lo normal que cuando sus
paradas eran de duración normal. También se han observado
efectos similares utilizando la tarea de cebado de identidad, en la
que las palabras objetivo fueron precedidas por las mismas fichas
naturales de esas palabras, o por fichas con VOT acortadas (Utman,
Blumstein y Burton 2000).
Otra demostración más de que la activación léxica está modulada por
información de grano fino en la señal de voz ha surgido de la re-
búsqueda en la asimilación. Como se ha mencionado anteriormente,
esta investigación ha demostrado que los oyentes pueden reconocer
la palabra noche dada la entrada [naDp] pero sólo si aparece en un
contexto apropiado, como el autobús nocturno. Datos recientes
sugieren que el sistema de reconocimiento es sensible a las señales
subfonémicas de asimilación (Gow 2002): La [raDp] en la baya
derecha no es la misma que la [raDp] en la baya madura, y esto
permite a los oyentes resolver posibles ambigüedades léxicas
causadas por la asimilación.
16James M. McQueen, Delphine Dahan y Anne Cutler

La influencia de la variación subfonémica en la activación léxica


también se ha observado en estudios que examinan la percepción de
palabras y no palabras que contienen información acústica-fonética
que no coincide (Dahan y otros 2001b; Marslen-Wilson y Warren
1994; McQueen y otros 1999; Streeter y Nigro 1979; Whalen 1984,
1991). Esos elementos se crean mediante secuencias de empalme
cruzado que se originan a partir de diferentes palabras y no
palabras. Por ejemplo, una versión de empalme cruzado de una no
palabra como smob puede construirse concatenando la por- ción
inicial (hasta la vocal) de la palabra smog o la no palabra smod con
la consonante final de una ficha de la no palabra smob (es decir,
smo[g/d] + [smo]b). Aunque estas versiones cruzadas consistirían
ambas en la secuencia fonética /sm euros/, la parte vocal contendría
información de transición de forma coherente con un velar [euros]
o un dental [d], que no coincidiría con la ráfaga final de liberación
de parada bilabial [b]. Una variedad de tareas léxicas y fonéticas
han demostrado que el estado léxico de las porciones cruzadas de
tales estímulos (por ejemplo, /sm euros/ de la palabra smog o la
palabra no smod) influye en el efecto que tiene la información
coarticulatoria de desajuste (véase Dahan y otros 2001b; Marslen-
Wilson y Warren 1994; y McQueen y otros 1999 para más
detalles). La interacción de los efectos de la información subfónica
y la información léxica en las tareas que prueban la activación
léxica muestra que la información subcategorial influye en los
procesos a nivel léxico.
Todos estos efectos subfonémicos contradicen la sugerencia de
que la activación de palabras se computa sobre la base del número
de fonemas coincidentes. En términos más generales, desafían la
opinión de que la etapa de prelexión es fonémica y discreta. Si se
calculara una representación fonética categórica de la señal del
habla a nivel preléxico, y esto ocurriera de manera serial, de modo
que se completara un análisis fonético de la entrada antes del
acceso léxico, el nivel léxico no sería sensible a las diferencias
featurales entre los fonemas. Un fonema sería como cualquier otro,
y la bondad léxica del ajuste tendría que basarse en alguna medida
del número de fonemas coincidentes. Por lo tanto, tales modelos
pueden ser rechazados.
Estos resultados, sin embargo, son consistentes con los modelos
en los que las representaciones preléxicas se activan en proporción
a su coincidencia acústica con la entrada y en los que la activación
de una palabra a su vez refleja
Continuidad y graduación en el procesamiento del
habla 17
el patrón de activación preléxica. Aunque las manipulaciones en los
estudios anteriores han sido todas subcategorizadas, los efectos
todavía pueden ser descritos fonéticamente. El número de
características de desajuste, por ejemplo, puede representarse en
términos de grado de apoyo a determinados fonemas. Asimismo, la
variación subcategórica en la VOT puede representarse mediante la
activación relativa de las paradas con voz frente a las paradas sin
voz, y el desajuste subcategórico en las palabras con empalme
cruzado puede modular la cantidad de apoyo para cada uno de los
fonemas implicados en el empalme.
Estos resultados son por lo tanto consistentes con modelos como
TRACE y Shortlist en los que las representaciones preléxicas son
fonémicas. En estos modelos, la información se extiende
continuamente hasta el nivel léxico. No hay una etapa serial en la
que se haga una catego- rización fonética absoluta de la entrada
antes del acceso al léxico. TRACE es un modelo de activación
interactiva en el que las cascadas de activación continúan entre las
representaciones (McClelland y Elman 1986). Aunque en la versión
implementada de Shortlist hay un aporte fonético categórico al
léxico, esta implementación se considera una mera aproximación a
un proceso más continuo (Norris 1994; Norris et al. 2000). Si el
grado de activación de las representaciones de los fonemas
preléxicos puede variar continuamente, y esta activación puede
extenderse a las representaciones léxicas, entonces pueden
explicarse los efectos subfonémicos sobre la activación léxica. Por
supuesto, los presentes resultados también serían coherentes con los
modelos en los que las representaciones preléxicas son más grandes
o más pequeñas que el fonema, siempre que esas representaciones
tengan valores de activación graduales y pasen la activación
continuamente hasta el léxico.

3.3. La decodificación fonética no es suficiente

Sin embargo, los resultados de varios experimentos recientes


imponen mayores limitaciones a la granularidad del proceso de
activación léxica. En estos nuevos experimentos se midió la
activación relativa de diferentes palabras que comparten las mismas
secuencias fonéticas. Por consiguiente, a diferencia de los estudios
descritos anteriormente, la información que se varió en estos
nuevos estudios no ofreció un apoyo diferencial a los fonemas
alternativos. En cambio, proporcionó apoyo a uno u otro léxico
18James M. McQueen, Delphine Dahan y Anne Cutler

interpretación de la misma secuencia fonética. Como describimos


con más detalle a continuación, no hay una forma directa de
representar este tipo de información en términos sólo del grado
relativo de activación de los diferentes fonemas.
Tabossi y otros (2000) han demostrado en italiano que las con-
secuencias fonéticas de estructura silábica sobre la realización de
fonemas afectan a la activación de palabras que coinciden con esas
secuencias. Una palabra que no se ajustaba a la estructura silábica
de la entrada (por ejemplo, si.lenzio, silencio, cuando la entrada
consistía en el fragmento de sílaba [sil]) recibía menos apoyo de la
entrada que una palabra que se ajustaba a esta estructura (por
ejemplo, sil.vestre, silvan). Lo contrario ocurría cuando la entrada
era el fragmento [si.l], tomado de si.lenzio. En un análisis
puramente fenomenal, los fragmentos eran idénticos. No obstante,
la diferencia subfonémica entre los dos tipos de fragmentos
(indicada al menos en parte por una pequeña pero robusta
diferencia duracional en las vocales) parece haberse introducido en
el léxico, influyendo en la palabra ac- tivación. Podría parecer que
los resultados podrían modelarse en función del grado de activación
de las representaciones fonémicas preléxicas (la cantidad de
activación de la /s/, la /i/ y la /l/, por ejemplo). Pero, como las
pruebas no favorecen al mismo tiempo a los fonemas alternativos y,
por tanto, a las palabras alternativas con transcripciones fonéticas
diferentes, no hay manera de que esa cuenta del nivel léxico
distinga entre los diferentes tipos de entrada. Por consiguiente, la
información adicional no fonética debe influir en la activación del
léxico.
Spinelli, McQueen y Cutler (2003), en un estudio de enlace en
francés, examinó la activación de las palabras iniciales de vocales y
consonantes (por ejemplo, oignon, cebolla, y rognon, riñón) en
frases como C'est le dernier oignon (Es la última cebolla). En este
contexto, el final [euros] de dernier se produce y se resilaba con la
siguiente sílaba, haciendo que la frase sea fonéticamente idéntica a
C'est le dernier rognon. Los análisis acústicos revelaron, sin
embargo, que existían diferencias duraderas fiables en las
consonantes centrales, dependiendo de las intenciones del hablante
(por ejemplo, el [euros] medio era más largo en dernier rog- non
que en dernier oignon). En los experimentos de preparación de la
identidad intermodal, sólo se facilitaban de manera fiable las
respuestas a las palabras que el orador tenía intención de
pronunciar. Aunque en ambos casos la información era consistente
con un [euros], la distinción duracional parece tener
Continuidad y graduación en el procesamiento del
habla 19
influyó en el nivel léxico, ayudando a los oyentes a recuperar el
mensaje deseado por el orador.
Una forma de acomodar estos resultados en la silabación y el li-
aisonaje es asumir que las representaciones preléxicas son
variaciones alofónicas de los fonemas, más que fonemas
independientes del contexto (como en el modelo PARSYN, Luce et
al. 2000). Los alófonos son variaciones de los fonemas que están
condicionados por el contexto en el que se producen. Este contexto
puede ser la posición del fonema dentro de una sílaba (como el
inicio de la sílaba o la coda), o si la sílaba en la que se produce el
fonema está estresada o no.
El análisis alofónico de la señal de voz podría dar cuenta de los
resultados de Tabossi y otros (2000) (por ejemplo, la [l] en [si.l]
podría ser un alófono diferente del de [sil], lo que daría lugar a la
activación diferencial de sil- zio y silvestre). Asimismo, los resultados
de Spinelli y otros (2003) podrían explicarse si las consonantes de
enlace (como el [euro] en dernier oignon) dieran más apoyo a un
alófono final de la sílaba, mientras que las consonantes iniciales de
la palabra (como el [euro] en dernier rognon) dieran más apoyo a
un alófono inicial de la sílaba (obsérvese que, por este motivo, la
resilabación en contextos de enlace es incompleta).
Un modelo alofónico también podría tener en cuenta los efectos
en la activación de palabras del estrés léxico o de los patrones de
acento en los idiomas que utilizan estos factores prosódicos. La
información sobre el estrés léxico parece fluir el grado de
activación de las palabras en idiomas como el español (Soto-Faraco
et al. 2001) y el holandés (Cutler y Donselaar 2001), es decir, en
idiomas en los que esta información es importante para la
desambiguación léxica (véase Cutler, Dahan y Donselaar 1997,
para una revisión). Soto-Faraco y otros, por ejemplo, encontraron
un efecto de desajuste de tensión inhibitoria en el cebado de
fragmentos intermodales (por ejemplo, el fragmento prinCI-, el
comienzo de prinCIpio, que está acentuado en la segunda sílaba,
produjo respuestas más lentas al principio de objetivo visual, que
está acentuado en la primera sílaba, PRINcipe, que un fragmento no
relegado).
Se ha sugerido que la información sobre el estrés léxico no se utiliza en
el proceso inicial de acceso léxico en inglés porque no es útil para
la desambiguación léxica (Cutler 1986). Investigaciones más
recientes, sin embargo, han demostrado que la activación léxica es
modulada por la información de estrés en inglés, pero menos para
los hablantes nativos que para los holandeses.
20James M. McQueen, Delphine Dahan y Anne Cutler

Bilingües ingleses (Cooper, Cutler y Gales presentados). La


información de estrés puede modificar la activación de palabras con
más fuerza en los bilingües porque han tenido más oportunidades
de aprender el valor de esta información (por ejemplo, en el
procesamiento del idioma nativo, el holandés). Por lo tanto, estos
resultados apoyan la sugerencia de que la información
suprasegmentaria se utilice en la medida en que sea útil. Por lo
tanto, en idiomas de tensión fija como el francés, en los que la
información sobre la tensión léxica no es contrastante, esta
información no parece modular la actividad léxica (Dupoux y otros,
1997; Peperkamp y Dupoux, 2002). Un tipo diferente de
información suprasegmentaria, que para los charranes acentuados
en palabras japonesas, también parece utilizarse en el acceso léxico
(Cutler y Otake 1999). Una vez más, la información de acento de
tono puede utilizarse para la desambiguación léxica en japonés.
Las influencias suprasegmentarias en la activación léxica podrían ser
capturadas
por modelos con representaciones alofónicas preléxicas. Sin
embargo, tanto los modelos alofónicos como los fonémicos se ven
cuestionados por los experimentos que han examinado el
reconocimiento de secuencias que, en una transcripción fonética o
alofónica, serían léxicamente ambiguas. Gow y Gordon (1995)
compararon la activación léxica generada por secuencias ambiguas
que consisten en una o dos palabras (como dos labios o tulipanes).
Sus resultados sugieren que la activación de palabras puede ser
modulada por la presencia de señales acústicas que marcan los
inicios de las palabras en la señal. Se encontraron pruebas de la
activación de una palabra incrustada en la secuencia (por ejemplo,
labios) en secuencias de dos palabras (por ejemplo, dos labios), es
decir, cuando puede haber pistas de palabras incrustadas, pero no en
secuencias coincidentes de una palabra (por ejemplo, tulipanes).
Las investigaciones recientes sobre la activación de palabras
incrustadas en los inicios de palabras más largas también ponen en
tela de juicio los modelos que sólo codifican información
puramente segmentaria (incluso los modelos alofónicos con
segmentos sensibles al contexto). Davis, Marslen-Wilson y Gaskell
(2002) y Salverda, Dahan y McQueen (presentado) han demostrado
que las sutiles diferencias de duración entre las producciones de una
se- quencia ambigua (por ejemplo, /p euros/ en holandés), ya sea
como una palabra monosilábica (pan, id.) o como el inicio de una
palabra más larga (panda, id.), predisponen a los oyentes a la
interposición de la secuencia a favor de las intenciones del hablante.
Por ejemplo, Salverda y otros demostraron que la activación
temporal de la palabra incrustada pan, al escuchar la palabra
portadora panda,
Continuidad y graduación en el procesamiento del
habla 21
era más grande cuando el pan de sílabas era de mayor duración.
Este sesgo en la activación de palabras puede deberse a la tendencia
(en la muestra registrada de Sal- verda et al. y presumiblemente en
el idioma holandés en gen- eral) a que las palabras monosilábicas
sean más largas que las secuencias equivalentes que forman la
porción inicial de las palabras polisilábicas. Salverda et al. sugieren
que esto puede ser el resultado de un alargamiento segmentario en
el borde de los dominios prosódicos.

3.4. Resumen

Cada vez hay más pruebas que demuestran una modulación de


grano fino de la cantidad de apoyo de determinadas palabras
durante el acceso léxico. Por lo tanto, no es realista un modelo en el
que se cuente el número de fonemas coincidentes entre cada palabra
candidata y la entrada. Tampoco lo son los modelos en los que hay
una etapa discreta y categórica de procesamiento antes del acceso al
léxico: Así como la activación de las formas de palabras parece
propagarse continuamente a los significados de las palabras,
también la activación de las representaciones preléxicas se propaga
a las formas de las palabras.
Algunos resultados sobre la difusión de información de grano
fino al lexicón son coherentes con una variedad de opciones de
representación preléxica: Se trata de experimentos en los que la
información podría utilizarse para evaluar el apoyo relativo en la
entrada de diferentes secuencias fonémicas. Pero otros resultados
imponen limitaciones a la naturaleza del procesamiento preléxico:
Se trata de experimentos que han demostrado que hay variación en
la activación léxica incluso cuando sólo una secuencia fonémica
está fuertemente apoyada por la señal (es decir, cuando dos señales
con la misma transcripción fonética tienen efectos diferenciales en
la activación de las palabras). Un análisis puramente fonémico no
captaría la variación alofónica de la señal del habla (por ejemplo, la
debida a la estructura de la sílaba o a las pautas de tensión léxica);
no obstante, esa variación parece influir en la activación léxica. Por
consiguiente, tal vez sea preferible utilizar representaciones
alofónicas (es decir, una para cada variante contextual de cada
fonema). Pero ahora hay pruebas de que la activación léxica es
también sensible a las diferencias que no pueden ser captadas por
las representaciones alofónicas.
22James M. McQueen, Delphine Dahan y Anne Cutler

Aún no está claro cuál es la mejor manera de modelar los


últimos datos sobre la actividad léxica. Se pueden considerar dos
posibles enfoques. Uno es mantener las representaciones
segmentarias preléxicas (por ejemplo, en términos de fonemas),
pero añadir un nivel paralelo de representaciones suprasegmentales
(es decir, representación de estructuras silábicas, patrones de
tensión léxica, límites de dominio prosódico, etc.). Es interesante
observar aquí que la información de grano fino que parece modular
la activación léxica, si bien puede describirse como subfonémica, o
incluso subalofónica, también puede considerarse
suprasegmentaria, en el sentido de que implica estructuras
prosódicas más grandes que el segmento. Por este motivo, la
palabra activación sería modulada por la coincidencia con las
representaciones segmentaria y suprasegmentaria. Una
característica atractiva de este enfoque es que proporciona una
relación unificada de, por una parte, los datos que tal vez podrían
explicarse mediante un modelo con representaciones alofónicas
preléxicas (por ejemplo, Spinelli et al. 2003; Soto-Faraco et al.
2001; Tabossi et al. 2000) y, por otra parte, los datos que ponen en
tela de juicio los modelos alofónicos (Davis et al. 2002; Gow y
Gordon 1995; Salverda et al. presentados).
La otra posibilidad es rechazar un nivel de procesamiento preléxico
y asumir en su lugar que la señal está directamente mapeada en
representaciones léxicas. Estas representaciones podrían consistir
en prototipos de la forma de cada palabra (como en el modelo
propuesto por Klatt 1979, 1989) o en la combinación de todas las
trazas asociadas a cada palabra (como en la vista episódica de
Goldinger 1998). En ambos tipos de modelo de mapeo directo, se
pueden almacenar a nivel léxico detalles considerables sobre la
forma acústica y fonética de las palabras. Cualquiera de las dos
clases de modelo de mapeo directo podría así dar cuenta de la
sensibilidad del proceso de acceso léxico a todos los aspectos de
grano fino del en-punto, siempre que esas indicaciones sean
específicas de la palabra.
La decodificación del habla, por lo tanto, implica la activación
en paralelo de múltiples palabras candidatas. Este proceso es
continuo: no hay subetapas discretas de procesamiento - la
información fluye en cascada desde el nivel preléxico al léxico, y
desde las representaciones de la forma de la palabra a las
representaciones del significado de la palabra. Este proceso también
se gradúa: La activación de las representaciones en cada uno de
estos niveles cambia continuamente a lo largo del tiempo, a medida
que se acumula la información de la sig- nalización del habla, y a
medida que las diferentes palabras candidatas compiten con cada
una de ellas
Continuidad y graduación en el procesamiento del
habla 23
otro. Las diferencias en el grado de activación léxica parecen
reflejar aspectos de la señal del habla que no pueden ser captados
por una descripción puramente segmentaria de esa señal.

4. La producción del discurso

La opinión de que el procesamiento de la información fonológica


en la comprensión de la palabra hablada es continuo y graduado
está en claro contraste con la opinión de que el acceso léxico en la
producción del habla está escenificado y es categórico (Levelt y
otros, 1999). ¿Por qué el flujo de información a través del proceso
de codificación del habla, y la naturaleza de esa formación, podría
ser diferente del de la decodificación del habla? En esta sección
examinaremos los argumentos relativos a estas dos cuestiones en la
producción del habla, a la luz de las pruebas de comprensión.

4.1. Flujo de información en la producción y la percepción

Hemos argumentado que, en la percepción, la activación se


extiende continuamente desde el nivel preléxico hasta el nivel de la
forma de la palabra, y hasta el nivel del significado. Pero en
WEAVER++ (Levelt et al. 1999; véase también Roelofs, este
volumen), la producción de la forma de la palabra consiste en dos
etapas discretas de procesamiento (Levelt et al. se refieren a una
ruptura entre el dominio conceptual/sintáctico y el dominio
fonológico/articulatorio). Hay una difusión de la activación que
implica múltiples palabras entre los niveles conceptual y lemático
(los lemas son representaciones sintácticas de palabras que
codifican propiedades gramaticales como el género). También hay
propagación de la activación entre múltiples representaciones a
nivel de la forma de la palabra y la codificación fonológica. Pero
hay un paso discreto entre las representaciones del lema y la forma
de la palabra: Sólo se activa la forma del lema seleccionado.
Levelt y otros motivan este supuesto de serialidad de dos
maneras: primero, sobre la base teórica de que sería
contraproducente activar una fonología innecesaria; y segundo,
sobre la base empírica (véase, por ejemplo, Levelt y otros, 1991).
Sin embargo, experimentos más recientes han demostrado que la
versión más sólida de esta hipótesis de serialidad no es defendible
(por ejemplo, Peterson y Savoy [1998] presentaron pruebas de
24James M. McQueen, Delphine Dahan y Anne Cutler

activación paralela de las formas fonológicas de ambos miembros


de los pares de sinónimos como el sofá-sofa). Por consiguiente,
Levelt y otros (1999) sugieren que la activación múltiple de las
formas de las palabras puede limitarse a los casos en que se
selecciona más de un lema, como cuando hay que producir un
cuasi-sinónimo bajo la presión del tiempo. De esta manera se puede
preservar el supuesto de serialidad en WEAVER++: Sólo se activan
las formas de palabras para los lemas seleccionados, pero hay
algunas circunstancias en las que se puede seleccionar más de un
lema.
Además de las conclusiones de Peterson y Savoy (1998), Jesche-
niak y Schriefers (1998) y Cutting y Ferreira (1999) han aportado
pruebas que sugieren que, al menos en algunas circunstancias, la
activación fluye continuamente de la semántica a la fonología
durante la producción del discurso. Esos resultados, si bien pueden
explicarse mediante el modelo WEAVER++ (véase el análisis de
Levelt y otros, 1999), también respaldan los supuestos de
activación continua de la difusión en el modelo DSMSG (Dell
1986; Dell y otros, 1997; Dell y Gordon, este volumen). El modelo
DSMSG es un relato interactivo en dos etapas del acceso léxico en
la producción. El primer paso es el acceso al lema, el segundo es el
acceso fonológico. Durante el acceso al lema, la activación se
extiende desde las unidades semánticas a las unidades lemáticas,
pero también desciende en cascada a las unidades fonológicas.
Además de esta activación de avance, hay una retroalimentación
positiva de los lemas a las representaciones semánticas y de las
representaciones fonológicas a los lemas. Los nodos de lemas más
activados son, por lo tanto, el objetivo y sus vecinos semánticos y
formales: Se selecciona el nodo lemático más altamente activado.
El segundo paso comienza cuando el nodo lemático seleccionado
recibe una gran sacudida de activación. La activación se extiende
entonces a las unidades fonológicas asociadas con la palabra
seleccionada y, a través de las conexiones de retroalimentación, de
vuelta a las representaciones semánticas y de lemas. A diferencia de
WEAVER++, el modelo DSMSG encarna por lo tanto una teoría
interactiva más que modular. Pero, debido a que la activación de las
sacudidas ordenadas en serie domina el patrón de activación, el
modelo es sólo muy interactivo. La activación a nivel semántico
tiene sólo leves ef- efectos a nivel fonológico y viceversa. No
obstante, el modelo predice correctamente que hay situaciones en
las que hay una activación (débil) de las representaciones
fonológicas que no se requieren para el enunciado que se produce
realmente.
Continuidad y graduación en el procesamiento del
habla 25
Por lo tanto, en la literatura de producción no hay consenso
sobre si el flujo de información es escalonado o en cascada. Esto
contrasta con el acuerdo que se ha alcanzado de que el
procesamiento funciona en cascada en la comprensión del habla.
Sugerimos que hay dos razones para esta diferencia. La primera es
la evidencia. Nuestra revisión de la literatura de comprensión deja
claro que hay un abrumador apoyo empírico para el flujo continuo
de información hasta el nivel de significado. Los datos sobre el
procesamiento en cascada en la producción son más escasos, y los
resultados que hay pueden ser explicados por un modelo por etapas
(Levelt et al. 1999).
La segunda razón se basa en argumentos sobre la naturaleza de
la codificación y descodificación del habla. Levelt y otros (1999)
han argumentado que es poco probable que la activación de la
fonología de una palabra no deseada durante la producción del
habla ayude a la codificación fonológica y, por lo tanto, que es
ineficiente para activar la fonología innecesaria. Esta es una
motivación clave para la suposición del procesamiento por etapas
en WEAVER++. Esta es también una motivación para las
sacudidas de activación en el modelo DSMSG, que actúan para
sesgar la codificación fonológica fuertemente a favor de la palabra
pretendida. Sin embargo, una cascada limitada (es decir, sólo lo
suficiente para activar la fonología de la palabra deseada antes de
que se complete la selección del lema) podría ser de algún
beneficio. Como señalan Dell y otros (1997), podría ser útil tener
acceso a la forma fonológica de un lema candidato para asegurarse
de que su forma esté disponible antes de que se seleccione ese
lema. Es una ventaja para el hablante si elige un lema cuya forma
será fácil de encontrar más adelante. Dell y otros afirman que esto
reduciría la inci- dencia de los estados de punta de la lengua (TOT),
en los que el hablante se compromete a una palabra para la que la
forma fonológica no es accesible (o sólo parcialmente disponible).
Nótese, sin embargo, que esta motivación para la limitada cascada de
información...
La producción depende de la suposición de la retroalimentación:
para que se acumule un beneficio, el nivel fonológico debe poder
repercutir en el procesamiento a nivel del lema. Por lo tanto, no está
claro si incluso una cascada limitada sería beneficiosa para la
producción del habla. Sólo los modelos con retroalimentación
podrían utilizar el procesamiento en cascada para reducir el número
de estados TOT. En un modelo sin retroalimentación, el flujo
continuo desde el nivel del lema hasta el nivel de la forma de la
palabra no ayudaría a reducir los estados TOT. Este beneficio
potencial del procesamiento en cascada, por lo tanto, des-
26James M. McQueen, Delphine Dahan y Anne Cutler

depende del supuesto adicional de la retroalimentación en el


sistema de producción. No hay pruebas que hagan necesario hacer
esta suposición (Levelt y otros, 1999; véase Dell y Gordon, este
volumen, y Roelofs, este volumen, para un análisis más detallado
de las pruebas a favor y en contra de la retroalimentación en el
sistema de producción). A falta de pruebas sólidas que apoyen la
retroalimentación, no se pueden esgrimir argumentos sólidos en
favor de las ventajas de un procesamiento en cascada, incluso
limitado, en la codificación del habla. Por lo tanto, tal vez sea mejor
interpretar los resultados que pueden tomarse como pruebas de la
cascada en la producción (Cutting y Ferreira 1999; Jescheniak y
Schriefers 1998; Peterson y Savoy 1998) de manera que sean
coherentes con un modelo escalonado de retroalimentación (es
decir, como lo hacen Levelt y otros 1999). Sin embargo, es
evidente que, independientemente de que haya o no
retroalimentación en la codificación fonológica, la amplia cascada
de información a través del sistema de producción sería
contraproducente porque haría más difícil hablar.
Se podría argumentar que el procesamiento en cascada en la percepción
es
también es contraproducente. Podría ser improductivo activar
significados innecesarios durante la comprensión, es decir, los
significados de las palabras candidatas que pierden el proceso de
competencia léxica. ¿No sería eficiente restringir la activación de
significados a la de la forma de la palabra ganadora? Uno podría
imaginar un proceso de dos etapas: La primera etapa consistiría en
seleccionar una forma de palabra sobre la base de su adecuación
con el signo; la segunda etapa sería acceder a su significado e
integrarla en el contexto.
La tarea del oyente, sin embargo, es derivar el mensaje que el
hablante entendió de una infinita gama de posibles expresiones.
Además, es más probable que se empobrezca el insumo del
procesamiento fonológico en la percepción que el insumo del
procesamiento fonológico en la producción. Como hemos
argumentado anteriormente, el procesamiento en cascada desde la
señal acústica hasta el nivel de forma léxica ayuda en el proceso de
decodificación cuando falta información en la entrada o ésta aún no
está disponible. Asimismo, también es útil para que la información
pase en cascada del nivel de forma de palabra al nivel de
significado en la percepción. Algunas ambigüedades pueden ser
imposibles de resolver sobre la base de la información basada
únicamente en la forma (por ejemplo, las debidas a las palabras
polisémicas). Dado que las dificultades de significado son a veces
esenciales para la comprensión, tiene sentido utilizarlas lo antes
posible. La información de nivel superior puede
Continuidad y graduación en el procesamiento del
habla 27
también ayudan a resolver ambigüedades temporales en la señal (es
decir, antes de que se escuche la información de forma
desambiguante). La activación de los significados de los candidatos
de forma incremental permite que algunos candidatos sean
desfavorables sobre la base de la integración de su significado en el
contexto.
Varios estudios han demostrado, en efecto, efectos muy
tempranos del contexto en el reconocimiento de la palabra hablada.
En esos estudios, los oyentes escucharon frases habladas mientras
se registraban los potenciales cerebrales relacionados con los
eventos. A medida que se escuchaban los sonidos iniciales de una
palabra que coincidían o no con el contexto, pero antes de que la
información acústica permitiera a los oyentes distinguir la palabra
de sus competidores, se demostró que las respuestas cerebrales
variaban en función de la congruencia semántica de la palabra (Van
Berkum y otros, presentados; Van den Brink, Brown y Hagoort
2001; Van Petten y otros, 1999). Las influencias contextuales se
producen- anillo antes de que se haya acumulado suficiente
información acústica para que los oyentes puedan identificar una
palabra de manera única muestran no sólo que los oyentes tienen un
acceso rápido a los significados de las palabras, sino también que
utilizan esta in formación en su evaluación de la señal de voz
entrante tan pronto como esa información está disponible. Dado que
el nivel de significado puede ayudar en el proceso de comprensión,
es muy beneficioso pasar información continuamente hasta ese
nivel.
Esta comparación de la producción del discurso con la comprensión del
mismo
sugiere, por lo tanto, que los dos sistemas pueden diferir con
respecto a la forma en que la información fluye durante la
conversación frente a la escucha. Hay más evi-dencia a favor del
flujo continuo de información en la comprensión que en la
producción, y lo que está disponible en la producción puede ser
explicado por un modelo por etapas. Incluso en los modelos de
producción con procesamiento por etapas hay límites en cuanto a la
medida en que la información fluye entre las diferentes etapas de la
codificación léxica. Además, hay buenas razones de diseño por las
que puede haber un procesamiento en cascada en la percepción y un
procesamiento por etapas en la producción. La naturaleza de la
tarea a la que se enfrenta el oyente hace que el procesamiento en
cascada sea valioso para la comprensión, mientras que la naturaleza
de la tarea a la que se enfrenta el hablante hace que el flujo de
información en cascada en la producción sea perjudicial.

4.2. La granularidad en la producción


28James M. McQueen, Delphine Dahan y Anne Cutler

Hemos argumentado anteriormente que el nivel léxico del sistema


de comprensión es sensible a las diferencias de grano fino (es decir,
subfonémicas) en la señal del habla. Esto significa que esas
diferencias deben ser una parte sistemática de la señal (es decir, no
son sólo ruido). Por lo tanto, se deduce que el sistema de
producción del habla debe producir esas diferencias de manera
sistemática. Sin embargo, en WEAVER++ (véase Levelt y otros,
1999, para las diferencias), una forma de palabra en producción es
una representación "desnuda", que consiste en una secuencia de
fonemas que no está silabeada y no tiene un patrón de tensión (a
menos que la palabra tenga un patrón de tensión irregular). Las
sílabas y las pautas de tensión regulares se construyen sobre la
marcha durante la "prosodificación", una etapa posléxica de la
codificación fonológica que calcula, entre otras cosas, la
silabización de las cadenas de fonemas dentro de las frases
fonológicas.
Una de las razones que Levelt y otros usan para motivar esto como...
La suma es que la silabación depende del contexto circundante (por
ejemplo, la /v/ final de save es sílaba final, pero, al menos en
algunas cuentas, será sílaba inicial en la frase clitizada save it). Es
decir, la silabación de una palabra no es fija e inmutable (véase
Levelt y otros, 1999, para más información). Por lo tanto, en
WEAVER++ no hay una representación léxica de, por ejemplo, la
duración de la primera sílaba del panda o de la primera y única
sílaba del panda: Ambas sílabas son simplemente la cadena de
fonemas /p/, /euro/, /n/. Pero los oyentes son sensibles a las
diferencias de duración entre las fichas de las sílabas como
/pn/ procedentes de estos diferentes contextos, y los hablantes
tienden a pro- ducir tales sílabas de manera sistemática (Davis et al.
2002; Salverda et al. presentado). De manera similar, los oyentes
son sensibles a otros detalles finos en la señal del habla (por
ejemplo, los debidos a la silabación, enlace o asimilación; véase
más arriba), y los hablantes producen esos detalles. ¿Cómo podría
entonces un modelo como WEAVER++ explicar este
comportamiento de producción?
Una posibilidad es que, en el contexto de WEAVER++, el
procedimiento de prosodificación postléxico se enriquezca con más
conocimientos pro-sódicos (por ejemplo, en el caso de la palabra
incrustada, conocimientos que dan lugar a un alargamiento
segmentario en el borde de los dominios prosódicos). La
especificación de esta jerarquía prosódica correría en paralelo con
el proceso de codificación léxico-segmental, y estas especificidades
prosódicas podrían entonces añadirse a las palabras fonológicas
generadas durante el proceso de codificación.
Continuidad y graduación en el procesamiento del
habla 29
de la prosodificación (es decir, el mismo proceso que en el modelo
existente, pero con un componente prosódico más rico). Por
consiguiente, durante la producción no habría ninguna
especificación léxica de la duración del segmento (o cualquier otro
detalle subfonémico) en palabras particulares: Las diferencias
duraderas surgirían como resultado de las especificaciones
proporcionadas por la jerarquía pro-sódica.
Sin embargo, en la percepción, como muestran las pruebas que
hemos resumido, el sistema de reconocimiento utiliza detalles
subfonémicos para modular la activación de las representaciones
léxicas. Por lo tanto, las representaciones perceptivas en forma de
palabras deben ser sensibles de alguna manera a estas diferencias
subfonémicas. Obsérvese que esto no significa que cada
representación léxica individual en el sistema perceptivo deba
incluir información acústica detallada (por ejemplo,
especificaciones de duración). Como hemos sugerido
anteriormente, la información acústica subfonémica podría influir
en la activación de las representaciones suprasegmentales
preléxicas, que a su vez modularían las representaciones en forma
de palabras. La activación de una palabra cambiaría así en función
de una coincidencia con una especificidad abstracta, en lugar de ser
el resultado de una coincidencia directa con la información
subfonémica. Por ejemplo, la activación de pan podría potenciarse
si la duración de la sílaba [p euros] indicara que la palabra pan
estaba alineada con el borde de un dominio prosódico. Sin
embargo, independientemente de la forma en que la información
subfonémica ex-acto ejerza su efecto sobre la activación léxica en
la percepción, está claro que esta información puede surgir de un
sistema de producción en el que esa información no esté codificada
léxicamente.
La propuesta de que la información de grano fino modula la
actividad léxica en la percepción pero se especifica de forma
posléxica en la producción es coherente con nuestra afirmación de
que los dos sistemas de procesamiento están bien ajustados a las
diferentes demandas de tareas de decodificación y codificación del
habla. El oyente debe ser capaz de reconocer que una palabra en un
enunciado es una muestra de una palabra particular, y el
conocimiento que va más allá de la composición segmentaria de esa
palabra puede ayudar en ese proceso (y de hecho parece hacerlo).
El detalle fonético ayuda a la comprensión porque cuanta más
información haya para que los oyentes la utilicen, más fácil les
resultará distinguir una palabra de otra.
El hablante, por otro lado, necesita construir una declaración
dada un mensaje conceptual. Mientras que el material segmentado
para una palabra dada debe ser almacenado léxicamente y
recuperado cuando esa palabra va a ser spo-
30James M. McQueen, Delphine Dahan y Anne Cutler

ken, podría ser mucho más eficiente completar la codificación


fonológica de esa palabra en su contexto de pronunciación
utilizando reglas post-léxicas. Ciertamente no hay necesidad de
detalles fonéticos en la etapa de selección de lemas, donde la
elección entre las palabras es semántica. Tampoco puede haber
necesidad de detalles fonéticos o fonológicos, más allá de la
información segmentaria desnuda, en la etapa de formación de la
palabra, ya que las palabras se seleccionan sobre la base de
especificaciones semánticas (es decir, la difusión de la activación
de los lemas). Por consiguiente, puede haber una interesante
asimetría entre el proceso de selección léxica en la percepción, en el
que la información fonética/fonológica es primaria y la información
semántica es secundaria, y el proceso de selección léxica en la
producción, en el que la información semántica es primaria y la
información fonética/fonológica es secundaria.
La evidencia sobre los detalles subfonémicos en la señal de voz es por lo
tanto
consistente con las suposiciones de las representaciones en forma
de palabras "desnudas" y la prosodificación post-léxica en
WEAVER++. Pero esta evidencia desafía otro supuesto de este
modelo: el silabario mental (Levelt et al. 1999; Levelt y Wheeldon
1994). La salida de la etapa de codificación fonológica
(prosodificación) en WEAVER++ constituye la entrada a la etapa
de codificación fonética, donde se generan pro- gramas gestuales
para la articulación. De acuerdo con la teoría, los programas
gestuales para las sílabas de alta frecuencia se almacenan, en forma
de precompilación, en un silabario (también hay un segundo
mecanismo para la codificación fonética de las sílabas infrecuentes
o novedosas). Los hablantes tienden a utilizar sólo un inventario
relativamente pequeño de sílabas comunes para la mayor parte de
su producción vocal (se puede estimar que 500 sílabas son
suficientes para cubrir el 80% de todo el habla inglesa, Levelt et al.
1999, y el 85% de todo el habla holandesa, Schiller et al. 1996). Así
pues, el silabario está motivado por la idea de que sería eficiente
almacenar pro- gramas motoras precompiladas para un conjunto de
patrones silábicos frecuentemente recurrentes.
Los datos de producción relacionados con el estudio de las ef-
subfonémicas
Sin embargo, los defectos en la percepción sugieren que cada
muestra de una sílaba que produce un hablante no es siempre la
misma. El [euros] en la tercera sílaba de dernier rognon tenderá a
ser más largo que el [euros] en la tercera sílaba de dernier oignon
(Spinelli et al. 2003), la [l] en la segunda sílaba de dos labios
tenderá a ser más largo que la [l] en tulipanes (Gow y Gordon
1995), la sílaba [p euros] tenderá a ser más largo
Continuidad y graduación en el procesamiento del
habla 31
cuando el hablante pretende la palabra panda que cuando el
hablante quiere decir panda (Salverda et al. presentado), y así
sucesivamente. Estas conclusiones ponen en duda la motivación del
silabario de que el habla consiste en gran medida en un número
relativamente pequeño de patrones recurrentes y, más en general,
ponen en duda la noción de silabario.
Levelt y otros (1999) señalan que el fino detalle de las sílabas
puede cambiar como consecuencia de la coarticulación (en la que
las instrucciones motrices de las sílabas sucesivas se superponen en
el tiempo). Pero esta sugerencia con- cerna un proceso que ocurre
después de que se ha accedido al silabario y, por lo tanto, es
coherente con la hipótesis silábica. Sin embargo, en los casos de
diferencias subfonémicas que desambiguen palabras o secuencias
de palabras que de otro modo serían idénticas, es necesario
especificar estas diferencias antes de la codificación fonética. Es
decir, el codificador fonético necesita, como parte de su entrada,
una especificación de la diferencia entre las dos lecturas de una
secuencia fonéticamente ambigua. Si el detalle fino surgiera en la
etapa de prosodificación (como hemos sugerido que podría hacerlo
para generar las diferencias de duración segmentaria entre dernier
rognon y dernier rognon, entre dos labios y tulipanes, entre pan y
panda, etc.), entonces se especificaría antes de acceder al silabario.
Lo mismo sucedería si los detalles se codificaran en el nivel léxico
del modelo. Pero si sólo hay un programa gestual para cada sílaba,
el acceso al silabario borraría estas distinciones preespecificadas.
Parece claro que, en cualquier relato de la producción del discurso, hay
debe ser un medio por el cual los oradores pueden generar detalles
fonéticos muy finos, pero no obstante sistemáticos. En
WEAVER++, se aprecia que las especificaciones léxicas o
prosódicas tendrían que ser capaces de modificar los programas
motores después de que se haya accedido a ellos desde el
laboratorio de silicio. Esto, sin embargo, parece socavar cualquier
beneficio que pudiera obtenerse del almacenamiento de sólo un
número limitado de programas motores precompilados de Syl-
Labary.

5. Conclusiones

Hemos argumentado que la decodificación del habla es continua y


graduada. La formación fluye a través del sistema de
reconocimiento en cascada todos los
32James M. McQueen, Delphine Dahan y Anne Cutler

hasta el nivel de significado, sin etapas de procesamiento discretas.


En este sistema, se evalúan múltiples palabras en paralelo; estas
palabras candidatas compiten entre sí, y su activación es modulada
por el detalle subfonémico en la señal del habla. Hemos sugerido
que este sistema se adapta bien a las exigencias de la escucha del
habla.
La forma en que la información fonética y fonológica se procesa
en la codificación del habla parece ser muy diferente. El acceso
léxico es un proceso de dos etapas, con, en algunos casos, una
estricta serialidad y, en otros, una cascada limitada entre los
niveles. En ningún modelo de producción actual hay una activación
paralela masiva de las formas de la palabra. Fur- termore, parece
que no es necesario especificar los detalles subfonémicos en el
nivel léxico en la producción. En su lugar, este tipo de detalle
podría ser completado por reglas post-léxicas. Una vez más, esta
visión parece muy adecuada para las exigencias de la tarea de
hablar. Sin embargo, las pruebas sobre el detalle subfonémico en la
señal del habla ponen en duda la hipótesis de que la codificación
fonética del habla implica un silabario mental. Por lo tanto, esta
evidencia exige no sólo el desarrollo de modelos de descodificación
del habla que puedan dar cabida a los efectos subfonémicos, sino
también una explicación de la génesis de estos efectos dentro de los
modelos de cómo los hablantes codifican el habla.

Referencias
Allopenna, Paul D., James S. Magnuson y Michael K. Tanenhaus
1998 Seguimiento del curso temporal del reconocimiento de la palabra hablada
mediante los movimientos de los ojos: Evidencias para modelos de
mapeo continuo. Journal of Memory and Language 38: 419-439.
Andruski, Jean E., Sheila E. Blumstein y Martha W. Burton
1994 El efecto de las diferencias subfónicas en el acceso al léxico. Cognición
52: 163-187.
Cluff, Michael S. y Paul A. Luce
1990 Vecindarios similares de palabras habladas de dos sílabas: Efectos
retroactivos en la activación múltiple. Revista de Psicología
Experimental: Percepción y Rendimiento Humano 16: 551-563.
Coenen, Else, Pienie Zwitserlood y Jens Bölte
2001 Variación y asimilación en alemán: Consecuencias para la adquisición y
representación léxica. Lenguaje y procesos cognitivos 16: 535- 564.
Connine, Cynthia M., Dawn G. Blasko y Debra Titone
Continuidad y graduación en el procesamiento del
habla 33
1993 ¿Tienen los inicios de las palabras habladas un estatus especial en el
reconocimiento de palabras auditivas? Diario de Memoria y
Lenguaje 32: 193-210.
Connine, Cynthia M., Dawn G. Blasko y Jian Wang
1994 Similitud vertical en el reconocimiento de la palabra hablada: Múltiples
actividades léxicas, diferencias individuales y el papel del contexto
de la frase. Percepción y Psicofísica 56: 624-636.
Connine, Cynthia M., Debra Titone, Thomas Deelman y Dawn G. Blasko
1997 Mapeo de similitudes en el reconocimiento de palabras habladas. Journal
of Memory and Language 37: 463-480.
Cooper, Nicole, Anne Cutler y Roger Wales
presentó "Constraints of lexical stress on lexical access" en inglés: Evidencia
de oyentes nativos y no nativos.
Cutler, Anne
1986 Forbear es un homófono: La prosodia léxica no limita el acceso al léxico.
Lenguaje y habla 29: 201-220.
Cutler, Anne, Delphine Dahan y Wilma van Donselaar
1997 Prosodia en la comprensión del lenguaje hablado: Una revisión de la
literatura. Lenguaje y habla 40: 141-201.
Cutler, Anne y Wilma van Donselaar
2001 El voornaam no es un homófono: Prosodia léxica y acceso léxico en
holandés. Lenguaje y habla 44: 171-195.
Cutler, Anne y Takashi Otake
1999 Acento en el reconocimiento de palabras habladas en japonés. Journal of
the Acoustical Society of America 105: 1877-1888.
Cutting, J. Cooper y Victor S. Ferreira
1999 Flujo de información semántica y fonológica en el lexicón Revista de
Psicología Experimental: Aprendizaje, Memoria y Cognición 25:
318-344.
Dahan, Delphine, James S. Magnuson y Michael K. Tanenhaus
2001a Curso temporal de los efectos de la frecuencia en el reconocimiento de
palabras habladas: Evi- dencia de los movimientos oculares.
Psicología cognitiva 42: 317-367.
Dahan, Delphine, James S. Magnuson, Michael K. Tanenhaus y Ellen M. Hogan
2001b Desajustes subcategoriales y el curso temporal del acceso léxico:
Evidencia de la competencia léxica. Lenguaje y procesos cognitivos
16: 507-534.
Davis, Matt H., William D. Marslen-Wilson y M. Gareth Gaskell
2002 Llevando a cabo el camino del jardín léxico: Segmentación y ambigüedad
en el reconocimiento de la palabra hablada. Journal of Experimental
Psychology: Percepción y rendimiento del hombre 28: 218-244.
Dell, Gary S.
1986 Una teoría de difusión-activación de la recuperación en la producción de frases.
Psychological Review 93: 283-321.
Dell, Gary S., Myrna F. Schwartz, Nadine Martin, Eleanor M. Saffran y Deborah
A. Gagnon
34James M. McQueen, Delphine Dahan y Anne Cutler

1997 Acceso léxico en altavoces afásicos y no afásicos. Psychological Review


104: 801-838.
Dupoux, Emmanuel, Christophe Pallier, Núria Sebastián-Gallés y Jacques
Mehler
1997 Una sordera desgarradora en francés. Revista de Memoria y Lenguaje
36: 399-421.
Frauenfelder, Uli H., Mark Scholten y Alain Content
2001 Inhibición de abajo hacia arriba en la selección léxica: Desajuste
fonológico ef-fectos en el reconocimiento de la palabra hablada.
Lenguaje y Procesos Cognitivos 16: 583-607.
Gaskell, M. Gareth y William D. Marslen-Wilson
1996 Variación fonológica e inferencia en el acceso léxico. Journal of
Experimental Psychology: Human Perception and Performance 22:
144-158.
Gaskell, M. Gareth y William D. Marslen-Wilson
1997 Integración de la forma y el significado: Un modelo distribuido de habla
por concepto. Lenguaje y procesos cognitivos 12: 613-656.
Gaskell, M. Gareth y William D. Marslen-Wilson
1998 fonológica en la percepción del habla. Journal of Experimental
Psychology: Human Perception and Performance 24: 380-396.
Gaskell, M. Gareth y William D. Marslen-Wilson
2001 Resolución de la ambigüedad léxica y reconocimiento de la palabra
hablada: Cerrar la brecha. Journal of Memory and Language 44:
325-349.
Goldinger, Stephen D.
1998 ¿Ecos de los ecos?: Una teoría episódica de acceso léxico. Psychologi-
cal Review 105: 251-279.
Goldinger, Stephen D., Paul A. Luce, David B. Pisoni y Joanne K. Marcario 1992
Preparación basada en la forma en el reconocimiento de la palabra hablada:
Los papeles de la com-
petición y prejuicio. Revista de Psicología Experimental:
Aprendizaje, Memoria y Cognición 18: 1211-1238.
Gow, David W.
2001 Asimilación y anticipación en el reconocimiento continuo de la palabra
hablada. Revista de Memoria y Lenguaje 45: 133-159.
Gow, David W.
2002 ¿La asimilación del lugar coronal inglés crea una ambigüedad léxica?
Journal of Experimental Psychology: Percepción Humana y Per-
formancia 28: 163-179.
Gow, David W. y Peter C. Gordon
1995 Influencias léxicas y preléxicas en la segmentación de palabras: evidencia
de la preparación. Journal of Experimental Psychology: Percepción
y actuación humana 21: 344-359.
Jakobson, Roman, C. Gunnar M. Fant y Morris Halle
Continuidad y graduación en el procesamiento del
habla 35
1952 Preliminares al análisis del discurso: Los rasgos distintivos y sus
correlaciones. Cambridge, MA: Massachusetts Institute of
Technology Press.
Jescheniak, Jörg D. y Herbert Schriefers
1998 Procesamiento en serie discreto frente a procesamiento en cascada en el
acceso léxico en la producción del habla: Más pruebas de la co-
activación de casi sinónimos. Revista de Psicología Experimental:
Aprendizaje, Memoria y Cognición 24: 1256-1274.
Klatt, Dennis H.
1979 : Un modelo de análisis acústico-fonético y acceso a la lexicología.
Revista de Fonética 7: 279-312.
Klatt, Dennis H.
1989 Revisión de modelos seleccionados de percepción del habla. En: William
D. Marslen-Wilson (ed.), Lexical Representation and Process, 169-
226. Cambridge, MA: Massachusetts Institute of Technology Press.
Levelt, Willem J. M., Ardi Roelofs y Antje S. Meyer
1999 Una teoría del acceso léxico en la producción de discursos. Ciencias del
Comportamiento y del Cerebro 22: 1-75.
Levelt, Willem J. M., Herbert Schriefers, Dirk Vorberg, Antje S. Meyer,
Thomas Pechmann y Jaap Havinga
1991 El curso temporal del acceso léxico en la producción de discursos: Un
estudio de la nomenclatura de las imágenes. Psychological Review
98: 122-142.
Levelt, Willem J. M. y Linda R. Wheeldon
1994 ¿Tienen acceso los oradores a un silabario mental? Cognición 50: 239-
269.
Luce, Paul A.
1986 Neighborhoods of Words in the Mental Lexicon (tesis doctoral,
Universidad de Indiana). En: Investigación sobre la Percepción del
Habla, Informe Técnico Nº 6, Laboratorio de Investigación del
Habla, Departamento de Psicología, Universidad de Indiana.
Luce, Paul A., Stephen D. Goldinger, Edward T. Auer y Michael S. Vitevitch 2000
Preparación fonética, activación de vecindario y PARSYN. Percepción-
de la empresa y la psicofísica 62: 615-625.
Luce, Paul A. y Nathan R. Large
2001 Fonotaxis, densidad y entropía en el reconocimiento de palabras
habladas. Lenguaje y procesos cognitivos 16: 565-581.
Luce, Paul A. y Emily A. Lyons
1999 Procesamiento de palabras habladas incrustadas léxicamente. Journal of
Experimen- tal Psychology: Human Perception and Performance
25: 174-183.
Luce, Paul A. y David B. Pisoni
1998 Reconocimiento de las palabras habladas: El Modelo de Activación del Vecindario.
Oído y Audición 19: 1-36.
Maddieson, Ian
1984 Patrones de sonidos. Cambridge: Cambridge University Press.
36James M. McQueen, Delphine Dahan y Anne Cutler

Marslen-Wilson, William D.
1987 Paralelismo funcional en el reconocimiento de palabras habladas.
Cognición 25: 71-102.
Marslen-Wilson, William D.
1993 Cuestiones de proceso y representación en el acceso léxico. En: Gerry T.
M. Altmann y Richard Shillcock (eds.), Cognitive Models of Speech
Processing: La segunda reunión de Sperlonga, 187-210. Hills- dale,
NJ: Erlbaum.
Marslen-Wilson, William D., Helen E. Moss y Stef van Halen
1996 Distancia perceptiva y competencia en el acceso al léxico. Journal of Ex-
perimental Psychology: Human Perception and Performance 22:
1376-1392.
Marslen-Wilson, William D., Andy Nix y M. Gareth Gaskell
1995 Variación fonológica del acceso al léxico: Abstracción, inferencia y
asimilación del lugar inglés. Lenguaje y procesos cognitivos 10:
285-308.
Marslen-Wilson, William D. y Paul Warren
1994 Niveles de representación perceptiva y proceso en el acceso léxico:
Palabras, fonemas y características. Psychological Review 101: 653-
675.
Marslen-Wilson, William D. y Pienie Zwitserlood
1989 Acceder a las palabras habladas: la importancia de las palabras en los
comienzos. Journal of Experimental Psychology: Percepción y
rendimiento humano 15: 576-585.
McClelland, James L. y Jeffrey L. Elman
1986 El modelo TRACE de percepción del habla. Psicología Cognitiva 10: 1-
86.
McQueen, James M., Anne Cutler, Ted Briscoe y Dennis Norris
1995 Modelos de reconocimiento continuo del habla y del contenido del
vocabulario. Lenguaje y procesos cognitivos 10: 309-331.
McQueen, James M., Dennis Norris y Anne Cutler
1994 Competencia en el reconocimiento de la palabra hablada: En otras
palabras, detectar las palabras. Revista de Psicología Experimental:
Aprendizaje, Memoria y Cognición 20: 621-638.
McQueen, James M., Dennis Norris y Anne Cutler
1999 Influencia léxica en la toma de decisiones fonéticas: Evidencias de
desajustes subclínicos. Revista de Psicología Experimental:
Percepción y Rendimiento Humano 25: 1363-1389.
Milberg, William, Sheila E. Blumstein y Barbara Dworetzky
1988 Factores fonológicos en el acceso al léxico: Evidencia de una tarea de
decisión léxica auditiva. Boletín de la Sociedad de Psicología 26:
305- 308.
Monsell, Stephen y Katherine W. Hirsh
Continuidad y graduación en el procesamiento del
habla 37
1998 Competidor en el reconocimiento de palabras habladas. Revista de
Psicología Experimental: Aprendizaje, Memoria y Cognición 24:
1495- 1520.
Moss, Helen E., Samantha F. McCormick y Lorraine K. Tyler
1997 El curso temporal de la activación de la información semántica durante el
reconocimiento de la palabra hablada. Lenguaje y procesos
cognitivos 10: 121-136.
Norris, Dennis
1994 Lista de seleccionados: Un modelo conexionista de reconocimiento continuo del
habla.
Cognición 52: 189-234.
Norris, Dennis, James M. McQueen y Anne Cutler
1995 Competencia y segmentación en el reconocimiento de palabras
habladas. Revist a de Psicología Experimental: Aprendizaje,
Memoria y Cognición 21: 1209-1228.
Norris, Dennis, James M. McQueen y Anne Cutler
2000 Fusión de información en el reconocimiento de voz: La retroalimentación
nunca es necesaria. Ciencias del Comportamiento y del Cerebro 23:
299-325.
Peperkamp, Sharon y Emmanuel Dupoux
2002 Un estudio tipológico de la "sordera" por estrés. En: Carlos Gussenhoven
y Natasha Warner (eds.), Papeles en el Laboratorio de Fonología 7,
203-240. Berlín: Mouton de Gruyter.
Peterson, Robert R. y Pamela Savoy
1998 Selección léxica y codificación fonológica durante la producción del
lenguaje: Evidencias para el procesamiento en cascada. Revista de
Psicología Experimental: Aprendizaje, Memoria y Cognición 24:
539-557.
Praamstra, Peter, Antje S. Meyer y Willem J. M. Levelt
1994 Manifestaciones neurofisiológicas del procesamiento fonológico:
Variación de la- tencia de un componente negativo del ERP
bloqueado en el tiempo a la desadaptación fonológica. Journal of
Cognitive Neuroscience 6: 204-219.
Radeau, Monique, José Morais y Juan Segui
1995 Journal of Experimental Psychology: Percepción y rendimiento
humano 21: 1297-1311.
Salverda, Anne Pier, Delphine Dahan y James M. McQueen
presentó El papel de los límites prosódicos en la resolución de la incrustación
léxica en la comprensión del discurso.
Schiller, Niels O., Antje S. Meyer, R. Harald Baayen y Willem J. M. Levelt 1996
Una comparación de lexema y sílabas del habla en holandés. Revista de
Lingüística cuantitativa 3: 8-28.
Shillcock, Richard C.
1990 Hipótesis léxicas en el habla continua. En: Gerry T. M. Altmann (ed.),
Cognitive Models of Speech Processing: Perspectivas
Psicolingüísticas y Computacionales, 24-49. Cambridge, MA:
Massachusetts Institute of Technology Press.
Slowiaczek, Louisa M. y Mary B. Hamburguesa
38James M. McQueen, Delphine Dahan y Anne Cutler

1992 Facilitación preléxica e interferencia léxica en la rec- ognición de


palabras auditivas. Revista de Psicología Experimental:
Aprendizaje, Memoria y Cognición 18: 1239-1250.
Soto-Faraco, Salvador, Núria Sebastián-Gallés y Anne Cutler
2001 y suprasegmentario en el acceso léxico. Journa l of Memory and
Language 45: 412-432.
Spinelli, Elsa, James M. McQueen y Anne Cutler
2003 Procesamiento de palabras resilábicas en francés. Revista de Memoria y
Lenguaje 48: 233-254.
Streeter, Lynn A. y Georgia N. Nigro
1979 El papel de las transiciones de consonantes mediales en la percepción
de las palabras. Journal of the Acoustical Society of America 65:
1533-1541.
Swinney, David A.
1981 Procesamiento léxico durante la comprensión de la frase: Efectos de las
limitaciones de orden superior e implicaciones para la
representación. En: Terry Myers, John Laver y John Anderson
(eds.), The Cognitive Repre- sentation of Speech, 201-209.
Amsterdam: Norte de Holanda.
Tabossi, Patrizia, Cristina Burani y Donia Scott
1995 Identificación de la palabra en el habla fluida. Revista de Memoria y
Lenguaje 34: 440-467.
Tabossi, Patrizia, Simona Collina, Michela Mazzetti y Marina Zoppello
2000 Journal of Experimen- tal Psychology: Human Perception and
Performance 26: 758-775.
Tanenhaus, Michael K., James S. Magnuson, Delphine Dahan y Craig Chambers
Movimientos 2000 oculares y acceso léxico en la comprensión del
lenguaje hablado: Evaluar una hipótesis de enlace entre las fijaciones y el
lenguaje...
procesamiento de tics. Revista de Investigación Psicolingüística 29: 557-580.
Utman, Jennifer A., Sheila E. Blumstein y Martha W. Burton
2000 Efectos de la variación de la estructura subfónica y silábica en la rec-
ognición de palabras. Percepción y Psicofísica 62: 1297-1311.
Van Berkum, Jos J. A., Pienie Zwitserlood, Peter Hagoort y Colin Brown
presentaron los efectos del N400 dependiente del discurso en la comprensión
del lenguaje hablado...
sion.
Van den Brink, Dannie, Colin Brown y Peter Hagoort
2001 Pruebas electrofisiológicas de las influencias contextuales tempranas
durante el reconocimiento de palabras habladas: Efectos N200
versus N400. Journal of Cognitive Neuroscience 13: 967-985.
Van Petten, Cyma, Seana Coulson, Susan Rubin, Elena Plante y Marjorie Parks
1999 Curso temporal de la identificación de palabras y la integración semántica
en el spo-
Lengua ken. Revista de Psicología Experimental: Aprendizaje,
Memoria y Cognición 25: 394-417.
Vitevitch, Michael S. y Paul A. Luce
1998 Cuando las palabras compiten: Niveles de procesamiento en el
reconocimiento de la palabra hablada. Ciencia Psicológica 9: 325-
329.
Continuidad y graduación en el procesamiento del
habla 39
Vitevitch, Michael S. y Paul A. Luce
1999 Probabilidad de fonotaxis y activación vecinal en el reconocimiento de la
palabra hablada. Revista de Memoria y Lenguaje 40: 374-408.
Vroomen, Jean y Beatrice de Gelder
1995 Segmentación métrica e inhibición léxica en el reconocimiento de la
palabra hablada. Journal of Experimental Psychology: Human
Perception and Performance 21: 98-108.
Vroomen, Jean y Beatrice de Gelder
1997 Activación de palabras incrustadas en el reconocimiento de palabras
habladas. Revist a de Psicología Experimental: Percepción y
Rendimiento Humano 23: 710-720.
Wallace, William P., Mark T. Stewart y Christine P. Malone
1995 Errores de memoria de reconocimiento producidos por la activación
implícita de candidatos a palabra durante el procesamiento de
palabras habladas. Revista de Memoria y Lenguaje 34: 417-439.
Wallace, William P., Mark T. Stewart, Thomas R. Shaffer y John A. Wilson 1998
¿Están los falsos reconocimientos influenciados por el proceso de
prerreconocimiento?
Revista de Psicología Experimental: Aprendizaje, Memoria y
Cognición 24: 299-315.
Wallace, William P., Mark T. Stewart, Heather L. Sherman y Michael Mellor 1995
Falsos positivos en la memoria de reconocimiento producidos por la cohorte
activa-
de la vida. Cognición 55: 85-113.
Whalen, Doug H.
1984 La subcategoría fonética no coincide con los juicios fonéticos lentos. Per-
cepción y Psicofísica 35: 49-64.
Whalen, Doug H.
1991 Desajustes fonéticos subcategoriales y acceso léxico. Percepción y
Psicofísica 50: 351-360.
Zwitserlood, Pienie
1989 El lugar de los efectos del contexto sentencial-semántico en el
procesamiento de la palabra hablada Cognición 32: 25-64.
Zwitserlood, Pienie y Herbert Schriefers
1995 Efectos de la información sensorial y del tiempo de procesamiento en el
reconocimiento de palabras habladas. Lenguaje y procesos
cognitivos 10: 121-136.
40James M. McQueen, Delphine Dahan y Anne Cutler

Ver estadísticas de publicación

Das könnte Ihnen auch gefallen