Sie sind auf Seite 1von 12

La conquista de la voz por las voces sintticas

Lenguaje: Mente y Cultura


Salvador Rico Prez
Hablamos con Siri, la asistente personal de iPhone, o IVONA para
Android. Amazon acaba de sacar una versin que habla llamada
Echo1, le pedimos a Google Voice que nos emita las bsquedas por
voz, Loquendo nos lee los correos electrnicos y, es l mismo el
encargado de avisarnos de la prxima parada del autobs, que
casualmente es en la que nos tenemos que bajar. Las mquinas nos
hablan y se comunican con nosotros da a da.
Ingenieros, informticos y lingistas se han aunado para que a travs
de las tecnologas del habla se pueda sintetizar la voz humana y la
reproduzcan las mquinas. Su preocupacin, a da de hoy, es
conseguir la mxima naturalidad, entendindose sta como la
imitacin de lo humano, con el propsito de evitar el rechazo por
parte de los humanos y que la tecnologa sea lo ms amigable
posible.

Entonces, cmo miden la naturalidad de la voz sinttica,

algo que es tan nuestro? Qu implicaciones posee para los humanos


la conquista de algo tan subjetivo como la voz?
Sirva el presente ensayo como intento de respuesta a las cuestiones.
La historia de la oralidad mecnica
El ser humano siempre ha querido ponerle voz a los objetos
inanimados para comunicarse con ellos. El cine y la literatura estn
llenos de ejemplos. En la mitologa griega y romana, los hroes
dialogaban con estatuas de dioses o guerreros.
No obstante, no es hasta los siglos dieciocho y diecinueve cuando la
ciencia se halla preparada para lograrlo y se dan los primeros intentos
de construir el primer autmata que imitaba el comportamiento
1 Introducing Amazon Echo: https://www.youtube.com/watch?v=KkOCeAtKHIc

humano.
Wolfgang Ritter von Kempelen fue el inventor de la primera mquina
parlante2. Su producto, que posteriormente desarroll en el libro
Mechanismus der menschlichen Sprache nebst der Beschreibung
seiner sprechenden Maschine, se pase feria por feria por medio
mundo a modo de presentador de otro invento: un automatn
engaoso -que realmente era una plataforma con espacio suficiente
para albergar a un ser humano enano en su interior- que siempre
ganaba al ajedrez llamado the Turk. (Se dice que hasta sali airoso
frente a una partida a Napolen.)
Aunque von Kempelen se esforz por pasar a la posteridad por ste
ltimo, su otro invento, la mquina hablante 3, es el causante de su
reconocimiento, fundando la fontica experimental como ciencia.
Von Kempelen tena una obsesin: imitar y reproducir la fisiologa del
habla. Es decir, descifrar los mecanismos del proceso fonador segn
los cuales una persona genera un mensaje oral.
Su preocupacin era tal que produjo el habla generada por la
manipulacin

de

elementos

mecnicos

simulando

las

partes

esenciales del sistema vocal humano. Su inspiracin vino de los


estudios de Baron Franciscus Mercurius ab Helmont 4, el cual public
un libro en el que tradujo el alfabeto hebreo a imgenes fisiolgicas
para ensearle el habla a los sordomudos. Es gracias al impacto del
trabajo de Von Kempelen cuando comenz la preocupacin social por
la fontica.
As, dcadas ms tarde, Alexander Melville Bell5 se ayud de l para
completar la imagen de la representacin fisiolgica del aparato
fonador. Melville Bell trabaj lo que l denomin como habla visible,
un estudio completo en el que se detalla la completa accin vocal en
2 Para ms informacin, vase:
http://en.wikipedia.org/wiki/Wolfgang_von_Kempelen#Inventions
3 Para ms informacin, vase:
http://en.wikipedia.org/wiki/Wolfgang_von_Kempelen%27s_Speaking_Machine
4 Baron Franciscus Mercurius ab Helmont, Alphabeti vere Naturalis Hebraici
Brevissima Delineatio (1667)
5 Alexader Melville Bell, Visible Speech The Science of Universal Alphabetics (D.
Van Nostrand Company, Inc. New York, 1867)

la produccin no slo de habla fnica sino de susurros, toses, besos,


gemidos, silbidos y otros sonidos producidos por el mecanismo vocal
humano.
Durante el siglo veinte se propag la inquietud por recrear
mecnicamente el habla. Stewart construy una mquina que poda
generar sonidos voclicos elctricos. Durante los aos treinta, el
primer sistema que poda producir cualquier tipo de sonido fue
creado. Y, durante los cuarenta, los primeros ordenadores fueron
desarrollados apuntando en ellos su potencial para aplicaciones que
demandaban inteligencia, como sealaron algunos cientficos como
Alan Turing.
A da de hoy, la electrnica ha logrado que las mquinas nos hablen
por medio de la sntesis de la voz.

Qu es la sntesis de habla?
La sntesis del habla es la produccin artificial de habla humana. El
propsito de la sntesis del habla es la generacin automtica de
mensajes orales, partiendo de un texto escrito o de otros tipos de
representacin simblica.

(Cole, 1997)

As pues, el proceso requiere de dos partes, la transformacin de


hablar en onda y el proceso contrario, de escrito a habla (Llisterri,
Moure, 1996:)
(Sirvan para ejemplificarlo Loquendo7 como un conversor texto a
habla8, el lector de Google Translate o el sistema que usa Stephen
Hawking para comunicarse, presente en el imaginario de todos.)
A la hora de evaluar los sistemas de sntesis de voz se distinguen
como criterios la inteligibilidad (o con qu facilidad/dificultad es
entendida?) y su naturalidad, (en qu medida se asemeja a la voz
6 Para ms informacin:
http://liceu.uab.es/~joaquim/publicacions/Llisterri_04_Tecnologias_Habla_Espanol.pd
f
7 Ejemplo de voz de Loquendo: https://www.youtube.com/watch?v=z74wAMToGnA
8 Para ms informacin. Ver: http://es.wikipedia.org/wiki/Conversor_texto-voz

real de un humano9, es decir, la calidad procedente de la naturaleza).


El sintetizador ideal debe ser inteligible y natural y cada nueva
propuesta de tecnologa intenta lograr al mximo cada uno de estos
parmetros. Por lo general, y de manera esquemtica, se ha
demostrado que el uso de la sntesis concatenativa, basada en
concatenacin de segmentos de voz grabados, es ms natural que la
sntesis de formantes, produce la voz sinttica a partir de parmetros
de control. Y, que la segunda es ms inteligible que la primera.
Para evaluar la inteligibilidad, lo bsico es realizar una prueba de
audicin y pedirle a los oyentes que emitan algn tipo de respuesta
(por ejemplo, una calificacin a una propiedad especfica) o, realizar
una actividad (por ejemplo, escribir las palabras que oyeron). Sin
embargo, este mtodo de evaluacin conlleva severos problemas: no
est claro qu propiedades exactamente evaluar y es difcil saber
cmo evaluar las propiedades elegidas y nunca se puede estar seguro
de que todos los oyentes han realizado correctamente la tarea que se
espera de ellos. Adems, si nos ponemos puntillosos, Simon King
apunta otros problemas en la metodologa de evaluacin como la
falta de validez ecolgica en la que las mediciones son llevabas a
cabo

(cabinas

en

silencio,

confortables

con

alta

calidad

de

reproduccin y sin distracciones) que contrastan con los ambientes de


los usuarios reales, pocas veces silenciosos y sin distracciones para el
cual propone tomar ejemplo de la psicologa experimental. En vez de
mejorar los sistemas de medicin, el autor, apunta a que las causas
podran

ser

un

elevado

coste

al

cambiar

del

paradigma

o,

simplemente, la pereza en la evaluacin y el inters por inventar


nuevos mtodos para sintetizar el habla.
En cuanto a la naturalidad, sta sigue siendo definida de una manera
dudosa, aunque los oyentes parecen poseer una idea de lo que se
pide de ellos en coherencia de sus juicios., se sigue los juicios
suscitados a partir de los oyentes en una escala Likert10.
9 http://es.wikipedia.org/wiki/S%C3%ADntesis_de_habla
10 http://en.wikipedia.org/wiki/Likert_scale

No obstante, existe un sentimiento de extraeza que hace que la voz


acsmatica -si lo entendemos como la voz que se refiere a un sonido
que uno oye sin observar las causas o fuentes tras el mismo
(Schaffer, 1966:91) o, en su defecto, otorgada a un ente inanimado
por medio de quid pro quo-.
En este punto, cabe resear que la propagacin de la radio, el
gramfono, el grabador, el telfono y otros aparatos electrnicos y
medios de comunicacin hicieron que la cualidad acusmtica de la
voz se volviera universal, introducindola en el imaginario social y,
por ende, cercana. En los comienzos no faltaron relatos sobre sus
efectos perturbadores, pero stos, poco a poco se han ido reduciendo
a medida que se volvieron comunes. Es cierto que no podemos ver la
fuente de las voces, y que todo lo que vemos es un artefacto tcnico
de donde emanan las voces, y en un quid pro quo el aparato entonces
toma el lugar de la fuente invisible misma. La fuente invisible y
ausente es sustituida por el aparato que la disimula y que empieza a
actuar sin problemas como su sucedneo.
Sin embargo, entender la forma robtica ha supuesto delimitar lo que
suponemos como natural y artificial y es la borrosidad de la lnea
la que provoca un temor. El temor a ser demasiado parecido a lo
cercano y a no poder reconocer que no es humano infundado en el
inconsciente humano. Y, ms si se trata de una parte intrnsecamente
humana como es la voz.
Esto tendra una explicacin bajo el concepto de lo ominoso (unhemlich, en alemn) que Sigmund Freud describi como lo familiar
que se hallaba escondido y aparece para asolarnos. As, dando
justificacin a lo inanimado, expone:
La circunstancia de que se despierte una incertidumbre
intelectual respecto al carcter animado o inanimado de algo, o
bien la de que un objeto privado de vida adopte una apariencia
muy cercana a la misma, son sumamente favorables para la
produccin de sentimientos de lo siniestro. (1919)

Empleando el concepto freudiano, el profesor experto en robtica


Masahiro Mori expuso una hiptesis, cuyo ttulo es la teora del Valle
Inquietante, que pone de manifiesto la reaccin que sufrimos los
humanos al no poder distinguir entre ficcin y realidad.
Segn la teora, la respuesta emocional de un observador humano
ante un robot de apariencia humana llegara a cambiar abruptamente
desde una fuerte empata a la repulsin ms absoluta conforme se
acercara, pero fallara en alcanzarla, a la apariencia exacta de un ser
vivo.
No

obstante,

cuando

la

apariencia

de

un

robot

contina

convirtindose menos distinguible de la de un ser humano, la


repuesta emocional se vuelve positiva una vez ms y se va
aproximando a niveles de empata como los que se dan entre
humanos. 11
Aunque el profesor Mori lo asimilara nicamente a la apariencia,
otras investigaciones (MacDorman, 2009) lo han constatado en la voz.
Hay algo siniestro, tomndolo como sinnimo de ominoso, en la
manera en que concebimos la voz. La voz resulta ser un elemento
que va ligado a nuestra propia subjetividad.
Qu entendemos bajo el trmino voz?
Podemos definir la voz a travs de sus usos principales: como objeto
esttico y como portadora o vehculo de significado.
Cuando omos por primera vez una voz, la primera percepcin que
tenemos es fijarnos en su voz como objeto de esttica. De normal,
esta percepcin acontece durante unos segundos para poder
concentrarnos en el significado y responder a la llamada del otro.
Pero, imaginemos a una persona con un timbre estridentemente
agudo, por ejemplo. Al quedar excesivamente atrapados en la
atencin puesta al medio, la voz, no nos reconocemos como sujetos
receptores del mensaje, derivando en una interpretacin fallida a la
11 http://es.wikipedia.org/wiki/Valle_inquietante

apelacin del interlocutor y no actuando de acuerdo a lo esperado


como oyente. No obstante, s nos estamos reconociendo como
destinatarios de otro mensaje: el de la apreciacin de la voz como
objeto fetiche.
Pero, pensemos la voz considerndola como su uso ms comn:
como vehculo y portadora del significado, as como el soporte de la
palabra, frase, discurso o cualquier expresin lingstica.
La voz como elemento material refractario al significado. Y, si
hablamos para significar, para decir algo, entonces ella misma es lo
que no puede ser dicho. Est presente en el mismo acto de decir, sin
embargo, elude cualquier especificacin, al punto de que podemos
sostener que es el elemento lingstico, extralingstico, el que
posibilita el fenmeno del habla, pero al que no se puede discernir
mediante la lingstica.
De este modo, si entendemos el significante como aquello que en el
lenguaje puede ser replicado (Dolar, 2006:17), aunque slo pueda
ser fijado en una red de diferencias. Es decir, que se construye a
travs de oposiciones con otros significantes, lo que le permite
producir significado. Es entonces cuando nos chirra la singularidad de
la voz que mencionbamos.
Podremos determinar el fonema, un sonido particular, la voz
moldeada por el significante, cortada a un tamao de modo que
pueda producir significado. Porque es slo con los significantes que
podemos significar. As, pues, la voz es nica, singular y por lo tanto,
no puede ser universalizada. Es en su singularidad irrepetible y en su
evanescencia donde desaparece en el momento en que aparece lo
que nos llevara al problema de la memoria y la retencin.
As, existe una dicotoma que se desenvuelve en la virtualidad cada
vez que pronunciamos: lo que podramos denominar como una
dicotoma entre el significante y la voz.
Parmetros fonticos de la voz sinttica para la naturalidad

Volvamos a la voz sinttica para seguir delimitando lo entendido


como natural, tras este parntesis sobre el significado de la voz. In
our modern times, speech-to-text technology is becoming rampant,
where a person can speak into a device that then produces written
text of what was said, thus justifying the use of accent-free
language. (Ting Toomey, S & C.Chung,, 2012: 116)
En la presente cita, las autoras dejan claro que el lenguaje de la voz
sinttica es libre de acento. Si entendemos el acento como lo explica
Juana Gil sensacin perceptiva que pone de relieve una slaba sobre
el resto de las slabas de la palabra (2007: 535). No obstante, no slo
la voz libre de acento ayuda a la naturalidad en el acto comunicativo.
La naturalidad del discurso, en gran medida, reside en la prosodia. El
mdulo prosdico de un conversor consta de un conjunto de reglas
que especifican la duracin y hasta la intensidad- de los segmentos,
el contorno meldico del enunciado, las modificaciones acsticas
producidas por el acento y la colocacin y la duracin de las pausas.
Cabe sealar que la definicin de reglas que sistematicen la
informacin prosdica suele llevarse a cabo partiendo del anlisis de
un corpus de habla natural entre humanos.
De este modo, existen desde hace una dcada, ms o menos,
propuestas por intentar incorporar la variedad emocional a la voz
sinttica que permitan su capacidad para transmitirnos emociones,
adaptar la voz a diferentes estilos de locucin o para engaarnos con
su naturalidad aplicando la inteligencia emocional (Montero Martnez,
2003) para hacerlas ms amigables incorporando los atributos del
habla (Siniscalchi, S. M., Lee, C H, 2014).
Los sistemas de dilogo12
Los sistemas de dilogo son programas de ordenador desarrollados
para interaccionar con los usuarios mediante habla, con la finalidad
12 A modo sinttico, y tambin sirva como entretenimiento, puede ayudar el
proceso llevado a cabo en un sistema de dilogo un corto elaborado por Google:
https://youtu.be/yxxRAHVtafI

de proporcionarles servicios automatizados. La interaccin se lleva a


cabo por medio mediante turnos de un tipo de dilogo que intenta ser
lo ms parecido posible al dilogo real que se produce entre personas
en lo que se refiere a naturalidad, inteligencia y contenido afectivo.
Su mtodo de trabajo sigue el siguiente recorrido: un reconocedor
automtico del habla procesa las preguntas que el usuario le propone
y convierte la seal sonora en una representacin simblica accesible
al sistema informtico. A continuacin, se interpreta semnticamente
el enunciado, a partir del cual se consulta una base de datos, si es
necesario, para proporcionar la respuesta idnea a la peticin
realizada. Un tercer mdulo genera un enunciado completo que
contiene los resultados de la consulta o que solicita al usuario que
confirme un dato o d ms informacin. Y, finalmente, un conversor
de texto en habla se encarga de transformar los resultados del
mdulo de generacin en su equivalente sonoro.
El reto es procesar el lenguaje humano y establecerlo tan natural
como una conversacin entre pares de humanos. El proceso consiste
en reconocer el lenguaje del humano Automatic Speech Recognition
(ASR) para generar como output una hiptesis de reconocimiento, el
cual es la secuencia de palabras que se parezca lo mximo a lo que el
humano quiso decir. An as, acontecen malentendidos en el que se
insertan, sustituyen o se eliminan palabras. Tomemos como ejemplo,
Por favor, yo quiero reservar un vuelo a Valencia, el resultado del
reconocimiento del habla sera reservar vuelo a Palencia. Los
errores podran darse debido a numerosos factores: condiciones
ambientales (por ejemplo, el ruido), parecido acstico entre palabras
(Valencia, Palencia) Disrupciones que rompen el mensaje.
Si

tomamos

como

punto

de

partida

que

la

comunicacin

interpersonal entre ambos ser reciproca, como bien han manifestado


Ting Toomey, S. y C. Chung en la que intentar ser to be flexible
verbal communicators.(2012:128). Es decir, mantendremos un
principio de cooperacin (entendindolo grosso modo sin inspeccionar

las mximas de la teora de Grice), sano en el que ambos


interlocutores van a hacerse entender.
El objetivo es evitar el frustrante lo siento, no le he entendido bien
automtico, por un lado, como que la sntesis de la escucha se
modificar por mejoras de calidad.
Sin embargo, esa bsqueda de una conversacin lo ms humana
posible, ha conllevado a que los sistemas de dilogo no se limiten a
ser meros lectores de voz y sean ms prcticos. Sirva como ejemplo,
cuando le preguntamos a Siri que nos cuente un chiste, ste
comprende el significado de la peticin y nos contesta realizando la
accin.
Uno de los mayores miedo que como humanos aguardamos desde la
invencin de las mquinas parlantes ha sido la rebelin de las
mquinas. Hal de 2001, Una Odisea en el Espacio (Kubrick, 1968)
propona la pregunta si las mquinas pueden pensar y, en su defecto
dominarnos. Alan Turing13 intent demostrar con su test que es
posible que una mquina engae a un humano, entendiendo que
pensar es imitar a los humanos. Diez aos despus a que Turing lo
expusiera, Joseph Weizenbaum dise uno de los primeros programas
en procesar lenguaje natural, ELIZA, que funcionaba buscando
palabras clave en las frases escritas por el usuario y respondiendo
con una frase modelo registrada en su base de datos, denominados
bots conversacionales.
Todava es pronto para asimilar las consecuencias de percepcin que
tendremos provocadas por las conversaciones hombre-mquina. Lo
que podemos estimar es que la voz mecnica demuestra el punto
inquietante que posee el concepto voz. Desprovista del toque
humano que la hace singular, la voz mecnica deja de ser una voz
normal, se aade a la cadena de significantes, asusta a la
humanidad con su reproduccin mecnica. Podemos medir su
frecuencia y su amplitud, por ejemplo, pero la voz mecnica es la que
confronta al trmino voz con su naturaleza perturbadora y siniestra.
13 Para ms informacin, vase: http://es.wikipedia.org/wiki/Test_de_Turing

BIBLIOGRAFA:
Dolar, M. (2006). A voice and no more. Buenos Aires: Manantial
Dudley, H., Tarnoczy, T. H. (1950) The speaking mahine of Wolfgang
von Kempelen. Journal of the acoustical society of America 22 (2).
Freud, S. (1974) Lo ominioso en Obras Completas, Madrid: Ctedra.
Gil, J. (2007). Fontica para profesores de espaol: De la teora a la
prctica. Madrid: Arco/Libros.
King, Simon (2014). Measuring a decade of progress in Text-toSpeech.

Loquens

(1),

e006.

doi:

http://dx.doi.org/10.3989/loquens.2014.006
Llisterri, J. (2003). Lingstica y tecnologas del lenguaje, Lynx.
Panormica de Estudios Lingsticos (Departament de Teoria dels
Llenguatges, Universitat de Valncia) 2: 9-71.
Lpez-Czar, R., Callejaz, Z., Griol, D., Quesada, J.F. (2014). Review of
spoken

dialogue

systems,

Loquens,

http://dx.doi.org/10.3989/loquens.2014.012

(2),

e012,

doi:

Schaeffer, P. (1966). Trait des Objets Musicaux. Paris: Le Seuil.

Ting Toomey, S., C.Chung (2012). Understanding Intercultural


Communication. New York: Oxford University.

Das könnte Ihnen auch gefallen