Reglas fonéticas para la fonetización del español

Reglas fonticas para la conversin de texto a fonemas
Resumen:
Los sistemas de sntesis y reconocimiento de habla contienen un mdulo que

permite convertir letras-a-sonidos (conocidos como letter-to-sound o text-to-
phonemes), como paso intermedio que permite relacionar el texto ya dado en el
caso de la sntesis, o el texto a reconocer en el caso del reconocimiento-, con los
modelos acsticos. Hay dos formas en que los sistemas resuelven esta tarea. La
primera, usando un diccionario fontico, y la segunda, utilizando un mdulo con
reglas o sistemas estocsticos de conversin text-to-phonemes. En ambos casos
se necesita especificar un conjunto de reglas, tanto para la construccin del
diccionario o del mdulo.
En el presente documento se propone un conjunto de reglas para la conversin de

texto a fonemas del espaol de Buenos Aires. Las reglas toman en consideracin
tanto las variaciones universales que dependen del contexto de aparicin del
sonido, como las que son particularmente regionales o comnmente
idiosincrticas de los hablantes. Tambin se proponen reglas que surgen de la
concatenacin de las palabras en frases. Las reglas para ser ms precisas deben
tener, adems de las categora caracteres, las categoras de slaba, acento y
palabra, ya que muchas de las reglas se aplican por ejemplo slo al final de slaba
o slo al final o principio de palabras o en contextos de no acentuacin.
Por ltimo se indica una revisin de los mtodos utilizados en la construccin de

convertidores de texto-a-fonemas y de la construccin de diccionarios fonticos.
1. Objetivos:
Brindar un conjunto de reglas para la fonetizacin de diccionarios usando el

sistema ascii-fontico Sampa.
Formalizacin de las reglas fonticas para su posterior aplicacin en software.
Revisin de los mtodos ms comunes de conversin de texto a fonemas.
2. Introduccin:
Una de las principales caractersticas que presenta el habla humana es su gran

variedad y diversidad, an dentro de una misma lengua y un mismo dialecto. Tal
caracterstica, estima Noam Chomsky, uno de los fundadores de la teora
lingstica contempornea, es quiz el mayor desafo que debe enfrentar la teora,
y quiz el motivo por el cual la inclinacin por el estudio del lenguaje que data de
tiempos remotos, todava est en sus inicios para la formalizacin de una teora
general y sustantiva. Si el lenguaje humano tuviera las propiedades de los
lenguajes artificiales, es decir que para cada contexto tuviera una nica posibilidad
Versin 1.0 Pgina 1 11/30/00

sintctica, semntica y fonolgica, el reconocimiento automtico sera un desafo
menor. Pero este no es el caso. La variacin se da an en un mismo hablante con
escasa diferencia de tiempo entre un enunciado y otro. Cmo resuelve un
sistema de reconocimiento automtico de voz tal diversidad ? En primer lugar,
prediciendo los posibles enunciados que pueden emitirse en una situacin de
dilogo especfica por medio de las gramticas - , y reduciendo la variedad
fontica que un mismo enunciado posee por medio del entrenamiento de los
modelos acsticos y entradas optativas dentro de los diccionarios- .
El presente documento se refiere a la etapa de construccin de diccionarios, ms

precisamente, a la formulacin de un conjunto de reglas que alimenten a un
posible transcriptor automtico, que convierta el texto (grafemas) en
fonemas[a1].
3. Desarrollo:
Las reglas tienen que ser tan especficas como para poder captar las propiedades
que cada uno de los sonidos adopte en la conversacin cotidiana, ya que las
reglas deben orientarse ms que al desarrollo de una teora especfica, a su
adecuacin con las caractersticas del sistema de reconocimiento. Esto quiere
decir que las reglas deben dar como resultado la descripcin ms fiel posible de
las diversas maneras que un hablante tipo pronuncia una palabra, para que exista
el mayor grado de coincidencia con los fonemas que el reconocedor infiere a partir
de la seal acstica.
Las causas de la variabilidad fontica son diversas. Entre las ms notables

encontramos: 1) El contexto fontico, 2) Caractersticas regionales y sociales, 3)
Caractersticas idiosincrticas del hablante, 4) Un conjunto de factores aleatorios
como la velocidad del habla, la supresin de sonidos y hasta slabas,
interrupciones, problemas articulatorios del hablante, etc. Los tres primeros
factores de variacin fontica pueden predecirse mediante una correcta
transcripcin. El contexto fontico es el factor ms determinante. Por ejemplo, es
conocido el hecho de que la r delante de una consonante como b o p, sea
simple, -en trminos fonticos flap o tap- como en brazo y en prado y no
mltiple trill- como en perro. Es decir, que es el contexto fontico, lo que
antecede y le sigue al sonido en cuestin, lo que determina cul es su
caracterstica principal. Las caractersticas regionales y sociales de una poblacin
o las caractersticas idiosincrticas ms comunes de los hablantes, pueden
deducirse del conocimiento que el hablante tenga de su lengua y a partir de los
numerosos estudios acsticos realizados en el rea . Por ejemplo, es sabido que
la s en final de palabra tiende a suprimirse, sobre todo en el habla rpida, o las
d finales en terminaciones como ado, o si una persona opta por pronunciar un
apellido en espaol o en la lengua de origen de la palabra. Esto obedece tanto a
caractersticas regionales como idiosincrticas. Por ltimo tenemos las reglas de
concatenacin de palabras.

Para que las reglas de conversin sean de mayor alcance, ms simples y
econmicas, debe tenerse en consideracin la estructura silbica de las palabras y
el acento, ya que estos dos factores inciden en la transcripcin. Por ello se
incluyen en el documento una seccin dedicada a la segmentacin silbica y las
reglas que regulan la sintaxis de la slaba del espaol, como as reglas para
deducir la slaba acentuada de una palabra a partir de la ortografa.
Es necesario considerar la slaba y el acento por las siguientes razones:
1.Si el programa no tiene en consideracin la divisin en slabas sera difcil aplicar

bien las reglas para la r-rr, la s, la w y j en diptongo y las de concatenacin
entre palabras distintas.
2.Sin las reglas de acento, es imposible aplicar las reglas para w y j en diptongo.
Si existe la posibilidad de agregar nuevos modelos acsticos, entonces estas
dos ltimas reglas, las de acento y slaba, tienen importancia.
Las reglas de conversi tienen un orden de aplicacin, en tanto que este es un

dato til si se opta por algunas alternativas en la creacin del software, sobre todo
si se manejan expresiones regulares con bsquedas y reemplazos.
Por razones de orden expositivo empezaremos por las reglas que convierten
grafemas a fonemas.
3.1. Reglas de conversin de grafemas a fonemas:
Las reglas fonticas pueden pensarse dentro del contexto de una gramtica
sensible al contexto, como tradicionalmente se realiz en la fonologa a partir del
libro de Chomsky y Halle, The sound pattern of English(1969). Este sent las
bases de la fonologa contempornea, sin embargo algunas de sus proposiciones
han sido superadas. Muchas aplicaciones en los campos de Natural Language
Understanding y Speech Technology han utilizado el formalismo de SPE por su
simplicidad y transparencia para la programacin. Una regla fonolgica tiene un
input o entrada y un output o salida. La flecha que une a ambas partes puede
leerse como se reescribe. As podemos tener la siguiente regla :
(entrada) - (salida) / contexto
Esto significa que un smbolo cualquiera que sirve de entrada, se transcribe como
otro smbolo o salida, en determinado contexto, esto es entre el fonema que le
antecede y el fonema que le sigue. Todos los sonidos del habla se transforman de
acuerdo al sonido que le antecede y al que le sigue, ya que existen diferencias
cruciales entre el sonido producido en forma aislada y el sonido producido en
contexto. El hecho que un sonido pueda predecirse por su contexto ha sido la
principal contribucin de la fonologa a las tecnologas del habla.

Las reglas fonolgicas se aplican de izquierda a derecha, es decir empezando por
la primer letra de una palabra, y en un orden jerrquico determinado. Si bien la
teora fonolgica es ms abstracta y compleja, puede utilizarse el mismo
formalismo que result ser apto para la construccin de programas de conversin
de signos ortogrficos a fonemas en sntesis y reconocimiento de habla. La razn
por la cual se utilizan caracteres que representen fonemas y no simplemente los
caracteres ortogrficos, radica en el hecho que la ortografa conserva las
ambigedades provenientes de la historia de la lengua y rasgos culturales que no
reflejan apropiadamente el habla actual.
Las reglas fonolgicas pueden instrumentarse tambin como la transformacin de

un string o cadena X en un string o cadena Y, en el cual el string X representa la
secuencia del sonido a reemplazar y los de su contexto y el string Y representa la
secuencia del sonido reemplazado y los pertenecientes a su contexto.
Las reglas no tomarn en cuenta los sonidos que varan significativamente segn
su contexto y que no estn contemplados en el alfabeto desarrollado por los
productos como Nuance, SpeechWorks o Phillips, o que tienen variaciones entre
su ortografa y su representacin fonmica. Por ejemplo : p, f, t, d, b. La
numeracin indica el orden de los reemplazos. Hay reglas que se aplican en el
contexto de la slaba, otras en el contexto de la palabra y por ltimo otras en el
contexto entre palabras.
Las reglas pueden incluir opciones, lo cual indica que un sonido puede
transcribirse de una u otra manera dependiendo de las condiciones del habla.
Para este caso se utilizar la siguiente convencin usual en la literatura :
XY|Z/_A
donde X se transcribe como Y y como Z en el contexto / _A, para lo cual el

guin bajo _ indica la ubicacin del fonema a reemplazar y A cualquier otro u
otros fonema/s. Los contextos pueden ser variados. Para ilustrar, tomemos
algunos comunes:
/ _V posicin inicial de palabra seguida por una vocal

/ V_V posicin entre dos vocales
/ sil_ final de slaba
/ palabra_ final de palabra
Hay reglas que son sensibles a la delimitacin silbica. Para esto se utiliz por
convencin sil (que indica slaba). Cuando se le agrega un guin ms un fonema,
por ejemplo, sil-d, significa que la d est al final de la slaba, lo que quiere decir
que est en posicin de coda silbica. La regla que incorpora la categora acento
son la 21 y 22, donde i y u se transforman en j y w en el contexto de un diptongo,
si i y u no estn acentuadas. Por ltimo se encuentran las reglas que toman
como contexto las palabras, por ejemplo la s al final de la palabra, que en

muchos casos o no se pronuncia o se pronuncia con poca energa, por lo tanto
tiene que haber otra opcin para la palabra en cuestin para no pronunciarla.
3.1.1. Reglas dentro del contexto de la palabra.
1.ch tS / * en cualquier contexto

2.h delete / * en cualquier contexto
3.v b
4.n n|m / _b, _p
5.m n|m / _r, _s, _t, _d.
6.n n|m / _f
7.ca, co, cu ka, ko, ku
8.que, qui ke, ki
9.ce, ci se, si
10.x ks | s | gs
11.ge, gi Ce , Ci
12.cc ks | gs
13.je,ji Ce, Ci
14.ja, jo, ju xa, xo, xu
15. J | nj / * en cualquier contexto.
16.gue, gui ge, gi /*en cualquier contexto
17.r r / n_V , l_V
18.r r / V_V
19.r rr | r / sil_r
20.r r /b_V, d_V, g_V, p_V, t_V, k_V, f_V.
21.r rr / _inicio
22.rr rr /*en cualquier contexto
23.i j / V_ , _ V SI i = Vi ("jj" se transcribe en
el inicio)
24.u w / V_ , _V SI u = Vi
25.ll S | Z | dZ
26.y j / sil-y
27.y S | Z | dZ
28.z s
29.s s|x / _k, _g, _t,
30.gua gwa | wa
31.ua gwa | wa
32.s delete | s /word-s
33.d delete | d / sil-d
34.d D / en cualquier contexto menos Inicio y N_
(despus de nasal "m o n")
35.b B / en cualquier contexto menos Inicio y N_
36.g G / en cualquier contexto menos Inicio y N_

Explicacin de las reglas:
Regla 1:
Convierte todas las combinaciones de ch en tS. Por ejemplo, Chela en tSela.
Excepciones, los nombres extranjeros deben ser filtrados, antes de ingresar a la
conversin, para no ser traducidos por esta regla, por ejemplo para que apellidos
como Schwartzman no sean traducidos como StSwartzman.
Regla 2:
Remueve todas las h restantes, ya que estas no se pronuncian en espaol.
Regla 3:
Convierte todas las v en b.
Regla 4:
Indica que todas la n y antes de p y de b se transcriben tambin se
transcriben como m. Por ejemplo, enviar, por la regla 3 se convierte en enbiar y
por la regla 4 en enbiar y embiar. Generalmente no se encuentra la n antes de p,
pero cuando se aplican reglas entre palabras esto sucede a menudo. Por ejemplo,
San Pedro, se transforma en Sampedro.
Regla 5:
Convierte todas las m antes de r, s, etc, tambin en n. No aparecen palabras en
el idioma con estas combinaciones, pero son frecuentes en los apellidos no
hispnicos. Por ejemplo, Hamra, tambin se transcribe como Hanra.
Regla 6:
Convierte las n antes de f tambin en m. Por ejemplo, enfermedad, tambin
se transcribe como emfermedad.
Regla 7:
Las combinaciones ca, co y cu, se transcriben como ka, ko, ku. Por ejemplo, kasa,
kosa y kurioso.
Regla 8:
Todas las que y qui, se transcriben como ke y ki. Por ejemplo, Quesada como
kesada y quitar como kitar.
Regla 9:
Todas las slabas ce y ci, se transcriben como se, si, excepto en los apellidos
italianos o de origen extranjero. Por ejemplo, Cecilia, se transcribe como sesilia.
Regla 10:

Las x se transcriben como ks, s y gs. Por ejemplo, existencias como eksistencias,
esistencias y egsistencias o exacto como eksakto, esakto o egsakto. Ambas
opciones no tienen el mismo grado de probabilidad. Por ejemplo, es ms corriente
escuchar esakto que esistencias. Esto se debe al hecho de que la primera k de
esaktos, se suprime en presencia de la segunda k antes de t, ya que ambas
entran en lo que se denomina armona consonntica, que generalmente, evite la
presencia de dos consonantes prximas con el mismo punto o modo de
articulacin. Segn lo demostrado en los estudios de los ltimas dcadas, parece
ser un principio universal.
Regla 11:
Las combinaciones ge y gi se transcriben como Ce y Ci. Por ejemplo, General se
escribe Ceneral y gitano como Citano. Muchos apellidos de origen italiano o
portugus por ejemplo, pueden transcribirse con el sonido S, que equivale a la ll
de llevar o a la y de yo. As podramos decir Sirola por Girola o Seneiro por
Geneiro como pronunciaciones alternativas. Esta opcin depende de la forma en
que pueda incorporarse este sonido.
Regla 12:
La combinacin cc se convierte en ks o en gs, como en acciones aksiones y
agsiones.
Regla 13:
Transformar todas las je "ji" en Ce "Ci". Por ejemplo cajero en k a C e r o.
Regla 14:
Transformar todas las ja, jo, ju en xa, xo, xu. Por ejemplo Juan por xuan.
Regla 15:
La en todos las casos se transcribe como J y nj. Por ejemplo, nio se transcribe
como niJo y ninjo.
Regla 16:
Convierte gue y gui en ge y gi. Por ejemplo, Guerrero en gerrero y Guilln en
gilln.
Regla 17:
Convierte r entre n y vocal y l y vocal en rr. Por ejemplo, alrededor en
alrrededor, enrique en enrrique.
Regla 18:
Convierte todas r entre dos vocales en r. Por ejemplo, Ara en ara. (Esta regla
es expletiva en el Sampa, sirve para otros sistemas).
Regla 19:

Convierte todas las r al final de slaba en rr o r. Por ejemplo, Salir se
transcribe como salir o salirr.
Regla 20:
Convierte la r que est en el contexto de br-VOCAL, dr-VOCAL, gr-VOCAL, pr-
VOCAL, tr-VOCAL, kr-VOCAL, fr-VOCAL en brvocal, prvocal, etc. Por ejemplo,
Brasil se transforma en b!asil, Prada en p!ada, etc. . (Esta regla es expletiva en el
Sampa, sirve para otros sistemas).
Regla 21:
La regla 19 convierte las r en rr al principio de palabra. Por ejemplo, Rodriguez
en rrodriguez.
Regla 22:
Convierte rr en rr. Expletiva en el sistema Sampa.
Regla 23:
Convierte la i en j si la i est precedida o le sigue una vocal abierta, -a , o , u-
y si i es no acentuada. Por ejemplo, diario en djarjo, pero no en daz, que queda
como diaz. En inicio de palabra el Sampa estipula la utilizacin del smbolo "jj", es
decir la semiconsonante que es ms cerrada que la semivocal "j".
Regla 24:
Convierte la u en w si la u est precedida o le sigue una vocal abierta, -a , o ,
i- y si u es no acentuada. Por ejemplo en puede, se transforma en pwede, austero
en awstero, pero no en an, que queda aun.
Regla 25:
Convierte la "ll" en "S", en "Z" y en "dZ". Dicha regla depende de variaciones
sociolectales en la Argentina. S se utiliza puede encontrarse con ms frecuencia,
Z y dZ se utiliza como forma de distincin social o cultural en Buenos Aires. En
provincias argentinas suele darse tambin variadas formas ms hispnicas, como
por ejemplo en Cuyo y el Norte en general, como la "j", la "jj" y la "L". Por ejemplo,
lluvia se convierte en lluvia y en Suvia. En general, si se transcribe habla de
Buenos Aires, la forma usada es S.
Regla 26 :
Convierte la "y" al final de slaba en "j". Por ejemplo, en buey, se convierte en buej,
o Paraguay en paraguaj.
Regla 27 :
Convierte las restantes "y" en "S", en "Z" y en "dZ". Por ejemplo, yo se convierte
en So. Se aplica de igual forma que la regla 25.
Regla 28 :

Convierte todas las "z" en "s". Por ejemplo, Daz, los convierte en dias.
Regla 29 :
Convierte la "s" antes de k y g, en "s" y en "x" (sonido de la jota espaola). Por
ejemplo, en bosque se transforma en boske, y luego en boxke y boske.
Regla 30 :
Transcribe las combinaciones gua y guo, como gwa, wa. Por ejemplo, en antiguo,
se transforma en antigwo y en antiwo.
Regla 31 :
Convierte los inicios en ua, uo y ue en wa, wo y we, y en gwa, gwo y gwe. Por
ejemplo, huerta, se convierte en werta y en gwerta.
Regla 32 :
Si "s" est al final de palabra, entonces se transcribe con "s" y sin "s". Por ejemplo,
tres, se transcribe como tres y como tre. Esta regla se sustenta en el hecho en que
las consonantes finales se debilitan o no se pronuncian directamente en algunos
registros, por lo cual es posible que en el proceso de reconocimiento no se
detecten.
Regla 33 :
Si "d" est al final de palabra, entonces se transcribe con "d" y sin "d". Por
ejemplo, ciudad se transcribe como ciudad y ciuda. La mismo argumento que en
31 se sustenta para la regla
Regla 34, 35, 36:

Convierte la b, d y g a B, D y G, si estas no estn en el contexto de inicio o
despus de nasal. En la generalidad de los casos se ha comprobado que las
oclusivas sonoras son poco frecuentes en todas las variedades del espaol, ya
que se relajan en todos los contextos, menos despus de nasal, ya que
obviamente el tracto oral se encuentra cerrado en la nasal y esta es la situacin
hasta el inicio de la explosin.
3.1.2. Reglas que aplican entre palabras:
Hay reglas que aplican entre palabras. Esto se da en aquellos casos en que una
frase compuesta de varias palabras puede ser considerada como una palabra en
trminos fonticos. Esta es la ley, ya que el habla es continua y los cortes
solamente se hacen en una pausa. La habilidad de un programa de
reconocimiento para segmentar la cadena del habla depende de cmo est
configurado el endpointing. En todo caso lo conveniente es poder predecir como
una frase puede ser dicha y segmentada en distintos grupos prosdicos para
transcribir todas las posibilidades.

Por ejemplo, puede decirse:
Con el Ingeniero Ignacio Orduna.
Las posibles segmentaciones pueden ser (donde # indica pausa o cambio tonal):
Con el Ingeniero # Ignacio Orduna
Con el Ingeniero # Ignacio # Orduna
Con Ignacio Orduna
Con el Ingeniero Orduna
Con el Ingeniero # Orduna
Ignacio Orduna
Etc.
Si tenemos en cuenta los fonemas que inician y culminan cada palabra, podemos
darnos cuenta que estos constituyen nuevas slabas. As podemos encontrar que
con el se pronuncia k o n e l, y que nunca se hace una pausa, al menos que
haya una disfluencia por razones azarosas, como tos, risa, respiracin, olvido,
distraccin, etc, difciles de predecir. La dificultad estriba en que esto tambin
puede ocurrir en el medio de una palabra, y en el proceso de reconocimiento
pueden tomarse como dos.
Siguiendo con el ejemplo anterior, a su vez, el ingeniero, se pronuncia e l i n C e

n j e r o , Ingeniero Ignacio, como i n C e n j e r o j g n a s j o e Ignacio
Orduna, como
i g n A s j o ! d u n A. El fenmeno es conocido en fontica con la denominacin
francesa liason, y ms tecnicamente como grado de juntura o segregacin
entre palabras. Para la prediccin de cmo una frase puede segmentarse, es
necesario considerar la acentuacin. Tradicionalmente, y esto funciona en un alto
porcentaje, hay palabras acentuadas y no acentuadas. La mayora de los
monoslabos (palabras de una sola slaba) no se acentan, por ejemplo la
preposicin de en la casa de Juan, pero se acenta en d, en la emisin
ojal que Juan d la Casa. Tradicionalmente se consideraron dos tipos de
palabras: palabras de contenido (verbos, sustantivos, adjetivos, etc) y palabras de
funcin (preposiciones, relacionantes, incluyentes, artculos, pronombres con
excepcin de los personales, etc). Por ejemplo, cuando decimos, Con el Ingeniero
Ignacio Orduna, con y el , son palabras de funcin, mientras que Ingeniero,
Ignacio y Orduna, son de contenido. Las palabras de funcin son inacentuadas, y
las de contenido son acentuadas. Las inacentuadas necesitan de un acento y lo
forman con las palabras de contenido. Por eso con y el difcilmente aparezcan
Versin 1.0 Pgina 10 11/30/00

separadas y van a agregarse a Ingeniero para formar un grupo entonativo.
Cuando las palabras se juntan unas con otras, forman nuevas slabas de la
conjuncin de las slabas finales de las palabras y del inicio de las nuevas. Esto se
conoce con el nombre de resilabificacin. Las reglas que se aplican son post-
lexicales, ya que van ms all de la simple palabra. Este es uno de los motivos por
los cuales, los sistemas de sntesis contienen un mdulo con lo que se denomina
tagger. Un tagger pone una etiqueta o label correspondiente la clase de
palabra o part-to-speech a la que pertenece u item lexical o palabra. Esta
informacin es valiosa para la sntesis, sobre todo.
Los sistemas de reconocimiento y sntesis generalmente estn en principio hechos
para la lengua inglesa. En ingls como en alemn, la delimitacin entre palabras
es un hecho acstico detectable: el acento generalmente se ubica en el extremo
izquierdo de la palabra, y tanto las vocales como consonantes en dicha posicin
tienen caractersticas distintivas (voice onset time, energa global, perodo de
silencio antes de la explosin oclusiva, etc) que se convierten en pistas -
acoustical cues -, claras para el reconocimiento. En cambio en lenguas como el
espaol y el francs, en el plano acstico no existen tales pistas para la
delimitacin entre palabras, y por lo tanto tienden a fusionarse, excepto en algunas
formas dialectales. La tendencia es completamente la opuesta. Esta es la principal
razn por la que conviene ingresar en el diccionario las palabras en trminos de
frases o pies rtmicos y no individualmente. Por ejemplo, de Mara, dos mil, lo hizo,
mi casa, del Plata, hablar con, con el, cuarenta y tres, etc, es conveniente
fonetizarlos como una sola unidad lxica.
Las reglas son las siguientes:
1.Si la palabra termina en cualquier consonante en posicin de coda silbica (final

de palabra), y la siguiente empieza con vocal, se forma una nueva slaba:
Gonzalez Aguado - gon-za-le-za-gua-do
2.Si la ltima slaba de la palabra termina en consonante, y la primera de la

siguiente empieza en la misma consonante o fonema equivalente, entonces
queda una sola consonante.
Gonzalez Sola Gonzalesola
3.De la misma manera, si la ltima slaba de la palabra termina en vocal, y la

primera de la siguiente empieza en la misma vocal, entonces queda una sola
vocal.
Ana Almeira Analmeira
4.La ltima consonante de una palabra se asimilan al punto o al modoi o

ambos de articulacin de la consonante siguiente. Esta regla repite varias de
Versin 1.0 Pgina 11 11/30/00

las reglas aplicadas de 1 a 34. Por ejemplo, si tenemos una localidad como
Los Bosques, lo ms probable es que su transcripcin sea de la siguiente
manera:
,loxboxkes
,los
,boxkes
5.Si una palabra termina en vocal y la siguiente empieza con una vocal distinta,
entonces puede ocurrir que formen un diptongo, segn las reglas 21 y 22, o si
son dos vocales abiertas ( a, e, o) se conservan sus caractersticas, se
fusionan o se convierten en diptongo.
5.1. Si forman diptongo:
Ana Ins Anajns
5.2. Si no forman diptongo
Pablo Hugo Pablougo
No forman diptongo porque la u de Hugo est acentuada.
5.3. Dos slabas abiertas pueden conservar las cualidades acsticas de la

vocal:
Alberto Alonso Albertoalonso.
5.4.Las slabas pueden fusionarse formando diptongo:
Albertualonso
6.La conjuncin de m y n puede llevar a un conjunto de alternativas:
San Martn Sanmartin

San Martin Samartin
7.Algunas combinaciones llevan a la enmudecimiento o supresin de vocales o de

consonantes. Esto ocurre porque la vocal e en de es muy breve y es posible
que no sea reconocida como un segmento. Por ejemplo:
Ro de La Plata - Riodlaplata
Ciudad La Plata ciudadlaplata o ciudalaplata
Versin 1.0 Pgina 12 11/30/00

3.2. La slaba.
3.2.1. Concepto.
Una slaba es una combinacin de vocales y consonantes o vocal/es que siguen

determinadas reglas.
Las slabas del espaol siguen un conjunto de modelos o templates. Los

siguientes son los modelos del espaol:
S= V, VV, VC, VCC, CV, CVV, CVVV, CCV, CCVV, CCVC, CCVCC, CCVVC, etc.
Ejemplos:
V a-bla-ban
VV hie-na
VC ac-tua-cin
VCC abs-trac-cin
CV ca-sa
CVV cue-va
CVVV buey
CCV Bra-vo
CCVV prue-ba
CCVC fren-te
CCVCC trans-por-te
CCVVC cruel-dad
Si atendemos a los anteriores templates podemos deducir un conjunto de reglas y

restricciones para la formacin de las slabas del espaol:
a.Una slaba debe contener al menos una vocal, la cual se convierte en el nico
elemento imprescindible.
b.La slaba no puede contener ms de cinco fonemas.
Versin 1.0 Pgina 13 11/30/00

c.Solamente puede tener un grupo consonntico compuesto en el inicio (dos
consonantes), si la primera es una obstruyente y la segunda una lquida.
d.Solamente puede tener un grupo consonntico compuesto en el final (dos
consonantes) si la segunda de estas consonantes es s.
De ah la posibilidad de postular el siguiente esquema:
(?C (??C) ) ( (?V) V ( ?V ) ) ( ?C ( ??C ))
donde
? indica opcionalidad
?? indica mayor grado de opcionalidad.
( X (Z) ) indica que la aparicin del elemento incrustado en un parntesis
doble (Z) depende de la aparicin del elemento con simple parntesis
(X).
La nica posicin que no es opcional es la vocal V. Todos los dems elementos

son opcionales. El elemento ??C del primer grupo consonntico es
necesariamente una lquida, sea r o l. Por ejemplo, en BRAzo, FREgar,
TRAbajo, FLAn.
El elemento marcado como ?V del grupo voclico, es necesariamente una

deslizada, sea i o u transcriptas como j y w. Por ejemplo, CUAndo, CAUsa,
MIErcoles, bUEY. Es decir que las deslizadas, siempre se encuentran a ambos
lados de la vocal abierta.
El segundo elemento del ltimo grupo consonntico ?C es necesariamente el

fonema s.
Por ejemplo: ABStraccin, CONStitucin, SOLSticio, o en expresiones latinas
como ARS.
Si en el primer grupo consonntico aparece una segunda consonnte lquida,

necesariamente, la primera consonante debe ser una obstruyente, del tipo b, d, g,
p, t, k (c), f.
El primer elemento del segundo grupo consonntico, en el caso de aparecer s

como segundo elemento, es necesariamente n, r, l, o b.
3.2.2. La divisin de la slaba espaola:
De acuerdo al apartado anterior podemos considerar que las siguientes son las
reglas para la delimitacin silbica en espaol:
Versin 1.0 Pgina 14 11/30/00

1)Cuando una consonante se encuentra entre dos vocales, la consonante se
agrupa con la vocal siguiente:
Ca-sa, mi-ra-ron, de-mo-ra.
VCV V # CV
Apa a pa
2)Cuando dos consonantes se encuentran entre dos vocales, hay que tener en
cuenta:
2.a. Son inseparables los grupos que estn formados por las consonantes (b, p, f,
g, k, d,t) con las lquidas (r, l).
[pr, br, pl, bl, fr, fl, gr, gl, kr, kl, dr, tr]
o-bre-ro, o-pri-mo, a-plo-mo, lo-grar.
VCCV VCLV V # CLV

Abra abra a bra
2.b. Cualquier otra pareja de consonantes que se encuentre entre dos vocales,
queda dividida, de manera que la primera consonante cierra la slaba
inmediatamente anterior, y la segunda forma parte de la rama explosiva de la
slaba siguiente.
Ar-tis-ta, in-se-pa-ra-ble, cuen-ta.
Artista Ar tis ta
VCCVCCV VC#CVC#CV
3)Cuando tres o ms consonantes se encuentran entre dos vocales, puede ocurrir:

3.a. Que las dos ltimas formen un grupo consonntico, una de las cuales forme
una lquida, in-fla-mar.
Inflamar in flar mar

VCCCVCVC VC#CCVC#CVC
3.b. Que las dos primeras formen un grupo constituido por nasal (n), ms fricativa
sorda (s). Cons-tru-ir, ins-tau-rar.
Construir construir

CVCCCCVVC CVCC#CCVVC
4)El contacto entre dos vocales abiertas (a, e, o) da origen a dos slabas:
Versin 1.0 Pgina 15 11/30/00

a-e-re-o.
5)Si se renen dos slabas una abierta (a,e,o), otra cerrada (i, u) o dos cerradas
(i,u), forman diptongo. A menos que el acento est en la cerrada, es decir que
el diptongo se rompe, forman una sola slaba. Bue-no, eu-ro-pa, a-sia.
6)Un triptongo, forma una slaba: buey.
Existen a su vez otros mtodos de delimitacin silbica. El ms conocido es el de

la delimitacin de acuerdo a la escala de sonoridad.
4. Casos especiales: transcripcin de nmeros y de nombres propios.
4.1. Nombres propios:
Los nombres propios responden a tendencias fonolgicas que derivan de distintas

lenguas. Es comn en la Argentina que haya una cantidad de nombres propios,
tanto apellidos, como nombres de ciudades, localidades y empresas, que sean de
origen extranjero. En un principio puede establecerse que el nombre propio pueda
pronunciarse de maneras diferentes. Entre ellas, las principales son dos: o se
pronuncia en una versin castellanizada, o se pronuncia en su lengua original.
Entre las dos formas de pronunciacin hay un conjunto de variantes intermedias,
por ejemplo, que se pronuncien algunas de sus slabas en el idioma original y
otras en castellano. Los nombres propios, dadas estas caractersticas, debieran
tener un conjunto de reglas propias, ya que si se incluyen con las palabras
comunes del espaol puede existir la posibilidad de sobregeneralizar, que
significa aplicar reglas generales, cuando los contextos son particulares. Los
sistemas de conversin grafema-a-fonema generalmente vienen acompaados
por un Part-to-Speech Tagger, que no es ms que un programa que identifica las
palabras segn su clase gramatical. La inclusin de los taggers en los programas
de sntesis, por ejemplo, obedece entre otras razones al hecho de la dificultad de
tratar con nombres propios. Otra estrategia es filtrar los nombres que no
obedezcan a las reglas del espaol, y transcribirlos con reglas especiales. El
filtrado puede hacerse mediante un parser que identifique por ejemplo, slabas
extraas al espaol o por medio de un diccionario de apellidos por origen, en la
cual la entrada del diccionario sea apellido y origen, por ejemplo, para aplicar las
reglas apropiadas para su transcripcin. Para la clasificacin de las clases de
palabras se requiere o diccionario legible por mquina, machine readable, que
pueda ser accedido por el tagger o etiquetador. La otra forma, ms costosa a la
larga, es identificar los nombres extranjeros y transcribirlos a mano. Los nombres
propios de origen extranjero debieran poseer un programa de conversin text-to-
phoneme especial para cada caso. En este sentido pueden encontrarse en la red
programas que realizan estas tareas para las principales lenguas europeas que
estn disponibles.
Versin 1.0 Pgina 16 11/30/00

4.1.1. Apellidos de origen italiano.
Los apellidos de origen italiano pronunciados en la lengua original tienen como

principal caracterstica diferenciadora del espaol la utilizacin de consonantes
dobles. Tambin encontramos que existen dificultades para
En italiano encontramos muchas consonantes dobles que se transcriben como

simples o complejas. Ejemplo: ss, zz, tt, cch, cc (con distinta pronunciacin que en
espaol, etc), denominadas geminadas. Las geminadas son consonantes de
doble articulacin. Por ejemplo:
Mazzucelli se transcribe como m A d s u tS e l i
Las reglas para la pronunciacin son las siguientes:
Ortografa Fonemas palabra Transcripcin

1 p p pane pAne
2 b b banco bAnko
3 t t tana tAnA
4 c k cane kAne
5 d d danno dAnno
6 g g gamba gAmbA
7 pp pp coppa "k o p p A
8 bb bb gobba "g o b b A
9 tt ts zitto "tS i t t o
10 dd dd cadde "k A d d e
11 cc kk nocca "n o k k A
12 gg gg Fugga "f u g g A
13 z ts Zitto "tS i t t o
14 z dz Zona "tS o n A
15 c tS Cena "tS e n A
16 g dz Gita "dz i t A
17 zz ts Bozza "b o t t s A
18 zz dz Mezzo "m e d s o
19 cc tS Braccio "b ! A t tS o
20 gg dz Oggi "o d j i
21 f f Fame "f A m e
22 v v Vano "b A n o
23 s s Sano "s A n o
24 z z Sbaglio "s b A l l o
25 sc s Scendo "s e n d o
26 ff f Beffa "b e f f A
27 vv bb Bevvi "b e b b i
28 ss ss Cassa "k A s s A
29 sc ss Ascia "A s s A
Versin 1.0 Pgina 17 11/30/00

30 m m Molla "m o l l A
31 n n Nocca "n o k k A
32 gn n| n j Gnocco "j o k k o
33 mm mm grammo "g ! A m m o
34 nn nn panna "p A n n A
35 gn nn bagno "b A N N o
36 r ! rete "! e t e
37 l l lama "l A m A
38 gl li gli Li
39 r r ferro "f e r o
40 ll ll colla "k o l l A
41 gl llj foglia "f o l l A
42 i j ieri "j e ! i
43 u w uomo "w o m o
Existe a su vez una dificultad para transcribir con el set de fonemas del espaol
latinoamericano lenguas como ingls, para la cual no existen smbolos ni modelos
acsticos correspondientes. Por ejemplo, es comn en las empresas, tener
departamentos tales como: information technology, administration, customer, call
center, recovery credits, help desk, etc. Cuando esto es un hecho comn, una
posibilidad es combinar distintos packages.
4.2. Nmeros:
La transcripcin de nmeros entindase por nmeros dgitos, valores,

cantidades, fechas, aos, etc- encierra una doble dificultad. En primer lugar las
diferentes formas de referenciarlos con palabras (ver artculo de Roxana Meites), y
en segundo lugar, las variantes fonticas de su pronunciacin. El primer problema
se resuelve por las gramticas, y el segundo, teniendo las entradas apropiadas en
el diccionario. Entre las variantes de su pronunciacin podemos dar los siguientes
ejemplos no exhaustivos- :
Las decenas, treinta, cuarenta, cincuenta, sesenta, setenta, ochenta y noventa,

terminadas en a, forman junto a y y al nmero correspondiente dos maneras: 1)
treintai, cuarentai, cincuentai, sesentai, setentai, ochentai y noventai, (uno, dos,
tres, cuatro, etc), y 2) una forma contracta, treinti, cuarenti, cincuenti, sesenti,
setenti, ochenti y noventi, (uno, dos, tres, cuatro, etc).
1.La forma un mil es extraa, generalmente se dice mil.
2.Los nmeros terminados con s, dos, tres y seis, tienen tres alternativas, 1) no
se pronuncia la s, 2) se debilita, por lo tanto tiene poca energa y es posible
que el reconocedor no la tome como tal, y 3) se pronuncia. as podemos tener:
seismil y seimil (ms frecuente).
Versin 1.0 Pgina 18 11/30/00

3.Debe atenderse a la entonacin de los nmeros para poder predecir su
segmentacin. Por ejemplo, tenemos un nmero como 3988, que puede
transcribirse como tres mil novecientos ochenta y ocho. Si uno toma los
acentos de la frase transcriptos con maysculas-, tendramos lo siguiente:
tres MIL noveCIENtos oCHENta y Ocho. Cada uno de las palabras con
prominencia, puede formar un grupo por s mismo, pero si no tiene
prominencia, no forma un grupo. as tenemos que una transcripcin puede
tener en cuenta la palabra tresmil, pero difcilmente pueda decirse tres y
mil por separado. Podramos tener los siguientes agrupaciones de palabras:
Tresmil#novecientos#ochentai#ocho
Tresmilnovecientos#ochentaiocho
Tresmil#novecientosochochentaiocho
Tresmil#novecientos#ochentaiocho.
a pesar de que las gramticas tienen la opcin de recursividad, es conveniente

poner en el diccionario las formas que suelen decirse en forma rpida y con
contracciones.
4.Recordar que la forma para transcribirlos juntos ayuda a detectar las posibles
pronunciaciones. Por ejemplo, si uno dice: trecientos cuarenta, la ltima s de
trescientos puede transcribirse adecuadamente como s y x segn una regla,
y como s o delete por otra, en tanto que si se codifican en el diccionario por
separado se pierde la posibilidad de transcribirlos con mayor precisin.
5.Los nmeros hay que transcribirlos en singular y plural, cuando existe esta
variante y en femenino y masculino. Por ejemplo, quinientos y quinientas, un y
unos, etc, puesto que puede tratarse de valores, acciones, fechas, nmeros de
telfono, etc, que cada uno tiene estas variantes.
i
Las consonantes se clasifican bsicamente por dos parmetros articulatorios, estos son el punto y el modo de
articulacin. El punto de articulacin indica el lugar donde se produce el mayor grado de constriccin dentro
del tracto vocal. As tenemos las labiales, cuyo punto de articulacin son los labios, como b, p y m, las
dentales, cuya constriccin se produce entre la lengua y los incisivos superiores, como por ejemplo, t y d,
las alveolares, entre la lengua y los alvolos, como l y n, las velares, entre el cuerpo de la lengua y el velo
del paladar, como por ejemplo k y g. El modo corresponde a la naturaleza o grado de estrechamiento.
De acuerdo a este parmetro tenemos, las oclusivas o stops, en las cuales el cierre es completo, por
ejemplo, p, t, k, g, d, b ; las fricativas, en las cuales hay un estrechamiento pronuciado entre los articuladores
producindose una diferencia de presin y velocidad del aire en el lugar de estrechamiento cuyo correlato
acstico es el ruido de fricacin, como en la f, s y x (j en la ortografa), o vibrantes, que se producen
cuando un articulador vibra ante el paso de la corriente de aire, como el pice de la lengua en r y rr,
laterales, en las cuales la corriente de aire pasa por ambos lados de la lengua, por ejemplo en la l. Esta lista
no es exhaustiva, y solamente es a modo de ejemplificacin.
Versin 1.0 Pgina 19 11/30/00

Reglas fonéticas para la fonetización del español

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Reglas fonéticas para la fonetización del español

Hochgeladen von

Copyright:

Verfügbare Formate

Reglas fonticas para la conversin de texto a fonemas

Los sistemas de sntesis y reconocimiento de habla contienen un mdulo que

En el presente documento se propone un conjunto de reglas para la conversin de

Por ltimo se indica una revisin de los mtodos utilizados en la construccin de

Brindar un conjunto de reglas para la fonetizacin de diccionarios usando el

Una de las principales caractersticas que presenta el habla humana es su gran

Versin 1.0 Pgina 1 11/30/00

El presente documento se refiere a la etapa de construccin de diccionarios, ms

Las causas de la variabilidad fontica son diversas. Entre las ms notables

Versin 1.0 Pgina 2 11/30/00

1.Si el programa no tiene en consideracin la divisin en slabas sera difcil aplicar

Las reglas de conversi tienen un orden de aplicacin, en tanto que este es un

3.1. Reglas de conversin de grafemas a fonemas:

(entrada) - (salida) / contexto

Versin 1.0 Pgina 3 11/30/00

Las reglas fonolgicas pueden instrumentarse tambin como la transformacin de

donde X se transcribe como Y y como Z en el contexto / _A, para lo cual el

/ _V posicin inicial de palabra seguida por una vocal

Versin 1.0 Pgina 4 11/30/00

3.1.1. Reglas dentro del contexto de la palabra.

1.ch tS / * en cualquier contexto

Versin 1.0 Pgina 5 11/30/00

Versin 1.0 Pgina 6 11/30/00

Versin 1.0 Pgina 7 11/30/00

Versin 1.0 Pgina 8 11/30/00

Regla 34, 35, 36:

3.1.2. Reglas que aplican entre palabras:

Versin 1.0 Pgina 9 11/30/00

Con el Ingeniero Ignacio Orduna.

Con el Ingeniero # Ignacio Orduna

Con el Ingeniero # Ignacio # Orduna

Con Ignacio Orduna

Con el Ingeniero Orduna

Con el Ingeniero # Orduna

Siguiendo con el ejemplo anterior, a su vez, el ingeniero, se pronuncia e l i n C e

Versin 1.0 Pgina 10 11/30/00

Las reglas son las siguientes:

1.Si la palabra termina en cualquier consonante en posicin de coda silbica (final

Gonzalez Aguado - gon-za-le-za-gua-do

2.Si la ltima slaba de la palabra termina en consonante, y la primera de la

Gonzalez Sola Gonzalesola

3.De la misma manera, si la ltima slaba de la palabra termina en vocal, y la

Ana Almeira Analmeira

4.La ltima consonante de una palabra se asimilan al punto o al modoi o

Versin 1.0 Pgina 11 11/30/00

5.1. Si forman diptongo:

Ana Ins Anajns

5.2. Si no forman diptongo

Pablo Hugo Pablougo

No forman diptongo porque la u de Hugo est acentuada.

5.3. Dos slabas abiertas pueden conservar las cualidades acsticas de la

Alberto Alonso Albertoalonso.

5.4.Las slabas pueden fusionarse formando diptongo:

6.La conjuncin de m y n puede llevar a un conjunto de alternativas:

San Martn Sanmartin

7.Algunas combinaciones llevan a la enmudecimiento o supresin de vocales o de

Versin 1.0 Pgina 12 11/30/00

Una slaba es una combinacin de vocales y consonantes o vocal/es que siguen

Las slabas del espaol siguen un conjunto de modelos o templates. Los

Si atendemos a los anteriores templates podemos deducir un conjunto de reglas y

Versin 1.0 Pgina 13 11/30/00

De ah la posibilidad de postular el siguiente esquema:

(?C (??C) ) ( (?V) V ( ?V ) ) ( ?C ( ??C ))