Sie sind auf Seite 1von 9

Tratamiento de la Información de Forma

Automática

Las herramientas de tratamiento automático de la información textual que se


han desarrollado en el LaLI para el tratamiento de textos se caracterizan por:

(1) expresar la etiquetación de un texto en un autómata finito determinista


(AFD), con objeto de:

• formalizar las ambigüedades de los elementos léxicos


(simples y compuestos) etiquetados;

• posibilitar su ulterior reprocesamiento;

(2) desambiguar una parte de las ambigüedades del AFD que formaliza la
etiquetación mediante una aplicación, que intersecta el AFD resultante de la
etiquetación con transductores que formalizan determinadas restricciones
distribucionales del español.

3.1 Conversión de un texto en un autómata finito determinista (AFD)


minimizado, etiquetado con la información de un diccionario electrónico

El formato de los ficheros resultantes de las etiquetaciones, que podemos


observar en la Fig. 2.1, 2.2 y 2.3, resulta cómodo para la consulta humana,
pero plantea múltiples problemas, si lo que se desea es reprocesar dichos
ficheros para tratar automáticamente su información (Subirats y Ortega 2000,
Subirats 1998):

(1) Las ambigüedades asociadas a formas simples, como p. ej. la en la Fig. 2.1
y 2.2, que es a la vez, un nombre, un determinante y un pronombre clítico, no
están formalizadas: el etiquetador se limita a separar con comas las formas
canónicas (junto con su correspondiente información categorial y morfológica) a
las que está asociada la forma del texto.

(2) No se puede formalizar la ambigüedad que plantean locuciones, como p.


ej., ministra de educación en la Fig. 2.2, que, en determinados contextos, se
pueden interpretar además como una concatenación de formas simples.

(3) Tampoco es posible formalizar las ambigüedades que plantean las


locuciones que incluyen otras locuciones (cf. Fig. 5.1). Los casos más comunes
de inclusión de locuciones son los siguientes:

• la inclusión simple, como p. ej., la que se da en la locución


adverbial hoy por hoy, que incluye la locución adverbial por hoy;
los corchetes con subíndices, que indican el principio y fin de una
locución, nos permiten representar las inclusiones: 1[hoy 2[por
hoy]2]1 . Asimismo, la locución verbal 1[2[dar vueltas]2 la cabeza]1
en La cabeza me da vueltas incluye la locución verbal ambigua
dar vueltas1 “desplazarse”, p. ej., Se pasa todo el día dando
vueltas1 por la ciudad, y dar vueltas2 “discurrir”, p. ej., Se ha
pasado todo el día dándole vueltas2 al mismo tema8.
• la inclusión doble, como p. ej., en la locución adverbial
1[medio 2[en broma]2 medio 3[en serio]3]1, que incluye, a su vez,
dos locuciones adverbiales: en broma y en serio;

• la inclusión anidada, como p. ej., en la locución adverbial


1[2[de 3[una vez]3]2 por todas]1, la cual incluye la locución adverbial
de una vez, que, a su vez, incluye la locución adverbial una vez;
• combinaciones de inclusiones, como p. ej., la doble y la
anidada, v. gr., en la locución adverbial 1[2[de 4[una vez]4]2 3[para
siempre]3]1, que incluye dos locuciones, de una vez y para
siempre, pero, a su vez, de una vez, incluye la locución una vez,
como ya hemos señalado anteriormente.
(4) Tampoco se pueden formalizar las ambigüedades provocadas por la
intersección de locuciones, que pueden surgir en algunos grupos nominales,
preposicionales, etc. Así p. ej., en el grupo nominal agua de riego por
aspersión, se da una ambigüedad provocada por la intersección de las
locuciones nominales agua de riego y riego por aspersión. Análogamente, en
el grupo preposicional a la fuerza aérea se da otra ambigüedad, que está
provocada por la intersección entre la locución adverbial a la fuerza y la
locución nominal fuerza aérea.

de de.PREP
de/una/vez de/una/vez.D
de/una/vez/para/siempre de/una/vez/para/siempre.D
una unir.V17:SPRES:1s:3s:IIMPE:2s,un.DET:fs,uno.
PRON:fs
una/vez una/vez.D
vez vez.N27:fs
para para.PREP,parar.V1:IPRES:3s:IIMPE:2s,
parir.V17:SPRES:1s:3s:IIMPE:2s
parir.V17:SPRES: 1s:3s:IIMPE:2s
para/siempre para/siempre.D
siempre siempre.ADV

Fig. 5.1. Etiquetación de la locución adverbial de una vez para siempre, la cual
incluye las locuciones adverbiales de una vez, una vez y para siempre.

Dado que el etiquetador que genera una salida en columnas no puede


sistematizar la información léxica relacionada con las ambigüedades señaladas
anteriormente en (1-4), es necesario desarrollar un etiquetador que genere la
misma información en un lenguaje formal. En el marco de nuestro sistema, la
etiquetación de las oraciones de un corpus se representa en un autómata finito
determinista (AFD)19. Un AFD se caracteriza por el hecho de que, para cada
estado y para cada símbolo del alfabeto, la función de transición define un
único cambio de estado. Por tanto, existe una correspondencia unívoca entre
las palabras del lenguaje reconocido por un AFD y la secuencia de cambios de
estado, es decir, el camino que las reconoce, de modo tal que existe un único
camino que reconoce cada palabra perteneciente al lenguaje de un AFD y
dicho camino va del estado inicial a un estado final. Los AFD resultantes de la
etiquetación tienen las siguientes características:

• Los elementos léxicos del corpus han sido sustituidos por la


información que de ellos se tiene en un diccionario electrónico.

• Las transiciones de los AFD, que formalizan el análisis léxico, están


etiquetadas con concatenaciones de símbolos procedentes de un alfabeto
integrado por:

• las formas canónicas (simples o compuestas) de un


diccionario electrónico;

• los códigos categoriales y morfológicos del Etiquetario (cf.


Anexo);

Los símbolos del alfabeto que etiquetan los AFD ocupan posiciones
específicas dentro de cada transición:

• en primer lugar, aparece la forma canónica;

• en segundo lugar, la especificación de la categoría léxica de la


correspondiente forma canónica, especificación que va precedida de un
punto, que actúa como un separador;

• en tercer lugar, en el caso de los nombres, los verbos, los adjetivos


y los participios, aparece la especificación de sus propiedades
morfológicas de flexión, precedida por dos puntos, que constituyen un
separador:
• los nombres, los adjetivos y los participios llevan una
especificación de su género y número;

• las formas verbales llevan una especificación del modo, el


tiempo, la persona y el número.

Los AFD resultantes del análisis léxico formalizan tanto las ambigüedades que
afectan a las formas simples, como las que afectan a las formas compuestas:

• Las ambigüedades de las formas simples que están asociadas a


una única forma canónica se especifican como concatenaciones de
símbolos del etiquetario dentro de los estados correspondientes. Cuando
las ambigüedades de una forma están asociadas a más de una forma
canónica (con su correspondiente información morfológica y/o
categorial), cada una de dichas formas canónicas (con su
correspondiente información asociada) forma una transición del AFD,
que parte del mismo estado de origen y va al mismo estado de destino;
en nuestra representación gráfica del AFD, se incluyen dentro de una
caja única, que contiene, por tanto, varias transiciones (Silberztein 1998,
1993).

• Las ambigüedades asociadas a las formas compuestas,


concretamente, su interpretación como una concatenación de formas
simples y su posible inclusión de otras locuciones (con la consiguiente
interpretación de cada una de las locuciones incluidas como una
concatenación de formas simples) también se pueden formalizar en un
AFD. Así p. ej., el AFD de la Fig. 5.2, que representa la etiquetación de
la locución de una vez para siempre, formaliza las siguientes
interpretaciones, que corresponden a una palabra reconocida dentro del
AFD, es decir, a un camino que va del estado inicial a un estado final:

- su interpretación como una locución y como una concatenación de formas


simples (con la especificación de sus correspondientes ambigüedades),

- la ambigüedad que crea la inclusión de las locuciones de una vez, una vez y
para siempre,
- todas las concatenaciones posibles de las locuciones incluidas entre sí y con
las formas simples del AFD.

Fig. 5.2. Representación en un AFD de la etiquetación de la locución adverbial


de una vez para siempre, que incluye las locuciones adverbiales de una vez,
una vez y para siempre.

3.2 Algoritmos de intersección de autómatas, que permite desambiguar el AFD


resultante de una etiquetación

En el marco de nuestro sistema, la desambiguación del AFD resultante de una


etiquetación se realiza intersectándolo con un transductor, que formaliza
restricciones contextuales, que están condicionadas por elementos léxicos
específicos (Silberztein 1998, 1993; Subirats 1998, 1997). Así p. ej., el AFD
resultante de la etiquetación de a pesar de que hable en la Fig. 5.3 incluye la
información que posee un diccionario electrónico sobre los elementos léxicos –
tanto simples como compuestos– que integran dicho enunciado,
concretamente, su información flexiva y/o categorial asociada a sus
correspondientes lemas:
• a, pesar, y de están etiquetadas como una conjunción (locutiva) y
como una concatenación de tres formas simples, de las cuales pesar
está etiquetada como un nombre y como un verbo en infinitivo;

• que está etiquetado como una conjunción y como un pronombre


relativo;

• hable lleva las etiquetas de primera y de tercera persona del


presente de subjuntivo, y de segunda persona del imperativo, asociadas
al lema verbal hablar.

Fig. 5.3. Autómata finito determinista (AFD) que formaliza la etiquetación de a


pesar de que hable.

Por su parte, el transductor de la Fig. 5.4 formaliza una restricción contextual


asociada a la locución conjuntiva a pesar de, cuando va seguida de que:

• tanto a pesar de como que se deben etiquetar exclusivamente


como conjunciones.
Fig. 5.4. Transductor que formaliza la etiquetación no ambigua de a pesar de,
cuando va seguido de que.

La intersección del AFD de la Fig. 5.3 con el transductor de la Fig. 5.4,


mediante un algoritmo de intersección de autómatas (Ortega 2000), da como
resultado el AFD de la Fig. 5.5, en el cual se ha eliminado:

• la etiquetación de las formas a, pesar y de como una


concatenación de tres formas simples,

• la etiquetación de que como un pronombre de relativo.

Fig. 5.5. AFD resultante de la intersección del AFD de la Fig. 5.3 con el
transductor de la Fig. 5.4.

Notas

18
8 La identificación de las locuciones verbales no se puede realizar a partir de
la información de un diccionario, sino a partir de transductores procedentes de
una gramática electrónica (Bobes 2000), por lo cual su reconocimiento (a
diferencia de lo que sucede con todas las demás locuciones) constituye, a la
vez, un problema sintáctico y léxico.

19
9 La aplicación que convierte los textos en autómatas etiquetadas con la
información de un diccionario electrónico ha sido desarrollada por Manel Parra.

Das könnte Ihnen auch gefallen