Sie sind auf Seite 1von 4

Procesamiento del Lenguaje Natural, Revista n 52 marzo de 2014, pp 93-96 recibido 15-11-13 revisado 05-02-14 aceptado 06-02-14

Etiquetacin y desambiguacin automticas en gallego: el sistema


XIADA

Automatic tagging and disambiguation in Galician: the XIADA system


Eva Mara Domnguez Noya
Universidad de Santiago de Compostela
Centro Ramn Pieiro para a Investigacin en Humanidades
Estrada Santiago-Noia, Km 3, A Barcia
15896 Santiago de Compostela
edomin@cirp.es

Resumen: Tesis doctoral en Lingstica realizada por Eva Mara Domnguez Noya en la
Universidad de Santiago de Compostela (USC) bajo la direccin del Dr. Guillermo Rojo (USC)
y la Dra. Mara Sol Lpez Martnez (USC). El acto de defensa de la tesis tuvo lugar el lunes 25
de noviembre de 2013 ante el tribunal formado por la Dra. Rosario lvarez Blanco (USC), la
Dra. Mara Ins Pedrosa da Silva Duarte (Universidad de Lisboa), el Dr. Jorge Graa Gil
(Universidad de A Corua), la Dra. Mara Taul Delor (Universidad de Barcelona) y la Dra.
Mara Paula Santalla del Ro (USC). La calificacin obtenida fue Sobresaliente Cum Laude por
unanimidad.
Palabras clave: Etiquetador estadstico, anotacin automtica, desambiguacin, etiquetario,
lexicn, corpus de entrenamiento, reglas lingsticas, criterios de etiquetacin, corpus en
gallego.

Abstract: PhD thesis in Linguistics, written by Eva Mara Domnguez Noya at the University
of Santiago de Compostela (USC), under the supervision of Dr. Guillermo Rojo and Dr. Mara
Sol Lpez Martnez (USC). The viva examination was held on the 25th of November 2013. The
Examining Board consisted of the following members: Dr. Rosario lvarez Blanco (USC), Dr.
Mara Ins Pedrosa da Silva Duarte (University of Lisbon), Dr. Jorge Graa Gil (University of
A Corua), Dr. Mara Taul Delor (University of Barcelona) and Dr. Mara Paula Santalla del
Ro (USC). The unanimously awarded grade was Excellent Cum Laude.
Keywords: Statistical tagger, automatic tagging, disambiguation, tag-set, lexicon, training
corpus, linguistic rules, tagging criteria, corpus of Galician.

En la actualidad no contamos con ningn


1 Introduccin estudio general de lingstica aplicada al
anlisis automtico de corpus en gallego, a
La construccin de recursos lingsticos, entre
pesar de que existen varios con distinto grado
los cuales se encuentran los corpus o bases de
de anotacin, por lo que este trabajo cubre un
datos textuales, es necesaria en toda lengua para
espacio vaco y, al tiempo, ayuda a la defensa y
continuar profundizando en su conocimiento,
promocin de la lengua gallega.
pero tambin es fundamental para el
Los objetivos principales que pretende
procesamiento del lenguaje natural. En los
cumplir la presente tesis son dos. Por un lado,
ltimos aos, las nuevas tecnologas surgen
dar cuenta de los diversos recursos lingsticos
como un parmetro ms de clasificacin de las
que necesita un etiquetador automtico de tipo
lenguas en funcin de su presencia o ausencia
estadstico-probabilstico para, sin normativizar
en ellas, y el gallego no es ajeno a esta
de modo alguno los textos ni prescindir del
corriente.
anlisis de elementos marginales, etiquetar

ISSN 1135-5948 2014 Sociedad Espaola para el Procesamiento del Lenguaje Natural
Eva Mara Domnguez Noya

automticamente el Corpus de Referencia do Al trabajar con una lengua con morfologa muy
Galego Actual (CORGA)1 y obtener la rica como es el gallego, no es aconsejable
caracterizacin morfosintctica de cada unidad introducir en una base de datos todas las formas
lxica presente en l mediante las etiquetas y flexionadas que se subsumen bajo un
lemas que respectivamente les correspondan. paradigma, por lo que se crearon modelos
Por otra parte, se persigue tambin dar a formales para reducir la flexin en las
conocer los mltiples problemas que crea categoras variables y facilitar as la
trabajar con lengua real, describir las soluciones introduccin en el lexicn de las 100.000
que se adoptaron para resolver esos problemas formas ms frecuentes del CORGA y las cerca
y explicar con detalle los criterios que subyacen de 50.000 entradas que posee el Vocabulario
en la etiquetacin y lematizacin aplicadas al Ortogrfico da Lingua Galega (VOLGa)
corpus de entrenamiento. (Gonzlez y Santamarina, 2004). Por otra parte,
se explica tambin el tratamiento aplicado sobre
2 Organizacin de la tesis la gran cantidad de contracciones y las ingentes
combinaciones de forma verbal con segundas
La tesis se organiza estructuralmente en cuatro
formas del artculo y/o pronombres enclticos
captulos que describen, respectivamente, el
que posee el gallego, y que permite el
etiquetario utilizado, la estructura interna del
reconocimiento y caracterizacin diferenciados
lexicn, las caractersticas del etiquetador
de tantos constituyentes como unidades lxicas
automtico y la herramienta utilizada en la
simples conforman la unidad amalgamada, sin
desambiguacin manual, y, finalmente, las
perder esta de vista. Por ltimo, se describe el
peculiaridades lingsticas del corpus sobre el
sistema de reglas lingsticas que ayuda al
que se ejecuta el etiquetador as como los
etiquetador tanto en la segmentacin y
criterios que guan la anotacin.
etiquetacin de pronombres enclticos como en
El Captulo 1 acoge la determinacin del
la segmentacin y etiquetacin de las formas
etiquetario que se utiliza en el sistema XIADA2.
verbales cuando van acompaadas de enclticos.
Partiendo de las recomendaciones del grupo
En el Captulo 3 se describe el etiquetador
EAGLES, teniendo en cuenta el camino
XIADA y se justifica la eleccin del modelo
recorrido ya en etiquetacin de corpus por
estadstico. Se da cuenta, asimismo, de los
lenguas como el portugus, el cataln o el
requisitos que exige el tipo estadstico,
espaol y basndonos en las principales
ocupando un lugar destacado entre ellos la
gramticas existentes para el gallego, se explica
construccin y caracterizacin del corpus de
el establecimiento de cada categora gramatical
entrenamiento o gold standard que le sirve al
y de los diferentes atributos que se consideran
etiquetador de modelo para inferir la gramtica
pertinentes en cada una de ellas. Se
del gallego. Se explica la actuacin del
proporcionan ejemplos prcticos de
etiquetador ante las palabras desconocidas, y se
etiquetacin para las distintas clases
incluye una breve tipologa de las
gramaticales establecidas y, asimismo, siempre
ambigedades que potencialmente disminuyen
en relacin con los atributos, se explican ya las
su capacidad de acierto, como son las
peculiaridades que afectan a la caracterizacin
categoriales, las atributivas y las segmentales,
morfolgica de algunos o de todos los
pero a las que, pese a ello, debe enfrentarse.
elementos que se incluyen en una categora
Termina el captulo con la descripcin de la
dada. De la combinacin de las 18 categoras
herramienta que se emplea para desambiguar
gramaticales delimitadas y los atributos que se
manualmente: un editor XML de software libre,
consideran pertinentes para ellas resultan un
en concreto el XMLmind XML Editor Standard
total de 383 etiquetas diferentes, que en teora
Edition V2.9, que ofrece unas funcionalidades
dan cuenta de la caracterizacin morfolgica
de representacin y tratamiento de los datos
plena de cualquier palabra gallega.
tales, que garantizan que no van a existir
En el Captulo 2 se describe la formalizacin
etiquetas imposibles ni contenido vaco de
e implementacin del diccionario lxico que le
elementos, con lo que se incrementa la
sirve al etiquetador de recurso principal para
consistencia del corpus de entrenamiento y
identificar las formas ortogrficas presentes en
permite a posteriori test de comprobacin
un texto y caracterizarlas morfosintcticamente.
automticos sobre los datos finales.
1 Finalmente, el Captulo 4 se centra en el
http://corpus.cirp.es/corga/
2
http://corpus.cirp.es/xiada/etiquetario.html anlisis aplicado al corpus de entrenamiento,

94
Etiquetacin y desambiguacin automticas en gallego: el sistema XIADA

del cual se puso a disposicin pblica mediante Descripcin detallada de los modelos
la consulta on line una versin con el nombre formales creados para reducir la flexin
de Corpus de Referencia do Galego Actual en los elementos de las categoras
etiquetado (CORGAetq)3. En este captulo se gramaticales variables y facilitar as la
demuestran las dificultades de trabajar con implementacin del lexicn.
lengua real, dificultades que se incrementan Descripcin de los recursos secundarios
ms aun por trabajar con una lengua como el que permiten la identificacin y
gallego, cuyo proceso de normalizacin choca caracterizacin individual de los
con el espaol en numerosas interferencias de componentes de una amalgama
tipo lxico y morfosintctico. En estas se centra constituida por una forma verbal a la que
la primera parte del captulo, donde se analizan acompaa uno o ms pronombres en
las peculiaridades lingsticas que caracterizan enclisis (dnnolo [nos lo dan],
a los textos sobre los cuales se ejecuta el visellenos [se nos va], etc.) o una
etiquetador y se expone el tratamiento que segunda forma del artculo (compra-los
reciben las erratas, las variaciones grficas, los libros [comprar los libros], lerille-las
dialectalismos, interferencias, ultracorrecciones, historias s nenos [les leer las historias
etc. La segunda parte del captulo constituye, en a los nios], etc.), sin que la unidad
trminos generales, una descripcin gramatical amalgamada est recogida en ninguna
parcial del gallego, pues en ella se refieren los parte del sistema.
criterios que guan la etiquetacin aplicada en el Distincin prctica, y no solo terica,
CORGAetq. Ante la imposibilidad de dar entre unidad y forma o unidad
cuenta en la tesis de todos los detalles, se ortogrfica y unidad lxica. Por ejemplo,
prefiri optar por tratar aquellos aspectos la unidad ortogrfica lerillelas se
referidos a la etiquetacin y lematizacin de: desagrega en tres constituyentes
Elementos que en general no se incluyen compuestos, respectivamente, por las
en los manuales de consulta: unidades lxicas lerei, lles, las, a las que
abreviaciones, silabeos, acortamientos, se les proporciona la etiqueta que las
direcciones, identificadores, etc. caracteriza morfosintcticamente y el
Unidades en las que la ambigedad es lema que les pertenece. La salida del
muy alta: que, como. etiquetador correspondiente a este
Elementos pertenecientes a categoras anlisis en un formato de texto es el
muy prximas: adjetivo frente a siguiente:
participio o sustantivo frente a infinitivo. <anlise_unidade>
Formas comunes a dos lemas diferentes: <unidade>lerillelas</unidade>
pr vs. poer y derivados. <alternativas>
<alternativa vlido="si">
Combinaciones que reciben una
<constitunte>
caracterizacin ad hoc para facilitar la <forma>lerei</forma>
recuperacin de informacin: tipo boca <etq_lema vlido="si">
arriba o tipo anos despois. <etiqueta>Vfi10s</etiqueta>
Criterios de delimitacin de los tres tipos <lema>ler</lema>
de locuciones reconocidos en XIADA, </etq_lema>
adverbiales, conjuntivas y </constitunte>
preposicionales, con ejemplos de anlisis <constitunte>
para las ms frecuentes. <forma>lles</forma>
<etq_lema vlido="si">
<etiqueta>Rad3ap</etiqueta>
3 Contribuciones <lema>lle</lema>
Las principales contribuciones de esta tesis son </etq_lema>
las siguientes: </constitunte>
<constitunte>
Especificacin de los criterios que <forma>las</forma>
subyacen en la eleccin del etiquetario <etq_lema vlido="si">
utilizado en XIADA. <etiqueta>Ddfp</etiqueta>
<lema>o</lema>
</etq_lema>
3 </constitunte>
http://corpus.cirp.es/corgaetq/

95
Eva Mara Domnguez Noya

</alternativa> Etiquetador morfolgico automtico


</alternativas> estadstico de alta precisin, pues su tasa
</anlise_unidade> de acierto se sita ya en el 96%.
Lo que se interpreta del siguiente modo: Corpus etiquetado morfolgicamente de
casi 600.000 unidades lxicas, que cuenta
lerei Vfi10s [Verbo, futuro de indicativo,
1. persona singular, del lema ler] con una anotacin minuciosa y un
lles Rad3ap [Pronombre tono, dativo, sistema de recuperacin de informacin
3. persona, masculino/femenino, flexible y cmodo.
plural, lema lle]
las Ddfs [Artculo determinado Bibliografa
femenino plural, lema o]
Barcala, F. M., M. A. Molinero y E.
Descripcin pormenorizada de la DTD Domnguez. 2007. XML rules for enclitic
que define la estructura y sintaxis del segmentation. En Computer Aided Systems
documento etiquetado. Theory. Lecture Notes in Computer Science,
Estudio lingstico de las peculiaridades 4739:273-281.
relativas a variacin que caracterizan los
Domnguez Noya, E. 2008. O Corpus de
textos etiquetados y su tratamiento.
Referencia do Galego Actual (CORGA):
Conjunto de criterios lingsticos que presente e futuro. En A lexicografa galega
guan la anotacin morfosintctica del moderna: Recursos e perspectivas, 139-151.
corpus de entrenamiento.
Domnguez Noya, E., Fco M. Barcala
4 Conclusiones Rodrguez y M. A. Molinero. 2009.
Avaliacin dun etiquetador automtico
Dada la diversidad de los recursos que se estatstico para o galego actual: Xiada.
describen, as como su aplicacin ya en un Cadernos de Lingua, 30/31:151-193.
corpus pblico (CORGAetq), las conclusiones
que se pueden extraer son de dos tipos. Domnguez Noya, E. y X. M. Mosquera
Por un lado estn aquellas que inciden en Carregal. 2011. Corrector ortogrfico
aspectos que es preciso mejorar en el sistema, especializado para o proxecto IANUS. En
como son: Lingua e Sanidade. VII Xornadas sobre
Ampliacin del corpus de entrenamiento Lingua e Usos, 91-123.
para documentar etiquetas que todava no Domnguez Noya, E. 2012. Partculas
han surgido. exceptivas: problemas de delimitacin e
Continuar alimentando el lexicn para proposta de anlise. Cadernos de Lingua,
cubrir todos los posibles anlisis de las 34:5-64.
unidades implementadas en l.
Incorporar las unidades multipalabra
pertenecientes a las categoras variables.
Incluir un mdulo para los sustantivos
propios.
Crear reglas lingsticas que corrijan
errores sistemticos de etiquetacin en
los que la estadstica falla.
Por otra parte, estn las que se refieren a la
valoracin del sistema en s, en las que sin
duda, sin olvidarnos de las zonas oscuras de la
etiquetacin que provocan inseguridad en el
anotador, as como la necesidad de contar con
ms estudios gramaticales que ayuden en el
proceso de etiquetacin, destacan dos resultados
muy concretos que ubican al gallego en el
grupo de lenguas que cuentan con recursos
computacionales robustos:

96

Das könnte Ihnen auch gefallen