Sie sind auf Seite 1von 9

Procesamiento del Lenguaje Natural, núm. 43 (2009), pp.

315-323 recibido 1-05-2009; aceptado 5-06-2009

Una gramática de dependencias basada en patrones de etiquetas∗

A Dependency Grammar Based on Patterns of Tags

Pablo Gamallo Otero Isaac González Sánchez


Dept. de Lı́ngua Espanhola Univ. de Santiago de Compostela
Univ. de Santiago de Compostela osaklugo@gmail.com
pablo.gamallo@usc.es

Resumen: Este artı́culo describe un formalismo gramatical, DepPattern, concebido


para escribir gramáticas de dependencias a partir de patrones de PoS tags enrique-
cidos con información léxica y morfológica. El formalismo retoma ideas de Sinclair y
de la Gramática de Patrones. A partir de las gramáticas escritas con este formalismo,
un compilador genera analizadores sintácticos robustos basados en expresiones regu-
lares para 5 lenguas: español, inglés, gallego, portugués y francés. Los analizadores
ası́ generados identifican dependencias que, posteriormente, servirán para mejorar
aplicaciones de PLN tales como la extracción de información tesáurica.
Palabras clave: gramática de dependencias, análisis sintáctico, extracción de in-
formación
Abstract: This paper describes a grammatical formalism, DepPattern, to write de-
pendency grammars using Patterns of PoS tags augmented with lexical and morp-
hological information. The formalism inherits ideas from Sinclair’s work and Pattern
Grammar. In addition, a compiler was implemented so as to generate robust parsers
from DepPattern grammars for 5 languages: Spanish, English, Galician, Portuguese,
and French. These parsers identify dependencies which can be used to improve NLP
applications such as extration of similar words.
Keywords: dependency grammar, parsing, information extraction

1. Introducción simples patrones de etiquetas son estructuras


sintácticas superficiales con capacidad para
En este artı́culo, presentamos un formalismo
identificar estructuras más abstractas, como
basado en reglas, llamado DepPattern, pen-
las dependencias o incluso el significado.
sado para que lingüistas puedan escribir fácil-
mente gramáticas de dependencias. Este for- En segundo lugar, DepPattern se cen-
malismo viene acompañado de un compilador tra en el principio de unicidad, común a la
de gramáticas que genera analizadores (par- mayorı́a de las gramáticas de dependencias.
sers) de dependencias robustos para 5 len- Según este principio, cada palabra desem-
guas. Las principales caracterı́sticas del for- peña el papel de dependiente sólo una vez. El
malismo son las siguientes. formalimo usa el principio de unicidad de la
En primer lugar, permite identificar siguiente manera. La aplicación de un patrón
dependencias entre palabras (núcleo- de etiquetas para la identificación de un par
dependiente) mediante el uso de patrones “núcleo-dependiente” puede hacer desapare-
de etiquetas morfosintácticas (PoS tags), cer el dependiente del espacio de busca, sim-
provistas de información morfológica y plificando ası́ el tipo de patrones necesarios
léxica. Se inspira, por tanto, en la Gramática para la identificación de posteriores depen-
de Patrones o Pattern Grammar (Hunston dencias.
y Francis, 1999), donde se considera que los En tercer lugar, nuestro formalismo plan-

tea, como algunas teorı́as lingüı́sticas recien-
Este trabajo ha sido subvencionado por la Xunta de tes, que no se puede establecer una separa-
Galicia, con cargo a los proyectos con referencia: PGI-
DIT07PXIB204015PR (Conselları́a de Innovación e
ción tajante entre léxico y sintaxis (Sinclair,
Industria) y 2008/101 (Conselları́a de Educación e 1991; Hunston y Francis, 1999). Existen, en
Ordenación Universitaria. cualquier lenguaje natural, innumerables uni-

ISSN: 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Pablo Gamallo Otero e Isaac González Sánchez

dades léxicas compuestas que tienen, hasta Siempre que no haya ambigüedad, utiliza-
cierto punto, un comportamiento semejante remos el término DepPattern, no sólo para
a las unidades sintácticas. Por ejemplo, la ex- referirnos al formalismo, sino también a los
presión “tener en cuenta” es una unidad léxi- analizadores generados por el compilador de
ca de tipo verbal próxima en significado a gramáticas.
verbos como “considerar”. “valorar”, “sope- El resto del artı́culo se organiza como si-
sar”, etc, pero al mismo tiempo, es una uni- gue. Comenzaremos por abordar los funda-
dad discontinua que permite la inserción de mentos lingüı́sticos del formalismo (sección
diversos complementos: “tuvo su opinión irre- 2) y los trabajos relacionados (sección 3). Se-
mediablemente en cuenta”. La identificación guiremos con una breve descripción del mis-
de este tipo de unidades léxicas discontinuas mo (sección 4), y acabaremos describiendo al-
presupone, por tanto, el uso de los mismos gunos experimentos y evaluaciones realizados
mecanismos y reglas que se necesitan para (sección 5).
identificar las unidades sintácticas.
Por último, y en referencia al análisis au- 2. Ideas lingüı́sticas sobre las que
tomático, hemos desarrollado, con licencia se basa el formalismo
GPL, un compilador del formalismo DepPat- Para definir el formalismo, hemos tomado en
tern que genera analizadores robustos, escri- cuenta nociones de varios enfoques lingüı́sti-
tos en Perl y basados fundamentalmente en cos. En concreto, nos ha interesado el traba-
expresiones regulares, para 5 lenguas. 1 Los jo de Jonh Sinclair, la teorı́a de la Gramáti-
analizadores generados por el compilador to- ca de Patrones (Pattern Grammar), ası́ como
man como entrada texto etiquetado y desam- aspectos básicos de las gramáticas de depen-
biguado por dos herramientas: Freeling (Ca- dencias. En esta sección, presentaremos úni-
rreras et al., 2004) y Tree-Tagger (Schmid, camente los dos primeros trabajos, por ser
1994). En concreto, fue definido un conver- menos conocidos en el ámbito del PLN.
sor que elabora, a partir de diferentes tagsets
usados por Freeling y Treetagger, un conjun- 2.1. La lingüı́stica de corpus de
to común de etiquetas reconocido por los ana- Sinclair
lizadores. Por el momento, el conversor tiene Sinclair argumenta que hay dos maneras dife-
la capacidad de generar un tagset común a rentes de interpretar las expresiones lingüı́sti-
partir de 8 tagsets existentes: 3 de Freeling cas. Por un lado, el significado de una expre-
(español, inglés y gallego) y 5 de Treetag- sión compuesta es el resultado de varias “elec-
ger (español, inglés, gallego, francés y por- ciones libres” (open choices), realizadas de
tugués). El tagset común se definió tomando acuerdo con principios regulares de compo-
en cuenta los tagsets usados por el sistema sicionalidad semántica. A esto le llama “mo-
Freeling para español y gallego, a su vez ins- delo de la libre elección”, y lo define como
pirados en la propuesta del grupo EAGLES, sigue (Sinclair, 1991) (pages 109-110):
ya que son los que incorporan más informa-
ción morfológica. It is often called a “slot-and-filled”
Para evaluar la calidad de los análisis rea- model, envisaging texts as a series
lizados por los analizadores DepPattern, nos of slots which have to be filled from
hemos inclinado por una evaluación indirecta a lexicon which satisfies local cons-
a partir de una aplicación posible del análisis traints. At each slot, virtually any
de dependencias, concretamente la extracción word can occur. [...] All grammars
automática de información tesáurica. Para are constructed on the open-choice
ello, hemos adaptado uno de los formatos de principle.
salida de los analizadores, de tal manera que Por otro lado, en muchos casos el signifi-
pueda servir de entrada de un sistema de ad- cado de una expresión compuesta no es com-
quisición automática de tesaurus. La evalua- posicional, esto es, no se puede derivar direc-
ción directa de los resultados del sistema de tamente del de sus partes. Se trata de estruc-
adquisición automática nos ayudará a evaluar turas, en su mayorı́a, semi-fijadas, que sólo
indirectamente la calidad de la información pueden ser interpretadas recurriendo a lo que
sintáctica generada por los analizadores. Sinclair llama “principio idiomático” y que
1
Disponible en: define de esta forma (Sinclair, 1991) (page
http://gramatica.usc.es/pln/tools/DepPattern.htm 110):
316
Procesamiento del Lenguaje Natural, núm. 43 (2009)
Una gramática de dependencias basada en patrones de etiquetas

The principle of idiom is that a Va nn Pedro le escribió a Marı́a


language user has available to him una carta
or her a large number of semi- V que-subj Manuel sugerió que me
preconstructed phrases that cons- fuera
titute single choices, even though V inf a n Mi hermano dejó salir al
they might appear to be analyzable cuidador
into segments. N sobre n Una noticia sobre los ne-
gocios de mi padre
ADJ de-inf El homenaje fue difı́cil de
De acuerdo con Sinclair, las exprexiones justificar
semi-preconstruidas o semi-fijadas son la re- A la izquierda, aparecen los patrones y a
gla y no la excepción en cualquier lengua. la derecha ejemplos que los instancian. En
Por tanto, el principio idiomático deberı́a cuanto a la notación utilizada, v representa
incorporarse a la organización de cualquier una frase verbal, n, una frase nominal, adj,
(léxico)-gramática, junto con el bien cono- una frase adjetiva, que-subj es una cláusula
cido modelo de la elección libre. La princi- con verbo en subjuntivo e introducida por
pal dificultad de las expresiones idiomáticas que, inf es una cláusula con el verbo en
semi-fijadas es que, por una lado, son unida- infinitivo, a y sobre son unidades léxicas
des con un comportamiento léxico-semánti- especificas. Las mayúsculas V (or N, ADJ)
co próximo al de cualquier entrada de dic- representan las etiquetas morfo-sintácticas
cionario y, por otro, comparten propiedades (PoS tags) de las palabras para las que
sintácticas de cualquier expresión compues- se definen los patrones (y que aparecen
ta analizada mediante el modelo de la libre subrayadas en los ejemplos). Los patrones
elección, esto es, se componen de elementos son estructuras sintácticas de superficie que
no necesariamente contiguos: tomar [algo] en permiten describir la gramática de cualquier
cuenta. lengua. Las descripciones llevadas a cabo
Para analizar este tipo de expresiones de esta guisa son menos abstractas, más
semi-fijadas, el formalismo DepPattern per- léxicas y más de superficie que la mayorı́a
mite la definición de reglas gramaticales es- de descripciones profundas efectuadas por el
pecializadas en la identificación de unidades resto de teorı́as sintácticas. Para definir un
léxicas discontinuas y sintácticamente varia- patrón apenas se requieren PoS tags junto
bles. Estas reglas se comportan como reglas con alguna información léxica y morfológica.
sintácticas estándar, pero en vez de gene- No es necesario tomar en consideración
rar unicamente una representación sintáctica, información gramatical relativa a los consti-
construyen una unidad léxica que puede ser tuyentes y a las funciones. Se asume que esta
núcleo o dependiente de otras palabras en su- estructura de superficie es suficiente para
cesivas reglas. De hecho, nuestro formalismo llevar a cabo la interpretación semántica,
distingue dos tipos de reglas: reglas sintácti- es decir, hay una asociación directa entre
cas que siguen el modelo de la libre elección y patrones superficiales y significado, sin
reglas léxico-sintácticas que respetan el prin- mediación de otros niveles gramaticales de
cipio idiomático. organización.
Sin embargo, bajo nuestro punto de vista,
2.2. Gramática de Patrones
los patrones definidos por Hunston y Francis
La Gramática de Patrones, tal como se des- no son meras representaciones sintácticas de
cribe en Hunston y Francis (1999), puede ser superficie, ya que también integran de mane-
vista como una “formalización de las ideas ra implı́cta información gramatical de niveles
de Sinclair” (Teubert, 2007). La noción de superiores. En concreto, los patrones presen-
base de esta gramática es la de patrón (pat- tados arriba contienen información sobre las
tern). Un patrón especı́fico de una palabra es dependencias entre un núcleo y sus modifi-
una organización léxico-morfo-sintáctica que cadores (o palabras dependientes). Tomemos
agrupa etiquetas morfo-sintácticas, informa- como ejemplo el patrón N sobre n. Según
ción léxica e información morfológica, que Hunston y Francis, esta estructura deberı́a
contribuye a seleccionar un aspecto del sig- servir para identificar aquellos casos en que
nificado de la palabra en cuestión. Veamos el complemento sobre n depende del núcleo
algunos ejemplos de patrones: nominal N. Por lo tanto, no debe usarse pa-
317
Procesamiento del Lenguaje Natural, núm. 43 (2009)
Pablo Gamallo Otero e Isaac González Sánchez

ra dar cuenta de expresiones tales como la gue algunos principios básicos de la Gramáti-
hoja sobre la mesa, incluidas en frases como ca de Patrones (Pattern Grammar ). Ambos
poner la hoja sobre la mesa. En este caso, el formalismos tienen un compilador que tradu-
núcleo del complemento preposicional sobre ce las gramáticas en analizadores. Por otro
n es el verbo poner. De todo esto se deduce lado, el formalismo gramatical de TXALA es
que el patrón N sobre n incluye información el único de los cuatro que no se basa estric-
estructural que va más allá de la simple con- tamente en las dependencias, sino que cons-
catenación de PoS tags y unidades léxicas. truye primero árboles de constituyentes para
Su correcta aplicación presupone la identifi- después transformar estos árboles, median-
cación de una depedencia sintáctica de orden te la identificación de los núcleos, en depen-
superior entre el primer substantivo N y el dencias. Finalmente, en cuanto a las licencias
núcleo del sintagma nominal n precedido por de uso y distribución, completamente libres
la preposición sobre. son TXALA, DILUCT Y DepPattern, ya que
Al igual que la Gramática de Patrones, el VISL no libera las gramáticas ni los parsers
formalismo DepPattern fundamenta el análi- generados, apenas el compilador.
sis lingüı́stico en el uso de cadenas de PoS Por consiguiente, DepPattern es un siste-
tags enriquecidos con atributos morfológicos ma con las siguientes propiedades: tiene un
e información léxica. No obstante, en lugar de analizador robusto, un formalismo gramati-
servir para identificar aspectos del significado cal documentado, compilable y estrictamen-
de las palabras, nuestro propósito es identi- te basado en dependencias, y libera tanto el
ficar y generar las relaciones de dependen- compilador como las gramáticas.
cia inherentes a esas cadenas. Este objetivo
coincide con lo expuesto por Teubert (2007), 4. Breve introducción al
quien plantea la necesidad de enriquecer la formalismo de gramáticas
estructura de superficie de los patrones con DepPattern is una gramática formal, basada
información lingüı́stica más abstracta tal co- en reglas dependientes del contexto, que bus-
mo las dependencias sintácticas. ca identificar la estructura de dependencias
de las oraciones. En esta sección, introduci-
3. Trabajo relacionado remos brevemente algunas de las principales
Es cada vez más frecuente encontrar anali- caracterı́sticas del formalismo. Para una ex-
zadores de dependencias de código abierto y posición más detallada, se puede consultar el
basados en reglas. Con estas caracterı́sticas tutorial.2
y para el español, junto a DepPattern, po-
demos citar a TXALA (Atserias, Comelles, y 4.1. Descripción básica de las
Mayor, 2005; Carrera et al., 2008), DILUCT reglas
(Hiram Calvo, 2006) y VISL (Bick, 2006). Una gramática escrita con DepPattern cons-
TXALA compartte con DepPattern el uso ta de un conjunto de reglas dependientes
del desambiguador morfosintáctico de Free- del contexto. Cada regla tiene como objeti-
ling. De hecho, el parser TXALA es la última vo identificar una relación núcleo-dependiente
etapa de la cadena de procesos de la herra- por medio de patrones de etiquetas morfo-
mienta Freeling. sintácticas asociadas a información mor-
Para comparar estos cuatro analizadores, fológica y léxica. Una regla consta de dos ele-
veamos como se comportan con respecto a las mentos:
siguientes propiedades: robustez, naturaleza
de las gramáticas y licencias de uso. En cuan- un patrón de etiquetas
to a la robustez, VISL, DILUCT y DepPat-
tern son analizadores robustos, lo que facilita el nombre de una relación núcleo-
su uso en tareas de extracción de información dependiente
a partir de grandes cantidades de texto. Con
respecto a la naturaleza de las gramáticas, Veamos un ejemplo:
VISL y DepPattern ofrecen un formalismo
amigable para lingüistas, documentado en tu- DobjR: VERB [DT]? [ADJ]* NOUN
toriales, e inspirado en teorı́as lingüı́sticas. El
formalismo de VISL se basa en la Constraint 2
Disponble en:
Grammar, mientras que el de DepPattern si- htpp://gramatica.usc.es/pln/tools/tutorialGrammar.pdf

318
Procesamiento del Lenguaje Natural, núm. 43 (2009)
Una gramática de dependencias basada en patrones de etiquetas

Los dos puntos separan el patrón de de información morfológica y léxica, ası́ co-
etiquetas (a la derecha) del nombre de la mo de operaciones de diferente naturaleza:
dependencia, DobjR, que se pretende buscar concordancia, recursividad, herencia de atri-
dentro del patrón. Tanto el nombre de butos, modificación de valores de atributos
las dependencias como el de las etiquetas e inclusión de nuevos pares atributo-valor.
morfo-sintácticas se declaran en ficheros También es posible definir clases de palabras
aparte: dependencies.conf y tagset.conf, mediante listas declaradas en ficheros exter-
respectivamente. El nombre por omisión de nos. Por último, fueron definidos operadores
las etiquetas es el que viene establecido por booleanos para las etiquetas, atributos y
el conversor de etiquetas, que transforma los valores. Como describir todas las potencia-
tagsets de Freeling y Treetagger en un tagset lidades del formalismo no es el objetivo de
común. Esos nombres se pueden modificar a este artı́culo, nos centraremos en los nuevos
gusto del lingüista en el fichero tagset.conf. elementos que aparecen en las dos reglas
En cuanto a los nombres de dependencias, el siguientes:
lingüista tiene la posibilidad de enumerar los
que desee, pero con la obligación de declarar AdjnL: ADV<type:Q> ADJ | ADV
para cada uno el tipo al que pertenece. %
Ası́ en el fichero dependencies.conf aparece AdjnL: ADJ NOUN
la lı́nea: Agreement: number, genre
%
DobjR HeadDep Ambas reglas contienen la dependencia
AdjnL (i.e., Adjunto a la izquierda), que fue
Básicamente, DepPattern distingue 2 declarada como siendo de tipo DepHead, es
grandes tipos de dependencias, DepHead y decir, el dependiente está a la izquierda del
HeadDep, en función de la posición del de- núcleo. En la primera regla, el atributo-valor
pendiente con respecto al núcleo. Las depen- <type:Q> es una condición que elabora la
dencias de tipo DepHead definen relaciones información de la etiqueta ADV. El valor
donde el dependiente aparece a la izquierda “Q” se refiere a adverbios cuantificadores
del núcleo, mientras que las de tipo Head- como muy o bastante. Esta regla, por lo
Dep representan a todas aquellas donde el tanto, identifica la dependencia de adjunción
dependiente aparece a la derecha. En nuestro entre un adverbio cuantificador y su núcleo,
ejemplo, DobjR fue declarada como una de- que puede ser un adjetivo o un adverbio. La
pendencia de tipo HeadDep, por consiguien- barra vertical es un operador de disyunción.
te, puede usarse para identificar los objetos En la segunda regla, la dependencia AdjnL
directos que aparecen a la derecha de los identifica la relación entre un adjetivo y su
núcleos verbales (“Dobj” es una abreviatu- núcleo nominal. “Agreement” es la operación
ra de Direct Object, y “R” de Right). En la de concordancia, y “number, genre” el
regla expuesta arriba, DobjR permite iden- nombre de los atributos cuyos valores deben
tificar una relación de dependencia entre las compartir el núcleo y el dependiente para
etiquetas sin corchetes: VERB y NOUN. Da- que la relación sea identificada.
do que esta dependencia es de tipo HeadDep,
sabemos que VERB es el núcleo y NOUN el 4.3. El principio de unicidad
dependiente. El resto de etiquetas aparecen La mayorı́a de las gramáticas de dependen-
entre corchetes ya que representan el contex- cias presuponen el “principio de unicidad”
to de la relación. En concreto, [DT]? signifi- (uniqueness principle). Este principio esta-
ca que pueden aparecer ninguno o 1 determi- blece que cada palabra sólo tiene un núcleo,
nantes, y [ADJ]* ninguno o varios adjetivos, es decir, cada palabra desempeña el papel
todos entre el verbo y el nombre. de dependiente apenas una vez. Las reglas
de nuestro formalismo se aplican tomando
4.2. Extensiones del formalismo en cuenta la unicidad del dependiente. De
Lo que hemos definido hasta ahora son esta manera, una regla no sólo identifica
los elementos esenciales de una regla. No una dependencia núcleo-dependiente entre
obstante, es posible especificar y detallar la dos palabras, sino que también elimina
información de las reglas mediante el uso de la palabra dependiente de la cadena de
estructuras de tipo atributo-valor, provistas entrada utilizada por las siguientes reglas
319
Procesamiento del Lenguaje Natural, núm. 43 (2009)
Pablo Gamallo Otero e Isaac González Sánchez

que serán aplicadas. La eliminación del y los atributos morfológicos). Existen, sin
elemento dependiente en cada aplicación de embargo, fenómenos lingüı́sticos, para los
una regla permite reducir la complejidad del cuales el principio de unicidad parece dema-
espacio de busca en la definición de nuevas siado riguroso (Hudson, 1990). Es el caso,
reglas. Veamos un ejemplo. Supongamos por ejemplo, de los adjetivos predicativos,
que escribimos una gramática con estas dos que tienen dos núcleos: dependen al mismo
reglas: tiempo de un verbo y de un nombre sujeto
o complemento directo. Para dar cuenta de
SpecL: DT NOUN estos casos y de otras situaciones análogas, el
% formalismo permite poner en suspenso, tanto
AdjnL: ADJ NOUN globalmente como localmente en bloques
% declarativos de reglas, la eliminación del
Estas reglas sirven para analizar secuencias dependiente.
de entrada (enunciados acabados en un Ası́ mismo, estos bloques de reglas pu-
punto), tales como: ramente declarativos, sin eliminación del
dependiente, permiten también tratar los
una DT hermosa ADJ montaña NOUN . Fp fenómenos de ambigüedad sintáctica.
En resumen, cada regla elimina por defec-
Para simplificar, omitimos toda la in- to la palabra dependiente, pero existen varias
formación morfológica y léxica de cada opciones para no eliminarla o dejar su elimi-
una de las palabras etiquetadas. En un nación en suspenso, y con ello dar cuenta de
primer momento, la única regla aplicable es los casos de no-unicidad y de ambigüedad.
AdjnL, que identifica la dependencia entre el
adjetivo (dependiente) y el nombre (núcleo), 4.4. Dependencias de libre
al mismo tiempo que elimina el adjetivo de elección e idiomáticas
la secuencia etiquetada. Esta eliminación da Hasta ahora, hemos definido dos tipos de de-
lugar a una nueva secuencia: pendencias en función de la posición rela-
tiva del núcleo y el dependiente: HeadDep
una DT montaña NOUN . Fp y DepHead. Estos dos tipos definen depen-
dencias estándar de libre elección. Para dar
que permite ahora aplicar la regla SpecL (es- cuenta del principio idiomático definido en la
pecificador a la izquierda), la cual identifi- sección 2, nuestro formalismo introduce dos
ca la dependencia entre el determinante (de- nuevos tipos de dependencias: HeadDep lex
pendiente) y el nombre (núcleo), al mismo y DepHead lex, con los que se pueden defi-
tiempo que elimina el determinante de la se- nir dependencias que, no sólo identifican rela-
cuencia de entrada. El hecho de eliminar las ciones sintácticas de tipo núcleo-dependiente,
palabras dependientes de la secuencia de en- sino que también construyen unidades léxicas
trada permite, de forma sistemática, reducir compuestas potencialmente discontinuas.
el espacio de busca de las siguientes reglas Veamos un ejemplo. Definamos to-
aplicables y, ası́ de este modo, simplificar su mar@en@cuenta como una unidad léxica
definición. compuesta que puede o no aparecer de
El análisis de un enunciado finaliza forma discontinua en expresiones como:
cuando no se hayen más reglas aplicables. “tomar tu decisión hoy en cuenta”, “tomar
Como resultado del análisis, el parser genera tu decisión en cuenta hoy”, “tomar hoy en
la representanción en forma de triplets de cuenta tu decisión”, o “tomar en cuenta hoy
las dos dependencias identificadas: tu decisión”. En todas estas expresiones,
el verbo tomar@en@cuenta se combina
(SpecL; montaña NOUN 2; un DT 0)
con un objeto directo, el nombre decisión,
(AdjnL; montaña NOUN 2; hermoso ADJ 1)
y con un adjunto, el adverbio hoy, que
Cada triplet se compone del nombre de pueden aparecer entre el verbo tomar y el
la dependencia, el núcleo y el dependiente. complemento en cuenta. Existen muchas
A modo de simplificación, para cada palabra maneras de definir un conjunto de reglas que
(núcleo o dependiente), sólo representamos den cuenta de todas estas expresiones. Una
aquı́ el lema, el PoS tag asociado y su manera serı́a la que muestra el cuadro 1:
posición en la frase (dejamos fuera el token La primera regla es un bloque de dos
320
Procesamiento del Lenguaje Natural, núm. 43 (2009)
Una gramática de dependencias basada en patrones de etiquetas

TermR lex: [VERB<lemma:tomar>] [ADV]* [NOUN]? [ADV]* PRP<lemma:en> NOUN<lemma:cuenta>


NEXT
ComplR lex: VERB<lemma:tomar> [ADV]* [NOUN]? [ADV]* PRP<lemma:en> [NOUN<lemma:cuenta>]
%
AdjnR: VERB ADV
%
DobjR: VERB NOUN
%
SpecL: DT NOUN
%

Cuadro 1: Muestra de una gramática que incluye la expresión idiomática “tomar en cuenta”

subreglas (separadas por NEXT) en los elimina este último del espacio de busca.
que se identifican dos dependencias de tipo Con la eliminación sucesiva de todos los
idiomático: la relación TermR lex entre dependientes de la secuencia de entrada,
en y cuenta después del verbo tomar y llegamos al estadio en que no hay ninguna
la relación ComplR lex entre tomar y en regla aplicable, ya que la secuencia que queda
precediendo a cuenta. Ambas contienen sin eliminar es el verbo tomar@en@cuenta,
elementos contextuales opcionales. Dentro cabeza principal que no depende de ninguna
del bloque, no opera el principio de unicidad expresión.
y, por lo tanto, no se elimina el elemento El formalismo permite definir clases de pa-
dependiente. Además, al aplicarse reglas labras mediante listas declaradas en fiche-
de tipo idiomático (marcadas por el sufijo ros externos. En el ejemplo que nos ocupa,
“ lex”), el resultado final es la identificación podrı́amos definir una pequeña clase de ver-
de una unidad léxica: tomar@en@cuenta. El bos con tomar y tener y una de nombres con
resto de reglas del ejemplo son dependen- cuenta y consideración. Esta generalización
cias sintácticas de libre elección. Con esta nos permitirı́a escribir reglas para identificar
gramática, el análisis final de, por ejemplo, expresiones idiomáticas con el mismo com-
“tomar tu decisión hoy en cuenta” da lugar portamiento sintáctico: tomar@en@cuenta,
a la siguiente lista de triplets: tener@en@cuenta, tomar@en@consideración,
etc. El uso de clases de palabras también
(AdjnR; tomar@en@cuenta VERB 0; hoy ADV 1)
(SpecL; decisión NOUN 3; tu DT 2) se puede extender, obviamente, a la identifi-
(Dobj; tomar@en@cuenta VERB 0; decisión NOUN 3) cación de patrones de subcategorización por
(ComplR lex; tomar VERB 0; en PRP 4) medio de reglas de libre elección.
(TermR lex; en PRP 4; cuenta NOUN 5)

5. Extracción de información a
Los triplets identificados se ordenan por
partir de dependencias
la posición del dependiente y no por el
orden de aplicación de las reglas. La primera En esta sección evaluaremos indirectamen-
regla aplicable es SpecL, que identifica la te dos analizadores DepPattern, uno para el
dependencia entre tu y decisión, al mismo inglés y otro para el español, por medio de
tiempo que elimina el determinante de su comportamiento en una aplicación con-
la secuencia de entrada de las siguientes creta: la extracción automática de tesauros,
reglas aplicables. Esta eliminación permite donde a cada palabra de un corpus se le aso-
aplicar a continuación el bloque de reglas cia una lista ordenada de palabras semánti-
idiomáticas que genera la unidad léxica camente relacionadas. Compararemos la pre-
tomar@en@cuenta. Este bloque también cisión de la extracción tesáurica basada en
identifica las dos dependencias internas de la dependencias sintácticas (Gamallo, Agusti-
unidad léxica: la relación TermR lex entre en ni, y Lopes, 2005) con las precisiones de
y cuenta, y ComplR lex entre tomar y en. dos métodos baseline basados en simples co-
Seguidamente, se aplica DobjR, regla que ocurrencias sin información sintáctica. Este
conecta el verbo tomar@en@cuenta con el experimento nos permitirá comprobar si las
sustantivo decisión. El nombre se elimina de dependencias identificadas por los analizado-
la entrada de la siguiente regla. Finalmente, res DepPattern permiten mejorar los resulta-
se aplica la regla AdjnR con la que se dos de la extracción. Tal como sugiere Kilga-
identifica la relación entre tomar@en@cuenta rriff (2003), consideramos que la evaluación
y el adverbio ayer, al mismo tiempo que se indirecta de una herramienta (un analizador,
321
Procesamiento del Lenguaje Natural, núm. 43 (2009)
Pablo Gamallo Otero e Isaac González Sánchez

por ejemplo), observando cómo funciona en precisión) de los 10 mejores candidatos aso-
una aplicación de PLN (e.g., la extracción de ciados a cada nombre evaluado. En concreto,
tesaurus), es una alternativa válida de eva- dado un nombre evaluado y sus 10 candida-
luación de la herramienta. tos, comprobamos si éstos están semántica-
mente asociados al primero en el gold stan-
5.1. Los corpus dard. La precisión se define como el número
Los experimentos se realizaron sobre un cor- de asociaciones extraı́das que también apare-
pus inglés y un corpus español. El cor- cen en el gold standard, dividido por el núme-
pus inglés es el BNC3 , etiquetado con Tree- ro total de candidatos, tomando en cuenta el
Tagger. Para realizar la evaluación, seleccio- ranking inverso.
namos únicamente los 10,000 nombres más 5.3. Resultados
frecuentes del corpus. El corpus español se
construyó recuperando noticias de La Voz de Métodos corpus inglés corpus español
Galicia y El Correo Gallego de 2006, forman- Cosine Jaccard Cosine Jaccard
do una colección de artı́culos de 15 millones Ventana 8,74 8,11 1,90 2,34
de palabras. La etiquetación morfo-sintáctica (oración)
se realizó con Freeling. Fueron seleccionados Ventana 11,50 10,14 1,89 3,99
para la evaluación los 15,000 nombres más (2+orden)
DepPattern 15,18 12,97 4,94 5,18
frecuentes del corpus.
Cuadro 2: Resultados de tres métodos de ex-
5.2. La evaluación
tracción sobre dos corpus
Evaluamos 3 estrategias diferentes. La prime-
ra se basa en una matriz de co-ocurrencias de-
finidas por medio de “ventanas” de palabras El cuadro 2 muestra la precisión obtenida
del tamaño de la oración. Una oración es una (en porcentaje) por cada uno de los 3 méto-
cadena de palabras entre dos puntos. La se- dos evaluados en cada corpus. Los mejores
gunda estrategia identifica las co-ocurrencias resultados fueron conseguidos por el método
dentro de ventanas más reducidas (tamaño sintáctico en ambos corpus (valores en ne-
2) y tomando en cuenta el orden de las pa- grita), lo que prueba que nuestro formalis-
labras. En ambos casos se eliminan las pala- mo gramatical genera analizadores basados
bras funcionales. La tercera estrategia, basa- en dependencias capaces de ayudar a mejo-
da en los resultados del análisis de DepPat- rar la extracción tesáurica.
tern, define la matriz de co-ocurrencias por
medio de dependencias sintácticas. Las dos 6. Conclusiones
gramáticas que dieron lugar a los analizado- En este artı́culo, hemos descrito algunas pro-
res son muy pequeñas: contienen alrededor de piedades de un formalismo gramatical, basa-
20 reglas cada una y no incluyen, por ahora, do en patrones de PoS tags, con el que se ge-
reglas idiomáticas. neran analizadores de dependencias. El for-
Dada una estrategia y un corpus, construi- malismo, inspirado en la Gramática de Pa-
mos el tesauros correspondiente de la siguien- trones, permite dar cuenta de la distinción
te manera. Cada nombre evaluable se asocia entre reglas de libre elección e idiomáticas,
a una lista ordenada con los 10 nombres más al mismo tiempo que modula la aplicación o
similares, de acuerdo con un coeficiente de no del principio de unicidad, asunto que crea
similaridad. En los experimentos, hemos uti- cierta polémica en el marco de las gramáticas
lizado cosine y jaccard. de dependencias. Los analizadores generados
Para evaluar la calidad de la extrac- por el compilador de gramáticas producen un
ción tesáurica, hemos usado como referencia formato de salida, con triplets de dependen-
(gold standard ) las asociaciones tesáuricas de cias, fácilmente adaptable para su uso en sis-
WordNet (Fellbaum, 1998) para el inglés y las temas de extracción de información. Nuestro
asociaciones de sinonimia del OpenThesaurus objetivo a medio plazo es mejorar y actuali-
para el español 4 . La evaluación automática zar las gramáticas con reglas útiles para la ex-
consiste en medir la calidad (en términos de tracción tesáurica. En concreto, la gramáticas
podrán incluir nuevas reglas siempre y cuan-
3
http://www.natcorp.ox.ac.uk do tal inclusión consiga mejorar los resulta-
4
http://openthes-es.berlios.de dos de la extracción sobre un mismo corpus.
322
Procesamiento del Lenguaje Natural, núm. 43 (2009)
Una gramática de dependencias basada en patrones de etiquetas

Bibliografı́a
Atserias, J., E. Comelles, y A. Mayor. 2005.
Txala un analizador libre de dependencias
para el castellano. Procesamiento del Len-
guaje Natural, 35:455–456.
Bick, Eckhard. 2006. A constraint grammar-
based parser for spanish. En 4th Works-
hop on Information and Human Techno-
logy.
Carrera, J., I. Castellón, M. Lloberes,
L. Padró, y N. Tincova. 2008. Depen-
dency grammar in freeling. Procesamiento
del Lenguaje Natural, 41:21–28.
Carreras, X., I. Chao, L. Padró, y M. Padró.
2004. An open-source suite of language
analyzers. En 4th International Conferen-
ce on Language Resources and Evaluation
(LREC’04), Lisbon, Portugal.
Fellbaum, C. 1998. A semantic network of
english: The mother of all wordnets. Com-
puter and the Humanities, 32:209–220.
Gamallo, Pablo, Alexandre Agustini, y Ga-
briel Lopes. 2005. Clustering syntac-
tic positions with similar semantic re-
quirements. Computational Linguistics,
31(1):107–146.
Hiram Calvo, Alexander F. Gelbukh. 2006.
Diluct: An open-source spanish depen-
dency parser based on rules, heuristics,
and selectional preferences. En NLDB,
páginas 164–175.
Hudson, R. 1990. English Word Grammar.
Basil Blackwell.
Hunston, S. y G. Francis. 1999. Pattern
Grammar. John Benjamins, Amnster-
dam.
Kilgarriff, Adam. 2003. Thesauruses for
natural language processing. En Natural
Language Processing and Knowledge En-
gineering (NLPKE), Beijing, China.
Schmid, H. 1994. Probabilistic part-of-
speech tagging using decision trees. En
International Conference on New Methods
in Language Processing.
Sinclair, J. 1991. Corpus, Concordance, Co-
llocation. Oxford University Press, Ox-
ford.
Teubert, W. 2007. Synclair, pattern gram-
mar and the question of hatred. Inter-
national Journal of Corpus Linguistics,
12(2):223–248.
323
Procesamiento del Lenguaje Natural, núm. 43 (2009)

Das könnte Ihnen auch gefallen