Gar Gom Alo 2016 A

Procesamiento del Lenguaje Natural, núm. 43 (2009), pp.
315-323 recibido 1-05-2009; aceptado 5-06-2009
Una gramática de dependencias basada en patrones de etiquetas∗
A Dependency Grammar Based on Patterns of Tags
Pablo Gamallo Otero Isaac González Sánchez

Dept. de Lı́ngua Espanhola Univ. de Santiago de Compostela
Univ. de Santiago de Compostela osaklugo@gmail.com
pablo.gamallo@usc.es
Resumen: Este artı́culo describe un formalismo gramatical, DepPattern, concebido

para escribir gramáticas de dependencias a partir de patrones de PoS tags enrique-
cidos con información léxica y morfológica. El formalismo retoma ideas de Sinclair y
de la Gramática de Patrones. A partir de las gramáticas escritas con este formalismo,
un compilador genera analizadores sintácticos robustos basados en expresiones regu-
lares para 5 lenguas: español, inglés, gallego, portugués y francés. Los analizadores
ası́ generados identifican dependencias que, posteriormente, servirán para mejorar
aplicaciones de PLN tales como la extracción de información tesáurica.
Palabras clave: gramática de dependencias, análisis sintáctico, extracción de in-
formación
Abstract: This paper describes a grammatical formalism, DepPattern, to write de-
pendency grammars using Patterns of PoS tags augmented with lexical and morp-
hological information. The formalism inherits ideas from Sinclair’s work and Pattern
Grammar. In addition, a compiler was implemented so as to generate robust parsers
from DepPattern grammars for 5 languages: Spanish, English, Galician, Portuguese,
and French. These parsers identify dependencies which can be used to improve NLP
applications such as extration of similar words.
Keywords: dependency grammar, parsing, information extraction
1. Introducción simples patrones de etiquetas son estructuras

sintácticas superficiales con capacidad para
En este artı́culo, presentamos un formalismo
identificar estructuras más abstractas, como
basado en reglas, llamado DepPattern, pen-
las dependencias o incluso el significado.
sado para que lingüistas puedan escribir fácil-
mente gramáticas de dependencias. Este for- En segundo lugar, DepPattern se cen-
malismo viene acompañado de un compilador tra en el principio de unicidad, común a la
de gramáticas que genera analizadores (par- mayorı́a de las gramáticas de dependencias.
sers) de dependencias robustos para 5 len- Según este principio, cada palabra desem-
guas. Las principales caracterı́sticas del for- peña el papel de dependiente sólo una vez. El
malismo son las siguientes. formalimo usa el principio de unicidad de la
En primer lugar, permite identificar siguiente manera. La aplicación de un patrón
dependencias entre palabras (núcleo- de etiquetas para la identificación de un par
dependiente) mediante el uso de patrones “núcleo-dependiente” puede hacer desapare-
de etiquetas morfosintácticas (PoS tags), cer el dependiente del espacio de busca, sim-
provistas de información morfológica y plificando ası́ el tipo de patrones necesarios
léxica. Se inspira, por tanto, en la Gramática para la identificación de posteriores depen-
de Patrones o Pattern Grammar (Hunston dencias.
y Francis, 1999), donde se considera que los En tercer lugar, nuestro formalismo plan-
∗
tea, como algunas teorı́as lingüı́sticas recien-
Este trabajo ha sido subvencionado por la Xunta de tes, que no se puede establecer una separa-
Galicia, con cargo a los proyectos con referencia: PGI-
DIT07PXIB204015PR (Conselları́a de Innovación e
ción tajante entre léxico y sintaxis (Sinclair,
Industria) y 2008/101 (Conselları́a de Educación e 1991; Hunston y Francis, 1999). Existen, en
Ordenación Universitaria. cualquier lenguaje natural, innumerables uni-
ISSN: 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Pablo Gamallo Otero e Isaac González Sánchez
dades léxicas compuestas que tienen, hasta Siempre que no haya ambigüedad, utiliza-
cierto punto, un comportamiento semejante remos el término DepPattern, no sólo para
a las unidades sintácticas. Por ejemplo, la ex- referirnos al formalismo, sino también a los
presión “tener en cuenta” es una unidad léxi- analizadores generados por el compilador de
ca de tipo verbal próxima en significado a gramáticas.
verbos como “considerar”. “valorar”, “sope- El resto del artı́culo se organiza como si-
sar”, etc, pero al mismo tiempo, es una uni- gue. Comenzaremos por abordar los funda-
dad discontinua que permite la inserción de mentos lingüı́sticos del formalismo (sección
diversos complementos: “tuvo su opinión irre- 2) y los trabajos relacionados (sección 3). Se-
mediablemente en cuenta”. La identificación guiremos con una breve descripción del mis-
de este tipo de unidades léxicas discontinuas mo (sección 4), y acabaremos describiendo al-
presupone, por tanto, el uso de los mismos gunos experimentos y evaluaciones realizados
mecanismos y reglas que se necesitan para (sección 5).
identificar las unidades sintácticas.
Por último, y en referencia al análisis au- 2. Ideas lingüı́sticas sobre las que
tomático, hemos desarrollado, con licencia se basa el formalismo
GPL, un compilador del formalismo DepPat- Para definir el formalismo, hemos tomado en
tern que genera analizadores robustos, escri- cuenta nociones de varios enfoques lingüı́sti-
tos en Perl y basados fundamentalmente en cos. En concreto, nos ha interesado el traba-
expresiones regulares, para 5 lenguas. 1 Los jo de Jonh Sinclair, la teorı́a de la Gramáti-
analizadores generados por el compilador to- ca de Patrones (Pattern Grammar), ası́ como
man como entrada texto etiquetado y desam- aspectos básicos de las gramáticas de depen-
biguado por dos herramientas: Freeling (Ca- dencias. En esta sección, presentaremos úni-
rreras et al., 2004) y Tree-Tagger (Schmid, camente los dos primeros trabajos, por ser
1994). En concreto, fue definido un conver- menos conocidos en el ámbito del PLN.
sor que elabora, a partir de diferentes tagsets
usados por Freeling y Treetagger, un conjun- 2.1. La lingüı́stica de corpus de
to común de etiquetas reconocido por los ana- Sinclair
lizadores. Por el momento, el conversor tiene Sinclair argumenta que hay dos maneras dife-
la capacidad de generar un tagset común a rentes de interpretar las expresiones lingüı́sti-
partir de 8 tagsets existentes: 3 de Freeling cas. Por un lado, el significado de una expre-
(español, inglés y gallego) y 5 de Treetag- sión compuesta es el resultado de varias “elec-
ger (español, inglés, gallego, francés y por- ciones libres” (open choices), realizadas de
tugués). El tagset común se definió tomando acuerdo con principios regulares de compo-
en cuenta los tagsets usados por el sistema sicionalidad semántica. A esto le llama “mo-
Freeling para español y gallego, a su vez ins- delo de la libre elección”, y lo define como
pirados en la propuesta del grupo EAGLES, sigue (Sinclair, 1991) (pages 109-110):
ya que son los que incorporan más informa-
ción morfológica. It is often called a “slot-and-filled”
Para evaluar la calidad de los análisis rea- model, envisaging texts as a series
lizados por los analizadores DepPattern, nos of slots which have to be filled from
hemos inclinado por una evaluación indirecta a lexicon which satisfies local cons-
a partir de una aplicación posible del análisis traints. At each slot, virtually any
de dependencias, concretamente la extracción word can occur. [...] All grammars
automática de información tesáurica. Para are constructed on the open-choice
ello, hemos adaptado uno de los formatos de principle.
salida de los analizadores, de tal manera que Por otro lado, en muchos casos el signifi-
pueda servir de entrada de un sistema de ad- cado de una expresión compuesta no es com-
quisición automática de tesaurus. La evalua- posicional, esto es, no se puede derivar direc-
ción directa de los resultados del sistema de tamente del de sus partes. Se trata de estruc-
adquisición automática nos ayudará a evaluar turas, en su mayorı́a, semi-fijadas, que sólo
indirectamente la calidad de la información pueden ser interpretadas recurriendo a lo que
sintáctica generada por los analizadores. Sinclair llama “principio idiomático” y que
1
Disponible en: define de esta forma (Sinclair, 1991) (page
http://gramatica.usc.es/pln/tools/DepPattern.htm 110):
316
Procesamiento del Lenguaje Natural, núm. 43 (2009)
Una gramática de dependencias basada en patrones de etiquetas
The principle of idiom is that a Va nn Pedro le escribió a Marı́a

language user has available to him una carta
or her a large number of semi- V que-subj Manuel sugerió que me
preconstructed phrases that cons- fuera
titute single choices, even though V inf a n Mi hermano dejó salir al
they might appear to be analyzable cuidador
into segments. N sobre n Una noticia sobre los ne-
gocios de mi padre
ADJ de-inf El homenaje fue difı́cil de
De acuerdo con Sinclair, las exprexiones justificar
semi-preconstruidas o semi-fijadas son la re- A la izquierda, aparecen los patrones y a
gla y no la excepción en cualquier lengua. la derecha ejemplos que los instancian. En
Por tanto, el principio idiomático deberı́a cuanto a la notación utilizada, v representa
incorporarse a la organización de cualquier una frase verbal, n, una frase nominal, adj,
(léxico)-gramática, junto con el bien cono- una frase adjetiva, que-subj es una cláusula
cido modelo de la elección libre. La princi- con verbo en subjuntivo e introducida por
pal dificultad de las expresiones idiomáticas que, inf es una cláusula con el verbo en
semi-fijadas es que, por una lado, son unida- infinitivo, a y sobre son unidades léxicas
des con un comportamiento léxico-semánti- especificas. Las mayúsculas V (or N, ADJ)
co próximo al de cualquier entrada de dic- representan las etiquetas morfo-sintácticas
cionario y, por otro, comparten propiedades (PoS tags) de las palabras para las que
sintácticas de cualquier expresión compues- se definen los patrones (y que aparecen
ta analizada mediante el modelo de la libre subrayadas en los ejemplos). Los patrones
elección, esto es, se componen de elementos son estructuras sintácticas de superficie que
no necesariamente contiguos: tomar [algo] en permiten describir la gramática de cualquier
cuenta. lengua. Las descripciones llevadas a cabo
Para analizar este tipo de expresiones de esta guisa son menos abstractas, más
semi-fijadas, el formalismo DepPattern per- léxicas y más de superficie que la mayorı́a
mite la definición de reglas gramaticales es- de descripciones profundas efectuadas por el
pecializadas en la identificación de unidades resto de teorı́as sintácticas. Para definir un
léxicas discontinuas y sintácticamente varia- patrón apenas se requieren PoS tags junto
bles. Estas reglas se comportan como reglas con alguna información léxica y morfológica.
sintácticas estándar, pero en vez de gene- No es necesario tomar en consideración
rar unicamente una representación sintáctica, información gramatical relativa a los consti-
construyen una unidad léxica que puede ser tuyentes y a las funciones. Se asume que esta
núcleo o dependiente de otras palabras en su- estructura de superficie es suficiente para
cesivas reglas. De hecho, nuestro formalismo llevar a cabo la interpretación semántica,
distingue dos tipos de reglas: reglas sintácti- es decir, hay una asociación directa entre
cas que siguen el modelo de la libre elección y patrones superficiales y significado, sin
reglas léxico-sintácticas que respetan el prin- mediación de otros niveles gramaticales de
cipio idiomático. organización.
Sin embargo, bajo nuestro punto de vista,
2.2. Gramática de Patrones
los patrones definidos por Hunston y Francis
La Gramática de Patrones, tal como se des- no son meras representaciones sintácticas de
cribe en Hunston y Francis (1999), puede ser superficie, ya que también integran de mane-
vista como una “formalización de las ideas ra implı́cta información gramatical de niveles
de Sinclair” (Teubert, 2007). La noción de superiores. En concreto, los patrones presen-
base de esta gramática es la de patrón (pat- tados arriba contienen información sobre las
tern). Un patrón especı́fico de una palabra es dependencias entre un núcleo y sus modifi-
una organización léxico-morfo-sintáctica que cadores (o palabras dependientes). Tomemos
agrupa etiquetas morfo-sintácticas, informa- como ejemplo el patrón N sobre n. Según
ción léxica e información morfológica, que Hunston y Francis, esta estructura deberı́a
contribuye a seleccionar un aspecto del sig- servir para identificar aquellos casos en que
nificado de la palabra en cuestión. Veamos el complemento sobre n depende del núcleo
algunos ejemplos de patrones: nominal N. Por lo tanto, no debe usarse pa-
317
ra dar cuenta de expresiones tales como la gue algunos principios básicos de la Gramáti-
hoja sobre la mesa, incluidas en frases como ca de Patrones (Pattern Grammar ). Ambos
poner la hoja sobre la mesa. En este caso, el formalismos tienen un compilador que tradu-
núcleo del complemento preposicional sobre ce las gramáticas en analizadores. Por otro
n es el verbo poner. De todo esto se deduce lado, el formalismo gramatical de TXALA es
que el patrón N sobre n incluye información el único de los cuatro que no se basa estric-
estructural que va más allá de la simple con- tamente en las dependencias, sino que cons-
catenación de PoS tags y unidades léxicas. truye primero árboles de constituyentes para
Su correcta aplicación presupone la identifi- después transformar estos árboles, median-
cación de una depedencia sintáctica de orden te la identificación de los núcleos, en depen-
superior entre el primer substantivo N y el dencias. Finalmente, en cuanto a las licencias
núcleo del sintagma nominal n precedido por de uso y distribución, completamente libres
la preposición sobre. son TXALA, DILUCT Y DepPattern, ya que
Al igual que la Gramática de Patrones, el VISL no libera las gramáticas ni los parsers
formalismo DepPattern fundamenta el análi- generados, apenas el compilador.
sis lingüı́stico en el uso de cadenas de PoS Por consiguiente, DepPattern es un siste-
tags enriquecidos con atributos morfológicos ma con las siguientes propiedades: tiene un
e información léxica. No obstante, en lugar de analizador robusto, un formalismo gramati-
servir para identificar aspectos del significado cal documentado, compilable y estrictamen-
de las palabras, nuestro propósito es identi- te basado en dependencias, y libera tanto el
ficar y generar las relaciones de dependen- compilador como las gramáticas.
cia inherentes a esas cadenas. Este objetivo
coincide con lo expuesto por Teubert (2007), 4. Breve introducción al
quien plantea la necesidad de enriquecer la formalismo de gramáticas
estructura de superficie de los patrones con DepPattern is una gramática formal, basada
información lingüı́stica más abstracta tal co- en reglas dependientes del contexto, que bus-
mo las dependencias sintácticas. ca identificar la estructura de dependencias
de las oraciones. En esta sección, introduci-
3. Trabajo relacionado remos brevemente algunas de las principales
Es cada vez más frecuente encontrar anali- caracterı́sticas del formalismo. Para una ex-
zadores de dependencias de código abierto y posición más detallada, se puede consultar el
basados en reglas. Con estas caracterı́sticas tutorial.2
y para el español, junto a DepPattern, po-
demos citar a TXALA (Atserias, Comelles, y 4.1. Descripción básica de las
Mayor, 2005; Carrera et al., 2008), DILUCT reglas
(Hiram Calvo, 2006) y VISL (Bick, 2006). Una gramática escrita con DepPattern cons-
TXALA compartte con DepPattern el uso ta de un conjunto de reglas dependientes
del desambiguador morfosintáctico de Free- del contexto. Cada regla tiene como objeti-
ling. De hecho, el parser TXALA es la última vo identificar una relación núcleo-dependiente
etapa de la cadena de procesos de la herra- por medio de patrones de etiquetas morfo-
mienta Freeling. sintácticas asociadas a información mor-
Para comparar estos cuatro analizadores, fológica y léxica. Una regla consta de dos ele-
veamos como se comportan con respecto a las mentos:
siguientes propiedades: robustez, naturaleza
de las gramáticas y licencias de uso. En cuan- un patrón de etiquetas
to a la robustez, VISL, DILUCT y DepPat-
tern son analizadores robustos, lo que facilita el nombre de una relación núcleo-
su uso en tareas de extracción de información dependiente
a partir de grandes cantidades de texto. Con
respecto a la naturaleza de las gramáticas, Veamos un ejemplo:
VISL y DepPattern ofrecen un formalismo
amigable para lingüistas, documentado en tu- DobjR: VERB [DT]? [ADJ]* NOUN
toriales, e inspirado en teorı́as lingüı́sticas. El
formalismo de VISL se basa en la Constraint 2
Disponble en:
Grammar, mientras que el de DepPattern si- htpp://gramatica.usc.es/pln/tools/tutorialGrammar.pdf
318
Los dos puntos separan el patrón de de información morfológica y léxica, ası́ co-
etiquetas (a la derecha) del nombre de la mo de operaciones de diferente naturaleza:
dependencia, DobjR, que se pretende buscar concordancia, recursividad, herencia de atri-
dentro del patrón. Tanto el nombre de butos, modificación de valores de atributos
las dependencias como el de las etiquetas e inclusión de nuevos pares atributo-valor.
morfo-sintácticas se declaran en ficheros También es posible definir clases de palabras
aparte: dependencies.conf y tagset.conf, mediante listas declaradas en ficheros exter-
respectivamente. El nombre por omisión de nos. Por último, fueron definidos operadores
las etiquetas es el que viene establecido por booleanos para las etiquetas, atributos y
el conversor de etiquetas, que transforma los valores. Como describir todas las potencia-
tagsets de Freeling y Treetagger en un tagset lidades del formalismo no es el objetivo de
común. Esos nombres se pueden modificar a este artı́culo, nos centraremos en los nuevos
gusto del lingüista en el fichero tagset.conf. elementos que aparecen en las dos reglas
En cuanto a los nombres de dependencias, el siguientes:
lingüista tiene la posibilidad de enumerar los
que desee, pero con la obligación de declarar AdjnL: ADV<type:Q> ADJ | ADV
para cada uno el tipo al que pertenece. %
Ası́ en el fichero dependencies.conf aparece AdjnL: ADJ NOUN
la lı́nea: Agreement: number, genre
%
DobjR HeadDep Ambas reglas contienen la dependencia
AdjnL (i.e., Adjunto a la izquierda), que fue
Básicamente, DepPattern distingue 2 declarada como siendo de tipo DepHead, es
grandes tipos de dependencias, DepHead y decir, el dependiente está a la izquierda del
HeadDep, en función de la posición del de- núcleo. En la primera regla, el atributo-valor
pendiente con respecto al núcleo. Las depen- <type:Q> es una condición que elabora la
dencias de tipo DepHead definen relaciones información de la etiqueta ADV. El valor
donde el dependiente aparece a la izquierda “Q” se refiere a adverbios cuantificadores
del núcleo, mientras que las de tipo Head- como muy o bastante. Esta regla, por lo
Dep representan a todas aquellas donde el tanto, identifica la dependencia de adjunción
dependiente aparece a la derecha. En nuestro entre un adverbio cuantificador y su núcleo,
ejemplo, DobjR fue declarada como una de- que puede ser un adjetivo o un adverbio. La
pendencia de tipo HeadDep, por consiguien- barra vertical es un operador de disyunción.
te, puede usarse para identificar los objetos En la segunda regla, la dependencia AdjnL
directos que aparecen a la derecha de los identifica la relación entre un adjetivo y su
núcleos verbales (“Dobj” es una abreviatu- núcleo nominal. “Agreement” es la operación
ra de Direct Object, y “R” de Right). En la de concordancia, y “number, genre” el
regla expuesta arriba, DobjR permite iden- nombre de los atributos cuyos valores deben
tificar una relación de dependencia entre las compartir el núcleo y el dependiente para
etiquetas sin corchetes: VERB y NOUN. Da- que la relación sea identificada.
do que esta dependencia es de tipo HeadDep,
sabemos que VERB es el núcleo y NOUN el 4.3. El principio de unicidad
dependiente. El resto de etiquetas aparecen La mayorı́a de las gramáticas de dependen-
entre corchetes ya que representan el contex- cias presuponen el “principio de unicidad”
to de la relación. En concreto, [DT]? signifi- (uniqueness principle). Este principio esta-
ca que pueden aparecer ninguno o 1 determi- blece que cada palabra sólo tiene un núcleo,
nantes, y [ADJ]* ninguno o varios adjetivos, es decir, cada palabra desempeña el papel
todos entre el verbo y el nombre. de dependiente apenas una vez. Las reglas
de nuestro formalismo se aplican tomando
4.2. Extensiones del formalismo en cuenta la unicidad del dependiente. De
Lo que hemos definido hasta ahora son esta manera, una regla no sólo identifica
los elementos esenciales de una regla. No una dependencia núcleo-dependiente entre
obstante, es posible especificar y detallar la dos palabras, sino que también elimina
información de las reglas mediante el uso de la palabra dependiente de la cadena de
estructuras de tipo atributo-valor, provistas entrada utilizada por las siguientes reglas
319
que serán aplicadas. La eliminación del y los atributos morfológicos). Existen, sin
elemento dependiente en cada aplicación de embargo, fenómenos lingüı́sticos, para los
una regla permite reducir la complejidad del cuales el principio de unicidad parece dema-
espacio de busca en la definición de nuevas siado riguroso (Hudson, 1990). Es el caso,
reglas. Veamos un ejemplo. Supongamos por ejemplo, de los adjetivos predicativos,
que escribimos una gramática con estas dos que tienen dos núcleos: dependen al mismo
reglas: tiempo de un verbo y de un nombre sujeto
o complemento directo. Para dar cuenta de
SpecL: DT NOUN estos casos y de otras situaciones análogas, el
% formalismo permite poner en suspenso, tanto
AdjnL: ADJ NOUN globalmente como localmente en bloques
% declarativos de reglas, la eliminación del
Estas reglas sirven para analizar secuencias dependiente.
de entrada (enunciados acabados en un Ası́ mismo, estos bloques de reglas pu-
punto), tales como: ramente declarativos, sin eliminación del
dependiente, permiten también tratar los
una DT hermosa ADJ montaña NOUN . Fp fenómenos de ambigüedad sintáctica.
En resumen, cada regla elimina por defec-
Para simplificar, omitimos toda la in- to la palabra dependiente, pero existen varias
formación morfológica y léxica de cada opciones para no eliminarla o dejar su elimi-
una de las palabras etiquetadas. En un nación en suspenso, y con ello dar cuenta de
primer momento, la única regla aplicable es los casos de no-unicidad y de ambigüedad.
AdjnL, que identifica la dependencia entre el
adjetivo (dependiente) y el nombre (núcleo), 4.4. Dependencias de libre
al mismo tiempo que elimina el adjetivo de elección e idiomáticas
la secuencia etiquetada. Esta eliminación da Hasta ahora, hemos definido dos tipos de de-
lugar a una nueva secuencia: pendencias en función de la posición rela-
tiva del núcleo y el dependiente: HeadDep
una DT montaña NOUN . Fp y DepHead. Estos dos tipos definen depen-
dencias estándar de libre elección. Para dar
que permite ahora aplicar la regla SpecL (es- cuenta del principio idiomático definido en la
pecificador a la izquierda), la cual identifi- sección 2, nuestro formalismo introduce dos
ca la dependencia entre el determinante (de- nuevos tipos de dependencias: HeadDep lex
pendiente) y el nombre (núcleo), al mismo y DepHead lex, con los que se pueden defi-
tiempo que elimina el determinante de la se- nir dependencias que, no sólo identifican rela-
cuencia de entrada. El hecho de eliminar las ciones sintácticas de tipo núcleo-dependiente,
palabras dependientes de la secuencia de en- sino que también construyen unidades léxicas
trada permite, de forma sistemática, reducir compuestas potencialmente discontinuas.
el espacio de busca de las siguientes reglas Veamos un ejemplo. Definamos to-
aplicables y, ası́ de este modo, simplificar su mar@en@cuenta como una unidad léxica
definición. compuesta que puede o no aparecer de
El análisis de un enunciado finaliza forma discontinua en expresiones como:
cuando no se hayen más reglas aplicables. “tomar tu decisión hoy en cuenta”, “tomar
Como resultado del análisis, el parser genera tu decisión en cuenta hoy”, “tomar hoy en
la representanción en forma de triplets de cuenta tu decisión”, o “tomar en cuenta hoy
las dos dependencias identificadas: tu decisión”. En todas estas expresiones,
el verbo tomar@en@cuenta se combina
(SpecL; montaña NOUN 2; un DT 0)
con un objeto directo, el nombre decisión,
(AdjnL; montaña NOUN 2; hermoso ADJ 1)
y con un adjunto, el adverbio hoy, que
Cada triplet se compone del nombre de pueden aparecer entre el verbo tomar y el
la dependencia, el núcleo y el dependiente. complemento en cuenta. Existen muchas
A modo de simplificación, para cada palabra maneras de definir un conjunto de reglas que
(núcleo o dependiente), sólo representamos den cuenta de todas estas expresiones. Una
aquı́ el lema, el PoS tag asociado y su manera serı́a la que muestra el cuadro 1:
posición en la frase (dejamos fuera el token La primera regla es un bloque de dos
320
TermR lex: [VERB<lemma:tomar>] [ADV]* [NOUN]? [ADV]* PRP<lemma:en> NOUN<lemma:cuenta>

NEXT
ComplR lex: VERB<lemma:tomar> [ADV]* [NOUN]? [ADV]* PRP<lemma:en> [NOUN<lemma:cuenta>]
%
AdjnR: VERB ADV
%
DobjR: VERB NOUN
%
SpecL: DT NOUN
%
Cuadro 1: Muestra de una gramática que incluye la expresión idiomática “tomar en cuenta”
subreglas (separadas por NEXT) en los elimina este último del espacio de busca.
que se identifican dos dependencias de tipo Con la eliminación sucesiva de todos los
idiomático: la relación TermR lex entre dependientes de la secuencia de entrada,
en y cuenta después del verbo tomar y llegamos al estadio en que no hay ninguna
la relación ComplR lex entre tomar y en regla aplicable, ya que la secuencia que queda
precediendo a cuenta. Ambas contienen sin eliminar es el verbo tomar@en@cuenta,
elementos contextuales opcionales. Dentro cabeza principal que no depende de ninguna
del bloque, no opera el principio de unicidad expresión.
y, por lo tanto, no se elimina el elemento El formalismo permite definir clases de pa-
dependiente. Además, al aplicarse reglas labras mediante listas declaradas en fiche-
de tipo idiomático (marcadas por el sufijo ros externos. En el ejemplo que nos ocupa,
“ lex”), el resultado final es la identificación podrı́amos definir una pequeña clase de ver-
de una unidad léxica: tomar@en@cuenta. El bos con tomar y tener y una de nombres con
resto de reglas del ejemplo son dependen- cuenta y consideración. Esta generalización
cias sintácticas de libre elección. Con esta nos permitirı́a escribir reglas para identificar
gramática, el análisis final de, por ejemplo, expresiones idiomáticas con el mismo com-
“tomar tu decisión hoy en cuenta” da lugar portamiento sintáctico: tomar@en@cuenta,
a la siguiente lista de triplets: tener@en@cuenta, tomar@en@consideración,
etc. El uso de clases de palabras también
(AdjnR; tomar@en@cuenta VERB 0; hoy ADV 1)
(SpecL; decisión NOUN 3; tu DT 2) se puede extender, obviamente, a la identifi-
(Dobj; tomar@en@cuenta VERB 0; decisión NOUN 3) cación de patrones de subcategorización por
(ComplR lex; tomar VERB 0; en PRP 4) medio de reglas de libre elección.
(TermR lex; en PRP 4; cuenta NOUN 5)
5. Extracción de información a
Los triplets identificados se ordenan por
partir de dependencias
la posición del dependiente y no por el
orden de aplicación de las reglas. La primera En esta sección evaluaremos indirectamen-
regla aplicable es SpecL, que identifica la te dos analizadores DepPattern, uno para el
dependencia entre tu y decisión, al mismo inglés y otro para el español, por medio de
tiempo que elimina el determinante de su comportamiento en una aplicación con-
la secuencia de entrada de las siguientes creta: la extracción automática de tesauros,
reglas aplicables. Esta eliminación permite donde a cada palabra de un corpus se le aso-
aplicar a continuación el bloque de reglas cia una lista ordenada de palabras semánti-
idiomáticas que genera la unidad léxica camente relacionadas. Compararemos la pre-
tomar@en@cuenta. Este bloque también cisión de la extracción tesáurica basada en
identifica las dos dependencias internas de la dependencias sintácticas (Gamallo, Agusti-
unidad léxica: la relación TermR lex entre en ni, y Lopes, 2005) con las precisiones de
y cuenta, y ComplR lex entre tomar y en. dos métodos baseline basados en simples co-
Seguidamente, se aplica DobjR, regla que ocurrencias sin información sintáctica. Este
conecta el verbo tomar@en@cuenta con el experimento nos permitirá comprobar si las
sustantivo decisión. El nombre se elimina de dependencias identificadas por los analizado-
la entrada de la siguiente regla. Finalmente, res DepPattern permiten mejorar los resulta-
se aplica la regla AdjnR con la que se dos de la extracción. Tal como sugiere Kilga-
identifica la relación entre tomar@en@cuenta rriff (2003), consideramos que la evaluación
y el adverbio ayer, al mismo tiempo que se indirecta de una herramienta (un analizador,
321
por ejemplo), observando cómo funciona en precisión) de los 10 mejores candidatos aso-
una aplicación de PLN (e.g., la extracción de ciados a cada nombre evaluado. En concreto,
tesaurus), es una alternativa válida de eva- dado un nombre evaluado y sus 10 candida-
luación de la herramienta. tos, comprobamos si éstos están semántica-
mente asociados al primero en el gold stan-
5.1. Los corpus dard. La precisión se define como el número
Los experimentos se realizaron sobre un cor- de asociaciones extraı́das que también apare-
pus inglés y un corpus español. El cor- cen en el gold standard, dividido por el núme-
pus inglés es el BNC3 , etiquetado con Tree- ro total de candidatos, tomando en cuenta el
Tagger. Para realizar la evaluación, seleccio- ranking inverso.
namos únicamente los 10,000 nombres más 5.3. Resultados
frecuentes del corpus. El corpus español se
construyó recuperando noticias de La Voz de Métodos corpus inglés corpus español
Galicia y El Correo Gallego de 2006, forman- Cosine Jaccard Cosine Jaccard
do una colección de artı́culos de 15 millones Ventana 8,74 8,11 1,90 2,34
de palabras. La etiquetación morfo-sintáctica (oración)
se realizó con Freeling. Fueron seleccionados Ventana 11,50 10,14 1,89 3,99
para la evaluación los 15,000 nombres más (2+orden)
DepPattern 15,18 12,97 4,94 5,18
frecuentes del corpus.
Cuadro 2: Resultados de tres métodos de ex-
5.2. La evaluación
tracción sobre dos corpus
Evaluamos 3 estrategias diferentes. La prime-
ra se basa en una matriz de co-ocurrencias de-
finidas por medio de “ventanas” de palabras El cuadro 2 muestra la precisión obtenida
del tamaño de la oración. Una oración es una (en porcentaje) por cada uno de los 3 méto-
cadena de palabras entre dos puntos. La se- dos evaluados en cada corpus. Los mejores
gunda estrategia identifica las co-ocurrencias resultados fueron conseguidos por el método
dentro de ventanas más reducidas (tamaño sintáctico en ambos corpus (valores en ne-
2) y tomando en cuenta el orden de las pa- grita), lo que prueba que nuestro formalis-
labras. En ambos casos se eliminan las pala- mo gramatical genera analizadores basados
bras funcionales. La tercera estrategia, basa- en dependencias capaces de ayudar a mejo-
da en los resultados del análisis de DepPat- rar la extracción tesáurica.
tern, define la matriz de co-ocurrencias por
medio de dependencias sintácticas. Las dos 6. Conclusiones
gramáticas que dieron lugar a los analizado- En este artı́culo, hemos descrito algunas pro-
res son muy pequeñas: contienen alrededor de piedades de un formalismo gramatical, basa-
20 reglas cada una y no incluyen, por ahora, do en patrones de PoS tags, con el que se ge-
reglas idiomáticas. neran analizadores de dependencias. El for-
Dada una estrategia y un corpus, construi- malismo, inspirado en la Gramática de Pa-
mos el tesauros correspondiente de la siguien- trones, permite dar cuenta de la distinción
te manera. Cada nombre evaluable se asocia entre reglas de libre elección e idiomáticas,
a una lista ordenada con los 10 nombres más al mismo tiempo que modula la aplicación o
similares, de acuerdo con un coeficiente de no del principio de unicidad, asunto que crea
similaridad. En los experimentos, hemos uti- cierta polémica en el marco de las gramáticas
lizado cosine y jaccard. de dependencias. Los analizadores generados
Para evaluar la calidad de la extrac- por el compilador de gramáticas producen un
ción tesáurica, hemos usado como referencia formato de salida, con triplets de dependen-
(gold standard ) las asociaciones tesáuricas de cias, fácilmente adaptable para su uso en sis-
WordNet (Fellbaum, 1998) para el inglés y las temas de extracción de información. Nuestro
asociaciones de sinonimia del OpenThesaurus objetivo a medio plazo es mejorar y actuali-
para el español 4 . La evaluación automática zar las gramáticas con reglas útiles para la ex-
consiste en medir la calidad (en términos de tracción tesáurica. En concreto, la gramáticas
podrán incluir nuevas reglas siempre y cuan-
3
http://www.natcorp.ox.ac.uk do tal inclusión consiga mejorar los resulta-
4
http://openthes-es.berlios.de dos de la extracción sobre un mismo corpus.
322
Bibliografı́a
Atserias, J., E. Comelles, y A. Mayor. 2005.
Txala un analizador libre de dependencias
para el castellano. Procesamiento del Len-
guaje Natural, 35:455–456.
Bick, Eckhard. 2006. A constraint grammar-
based parser for spanish. En 4th Works-
hop on Information and Human Techno-
logy.
Carrera, J., I. Castellón, M. Lloberes,
L. Padró, y N. Tincova. 2008. Depen-
dency grammar in freeling. Procesamiento
del Lenguaje Natural, 41:21–28.
Carreras, X., I. Chao, L. Padró, y M. Padró.
2004. An open-source suite of language
analyzers. En 4th International Conferen-
ce on Language Resources and Evaluation
(LREC’04), Lisbon, Portugal.
Fellbaum, C. 1998. A semantic network of
english: The mother of all wordnets. Com-
puter and the Humanities, 32:209–220.
Gamallo, Pablo, Alexandre Agustini, y Ga-
briel Lopes. 2005. Clustering syntac-
tic positions with similar semantic re-
quirements. Computational Linguistics,
31(1):107–146.
Hiram Calvo, Alexander F. Gelbukh. 2006.
Diluct: An open-source spanish depen-
dency parser based on rules, heuristics,
and selectional preferences. En NLDB,
páginas 164–175.
Hudson, R. 1990. English Word Grammar.
Basil Blackwell.
Hunston, S. y G. Francis. 1999. Pattern
Grammar. John Benjamins, Amnster-
dam.
Kilgarriff, Adam. 2003. Thesauruses for
natural language processing. En Natural
Language Processing and Knowledge En-
gineering (NLPKE), Beijing, China.
Schmid, H. 1994. Probabilistic part-of-
speech tagging using decision trees. En
International Conference on New Methods
in Language Processing.
Sinclair, J. 1991. Corpus, Concordance, Co-
llocation. Oxford University Press, Ox-
ford.
Teubert, W. 2007. Synclair, pattern gram-
mar and the question of hatred. Inter-
national Journal of Corpus Linguistics,
12(2):223–248.
323

Gar Gom Alo 2016 A

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Gar Gom Alo 2016 A

Hochgeladen von

Copyright:

Verfügbare Formate

Procesamiento del Lenguaje Natural, núm. 43 (2009), pp.

315-323 recibido 1-05-2009; aceptado 5-06-2009

Una gramática de dependencias basada en patrones de etiquetas∗

A Dependency Grammar Based on Patterns of Tags

Pablo Gamallo Otero Isaac González Sánchez

Resumen: Este artı́culo describe un formalismo gramatical, DepPattern, concebido

1. Introducción simples patrones de etiquetas son estructuras

The principle of idiom is that a Va nn Pedro le escribió a Marı́a

TermR lex: [VERB<lemma:tomar>] [ADV]* [NOUN]? [ADV]* PRP<lemma:en> NOUN<lemma:cuenta>

Das könnte Ihnen auch gefallen