Beruflich Dokumente
Kultur Dokumente
ISSN: 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Pablo Gamallo Otero e Isaac González Sánchez
dades léxicas compuestas que tienen, hasta Siempre que no haya ambigüedad, utiliza-
cierto punto, un comportamiento semejante remos el término DepPattern, no sólo para
a las unidades sintácticas. Por ejemplo, la ex- referirnos al formalismo, sino también a los
presión “tener en cuenta” es una unidad léxi- analizadores generados por el compilador de
ca de tipo verbal próxima en significado a gramáticas.
verbos como “considerar”. “valorar”, “sope- El resto del artı́culo se organiza como si-
sar”, etc, pero al mismo tiempo, es una uni- gue. Comenzaremos por abordar los funda-
dad discontinua que permite la inserción de mentos lingüı́sticos del formalismo (sección
diversos complementos: “tuvo su opinión irre- 2) y los trabajos relacionados (sección 3). Se-
mediablemente en cuenta”. La identificación guiremos con una breve descripción del mis-
de este tipo de unidades léxicas discontinuas mo (sección 4), y acabaremos describiendo al-
presupone, por tanto, el uso de los mismos gunos experimentos y evaluaciones realizados
mecanismos y reglas que se necesitan para (sección 5).
identificar las unidades sintácticas.
Por último, y en referencia al análisis au- 2. Ideas lingüı́sticas sobre las que
tomático, hemos desarrollado, con licencia se basa el formalismo
GPL, un compilador del formalismo DepPat- Para definir el formalismo, hemos tomado en
tern que genera analizadores robustos, escri- cuenta nociones de varios enfoques lingüı́sti-
tos en Perl y basados fundamentalmente en cos. En concreto, nos ha interesado el traba-
expresiones regulares, para 5 lenguas. 1 Los jo de Jonh Sinclair, la teorı́a de la Gramáti-
analizadores generados por el compilador to- ca de Patrones (Pattern Grammar), ası́ como
man como entrada texto etiquetado y desam- aspectos básicos de las gramáticas de depen-
biguado por dos herramientas: Freeling (Ca- dencias. En esta sección, presentaremos úni-
rreras et al., 2004) y Tree-Tagger (Schmid, camente los dos primeros trabajos, por ser
1994). En concreto, fue definido un conver- menos conocidos en el ámbito del PLN.
sor que elabora, a partir de diferentes tagsets
usados por Freeling y Treetagger, un conjun- 2.1. La lingüı́stica de corpus de
to común de etiquetas reconocido por los ana- Sinclair
lizadores. Por el momento, el conversor tiene Sinclair argumenta que hay dos maneras dife-
la capacidad de generar un tagset común a rentes de interpretar las expresiones lingüı́sti-
partir de 8 tagsets existentes: 3 de Freeling cas. Por un lado, el significado de una expre-
(español, inglés y gallego) y 5 de Treetag- sión compuesta es el resultado de varias “elec-
ger (español, inglés, gallego, francés y por- ciones libres” (open choices), realizadas de
tugués). El tagset común se definió tomando acuerdo con principios regulares de compo-
en cuenta los tagsets usados por el sistema sicionalidad semántica. A esto le llama “mo-
Freeling para español y gallego, a su vez ins- delo de la libre elección”, y lo define como
pirados en la propuesta del grupo EAGLES, sigue (Sinclair, 1991) (pages 109-110):
ya que son los que incorporan más informa-
ción morfológica. It is often called a “slot-and-filled”
Para evaluar la calidad de los análisis rea- model, envisaging texts as a series
lizados por los analizadores DepPattern, nos of slots which have to be filled from
hemos inclinado por una evaluación indirecta a lexicon which satisfies local cons-
a partir de una aplicación posible del análisis traints. At each slot, virtually any
de dependencias, concretamente la extracción word can occur. [...] All grammars
automática de información tesáurica. Para are constructed on the open-choice
ello, hemos adaptado uno de los formatos de principle.
salida de los analizadores, de tal manera que Por otro lado, en muchos casos el signifi-
pueda servir de entrada de un sistema de ad- cado de una expresión compuesta no es com-
quisición automática de tesaurus. La evalua- posicional, esto es, no se puede derivar direc-
ción directa de los resultados del sistema de tamente del de sus partes. Se trata de estruc-
adquisición automática nos ayudará a evaluar turas, en su mayorı́a, semi-fijadas, que sólo
indirectamente la calidad de la información pueden ser interpretadas recurriendo a lo que
sintáctica generada por los analizadores. Sinclair llama “principio idiomático” y que
1
Disponible en: define de esta forma (Sinclair, 1991) (page
http://gramatica.usc.es/pln/tools/DepPattern.htm 110):
316
Procesamiento del Lenguaje Natural, núm. 43 (2009)
Una gramática de dependencias basada en patrones de etiquetas
ra dar cuenta de expresiones tales como la gue algunos principios básicos de la Gramáti-
hoja sobre la mesa, incluidas en frases como ca de Patrones (Pattern Grammar ). Ambos
poner la hoja sobre la mesa. En este caso, el formalismos tienen un compilador que tradu-
núcleo del complemento preposicional sobre ce las gramáticas en analizadores. Por otro
n es el verbo poner. De todo esto se deduce lado, el formalismo gramatical de TXALA es
que el patrón N sobre n incluye información el único de los cuatro que no se basa estric-
estructural que va más allá de la simple con- tamente en las dependencias, sino que cons-
catenación de PoS tags y unidades léxicas. truye primero árboles de constituyentes para
Su correcta aplicación presupone la identifi- después transformar estos árboles, median-
cación de una depedencia sintáctica de orden te la identificación de los núcleos, en depen-
superior entre el primer substantivo N y el dencias. Finalmente, en cuanto a las licencias
núcleo del sintagma nominal n precedido por de uso y distribución, completamente libres
la preposición sobre. son TXALA, DILUCT Y DepPattern, ya que
Al igual que la Gramática de Patrones, el VISL no libera las gramáticas ni los parsers
formalismo DepPattern fundamenta el análi- generados, apenas el compilador.
sis lingüı́stico en el uso de cadenas de PoS Por consiguiente, DepPattern es un siste-
tags enriquecidos con atributos morfológicos ma con las siguientes propiedades: tiene un
e información léxica. No obstante, en lugar de analizador robusto, un formalismo gramati-
servir para identificar aspectos del significado cal documentado, compilable y estrictamen-
de las palabras, nuestro propósito es identi- te basado en dependencias, y libera tanto el
ficar y generar las relaciones de dependen- compilador como las gramáticas.
cia inherentes a esas cadenas. Este objetivo
coincide con lo expuesto por Teubert (2007), 4. Breve introducción al
quien plantea la necesidad de enriquecer la formalismo de gramáticas
estructura de superficie de los patrones con DepPattern is una gramática formal, basada
información lingüı́stica más abstracta tal co- en reglas dependientes del contexto, que bus-
mo las dependencias sintácticas. ca identificar la estructura de dependencias
de las oraciones. En esta sección, introduci-
3. Trabajo relacionado remos brevemente algunas de las principales
Es cada vez más frecuente encontrar anali- caracterı́sticas del formalismo. Para una ex-
zadores de dependencias de código abierto y posición más detallada, se puede consultar el
basados en reglas. Con estas caracterı́sticas tutorial.2
y para el español, junto a DepPattern, po-
demos citar a TXALA (Atserias, Comelles, y 4.1. Descripción básica de las
Mayor, 2005; Carrera et al., 2008), DILUCT reglas
(Hiram Calvo, 2006) y VISL (Bick, 2006). Una gramática escrita con DepPattern cons-
TXALA compartte con DepPattern el uso ta de un conjunto de reglas dependientes
del desambiguador morfosintáctico de Free- del contexto. Cada regla tiene como objeti-
ling. De hecho, el parser TXALA es la última vo identificar una relación núcleo-dependiente
etapa de la cadena de procesos de la herra- por medio de patrones de etiquetas morfo-
mienta Freeling. sintácticas asociadas a información mor-
Para comparar estos cuatro analizadores, fológica y léxica. Una regla consta de dos ele-
veamos como se comportan con respecto a las mentos:
siguientes propiedades: robustez, naturaleza
de las gramáticas y licencias de uso. En cuan- un patrón de etiquetas
to a la robustez, VISL, DILUCT y DepPat-
tern son analizadores robustos, lo que facilita el nombre de una relación núcleo-
su uso en tareas de extracción de información dependiente
a partir de grandes cantidades de texto. Con
respecto a la naturaleza de las gramáticas, Veamos un ejemplo:
VISL y DepPattern ofrecen un formalismo
amigable para lingüistas, documentado en tu- DobjR: VERB [DT]? [ADJ]* NOUN
toriales, e inspirado en teorı́as lingüı́sticas. El
formalismo de VISL se basa en la Constraint 2
Disponble en:
Grammar, mientras que el de DepPattern si- htpp://gramatica.usc.es/pln/tools/tutorialGrammar.pdf
318
Procesamiento del Lenguaje Natural, núm. 43 (2009)
Una gramática de dependencias basada en patrones de etiquetas
Los dos puntos separan el patrón de de información morfológica y léxica, ası́ co-
etiquetas (a la derecha) del nombre de la mo de operaciones de diferente naturaleza:
dependencia, DobjR, que se pretende buscar concordancia, recursividad, herencia de atri-
dentro del patrón. Tanto el nombre de butos, modificación de valores de atributos
las dependencias como el de las etiquetas e inclusión de nuevos pares atributo-valor.
morfo-sintácticas se declaran en ficheros También es posible definir clases de palabras
aparte: dependencies.conf y tagset.conf, mediante listas declaradas en ficheros exter-
respectivamente. El nombre por omisión de nos. Por último, fueron definidos operadores
las etiquetas es el que viene establecido por booleanos para las etiquetas, atributos y
el conversor de etiquetas, que transforma los valores. Como describir todas las potencia-
tagsets de Freeling y Treetagger en un tagset lidades del formalismo no es el objetivo de
común. Esos nombres se pueden modificar a este artı́culo, nos centraremos en los nuevos
gusto del lingüista en el fichero tagset.conf. elementos que aparecen en las dos reglas
En cuanto a los nombres de dependencias, el siguientes:
lingüista tiene la posibilidad de enumerar los
que desee, pero con la obligación de declarar AdjnL: ADV<type:Q> ADJ | ADV
para cada uno el tipo al que pertenece. %
Ası́ en el fichero dependencies.conf aparece AdjnL: ADJ NOUN
la lı́nea: Agreement: number, genre
%
DobjR HeadDep Ambas reglas contienen la dependencia
AdjnL (i.e., Adjunto a la izquierda), que fue
Básicamente, DepPattern distingue 2 declarada como siendo de tipo DepHead, es
grandes tipos de dependencias, DepHead y decir, el dependiente está a la izquierda del
HeadDep, en función de la posición del de- núcleo. En la primera regla, el atributo-valor
pendiente con respecto al núcleo. Las depen- <type:Q> es una condición que elabora la
dencias de tipo DepHead definen relaciones información de la etiqueta ADV. El valor
donde el dependiente aparece a la izquierda “Q” se refiere a adverbios cuantificadores
del núcleo, mientras que las de tipo Head- como muy o bastante. Esta regla, por lo
Dep representan a todas aquellas donde el tanto, identifica la dependencia de adjunción
dependiente aparece a la derecha. En nuestro entre un adverbio cuantificador y su núcleo,
ejemplo, DobjR fue declarada como una de- que puede ser un adjetivo o un adverbio. La
pendencia de tipo HeadDep, por consiguien- barra vertical es un operador de disyunción.
te, puede usarse para identificar los objetos En la segunda regla, la dependencia AdjnL
directos que aparecen a la derecha de los identifica la relación entre un adjetivo y su
núcleos verbales (“Dobj” es una abreviatu- núcleo nominal. “Agreement” es la operación
ra de Direct Object, y “R” de Right). En la de concordancia, y “number, genre” el
regla expuesta arriba, DobjR permite iden- nombre de los atributos cuyos valores deben
tificar una relación de dependencia entre las compartir el núcleo y el dependiente para
etiquetas sin corchetes: VERB y NOUN. Da- que la relación sea identificada.
do que esta dependencia es de tipo HeadDep,
sabemos que VERB es el núcleo y NOUN el 4.3. El principio de unicidad
dependiente. El resto de etiquetas aparecen La mayorı́a de las gramáticas de dependen-
entre corchetes ya que representan el contex- cias presuponen el “principio de unicidad”
to de la relación. En concreto, [DT]? signifi- (uniqueness principle). Este principio esta-
ca que pueden aparecer ninguno o 1 determi- blece que cada palabra sólo tiene un núcleo,
nantes, y [ADJ]* ninguno o varios adjetivos, es decir, cada palabra desempeña el papel
todos entre el verbo y el nombre. de dependiente apenas una vez. Las reglas
de nuestro formalismo se aplican tomando
4.2. Extensiones del formalismo en cuenta la unicidad del dependiente. De
Lo que hemos definido hasta ahora son esta manera, una regla no sólo identifica
los elementos esenciales de una regla. No una dependencia núcleo-dependiente entre
obstante, es posible especificar y detallar la dos palabras, sino que también elimina
información de las reglas mediante el uso de la palabra dependiente de la cadena de
estructuras de tipo atributo-valor, provistas entrada utilizada por las siguientes reglas
319
Procesamiento del Lenguaje Natural, núm. 43 (2009)
Pablo Gamallo Otero e Isaac González Sánchez
que serán aplicadas. La eliminación del y los atributos morfológicos). Existen, sin
elemento dependiente en cada aplicación de embargo, fenómenos lingüı́sticos, para los
una regla permite reducir la complejidad del cuales el principio de unicidad parece dema-
espacio de busca en la definición de nuevas siado riguroso (Hudson, 1990). Es el caso,
reglas. Veamos un ejemplo. Supongamos por ejemplo, de los adjetivos predicativos,
que escribimos una gramática con estas dos que tienen dos núcleos: dependen al mismo
reglas: tiempo de un verbo y de un nombre sujeto
o complemento directo. Para dar cuenta de
SpecL: DT NOUN estos casos y de otras situaciones análogas, el
% formalismo permite poner en suspenso, tanto
AdjnL: ADJ NOUN globalmente como localmente en bloques
% declarativos de reglas, la eliminación del
Estas reglas sirven para analizar secuencias dependiente.
de entrada (enunciados acabados en un Ası́ mismo, estos bloques de reglas pu-
punto), tales como: ramente declarativos, sin eliminación del
dependiente, permiten también tratar los
una DT hermosa ADJ montaña NOUN . Fp fenómenos de ambigüedad sintáctica.
En resumen, cada regla elimina por defec-
Para simplificar, omitimos toda la in- to la palabra dependiente, pero existen varias
formación morfológica y léxica de cada opciones para no eliminarla o dejar su elimi-
una de las palabras etiquetadas. En un nación en suspenso, y con ello dar cuenta de
primer momento, la única regla aplicable es los casos de no-unicidad y de ambigüedad.
AdjnL, que identifica la dependencia entre el
adjetivo (dependiente) y el nombre (núcleo), 4.4. Dependencias de libre
al mismo tiempo que elimina el adjetivo de elección e idiomáticas
la secuencia etiquetada. Esta eliminación da Hasta ahora, hemos definido dos tipos de de-
lugar a una nueva secuencia: pendencias en función de la posición rela-
tiva del núcleo y el dependiente: HeadDep
una DT montaña NOUN . Fp y DepHead. Estos dos tipos definen depen-
dencias estándar de libre elección. Para dar
que permite ahora aplicar la regla SpecL (es- cuenta del principio idiomático definido en la
pecificador a la izquierda), la cual identifi- sección 2, nuestro formalismo introduce dos
ca la dependencia entre el determinante (de- nuevos tipos de dependencias: HeadDep lex
pendiente) y el nombre (núcleo), al mismo y DepHead lex, con los que se pueden defi-
tiempo que elimina el determinante de la se- nir dependencias que, no sólo identifican rela-
cuencia de entrada. El hecho de eliminar las ciones sintácticas de tipo núcleo-dependiente,
palabras dependientes de la secuencia de en- sino que también construyen unidades léxicas
trada permite, de forma sistemática, reducir compuestas potencialmente discontinuas.
el espacio de busca de las siguientes reglas Veamos un ejemplo. Definamos to-
aplicables y, ası́ de este modo, simplificar su mar@en@cuenta como una unidad léxica
definición. compuesta que puede o no aparecer de
El análisis de un enunciado finaliza forma discontinua en expresiones como:
cuando no se hayen más reglas aplicables. “tomar tu decisión hoy en cuenta”, “tomar
Como resultado del análisis, el parser genera tu decisión en cuenta hoy”, “tomar hoy en
la representanción en forma de triplets de cuenta tu decisión”, o “tomar en cuenta hoy
las dos dependencias identificadas: tu decisión”. En todas estas expresiones,
el verbo tomar@en@cuenta se combina
(SpecL; montaña NOUN 2; un DT 0)
con un objeto directo, el nombre decisión,
(AdjnL; montaña NOUN 2; hermoso ADJ 1)
y con un adjunto, el adverbio hoy, que
Cada triplet se compone del nombre de pueden aparecer entre el verbo tomar y el
la dependencia, el núcleo y el dependiente. complemento en cuenta. Existen muchas
A modo de simplificación, para cada palabra maneras de definir un conjunto de reglas que
(núcleo o dependiente), sólo representamos den cuenta de todas estas expresiones. Una
aquı́ el lema, el PoS tag asociado y su manera serı́a la que muestra el cuadro 1:
posición en la frase (dejamos fuera el token La primera regla es un bloque de dos
320
Procesamiento del Lenguaje Natural, núm. 43 (2009)
Una gramática de dependencias basada en patrones de etiquetas
Cuadro 1: Muestra de una gramática que incluye la expresión idiomática “tomar en cuenta”
subreglas (separadas por NEXT) en los elimina este último del espacio de busca.
que se identifican dos dependencias de tipo Con la eliminación sucesiva de todos los
idiomático: la relación TermR lex entre dependientes de la secuencia de entrada,
en y cuenta después del verbo tomar y llegamos al estadio en que no hay ninguna
la relación ComplR lex entre tomar y en regla aplicable, ya que la secuencia que queda
precediendo a cuenta. Ambas contienen sin eliminar es el verbo tomar@en@cuenta,
elementos contextuales opcionales. Dentro cabeza principal que no depende de ninguna
del bloque, no opera el principio de unicidad expresión.
y, por lo tanto, no se elimina el elemento El formalismo permite definir clases de pa-
dependiente. Además, al aplicarse reglas labras mediante listas declaradas en fiche-
de tipo idiomático (marcadas por el sufijo ros externos. En el ejemplo que nos ocupa,
“ lex”), el resultado final es la identificación podrı́amos definir una pequeña clase de ver-
de una unidad léxica: tomar@en@cuenta. El bos con tomar y tener y una de nombres con
resto de reglas del ejemplo son dependen- cuenta y consideración. Esta generalización
cias sintácticas de libre elección. Con esta nos permitirı́a escribir reglas para identificar
gramática, el análisis final de, por ejemplo, expresiones idiomáticas con el mismo com-
“tomar tu decisión hoy en cuenta” da lugar portamiento sintáctico: tomar@en@cuenta,
a la siguiente lista de triplets: tener@en@cuenta, tomar@en@consideración,
etc. El uso de clases de palabras también
(AdjnR; tomar@en@cuenta VERB 0; hoy ADV 1)
(SpecL; decisión NOUN 3; tu DT 2) se puede extender, obviamente, a la identifi-
(Dobj; tomar@en@cuenta VERB 0; decisión NOUN 3) cación de patrones de subcategorización por
(ComplR lex; tomar VERB 0; en PRP 4) medio de reglas de libre elección.
(TermR lex; en PRP 4; cuenta NOUN 5)
5. Extracción de información a
Los triplets identificados se ordenan por
partir de dependencias
la posición del dependiente y no por el
orden de aplicación de las reglas. La primera En esta sección evaluaremos indirectamen-
regla aplicable es SpecL, que identifica la te dos analizadores DepPattern, uno para el
dependencia entre tu y decisión, al mismo inglés y otro para el español, por medio de
tiempo que elimina el determinante de su comportamiento en una aplicación con-
la secuencia de entrada de las siguientes creta: la extracción automática de tesauros,
reglas aplicables. Esta eliminación permite donde a cada palabra de un corpus se le aso-
aplicar a continuación el bloque de reglas cia una lista ordenada de palabras semánti-
idiomáticas que genera la unidad léxica camente relacionadas. Compararemos la pre-
tomar@en@cuenta. Este bloque también cisión de la extracción tesáurica basada en
identifica las dos dependencias internas de la dependencias sintácticas (Gamallo, Agusti-
unidad léxica: la relación TermR lex entre en ni, y Lopes, 2005) con las precisiones de
y cuenta, y ComplR lex entre tomar y en. dos métodos baseline basados en simples co-
Seguidamente, se aplica DobjR, regla que ocurrencias sin información sintáctica. Este
conecta el verbo tomar@en@cuenta con el experimento nos permitirá comprobar si las
sustantivo decisión. El nombre se elimina de dependencias identificadas por los analizado-
la entrada de la siguiente regla. Finalmente, res DepPattern permiten mejorar los resulta-
se aplica la regla AdjnR con la que se dos de la extracción. Tal como sugiere Kilga-
identifica la relación entre tomar@en@cuenta rriff (2003), consideramos que la evaluación
y el adverbio ayer, al mismo tiempo que se indirecta de una herramienta (un analizador,
321
Procesamiento del Lenguaje Natural, núm. 43 (2009)
Pablo Gamallo Otero e Isaac González Sánchez
por ejemplo), observando cómo funciona en precisión) de los 10 mejores candidatos aso-
una aplicación de PLN (e.g., la extracción de ciados a cada nombre evaluado. En concreto,
tesaurus), es una alternativa válida de eva- dado un nombre evaluado y sus 10 candida-
luación de la herramienta. tos, comprobamos si éstos están semántica-
mente asociados al primero en el gold stan-
5.1. Los corpus dard. La precisión se define como el número
Los experimentos se realizaron sobre un cor- de asociaciones extraı́das que también apare-
pus inglés y un corpus español. El cor- cen en el gold standard, dividido por el núme-
pus inglés es el BNC3 , etiquetado con Tree- ro total de candidatos, tomando en cuenta el
Tagger. Para realizar la evaluación, seleccio- ranking inverso.
namos únicamente los 10,000 nombres más 5.3. Resultados
frecuentes del corpus. El corpus español se
construyó recuperando noticias de La Voz de Métodos corpus inglés corpus español
Galicia y El Correo Gallego de 2006, forman- Cosine Jaccard Cosine Jaccard
do una colección de artı́culos de 15 millones Ventana 8,74 8,11 1,90 2,34
de palabras. La etiquetación morfo-sintáctica (oración)
se realizó con Freeling. Fueron seleccionados Ventana 11,50 10,14 1,89 3,99
para la evaluación los 15,000 nombres más (2+orden)
DepPattern 15,18 12,97 4,94 5,18
frecuentes del corpus.
Cuadro 2: Resultados de tres métodos de ex-
5.2. La evaluación
tracción sobre dos corpus
Evaluamos 3 estrategias diferentes. La prime-
ra se basa en una matriz de co-ocurrencias de-
finidas por medio de “ventanas” de palabras El cuadro 2 muestra la precisión obtenida
del tamaño de la oración. Una oración es una (en porcentaje) por cada uno de los 3 méto-
cadena de palabras entre dos puntos. La se- dos evaluados en cada corpus. Los mejores
gunda estrategia identifica las co-ocurrencias resultados fueron conseguidos por el método
dentro de ventanas más reducidas (tamaño sintáctico en ambos corpus (valores en ne-
2) y tomando en cuenta el orden de las pa- grita), lo que prueba que nuestro formalis-
labras. En ambos casos se eliminan las pala- mo gramatical genera analizadores basados
bras funcionales. La tercera estrategia, basa- en dependencias capaces de ayudar a mejo-
da en los resultados del análisis de DepPat- rar la extracción tesáurica.
tern, define la matriz de co-ocurrencias por
medio de dependencias sintácticas. Las dos 6. Conclusiones
gramáticas que dieron lugar a los analizado- En este artı́culo, hemos descrito algunas pro-
res son muy pequeñas: contienen alrededor de piedades de un formalismo gramatical, basa-
20 reglas cada una y no incluyen, por ahora, do en patrones de PoS tags, con el que se ge-
reglas idiomáticas. neran analizadores de dependencias. El for-
Dada una estrategia y un corpus, construi- malismo, inspirado en la Gramática de Pa-
mos el tesauros correspondiente de la siguien- trones, permite dar cuenta de la distinción
te manera. Cada nombre evaluable se asocia entre reglas de libre elección e idiomáticas,
a una lista ordenada con los 10 nombres más al mismo tiempo que modula la aplicación o
similares, de acuerdo con un coeficiente de no del principio de unicidad, asunto que crea
similaridad. En los experimentos, hemos uti- cierta polémica en el marco de las gramáticas
lizado cosine y jaccard. de dependencias. Los analizadores generados
Para evaluar la calidad de la extrac- por el compilador de gramáticas producen un
ción tesáurica, hemos usado como referencia formato de salida, con triplets de dependen-
(gold standard ) las asociaciones tesáuricas de cias, fácilmente adaptable para su uso en sis-
WordNet (Fellbaum, 1998) para el inglés y las temas de extracción de información. Nuestro
asociaciones de sinonimia del OpenThesaurus objetivo a medio plazo es mejorar y actuali-
para el español 4 . La evaluación automática zar las gramáticas con reglas útiles para la ex-
consiste en medir la calidad (en términos de tracción tesáurica. En concreto, la gramáticas
podrán incluir nuevas reglas siempre y cuan-
3
http://www.natcorp.ox.ac.uk do tal inclusión consiga mejorar los resulta-
4
http://openthes-es.berlios.de dos de la extracción sobre un mismo corpus.
322
Procesamiento del Lenguaje Natural, núm. 43 (2009)
Una gramática de dependencias basada en patrones de etiquetas
Bibliografı́a
Atserias, J., E. Comelles, y A. Mayor. 2005.
Txala un analizador libre de dependencias
para el castellano. Procesamiento del Len-
guaje Natural, 35:455–456.
Bick, Eckhard. 2006. A constraint grammar-
based parser for spanish. En 4th Works-
hop on Information and Human Techno-
logy.
Carrera, J., I. Castellón, M. Lloberes,
L. Padró, y N. Tincova. 2008. Depen-
dency grammar in freeling. Procesamiento
del Lenguaje Natural, 41:21–28.
Carreras, X., I. Chao, L. Padró, y M. Padró.
2004. An open-source suite of language
analyzers. En 4th International Conferen-
ce on Language Resources and Evaluation
(LREC’04), Lisbon, Portugal.
Fellbaum, C. 1998. A semantic network of
english: The mother of all wordnets. Com-
puter and the Humanities, 32:209–220.
Gamallo, Pablo, Alexandre Agustini, y Ga-
briel Lopes. 2005. Clustering syntac-
tic positions with similar semantic re-
quirements. Computational Linguistics,
31(1):107–146.
Hiram Calvo, Alexander F. Gelbukh. 2006.
Diluct: An open-source spanish depen-
dency parser based on rules, heuristics,
and selectional preferences. En NLDB,
páginas 164–175.
Hudson, R. 1990. English Word Grammar.
Basil Blackwell.
Hunston, S. y G. Francis. 1999. Pattern
Grammar. John Benjamins, Amnster-
dam.
Kilgarriff, Adam. 2003. Thesauruses for
natural language processing. En Natural
Language Processing and Knowledge En-
gineering (NLPKE), Beijing, China.
Schmid, H. 1994. Probabilistic part-of-
speech tagging using decision trees. En
International Conference on New Methods
in Language Processing.
Sinclair, J. 1991. Corpus, Concordance, Co-
llocation. Oxford University Press, Ox-
ford.
Teubert, W. 2007. Synclair, pattern gram-
mar and the question of hatred. Inter-
national Journal of Corpus Linguistics,
12(2):223–248.
323
Procesamiento del Lenguaje Natural, núm. 43 (2009)