Beruflich Dokumente
Kultur Dokumente
PLAN DE TESIS
090207
INDICE
RESUMEN.................................................................................................................. 1
1 ESTADO DEL ARTE............................................................................................2
1.1 User Trainable Fact Extraction (UTFE) (Joosse, 2007)................................2
1.2 Un esquema de evaluacin semiautomtica (Liang Kwon & Hovy, 2007)....6
1.3 Sistema de extraccin automtica de informacin semntica de los libros de
texto estructurados (Herrera de la Cruz, 2010).......................................................7
2 PROBLEMA DE INVESTIGACIN......................................................................9
3 JUSTIFICACIN................................................................................................10
4 OBJETIVOS.......................................................................................................11
4.1 Objetivo General.........................................................................................11
4.2 Objetivos Especficos..................................................................................11
5 ALCANCES Y LIMITACIONES..........................................................................11
6 MARCO TERICO............................................................................................12
6.1 Recuperacin de informacin (Mouliner, 2007)..........................................12
6.2 Extraccin de informacin..........................................................................13
6.3 Estructuras sintcticas................................................................................13
6.3.1 La oracin............................................................................................14
6.4 Enfoques sintcticos de la oracin.............................................................15
6.4.1 Enfoque de constituyentes..................................................................15
6.4.2 Enfoque de dependencias...................................................................16
6.5 Anlisis sintctico automtico.....................................................................17
6.5.1 NLTK...................................................................................................17
7 MTODO DE TRABAJO....................................................................................18
7.1 Libros de texto............................................................................................18
7.2 Preprocesamiento......................................................................................19
7.3 Anlisis Sintctico.......................................................................................19
7.4 rbol de dependencias...............................................................................20
7.5 Extraccin de hechos.................................................................................20
7.6 Almacenamiento de hechos.......................................................................21
8 RESULTADOS (A PRIORI) ESPERADOS.........................................................22
9 CONTRIBUCIONES ORIGINALES ESPERADAS.............................................22
10 IMPACTO SOCIAL ESPERADO....................................................................22
11 NDICE TENTATIVO DEL PROYECTO DE INVESTIGACIN.......................23
12 CRONOGRAMA DE ACTIVIDADES..............................................................26
13 PRESUPUESTO............................................................................................27
14 REFERENCIAS Y CITAS BIBLIOGRFICAS.................................................28
NDICE DE ILUSTRACIONES
1
1 ESTADO DEL ARTE
A continuacin se describen algunos proyectos relacionados con la extraccin
de informacin semntica (hechos).
2
informacin de UTFE es mostrar al sistema algunos documentos
ejemplo, en los cuales est indicado la informacin que el usuario est
buscando. Entonces el sistema utiliza estos documentos para mostrar
informacin similar extrada desde otros documentos.
3
El sistema UTFE combina tcnicas de Extraccin de Informacin y
Recuperacin de informacin con una interfaz de usuario amigable para
automticamente encontrar hechos en nuevos documentos. En
resumen, un usuario anota, en la herramienta de anotacin del
sistema, un nmero de documentos con informacin (anotaciones y
hechos) en los que l est interesado. Una vez que un nmero
adecuado de documentos han sido anotados, el usuario ordena al
sistema encontrar la informacin en otros documentos.
4
Se puede determinar que este Sistema es un
sistema semiautomtico ya que las anotaciones y la relacin entre
ellas las tiene que hacer el usuario. Las hace mediante una
herramienta de anotaciones, y ya en la ejecucin del sistema se
aplica un algoritmo de Extraccin de Informacin para realizar
nuevas anotaciones en los nuevos documentos, tomando como
referencia los documentos anotados por el usuario en la etapa de
entrenamiento.
Para trabajar, el sistema necesita la intervencin
del usuario y de entender ciertos conceptos como el de hechos
simples y las relaciones entre ellos (hechos complejos).
El usuario necesita conocer y entender la
ontologa para representar la informacin que le interesa.
5
1.2 Un esquema de evaluacin semiautomtica (Liang Kwon & Hovy,
2007)
En el ao 2007, los investigadores Hovy, Zhou, y Kwon indicaron que en
muchas tareas de Procesamiento del Lenguaje Natural, existen
problemas al momento de determinar el nivel de granularidad adecuado
para las unidades de informacin. Comnmente los investigadores
utilizan las oraciones como la unidad individual de informacin. Sin
embargo, un gran nmero de aplicaciones de PLN requieren utilizar
unidades de texto ms pequeas que las oraciones, denominadas
hechos. La forma de automatizar la tarea de extraccin de hechos
contenidos en un texto, propuesta por Hovy consiste en utilizar una
mquina generadora de nuggets. Los nuggets son piezas de
informacin independiente y con significado.
1. Danube
2. Danube is at Cernavoda village
3. Danube fell
4. Danube fell to a depth of less than three meters
5. Danube fell on Saturday
6. Danube fell down from its usual level of almost
seven meters
6
examinan subrboles encabezados por NP, para nuggets de tipo
evento se examinan subrboles encabezados por VP y sus
correspondientes sujetos se tratan como entidad adjunta para la frase
verbal.
Sustantivo (Sujeto)
Sustantivo (Sujeto) + Verbo
Sustantivo (Sujeto) + Verbo +
Objeto/Complemento
7
rboles de dependencias que proporciona no estn bien formados,
dejando en ocasiones nodos hurfanos o palabras donde no se
reconoce la funcin sintctica.
8
2 PROBLEMA DE INVESTIGACIN
La informacin en un texto se conforma de prrafos, cada prrafo por un
conjunto de oraciones y estas, por unidades de texto ms pequeas que la
oracin, que se pueden obtener a travs de la descomposicin de la oracin
en una coleccin de frases. Cada frase tiene informacin independiente que
puede ser usada como una unidad independiente (Liang Kwon & Hovy,
2007).
9
Se puede observar que cada hecho tiene independencia semntica, es decir,
ninguno necesita a otro para tener sentido completo o informar algo. Todos
tienen un solo verbo, todos cumplen la tripleta que define hecho. Y que una
oracin puede tener varios hechos.
3 JUSTIFICACIN
La extraccin de hechos de corpus textuales es un proceso que durante el
tiempo se ha vuelto importante para las tareas de LPN, otorgando productos
a las tareas de LPN relacionadas con la comprensin de un texto, por
ejemplo:
10
4 OBJETIVOS
5 ALCANCES Y LIMITACIONES
Alcances
Con este trabajo de tesis se pretende desarrollar una plataforma web que sea
capaz de generar una base de hechos de un texto de manera automtica.
Con esta plataforma se pretende proporcionar una base para un siguiente
proyecto de Sistema de Pregunta-Respuesta.
Limitaciones
El proyecto estar restringido slo para el anlisis de textos en el idioma
espaol.
11
El sistema estar solo disponible para usuarios que tengan dispositivos con
acceso a la web.
6 MARCO TERICO
12
6.2 Extraccin de informacin
Jackson & Moulinier indican que la Extraccin de Informacin IE difiere
de la Recuperacin de Informacin IR, en el aspecto de que el objetivo
no est en la bsqueda de documentos, sino en la bsqueda de
informacin til dentro de los documentos. Por lo general, los textos en
una base de datos o documento electrnico son examinados por
programas para ver si contienen cierta informacin objetivo, que podran
ser trminos lingsticos simples, tal como nombres propios o podran
ser estructuras lingsticas ms complejas, tal como la relacin a un
cierto tipo de eventos.
6.3.1 La oracin
La oracin es la serie o cadena de palabras que trasmite un sentido
completo (Fuentes de la Corte, 2010)
13
(Mungua Zatarain Irma, 2000) Expone que la oracin es la unidad,
dentro del discurso, que expresa un sentido completo y est
constituida por sujeto y predicado. El sujeto es de quien se habla en
la oracin y muchas veces es el agente de la accin del verbo. El
predicado es lo que se dice sobre el sujeto.
14
Figura 3 La oracin y sus componentes desde el punto de vista sintctico
15
Figura 4 rbol de constituyentes de la oracin Los nios pequeos estudian pocas horas
16
Figura 5 rbol de dependencias de la oracin Los nios pequeos estudian pocas horas
6.5.1 NLTK
El kit de herramientas de Lenguaje Natural (NLTK) es una plataforma
utilizada para la construccin de programas en Python las cuales
trabajan con los datos del lenguaje humano para aplicar en el
procesamiento del lenguaje natural estadstica (PNL).
17
7 MTODO DE TRABAJO
La arquitectura general del mtodo propuesto para la extraccin de hechos
se muestra en la siguiente figura.
18
importante, porque contienen muchas definiciones e informacin
enunciativa; ya que han sido redactados para cumplio un propsito
educativo, y por lo tanto contienen gran cantidad de hechos.
7.2 Preprocesamiento
En el preprocesamiento se eligen las lecciones de inters para extraer
hechos, de cada leccin se extraen solamente los prrafos de
informacin que la conforman, es decir elementos como: tablas,
imgenes, grficos, ecuaciones, indicaciones o preguntas para los
lectores; no son tomados en cuenta.
AT : Artculo
NN : Sustantivo
VB : Verbo
JJ : Adjetivo
El anlisis sintctico es el proceso que permite extraer las relaciones
entre los componentes de la oracin, lo que contribuye a comprender e
interpretar eficazmente un texto, complementando el anlisis previo y
sirviendo de partida para el anlisis semntico posterior
19
7.4 rbol de dependencias
Cada nodo del rbol de dependencias representa una palabra de la
oracin, contiene informacin sintctica y morfolgica de cada una de
ellas, organizados de forma jerrquica.
20
Heurstica Bsica: Aplicadas a los rboles que
tienen el patrn sintctico donde la raz es un verbo.
Heurstica Coordinacin de Verbos: Esta
heurstica se aplica a los rboles que tienen el patrn sintctico
donde la raz representa una conjuncin y sus hijos son verbos, es
decir, existe coordinacin de verbos.
Heurstica Pronombre Relativo: Esta heurstica
se aplica a los rboles que tienen el patrn sintctico donde
aparece un pronombre relativo.
Heurstica Coordinacin de Adjetivos, tipo A:
Se aplica a los rboles que presentan el patrn sintctico que
contiene coordinacin de adjetivos que dependen de un verbo.
Heurstica Coordinacin de Adjetivos, tipo B:
Se aplica a rboles que presentan el patrn que contiene un
predicado con un sustantivo modificado por una coordinacin de
adjetivos.
Heurstica Atributo Nominal: Se aplica a los
rboles que presentan el patrn donde se tiene un verbo
copulativo necesariamente, lo que la distingue de las heursticas
de coordinacin de adjetivos; luego un sustantivo que puede ser
modificado por un adjetivo o varios, o ese sustantivo puede ser el
sujeto para otro hecho cuando se presenta el patrn Pronombre
Relativo.
Tabla de oraciones: Aqu van a guardarse todas las oraciones que se les
extrae sus hechos, una oracin por registro. Los registros estarn
compuestos de dos campos: el identificador de la oracin y la oracin
respectivamente.
Tabla de hechos: Aqu van a guardarse todos los hechos que se extraen de
las oraciones. Estos registros tendrn 5 campos: el identificador del hecho,
sujeto, verbo, complemento y un campo para guardar el nmero de la oracin
a la que pertenecen los hechos.
21
La relacin que se tendrn las dos tablas es: una oracin puede tener
muchos hechos, pero un hecho pertenece nicamente a una oracin.
22
11 NDICE TENTATIVO DEL PROYECTO DE INVESTIGACIN
1. INTRODUCCIN
1.1. Planteamiento del problema
1.2. Justificacin
1.3. Objetivos
1.3.1. Objetivo general
1.3.2. Objetivos especficos
2. MARCO TERICO
2.1. Tareas de lingstica computacional
2.1.1. Recuperacin de informacin
2.1.2. Extraccin de informacin
2.2. Estructuras sintcticas
2.2.1. La oracin
2.2.1.1. Elementos de la oracin
2.2.1.1.1. El sujeto
2.2.1.1.2. Ncleo y modificadores del sujeto
2.2.1.1.3. El predicado
2.2.1.1.4. Ncleo del predicado
2.2.1.1.5. Predicado verbal y predicado nominal
2.2.1.1.6. Complementos del ncleo del predicado
2.2.2. Cmo se construyen las oraciones?
2.2.2.1. Aspectos sintcticos
2.2.2.2. Aspectos semnticos
2.3. Enfoques sintcticos de la oracin
2.3.1. Enfoque de constituyentes
2.3.2. Enfoque de dependencias
2.4. Anlisis sintctico automtico
2.4.1. NLTK
2.5. Heursticas para la extraccin de hechos
2.6. Corpus
2.7. Definicin de hecho
2.7.1. Algunas definiciones de hecho
2.7.2. Definicin formal de hecho en esta investigacin
2.7.3. Caractersticas de un hecho
4. MTODO PROPUESTO
4.1. Arquitectura general
4.2. Libros de texto
23
4.3. Preprocesamiento
4.4. Anlisis sintctico
4.4.1. rbol de dependencias
4.5. Extraccin de hechos
4.5.1. Heursticas
4.5.1.1. Cmo trabajan las heursticas
4.5.2. Convenciones para describir las heursticas
4.5.3. Algoritmo clasificador
4.5.4. Complemento simple
4.5.5. Heurstica: Bsica
4.5.6. Heurstica: Coordinacin de Verbos
4.5.7. Heurstica: Pronombre Relativo
4.5.8. Heurstica: Coordinacin de Adjetivos, tipo A
4.5.9. Heurstica: Coordinacin de Adjetivos, tipo B
4.5.10. Heurstica: Atributo Nominal
4.5.11. Heurstica: Coordinacin de Sustantivos
4.5.12. Heurstica: Coordinacin de Preposiciones
4.5.13. Heurstica: Complemento Circunstancial Subordinado
4.5.14. Heurstica: Verbo en Infinitivo
4.5.14.1. Perfrasis verbal del Infinitivo
4.5.14.2. Coordinacin de Verbos en Infinitivo
4.5.14.3. El algoritmo
4.5.15. Heurstica: Correferencia de Sujeto
4.6. Almacenamiento de hechos
6. EVALUACIN Y RESULTADOS
7. CONCLUSIONES
24
12 CRONOGRAMA DE ACTIVIDADES
25
26
13 PRESUPUESTO
Materiales: S/ 700.00
papel bond a4 propia
impresora canon L455
Software:
Sistema Operativo
Debian 8 S/ 0.00 propia
Python3
NLTK
27
14 REFERENCIAS Y CITAS BIBLIOGRFICAS
Fuentes de la Corte, J. (2010). Grmatica Moderna de la lengua espaola.
Mxico.
Mouliner, J. &. (2007). Natural Language Processing for Online Applications Text
Retrieval, Extraction and Categorization. Amsterdam: Second Revised.
28
29