Beruflich Dokumente
Kultur Dokumente
on estoc
astica para la
comprensi
on del lenguaje
Agradecimientos
Quisiera agradecer la colaboracion de todas las personas que han participado en el
proyecto CICYT BASURDE financiado por el Ministerio de Educacion, tanto de esta
Universidad como de las universidades del Pas Vasco (EHU), Zaragoza (UZ), Catalunya
(UPC) y de la Jaume I (UJI), sin las cuales no habra sido posible la realizacion de este
proyecto que ha sido la base de esta tesis. En especial al grupo de comprension de Valencia
del cual forman parte mis directores (Emilio y Encarna) junto con Mabel, Llus y Paco
Torres. Sin olvidar la ayuda de Ferran y Antonio en el etiquetado lexico.
Tambien quiero agradecer a la Universidad Politecnica de Valencia su apoyo a la
investigacion que ha permitido la publicacion de artculos, la asistencia a los congresos e
incluso el hacer una estancia de investigacion en un laboratorio en el extranjero, as como
al Departamento de Sistemas Informaticos y computacion por ofrecernos unos medios e
infraestructuras que permiten que nuestro trabajo tenga su fruto.
Agradecer al grupo TLP del LIMSI y a su responsable Jean-Luc Gauvain su amabilidad
por dejarme realizar una estancia de investigacion en su laboratorio y en especial a mis
supervisores Hel`ene y Fabrice por sus consejos y a Patrick y Leonardo por su paciencia
conmigo.
Por u
ltimo agradecer a mis seres queridos y en especial a mi compa
nera Sagra su
comprension y apoyo en todo momento en la ardua tarea que supone tanto el trabajo de
investigador as como el escribir esta tesis.
Resumen
En este trabajo se ha desarrollado una aproximacion para abordar la tarea de comprension de un sistema de dialogo hablado para un entorno semantico restringido. El
sistema de comprension representa distintos niveles de conocimiento del lenguaje a traves
de modelos de estados finitos, que se aprenden de forma automatica a partir de corpora
anotados con informacion semantica.
Para la construccion del sistema de comprension se han empleado metodos estocasticos, aprendizaje automatico a partir de datos y tecnicas de inferencia gramatical. Estos
modelos emplean una representacion de dos niveles en la que se considera la informacion
de las secuencias de unidades semanticas presentes en el corpus, as como la informacion de las secuencias de palabras asociadas a cada una de estas unidades semanticas,
permitiendo una segmentacion y un etiquetado secuencial de la frase completa de entrada. Un sistema de reglas convierte esta segmentacion en un frame semantico, que es la
representacion semantica elegida para esta tarea.
La aproximacion propuesta ha sido aplicada para desarrollar el modulo de comprension
de un sistema de dialogo hablado que atiende preguntas en lenguaje natural a traves de
la lnea telefonica, sobre horarios y precios de trenes de largo recorrido. Los resultados
obtenidos, evaluados sobre la representacion semantica que da como salida el sistema
de comprension, han sido satisfactorios. Podemos considerar que el uso de este tipo de
metodos estocasticos es adecuado para resolver el tipo de tarea abordada.
Resum
En aquest treball sha desenvolupat una aproximacio capac dabordar la tasca de
comprensio dun sistema de di`aleg parlat per a un entorn sem`antic restringit. El sistema
de comprensio representa distints nivells de coneixement del llenguatge a traves de models destats finits, que saprenen de forma autom`atica a partir de corpora anotats amb
informacio sem`antica.
Per a la construccio del sistema de comprensio shan emprat m`etodes estocastics,
aprenentatge autom`atic a partir de dades i tecniques dinfer`encia gramatical. Aquests
models empren una representacio de dos nivells en la qual es considera la informacio de
les seq
u`encies dunitats sem`antiques presents en el corpus. aixi com la informacio de les
seq
u`encies de paraules associades a cadascuna daquestas unitats sem`antiques, permetent
una segmentacio i un etiquetat seq
uencial de la frase dentrada. Un sistema de regles
converteix aquesta segmentacio en un frame sem`antic, que es la representacio sem`antica
elegida per a aquesta tasca.
Laproximacio que es proposa sha aplicat per al desenvolupament del m`odul de comprensio dun sistema de di`aleg parlat que aten preguntes en llenguatge natural a traves de
5
6
la lnia telef`onica, sobre horaris i preus de trens de llarg recorregut. Els resultats obtinguts,
avaluats sobre la representacio sem`antica que ofereix com eixida el sistema de comprensio,
han estat satisfactoris. Podem considerar que l
us daquest tipus de m`etodes estoc`astics
es adequat per a resoldre el tipus de tasca abordada.
Abstract
In this work, a system able to carry out the task of understanding of a spoken dialogue
system in a limited domain has been developed. The understanding system represents
different levels of language knowledge throught like finite states models, that are learned
automatically from corpora labeled with semantic information.
Automatic learning and grammar inference techniques have been used to learn stochastic models. These models use a two level representation in which the information of
sequences of semantic units is considered, as well as the information of the sequences of
words associated to each one of these semantic units, allowing for a sequential segmentation and labelling of the input phrase. A system of rules turns this segmentation into a
semantic frame, which is the chosen semantic representation for this task.
The proposed approach has been applied for the development of the understanding
module of a spoken dialogue system. This system answers questions in spoken natural language through the telephone about railway timetables and prices. The results obtained,
which have been evaluated on the semantic representation that produces the understanding system, have been satisfactory. We can consider that the use of this kind of stochastic
methods is adequated for the type of undertaken task.
Indice general
1. Introducci
on
1.1. Estructura de un sistema de dialogo hablado . . .
1.2. Descripcion de algunos sistemas de dialogo hablado
1.3. Objetivos de la Tesis . . . . . . . . . . . . . . . . .
1.4. Estructura de la Tesis . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15
17
21
24
25
2. Comprensi
on del habla
2.1. Representacion del conocimiento . . . . . . . . . . . . . . .
2.1.1. Modelos sintacticos . . . . . . . . . . . . . . . . . . .
2.1.2. Modelos semanticos . . . . . . . . . . . . . . . . . .
2.2. El metodo de Analisis . . . . . . . . . . . . . . . . . . . . .
2.2.1. Metodos de analisis semantico basado en reglas . . .
2.2.2. Metodos de estimacion automatica a partir de datos
2.3. Modelos de lenguaje . . . . . . . . . . . . . . . . . . . . . .
2.3.1. Modelos conexionistas . . . . . . . . . . . . . . . . .
2.3.2. Modelos estocasticos . . . . . . . . . . . . . . . . . .
Modelos de N-gramas . . . . . . . . . . . . . . . . .
Suavizado de N-gramas . . . . . . . . . . . . . . . .
Modelos basados en categoras . . . . . . . . . . . .
Modelos dinamicos . . . . . . . . . . . . . . . . . . .
Varigramas y Multigramas . . . . . . . . . . . . . .
2.3.3. SLMtoolkit . . . . . . . . . . . . . . . . . . . . . . .
2.3.4. Aproximaciones gramaticales . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
27
28
30
31
31
33
35
36
37
37
38
40
41
43
43
44
3. Tarea BASURDE
3.1. Adquisicion de los dialogos del corpus PERSONA . . . . . .
3.1.1. Criterios de seleccion de los dialogos . . . . . . . . .
3.1.2. Transcripcion de los dialogos del corpus PERSONA
3.1.3. Breve analisis del corpus PERSONA . . . . . . . . .
3.2. Corpus BASURDE . . . . . . . . . . . . . . . . . . . . . . .
3.2.1. Definicion de Escenarios . . . . . . . . . . . . . . . .
Tipos de escenarios . . . . . . . . . . . . . . . . . . .
3.2.2. Distribucion y transcripcion de los escenarios . . . .
3.2.3. Caractersticas de los dialogos adquiridos . . . . . .
3.3. Representacion semantica en Frames . . . . . . . . . . . . .
3.4. Valores que pueden tomar los cases . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
48
48
49
50
50
50
51
52
55
55
61
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE GENERAL
4. M
odulo de comprensi
on
4.1. Modelo de traduccion para la comprension . . . . . . . . . . . . . . . . . .
4.2. Primera fase del modulo de comprension . . . . . . . . . . . . . . . . . . .
4.2.1. El lenguaje semantico intermedio . . . . . . . . . . . . . . . . . . .
4.2.2. Aprendizaje: el modelo de 2 niveles . . . . . . . . . . . . . . . . . .
4.2.3. Proceso de analisis por Viterbi . . . . . . . . . . . . . . . . . . . .
4.2.4. Modelo de comprension de dos niveles con unidades POS y semanticas
Descripcion de los modelos estocasticos de dos niveles basados en
etiquetas POS . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Segunda fase del modulo de comprension . . . . . . . . . . . . . . . . . . .
4.3.1. Perdida de la secuencialidad . . . . . . . . . . . . . . . . . . . . . .
4.3.2. El frame de vuelta . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.3. Unidades semanticas no utilizadas en la traduccion . . . . . . . . .
4.3.4. Unidades semanticas que generan frames . . . . . . . . . . . . . . .
4.3.5. Unidades semanticas que generan atributos . . . . . . . . . . . . .
4.3.6. Atributos sin frame . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
65
67
67
71
73
74
5. Aproximaciones Gramaticales
5.1. Algoritmo ECGI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1. Descripcion y Propiedades del Algoritmo ECGI . . . . . . . . . . .
5.1.2. Aplicacion del algoritmo ECGI como modelo de lenguaje para la
comprension de BASURDE . . . . . . . . . . . . . . . . . . . . . .
5.2. Algoritmo para la inferencia de lenguajes k-TTSS . . . . . . . . . . . . . .
5.2.1. Lenguajes k-explorables en sentido estricto . . . . . . . . . . . . .
5.2.2. Lenguajes k-explorables en sentido estricto con umbral . . . . . . .
5.2.3. Inferencia de (k,r)-TTSS . . . . . . . . . . . . . . . . . . . . . . . .
Ejemplo de funcionamiento del (k,r)-TTSSI . . . . . . . . . . . . .
5.2.4. Aplicacion del algoritmo (k,r)-TTSSI como modelo de comprension
BASURDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3. Suavizado de modelos de lenguaje . . . . . . . . . . . . . . . . . . . . . .
5.3.1. Suavizado de aproximaciones gramaticales con el SLMtk . . . . . .
5.3.2. La estrategia de suavizado . . . . . . . . . . . . . . . . . . . . . . .
5.3.3. Aplicacion del suavizado en BASURDE . . . . . . . . . . . . . . .
83
83
86
6. Experimentaci
on
6.1. Corpus . . . . . . . . . . . . . . . . . . .
6.1.1. Categorizacion y lematizacion del
6.2. Experimentos con texto . . . . . . . . .
Bigramas . . . . . . . . . . . . .
Bigramas con etiquetado lexico .
ECGI . . . . . . . . . . . . . . .
(r,k)-TTSSI . . . . . . . . . . . .
6.3. Experimentos con voz . . . . . . . . . .
6.4. Conclusiones . . . . . . . . . . . . . . .
. . . . .
corpus .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
75
77
77
78
79
79
79
80
88
89
89
91
92
93
93
95
96
96
98
101
101
102
105
105
106
107
109
110
111
INDICE GENERAL
7. Aplicaci
on del sistema de comprensi
on al corpus ARISE
7.1. Descripcion del sistema . . . . . . . . . . . . . . . . . . . . . .
7.2. Comprension del lenguaje en ARISE . . . . . . . . . . . . . . .
7.2.1. Representacion semantica en el dominio del ARISE . . .
7.2.2. Comprension del lenguaje basada en reglas en el ARISE
7.2.3. Adaptacion de la anotacion semantica . . . . . . . . . .
7.2.4. Normalizacion . . . . . . . . . . . . . . . . . . . . . . .
7.3. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3.1. Descripcion del Corpus . . . . . . . . . . . . . . . . . .
7.3.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . .
7.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
113
113
115
116
116
117
119
120
120
121
123
8. M
odulo de Di
alogo
8.1. La estructura del dialogo . . . . . . . . . . . . . .
8.2. La estrategia del dialogo . . . . . . . . . . . . . .
8.3. La historia del dialogo . . . . . . . . . . . . . . .
8.4. El etiquetado de dialogo . . . . . . . . . . . . . .
8.4.1. El etiquetado a tres niveles . . . . . . . .
8.5. Sistemas de dialogo dirigidos por la semantica . .
8.5.1. El modelo de dialogo . . . . . . . . . . . .
8.5.2. Experimentos . . . . . . . . . . . . . . . .
8.6. Modelos de comprension especficos de Dialogo .
8.6.1. Modelizacion especfica de la comprension
8.6.2. Experimentacion y Conclusiones . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
125
125
126
126
126
127
128
128
132
132
133
133
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
137
A. L
exico de la tarea
A.1. Listado de Categoras Abiertas (excluyendo verbos) . .
A.2. Listado de Categoras Cerradas . . . . . . . . . . . . .
A.3. Listado de Verbos para la Tarea (formas infinitivas) .
A.4. Listado de Modos y Tiempos Verbales Seleccionados .
A.5. Listado de Formas Verbales del Lexico . . . . . . . . .
A.6. Formas Verbales con Clticos Extradas de los Corpora
A.7. Formas Verbales con Clticos A
nadidas . . . . . . . . .
139
141
144
145
146
149
152
152
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
B. Reducci
on del L
exico de Basurde
153
B.1. Fichero de lemas y sinonimos . . . . . . . . . . . . . . . . . . . . . . . . . 153
B.2. Fichero de Categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
C. Normas de etiquetado de los di
alogos del proyecto Basurde
C.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.2. Primer nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.3. Segundo nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.4. Tercer nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
159
159
159
161
162
INDICE GENERAL
10
D. Descripci
on de los escenarios
D.1. Escenarios tipo A . . . . . .
D.2. Escenarios tipo B . . . . . .
D.3. Escenarios tipo C . . . . . .
Bibliografa
de
. .
. .
. .
la tarea
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
165
166
169
174
179
Indice de figuras
1.1. Descripcion de un sistema de dialogo hablado . . . . . . . . . . . . . . . .
18
34
57
4.1.
4.2.
4.3.
4.4.
4.5.
66
72
75
76
77
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5.5. Arbol
aceptor de prefijos obtenido con la muestra S = aababa, abaaba . .
0
5.6. Automata A0 obtenido a partir de la muestra anterior . . . . . . . . . . .
0
0
5.7. Automata cociente A0 / obtenido a partir de A0 . . . . . . . . . . . . .
0
5.8. Automata cociente A0 / obtenido a partir de la muestra S para el valor
r=1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.9. Automatas obtenidos a partir de la muestras {me podra decir cu
al es,
me gustara saber cu
al es, mire me gustara saber, me podra confirmar,
me podra informar, podra saber} de la etiqueta semantica consulta para
diferentes valores de r y k . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.10. Automata de estados finitos A inferido con el algoritmo ECGI a partir de
la muestra S = {aabb, acbb, aaabb, abb} . . . . . . . . . . . . . . . . . . . .
0
5.11. Automata de estados finitos A inferido con el algoritmo 2-TSS a partir de
0
la muestra anotada S = {f (aabb), f (acbb), f (aaabb), f (abb)} . . . . . . . .
85
86
91
92
93
93
94
94
95
97
97
INDICE DE FIGURAS
12
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
130
131
132
133
134
Indice de tablas
3.1. Analisis de la longitud de los dialogos expresado en turnos . . . . . . . . .
50
98
98
102
13
102
105
106
106
107
107
108
108
108
108
109
109
110
110
INDICE DE TABLAS
14
6.16. Resultados de aplicar modelos de (r=1,k=2)-TTSSI para el modelos superior y (r=2,k=2)-TTSSI para el modelo inferior sobre pronunciaciones
transcritas manualmente y sobre reconocimiento . . . . . . . . . . . . . . 110
7.1.
7.2.
7.3.
7.4.
7.5.
116
117
118
119
120
120
121
121
122
123
Captulo 1
Introducci
on
Las posibilidades de comunicacion oral entre el hombre y los computadores se han ido
incrementando ampliamente a lo largo de las u
ltimas decadas. Son muchos los factores
que han permitido llegar al estado del arte actual en lo que se denomina Ingeniera de
la Lengua. El paso de los sistemas de reconocimiento de palabras aisladas de los a
nos 70
a los actuales sistemas de reconocimiento de habla continua para grandes vocabularios y
primeros sistemas de dialogo hablado se ha producido gracias al gran esfuerzo de muchos
grupos de investigacion y a los avances tecnologicos en muchos campos, entre los que se
encuentran las mayores prestaciones de los computadores actuales.
Sin embargo, y a pesar de estos logros, a
un ciertas dificultades inherentes a los procesos
de comunicacion oral hacen difcil disponer de sistemas robustos de comunicacion hombremaquina. En concreto nos referimos a la cantidad y diversidad de fuentes de conocimiento
involucradas en el proceso de comunicacion oral, como la fonetica, sintactica, semantica,
contextual, o a la dificultad de tratar con m
ultiples fuentes de ruido, que pueden aparecer
en el proceso de comunicacion. Tal es el caso de los ruidos externos, si el ambiente es
natural (oficinas, telefonos, etc, ), o los mismos errores producidos por el locutor, como
las incorrectas pronunciaciones foneticas o errores de tipo sintactico.
Es quizas esta caracterstica de tener que tratar con informacion muy ruidosa la que
ha determinado que la aplicacion de metodos estocasticos en la modelizacion de las fuentes de conocimiento haya sido la que mejores resultados ha producido. Es interesante
observar que siempre que se han abordado nuevos retos dentro de las tecnologas de habla
en un principio se ha intentado representar el conocimiento mediante reglas, pero conforme se han ido adaptando y desarrollando los algoritmos de aprendizaje y decodificacion
de modelos estocasticos, los metodos basados en reglas han quedado relegados ante las
buenas prestaciones de los metodos estocasticos. Tal sera el caso de la representacion
de las caractersticas ac
usticas de los fonemas, que frente a las descripciones ling
usticas
proporcionadas por los foneticos, los Modelos Ocultos de Markov (HMM) (Rabiner, 1989)
han dado mejores resultados; o la sintaxis cuya descripcion de forma deductiva mediante
una gramatica esta descartada a no ser que se trate de una tarea muy simple, siendo los
mejores resultados los obtenidos por sistemas que se basan en N-gramas (Bahl, Jelinek, y
Mercer, 1983) (Jelinek, 1986) o en gramaticas aprendidas por tecnicas de Inferencia Gramatical (IG) (Fu y Booth, 1975). En la actualidad el problema de la comprension de habla
se aborda tanto por metodos basados en reglas como estocasticos, y el de la gestion del
15
16
Captulo 1. Introduccion
17
lugar, por ejemplo mediante telefono movil, dentro de un coche, o desde una oficina en
la que hay ruido ambiente. El siguiente tipo de sistemas de interaccion hombre-maquina,
que es el que mas interes despierta en la actualidad, es aquel que permite la comunicacion
oral , y permite a su vez establecer un dialogo que ayude a la consecucion de los objetivos
planteados por el usuario. Dejando en el ambito de lo futurible la existencia de sistemas
de dialogo que acepten toda la variabilidad de un dialogo hombre-hombre, podemos en
la actualidad abordar el dise
no de sistemas de dialogo de iniciativa mixta para tareas
concretas. Un sistema de dialogo de este tipo, para ser u
til requiere tener las siguientes
caractersticas:
El modo de acceso telefonico. Cada vez sera mas importante el acceso a traves de
telefono movil, con las dificultades a
nadidas que conlleva.
Debe ser independiente del locutor. Logicamente los accesos seran de m
ultiples
usuarios, y ni siquiera es aceptable la adaptacion al locutor.
Uso de lenguaje natural. Los usuarios deben poder hablar de forma natural, sin
una sintaxis rgida impuesta por el sistema y usando el lexico mas amplio posible.
Se deben ademas aceptar las incorrecciones lexicas y sintacticas propias del habla
espontanea, y aunque el lexico este limitado por el ambito de la tarea, se ha de
permitir que el usuario utilice un amplio vocabulario.
Aceptar habla continua. Para una interaccion fluida se debe permitir habla continua,
sin pausas entre palabras.
Gestion mixta del dialogo. El dialogo no estara totalmente dirigido por el sistema.
El usuario podra tomar la iniciativa y orientar con sus preguntas el curso de la
interaccion. De todas formas, como puede suponerse, no se podra dar demasiada
libertad al usuario ya que no es posible dise
nar un gestor de dialogo que este preparado para cualquier intervencion de los usuarios. Ante situaciones no esperadas,
debera tomar la iniciativa y reconducir el dialogo.
El desarrollo de este tipo de sistemas empezo a plantearse a partir de los a
nos 90,
cuando el reconocimiento de habla continua alcanzo un nivel suficiente como para abordar
tareas de mayor complejidad. Algunas de las aplicaciones mas habituales han sido el
acceso telefonico a sistemas de informacion, por ejemplo horarios de aviones o trenes,
informacion municipal, ocio y servicios, como cines o restaurantes, catalogo de ventas de
productos, informacion meteorologica, navegacion por voz en Internet, etc. Tambien se
ha explorado el desarrollo de sistemas de gestion de los buzones de voz telefonicos, o la
creacion de centralitas telefonicas gestionadas por voz. Otros sistemas mas ambiciosos
pretenden automatizar la interaccion hombre-maquina para tareas de planificacion o de
b
usqueda conjunta de un objetivo, por ejemplo establecer una cita o planificar un viaje.
1.1.
Estructura de un sistema de di
alogo hablado
En la Figura 1.1 se muestra un esquema general de un sistema de dialogo hablado. Como puede verse existen m
ultiples fuentes de conocimiento que deben tenerse en
consideracion para su desarrollo. Podemos establecer tres bloques:
18
Captulo 1. Introduccion
El bloque correspondiente al tratamiento del turno del usuario. Comprende la adquisicion, preproceso, reconocimiento y comprension. Al final de este bloque se espera
que el sistema haya comprendido la pronunciacion del usuario, lo cual significa que
mediante alg
un tipo de representacion se conozca el objetivo o funcion del turno
(llamado acto de dialogo) (Fillmore, 1968) y/o la informacion (o datos) proporcionados.
El gestor de dialogo, que debera tomar una decision para generar un turno de respuesta. La actuacion del gestor de dialogo se basara en tres factores: la informacion
proporcionada por el usuario en el u
ltimo turno; la informacion almacenada por
el propio gestor a lo largo del dialogo hasta este momento, es decir la historia del
dialogo; y la informacion del contexto de la aplicacion, que basicamente estara representada por la base de datos sobre la que se esta preguntado. Las principales acciones
que suele realizar un gestor de dialogo son: confirmar datos, recuperar errores, dirigir el dialogo hacia el objetivo solicitando nuevos datos, proporcionar la informacion
solicitada, y acciones propias del metalenguaje de dialogo como cortesa, apertura
de dialogo, o frases del tipo espere un momento por favor.
El bloque de generacion de respuesta, al que el gestor de dialogo enviara una representacion del mensaje que se debe emitir al usuario y que se ha de convertir en una
frase en lenguaje natural, y posteriormente sera sintetizada y emitida.
Modelos
Acsticos
Modelos de
Lenguaje
Modelos
Semnticos
Historia del
Dilogo
Secuencia de
palabras
Voz
Reconocedor
de voz
Consulta
BD
Frame
Analizador
Semntico
Base de
Datos (BD)
Controlador
del Dilogo
Consulta a
la BD
Secuencia de
palabras
Respuesta
Sintetizador
de voz
Generador
de respuestas
Reglas
Diccionario de
unidades de voz
19
20
Captulo 1. Introduccion
P (W ) =
i=1..n
donde P (wi |w1 . . . wi1 ) representa la probabilidad de que sea pronunciada la palabra wi si hasta el momento se ha pronunciado la subsecuencia de palabras w 1 . . . wi1 .
Los reconocedores de habla que se han de implementar en un sistema de dialogo
deben tener en cuenta algunas de las caractersticas del tipo de pronunciaciones con
las que se van a encontrar. Podemos destacar el hecho de que al ser independientes
del locutor hay que trabajar con un tipo de representacion de la se
nal de entrada,
lo mas independiente del locutor, y del canal que se utilice. Por otra parte se han de
considerar los efectos del habla espontanea, como son los sonidos carentes de significado (hum, ehh, mm), los reinicios de palabras o frases, o la incorreccion sintactica.
Asimismo habra que disponer de mecanismos para detectar o tratar palabras fuera
del vocabulario.
b) Comprension del habla.
Tras los sistemas de reconocimiento, debemos considerar los sistemas de comprension que, aunque seran tratados con profundidad a lo largo de esta tesis, veremos
cuales son sus caractersticas principales. En primer lugar podemos establecer dos
tipos de aproximaciones al proceso de comprension: las basadas en reglas (Bennacef et al., 1994), (Seneff, 1992), (Peckham, 1993), (Ward, 1994), (Cheng, Fortier, y
Normandin, 1994), (Kuhn y Mori, 1993) y (Oeder y Aust, 1994) y las basadas en
modelos estocasticos (Miller et al., 1996), (Segarra et al., 2001), (Bonneau-Maynard
y Lef`evre, 2001), (Minker, 1998), (Epstein et al., 1996) y (Levin y Pieraccini, 1995).
En el caso de las basadas en reglas la informacion semantica se extrae a partir del
analisis sintactico-semantico de las frases, utilizando gramaticas definidas para la
tarea, o a partir de la deteccion de palabras (o secuencias de palabras) clave, con
significado semantico. En el caso de los metodos estocasticos el proceso se basa en
la definicion de unidades ling
usticas con contenido semantico y en la obtencion de
modelos a partir de muestras etiquetadas. El proceso de comprension se realiza de
forma similar al del reconocimiento del habla, mediante el algoritmo de Viterbi, puede interpretarse como un proceso de traduccion de una frase de entrada (secuencia
de palabras) en una frase de salida (secuencia de unidades semanticas). Un aspecto
importante a considerar es la forma de transmitir la informacion entre los modulos
de reconocimiento y de comprension. Con el objetivo de que los errores de la etapa
de reconocimiento puedan ser recuperados en posteriores etapas hay m
ultiples propuestas para proporcionar mas de una sola frase, como es el caso de las N mejores
frases (N-best) (Soong y Huang, 1991), o de los grafos de palabras (Aubert y Ney,
1995) y (Ney, Ortmanns, y Lindam, 1997). De esta forma la etapa de comprension
puede tener en consideracion m
ultiples hipotesis del reconocedor. Esta misma idea
podra ser aplicada a la comunicacion entre el modulo de comprension y el gestor
de dialogo.
c) Gestion del dialogo.
As como en los modulos anteriormente descritos es habitual encontrar aproximaciones basadas en metodos estocasticos, en el caso de los gestores de dialogo hay
mayores dificultades para estas modelizaciones, principalmente debido a la falta de
21
1.2.
Descripci
on de algunos sistemas de di
alogo hablado
Son muchos los laboratorios que han dedicado grandes esfuerzo a la obtencion de
sistemas de dialogo. Aunque las aplicaciones escogidas son variadas, la mayora de ellos se
ha centrado en sistemas de acceso a informacion. Las restricciones que suelen tener estos
22
Captulo 1. Introduccion
sistemas son: una talla del vocabulario de una 2.000 palabras, iniciativa mixta, acceso en
lenguaje natural, y tareas semanticamente restringidas.
Una de las primeras tareas que se planteo fue la tarea ATIS (Air Travel Information
Services) (Pallet et al., 1995) patrocinado por la organizacion ARPA (Advanced Research
Projects Agency) que consiste en obtener informacion sobre vuelos. En torno a esta tarea
se desarrollaron m
ultiples proyectos y se convirtio, junto a la de informacion sobre trenes
en un tipo de aplicacion ampliamente estudiada en otras lenguas. Un ejemplo de ello son
los proyectos SUNDIAL (Peckham, 1993), ARISE (Lamel et al., 2000), MASK (Gauvain
et al., 1997),...
A continuacion se muestra una breve descripcion de algunos de los proyectos y laboratorios mas representativos, que representan la evolucion en el desarrollo de sistemas de
dialogo:
ATT: Desde los primeros proyectos de desarrollo de sistemas de dialogo, los laboratorios
de ATT han trabajado en esta lnea, haciendo especial enfasis en la utilizacion
de modelos estocasticos, tanto para comprension como para dialogo. Desarrollaron
diversas aplicaciones para la tarea ATIS, como fue el proyecto AMICA (Pieraccini,
Levin, y Eckert, 1997). Actualmente desarrolla proyectos como How May I Help
you? (Gorin, Riccardi, y Wright, 1997), consistente en una tarea de callrouting.
Durante tres a
nos se adquirieron 30.000 dialogos.
MIT: Ademas de trabajar con la tarea ATIS, en el MIT se desarrollo un sistema de
dialogo, GALAXY (Goddeau et al., 1994), con el objetivo de ser un sistema conversacional valido para distintos dominios. Un ejemplo de los diferentes sub-dominios,
es el WHEELS que es un sistema de acceso a informacion sobre ventas de coches, el
VOYAGER, cuyo objetivo es proporcionar informacion tpicamente relacionadas con
viajes, como distancias entre ciudades, hoteles, direcciones o n
umeros de telefono.
El JUPITER (Zue et al., 2000) es un sistema de informacion sobre el tiempo. Desde
mayo de 1997 se han recibido sobre 100.000 llamadas, y la talla del vocabulario es
de 1.957 que incluye 650 ciudades y 166 pases.
CMU: Uno de los principales proyectos desarrollados en la CMU es el Communicator
Travel Planning system, cuya tarea es la de planificacion de viajes: aviones, hoteles
o reservas de coche (Rudnicky et al., 1999). La talla del vocabulario es de 2.500
palabras. Otro proyecto es el CMU-VODIS (Geutner et al., 1998), orientado al
desarrollo de aplicaciones de interfaz oral hombre-maquina en los automoviles.
SUNDIAL: Entre los primeros proyectos desarrollados en Europa se encuentra el SUNDIAL (Peckman, 1991) (Peckham, 1993) (Giachin y McGlashan, 1997). Se desarrollaron cuatro prototipos en cuatro lenguas distintas para las consultas de horarios de
trenes en Aleman e Italiano y de vuelos en Ingles y Frances. El objetivo del proyecto era construir sistemas de dialogo integrados en tiempo real capaces de mantener
dialogos cooperativos con los usuarios.
LIMSI: A partir de los trabajos desarrollados sobre la version francesa de ATIS (Bennacef et al., 1994), se desarrollo el proyecto ARISE (Lamel et al., 2000), y el MASK
(Gauvain et al., 1997). El ARISE fue un proyecto europeo para desarrollar un prototipo automatico de consulta de horarios y servicios para trenes que permita manejar
23
la gran mayora de las rutinarias consultas telefonicas. Se construyo un sistema para los operadores alemanes e italianos y dos para el frances. El proyecto predecesor
RAILTEL (Bennacef et al., 1996; Lamel et al., 1997), definio la estructura para
el desarrollo de los servicios interactivos de voz que proporcionan los horarios y
planificacion en diversos lenguajes (Aleman, Ingles, Frances y Italiano) a traves
del telefono. El proyecto MASK (Gauvain et al., 1997) desarrollo un servicio de
quiosco multimodal y multimedia para ser colocado en las estaciones de tren. Se
desarrollo un prototipo de quiosco de informacion que se instalo en la estacion de
St. Lazare en Pars. El quiosco pretende mejorar la eficacia de tales servicios permitiendo la interaccion con el uso coordinado de entradas multimodales (discurso y
tacto) y salidas multimedia (sonido, vdeo, texto y graficos) creando as una nueva
modalidad de servicios al p
ublico.
TRAINS Universidad de Rochester: (Allen et al., 1995) (Allen et al., 2000) es un
sistema de dialogo en lenguaje natural para la planificacion de la ruta de trenes
desarrollado en la Universidad de Rochester. La motivacion es obtener el conjunto
de rutas mas eficiente entre dos ciudades. Un analisis bottom-up para Context Free
Grammars produce una secuencia de actos de dialogo a la vez de llevar a cabo un
exacto analisis sintactico. El rendimiento de la tarea de TRAINS fue evaluada en
terminos de dos metricas: la cantidad de tiempo que se necesita para obtener la
informacion del itinerario y la calidad de la solucion, medida por la cantidad de
tiempo necesaria para cubrir las rutas.
Los proyectos VERBMOBIL (Kay, Gawron, y Norvig, 1994) y C-STAR (consorcio
fundado en 1991 por ATR Interpreting Telephony Laboratories (Kyoto, Japan), Carnegie Mellon University (Pittsburgh, USA), University of Karlsruhe (Karlsruhe, Germany) y Siemens AG (Munich, Germany) http://www.c-star.org/main/english/cstar2/navigator.html) incluyen los recursos de un sistema de dialogo para una tarea de traduccion multiling
ue entre lenguaje hablado.
En Espa
na existen en la actualidad diversos grupo trabajando en el desarrollo de
sistemas de dialogo:
Universidad de Granada: STACC (Rubio et al., 1997) Es un sistema de acceso telefonico o por internet a informacion sobre calificaciones desarrolado por el Departamento de Electronica y Tecnologa de Computadores (GiPSC).
UPC: Han participado en el proyecto BASURDE (Bonafonte et al., 2000), en la definicion
de escenarios y adquisicion del corpus a traves de tecnicas de Mago de Oz (Fraser y
Gilbert, 1991), definicion de la representacion semantica de la tarea, definicion del
vocabulario de la tarea e implementacion del modulo de sntesis de habla, ademas
de implementar el modulo de comprension y dialogo basado en reglas. Tambien han
desarrollado un sistema de acceso telefonico a informacion meteorologica en catalan
denominado Attemps (Hernando, Padrell, y H., 2002), que permite el acceso a la
informacion de las estaciones metereologicas del Departament de Medi Ambient,
pudiendo as recibir informacion de un determinado municipio de Catalu
na.
UPV: Ha participado en la definicion de escenarios para la adquisicion de dialogos, la
definicion del vocabulario y de la representacion semantica, as como, en la cons-
24
Captulo 1. Introduccion
truccion del modulo de comprension y de control del dialogo, ambos estocasticos,
del sistema BASURDE (Segarra et al., 2001).
1.3.
Objetivos de la Tesis
En este apartado se va a detallar aquellos aspectos mas significativos que esta tesis
pretende abordar. El principal objetivo es el desarrollo de metodologas de aprendizaje a
partir de corpus para el proceso de comprension del lenguaje en el contexto de un sistema
de dialogo hablado. Para ello se han propuesto diversas aproximaciones que han sido
evaluadas sobre un corpus de datos, en nuestro caso dialogos hablados, adquirido dentro
del proyecto BASURDE.
Las principales lineas de trabajo que se han desarrollado son:
- Definicion de una representacion de la semantica asociada a las frases. Se ha trabajado en la definicion de la representacion mediante frames de la informacion proporcionada en las frases, y en la definicion de un lenguaje intermedio, secuencial con la
frase de entrada, que permite un proceso de traduccion secuencial de las frases.
- Estudio de tecnicas de aprendizaje automatico de modelos estocasticos y su aplicacion al proceso de comprension del habla. Se ha abordado el problema de la comprension con un esquema de dos niveles: un nivel semantico, que debe representar
las posibles secuencias de unidades semanticas en el lenguaje, y un nivel sintactico
25
que debe representar las diferentes formas de decir ciertas unides semanticas. Para ello se han aprendido modelos estocasticos utilizando N-gramas y aplicando dos
algoritmos de inferencia gramatical ampliamente empleados en reconocimiento del
habla y en decodificacion ac
ustico fonetica: el basado en el Analisis Corrector de
Errores (ECGI) (Rulot, 1992) que construye una gramatica regular (o el equivalente automata de estados finitos) de forma incremental a partir de un conjunto de
muestras positivas, o el algoritmo para la inferencia de lenguajes k-explorables con
umbral (r,k)-TTSSI (Garcia y Vidal, 1990) donde la pertenencia de una cadena al
lenguaje esta determinada por el conjunto de segmentos de un tama
no k que pueden
aparecer en ella y por los prefijos o sufijos de longitudes menores que k.
- Se ha abordado el problema del suavizado de los modelos de comprension con el
fin de conseguir una cobertura lo mas amplia posible de la tarea. Por otra parte,
se han aplicado tecnicas orientadas a reducir la talla del vocabulario y aumentar la
cobertura de los modelos, como son el uso de lemas, categoras lexicas o semanticas.
- La comprension en el contexto de un dialogo. Se ha estudiado la posibilidad de
utilizar la informacion aportada por el estado en que se encuentra un dialogo para
ayudar al proceso de comprension, en particular se ha estudiado la posibilidad de
utilizar modelos especficos en funcion del contexto del dialogo.
1.4.
Estructura de la Tesis
La tesis se estructura en 9 captulos y 4 apendices. En el presente captulo de introduccion se describe la estructura y funcionamiento de los sistemas de dialogo hablados,
as como se enumeran algunos de los laboratorios y grupos de investigacion que han llevado a cabo la construccion de sistemas de dialogo. Por u
ltimo se marcan los objetivos
de la tesis.
En el captulo 2 se hace una revision bibliografica de las principales aproximaciones
a la comprension del lenguaje. En el se desarrolla como se representa el conocimiento,
cuales son los metodos analisis, as como una descripcion de los diferentes modelos de
lenguaje.
En el captulo 3 se presenta la tarea BASURDE, describiendo como se han adquirido
los dialogos que forman parte del corpus BASURDE. Tambien se describe la representacion semantica elegida, en nuestro caso se emplea el formalismo de los case frames.
En el captulo 4 se presenta una aproximacion al modulo de comprension del sistema
de dialogo BASURDE en dos fases, para la primera fase se emplean modelos estocasticos
aprendidos a partir de los datos y para la segunda fase se emplea un conjunto de reglas
con el fin de normalizar y cuantificar los valores obtenidos en la primera fase, obteniendo
como resultado uno o varios frames a partir de la frase de entrada.
En el captulo 5 se presenta la inferencia de modelos con el algoritmo ECGI y con el
algoritmo (k,r)-TSSI para la primera fase del modulo de comprension. Estos modelos son
suavizados aplicando una tecnica de reetiquetado de muestras.
En el captulo 6 se muestra la experimentacion llevada a cabo sobre el modulo comprension propuesto empleando los diferentes modelos aprendidos a partir de las muestras
26
Captulo 1. Introduccion
etiquetadas del corpus BASURDE etiquetado manualmente y con la salida de dos reconocedores de voz.
En el captulo 7 se aplica la aproximacion del modulo de comprension al sistema
frances de consulta sobre trenes ARISE. Para mejorar los resultados se lleva a cabo la
implementacion de un programa que expande la notacion original del corpus ARISE. Por
u
ltimo se muestran resultados experimentales.
En el captulo 8 se presenta una aproximacion estocastica al modulo de dialogo empleando una red de estados finitos para predecir cual es el siguiente acto de dialogo del
usuario y con ello poder emplear modelos especficos de comprension en funcion de ese
acto de dialogo esperado. Se presentan resultados sobre el uso de modelos especficos de
comprension.
En el captulo 9 de conclusiones se hace una recopilacion de las tecnicas empleadas y los
principales objetivos conseguidos. A partir de estos se establecen una serie de conclusiones
y trabajos futuros a realizar.
En el apendice A se enumera el vocabulario de la tarea. En el apendice B se describe
los ficheros empleados para obtener los lemas y categorias en la reduccion del lexico
de BASURDE. En el apendice C se describe como se ha llevado a cabo el etiquetado de
dialogo del corpus BASURDE y finalmente en el apendice D se muestran algunos ejemplos
de los diferentes tipos de escenarios practicados en la adquisicion del corpus BASURDE.
Captulo 2
Comprensi
on del habla
A la hora de construir un sistema de dialogo hombre-maquina, ademas de los componentes que se ocupan del reconocimiento y sntesis del habla, se hace necesario un
componente de comprension del lenguaje natural capaz de comprender la pronunciacion del usuario. Es decir, extraer y en parte desambiguar la informacion contenida en el
texto (frase o conjunto de posibles frases) generado por el reconocedor de voz y a partir
de el construir una adecuada representacion semantica que sera posteriormente procesada
por el algoritmo que controla el dialogo.
Al abordar este problema intervienen diferentes y complejas fuentes de conocimiento:
fonetica, morfologa, sintaxis, semantica, pragmatica, conocimiento del mundo, etc. La
cooperacion de todos estos conocimientos hace que se pueda conseguir una correcta interpretacion del significado y de la funcion sintactica de las palabras de una frase. Ademas
hay que tener en cuenta ciertos fenomenos de habla espontanea que se dan en la comunicacion hablada como son: falsos comienzos, nuevos comienzos, pausas, vacilaciones,
tartamudeos, repeticiones, interjecciones, etc.
Existen actualmente dos grandes paradigmas en el desarrollo de sistemas de comprension del habla: el basado en corpus y el basado en el conocimiento ling
ustico. En
el paradigma basado en corpus el sistema de comprension es un modelo parametrizado y sus parametros son aprendidos a partir de un corpus anotado semanticamente. En
los sistemas basados en el conocimiento ling
ustico, el necesario conocimiento ling
ustico/sintactico/semantico es codificado manualmente en forma de reglas.
Dos decisiones se deben tomar a la hora de dise
nar un analizador semantico: la primera
concierne al formalismo empleado para representar el significado de las pronunciaciones
del usuario (representacion del conocimiento) y la segunda en cuanto a la tecnica empleada
para extraer el significado del texto (metodo de analisis).
2.1.
Representaci
on del conocimiento
Como formalismo para describir las relaciones entre los constituyentes que componen
una frase se emplea la gramatica, formada por un conjunto de reglas que describen como
los distintos constituyentes se pueden combinar. Solo las combinaciones permitidas por
27
28
la gramatica son consideradas gramaticales, mientras que el resto son agramaticales. Formalmente, una lengua es un conjunto de oraciones; cada oracion es una cadena de uno
o mas smbolos pertenecientes al vocabulario de la lengua. Desde esta perspectiva, una
gramatica no es mas que una especificacion formal y finita de este conjunto de oraciones
(Grishman, 1986).
2.1.1.
Modelos sint
acticos
La sintaxis contempla dos modos diferentes, pero no por ello opuestos, de analisis. El
primero es el analisis de constituyentes o analisis de estructura de frase: la estructuracion
de las oraciones en sus partes constituyentes y la categorizacion de estas partes como
nominales, verbales, adjetivales, etc. El segundo es el analisis de las relaciones o funciones
gramaticales: la asignacion de relaciones gramaticales tales como Sujeto, Objeto, etc.
Una amplia variedad de formalismos ling
usticos son los denominados gramaticas basadas en restricciones (las restricciones eliminan posibles alternativas, siendo su meta el
llamado analisis superficial) incluido bajo el termino gramaticas de unificacion introducido por (Kay, 1984). Ejemplos de ellas son: las Gramaticas Formales y de arboles descritas en (Fu y Booth, 1975) (Hopcroft y Ullman, 1979), las gramaticas lexico-funcionales
(Bresan y Kaplan, 1982), las gramatica de adjuncion de arboles (Tree Adjoining Grammar TAG) (Joshi y Schabes, 1992), las gramaticas de estructura de frase dirigidas por
el h-n
ucleo (Head-Driven Phrase Structure Grammar HPSG) (Pollard y Sag, 1994), que
pasamos a describir sucintamente a continuacion (Minker, 1999a).
Gram
aticas Formales: seg
un el tipo de reglas sintacticas (Hopcroft y Ullman, 1979), se
clasifican en no restrictivas, contextuales, independientes del contexto y regulares.
Las gramaticas independientes del contexto han sido ampliamente empleadas para
representar y analizar el lenguaje natural. Sin embargo, a pesar de la existencia de
metodos eficientes y simples para la implementacion de estas gramaticas, se requiere
una considerable cantidad de reglas para describir exhaustivamente la espontaneidad
del lenguaje natural. En casos en que el tipo de lenguaje lo permita se utilizan
Gramaticas Regulares debido a su simplicidad.
Lexical-Functional Grammar (LFG): es un modelo ling
ustico computacional desarrollado a finales de la decada de 1970 en la Universidad de Stanford en California, como fruto de la colaboracion entre la ling
uista Joan Bresnan y el informatico
Ronald Kaplan, conocido por sus trabajos pioneros sobre analisis morfosintactico
automatico mediante redes de transicion aumentadas. El objetivo de la LFG consiste en la elaboracion de un modelo altamente formalizado del lenguaje humano,
un modelo del lenguaje computacionalmente preciso, psicologicamente realista y
de orientacion ling
ustica lexicista y funcional (Kaplan y Bresnan, 1982)(Bresnan,
2001). En el terreno de la sintaxis, la LFG se caracteriza por mantener que la estructura sintactica debe representarse al menos en dos niveles: uno correspondiente a la
estructura de constituyentes (representada habitualmente mediante una estructura
de arbol) y otro correspondiente a la estructura funcional. La estructura de constituyentes (denominada, en este modelo, estructura-c) se describe formalmente mediante una gramatica sintagmatica independiente del contexto y constituye la base
del procesamiento fonologico de la oracion. Por su parte, la estructura funcional (o
29
Head-Driven Phrase Structure Grammar (HPSG): Es una mejora de la Generalized Phrase Structure Grammar (GPSG) (Gazdar et al., 1985), dise
nada por Pollard
y Sarg (Pollard y Sag, 1994). Permite una integracion mas explcita de los diferentes
niveles del analisis ling
ustico: fonetica, sintaxis y semantica. Uno de sus aspectos
mas interesantes es la codificacion del lexico, la sintaxis, la semantica y las frases en una identica estructura de datos. Esto permite una descripcion conjunta del
fenomeno sintactico y semantico as como de sus interacciones. Las descripciones
producidas por el HPSG son declarativas, independientes del orden y reversibles.
Estos modelos, en general, son mas adecuados para entornos de texto escrito (Allen,
1995) que para el habla, pues presuponen la correccion sintactica de la frase e ignoran
efectos de habla espontanea; estas disfluencias como son los falsos comienzos, titubeos,
palabras repetidas, etc., as como los errores generados en la etapa de reconocimiento,
deben poder ser abordados a la hora de trabajar con aplicaciones reales de consulta
hablada.
Por otra parte, en los a
nos 90 han aparecido aproximaciones que no persiguen el
analisis completo de las frases, sino que realizan un analisis parcial para poder abordar
el analisis de textos no restringidos y garantizar que este analisis sea robusto. El analisis
parcial permite obtener la segmentacion de una oracion en unidades sintacticas de una
manera rapida y con una alta fiabilidad. Dado que muchas aplicaciones no necesitan de
un analisis completo de los textos de entrada estas pueden ser objeto de la aplicacion de
estas tecnicas. En la literatura se emplean dos terminos para diferenciar la profundidad
del analisis sintactico llevado a cabo, el analisis parcial (partial parsing) que permite
el analisis sintactico de aquellas partes de la oracion que pueden analizarse y el analisis
superficial (shallow parsing o chunking) que divide el texto en segmentos no solapados
que se corresponden con ciertas estructuras o chunks, no permitiendo la recursividad
en estas estructuras (Abney, Berwick, y Tenny, 1991)(Pla, Molina, y Prieto, 2000a).
30
2.1.2.
Modelos sem
anticos
31
gramaticalmente correcta, sino interpretar aquello que el hablante nos dice. Las gramaticas
que buscan los constituyentes semanticos de la sentencia respecto a una determinada
tarea pueden ser mas robustas frente a derivaciones de la gramatica, es por ello que para
nuestro trabajo es mas interesante utilizar una representacion semantica, en particular el
formalismo de los case frames es adecuado pues ha sido aplicado con exito en diferentes
sistemas de dialogo.
2.2.
El m
etodo de An
alisis
Una vez se ha seleccionado el formalismo de representacion del conocimiento, en nuestro caso los case frames, el siguiente paso es la seleccion de una tecnica para obtener la
estructura (analisis) de la pronunciacion analizada en terminos de sus entidades: conceptos, marcadores del caso y valores de los casos. En este punto, la solucion recae fundamentalmente en dos categoras de metodos: basados en reglas o estocasticos.
La aproximacion basada en reglas sobre un formalismo de gramaticas de casos implica
el escribir reglas que controlen la identificacion de los conceptos y de los valores de los
casos (Minker, 1999a). Normalmente, las reglas son lexicalizadas, definiendo familias de
palabras que identifican los conceptos y los marcadores de caso. Las reglas deben ademas
describir las relaciones entre los marcadores del caso y los valores.
El analisis estocastico (Minker, 1999a) emplea un modelo probabilstico para identificar los conceptos, marcadores y valores de los casos, para representar las relaciones
entre los marcadores de los casos y sus valores y para decodificar semanticamente las
pronunciaciones del usuario. El modelo es construido durante una fase de entrenamiento
(aprendizaje), donde sus parametros capturan las correspondencias entre las entradas de
texto y su representacion semantica. Una vez el modelo de entrenamiento esta completado, el modelo se emplea a modo de decodificador para generar la mejor representacion
semantica de la entrada.
2.2.1.
M
etodos de an
alisis sem
antico basado en reglas
32
un analisis a dos niveles en el cual las gramaticas sintacticas llevan a cabo un analisis
detallado y las gramaticas semanticas proporcionan una estrategia para la recuperacion
a partir de errores.
CSELT ha desarrollado un sistema de dialogo hombre maquina para el acceso hablado por va telefonica a informacion horaria de trenes para el italiano. Se enmarca
dentro del proyecto SUNDIAL. El procesador ling
ustico (Peckham, 1993) aplica
iterativamente el conocimiento sintactico y semantico detallado as como conocimiento semantico y pragmatico. Usa reglas de gramaticas de dependencia para el
analisis sintactico y gramaticas de casos para la representacion semantica.
MIT ha desarrollado un marco para los sistemas conversacionales llamado GALAXY.
Su analizador TINA (Seneff, 1992), usa una gramatica incontextual acompa
nada
de ciertas restricciones que produce arboles de derivacion que son a continuacion
convertidos en su correspondiente representacion en Frames.
CMU ha desarrollado el sistema PHOENIX (Ward, 1994) que emplea un analizador
flexible basado en gramaticas de casos, compilando en un conjunto de redes de
transicion recursivas para la tarea ATIS (que proporciona informacion sobre horarios y tarifas de vuelos). Este sistema trata los efectos de habla espontanea como
reinicios, repeticiones y frases gramaticalmente incorrectas.
LIMSI-CNRS ha desarrollado sistemas de consulta para diferentes tareas para el estudio de la portabilidad de los mismos. Las tareas consideradas incluyen la version de
ATIS en Frances (permite al usuario tanto la comunicacion hablada con el sistema
como a traves de una pantalla tactil o a traves del teclado), el MASK (quiosco para
el acceso multimodal y multimedia a la informacion a informacion sobre viajes en
tren) y el ARISE (informacion sobre trenes a traves de la lnea telefonica), todas
ellas relacionadas con el acceso a las bases de datos con informacion sobre viajes.
El analisis semantico (Bennacef et al., 1994) en los tres casos esta basado en reglas
y se lleva a cabo a traves de gramaticas de casos.
CRIM (Centre de recherche informatique de Montreal) participa en dos aproximaciones
diferentes para la construccion de sistemas de dialogo hablado. En la primera SICSA (Cheng, Fortier, y Normandin, 1994) se integran una aproximacion conexionista
y otra simbolica para la comprension del lenguaje natural a la tarea ATIS. Dos
redes conexionistas analizan las frases de palabras clave semanticas y extraen los
atributos de la consulta. A continuacion un analizador de case frames basado en
reglas se encarga de procesar los atributos junto con una serie de restricciones. En
la segunda aproximacion (Kuhn y Mori, 1993) se introduce los arboles de clasificacion semantica, un tipo especializado de arboles de decision que aprenden reglas
semanticas para una comprension robusta del lenguaje natural. El reconocedor de
voz identifica constituyentes de la consulta que son semanticamente significativos.
Estos constituyentes son analizados posteriormente por un bosque de arboles, cada
uno representando un aspecto diferente de la representacion semantica.
Philips Research Laboratoires ha dise
nado un interfaz de lenguaje natural robusta para diferentes dominios de aplicacion y diferentes lenguas. El componente de
33
comprension (Oeder y Aust, 1994) extrae los valores necesarios para construir una
consulta a la base de datos a partir de una representacion contextual en forma de
grafo de la entrada. Una gramatica semantica probabilstica identifica las partes
relevantes de la frase.
2.2.2.
M
etodos de estimaci
on autom
atica a partir de datos
Por otro lado los metodos de estimacion automatica a partir de datos intentan, a
partir de corpora etiquetados manualmente, aprender cual es la informacion semantica
contenida en estos y almacenarla en forma de parametros; la cobertura del dominio y las
caractersticas del lenguaje son extradas del mismo corpus. El mayor problema de esta
aproximacion estocastica es encontrar un buen balance entre la cobertura del dominio, el
n
umero de parametros y la calidad del modelo. Sin embargo, para trasladar los componentes semanticos a una nueva tarea es suficiente entrenar el modelo de la aplicacion a partir
de conjuntos especficos de datos, siendo el esfuerzo dirigido exclusivamente a la tarea
de etiquetado de los datos. Incluso este esfuerzo, en grandes corpora, puede ser aligerado
creando modelos a partir de unos pocos datos etiquetados manualmente y emplear estos
para etiquetar el resto (bootstrapping), procediendo luego a una simple tarea de revision
del etiquetado. Este proceso es mucho mas simple que un mantenimiento, extension y
traduccion de las reglas gramaticales.
En (Minker, 1998) se comparan ambos metodos empleando el corpus americano de la
tarea ATIS (Air Travel Information System) y el frances de la tarea MASK (MultimodalMultimedia Automated Service Kiosk), observando que, pese a que en ambos metodos
existe la necesidad de un delicado analisis e identificacion por expertos de los conceptos
semanticos de relevancia y sus restricciones de valor, los metodos estadsticos superan a
los basados en reglas si se entrenan sobre un corpus bien dise
nado.
Los siguientes laboratorios han desarrollado sistemas que usan modelos de comprension estadsticos que no requieren reglas gramaticales explcitas. Estos sistemas han demostrado la viabilidad de una aproximacion estocastica guiada por los datos para la
construccion de un componente de comprension en un sistema de dialogo hablado para
aplicaciones de consulta a una base de datos. Otro aspecto importante de este tipo de
aproximaciones es su portabilidad para diferentes lenguas, dominios y tareas.
BBN ha introducido una nueva clase de mecanismos estocasticos basados en modelos
ocultos de Markov para el procesamiento del lenguaje natural, y ha desarrollado una
representacion semantica estructurada en forma de arbol para la tarea ATIS (Miller
et al., 1996). El objetivo es la construccion de un sistema basado completamente
en tecnicas de aprendizaje automatico, para la comprension tanto en frases aisladas
como en un cierto contexto.
IBM ha presentado una aproximacion para la comprension estocastica del lenguaje natural (Epstein et al., 1996). El metodo consiste en la traduccion del lenguaje natural
en una representacion formal, que es una variante del NL parse paraphrase del ingles
de los datos de ATIS.
ATT ha desarrollado el sistema Chronus (Levin y Pieraccini, 1995) para la tarea ATIS.
Esta basado en la modelizacion estocastica de las entradas en forma de una secuencia
34
analizador
lxico
retculo de
palabras
conceptos
decodificador
conceptual
generador de
plantillas
significado
lxico
intrprete
significado
contextual
35
(Garcia y Vidal, 1990) (Segarra y Hurtado, 1997) que permite obtener una cierta
variedad de gramaticas regulares y ha sido aplicada en diferentes tareas de compren y la tarea BDGEO de consulta a
sion como las interpretacion de n
umeros MILL ON
una base de datos geografica espa
nola. La aplicacion de esta metodologa implica la
definicion de una funcion de reetiquetado, donde cada simbolo de una muestra de
entrada es reetiquetado siguiendo una cierta funcion g que incorpora conocimiento al modelo inferido, intentando suplir la falta de muestras negativas. Diferentes
definiciones de la funcion g producen diferentes modelos (automatas regulares estocasticos).
2.3.
Modelos de lenguaje
36
La principal ventaja de los modelos estocasticos estriba en su capacidad para el aprendizaje automatico de los parametros del modelo a partir de un conjunto de frases del
lenguaje, lo cual los hace flexibles y adaptables a cualquier cambio de lenguaje. Su principal inconveniente es que el incremento del valor de N hace que el n
umero de posibles
secuencias de unidades a estimar (y almacenar) crezca exponencialmente, lo que crea la
necesidad de tener suficientes muestras. En la practica se suelen emplear valores de N
bajos, lo cual hace que estos metodos no sean capaces de explotar la estructura a largo
plazo de las frases del lenguaje.
Por otra parte los modelos basados en gramaticas se caracterizan por su capacidad
para representar las restricciones del lenguaje de una forma natural, sin embargo su
principal inconveniente es que la definicion de estos modelos entra
na una gran dificultad
para aquellas tareas con lenguajes proximos a lenguajes naturales. Asmismo la rigidez
en la estructura del lenguaje que especifican los hacen no adecuados para entornos de
lenguaje hablado.
2.3.1.
Modelos conexionistas
En los modelos conexionistas o redes neuronales, el proceso computacional se describe en terminos de interaccion entre cientos de procesadores elementales. En (Feldman y
Bullard, 1982) se introduce este tema. En (Castro y Prat, 2003) se proponen los modelos conexionistas como alternativa a los modelos basados en la frecuencia de N-gramas
para modelos de lenguaje. Los primeros pasos en esta direccion fueron dados en 1989
por (Nakamura y Shikano, 1989). Aunque estos modelos de lenguaje conexionistas gastan mucho tiempo en su entrenamiento, presentan dos ventajas: las redes presentan un
suavizado implcito en sus estimaciones y el n
umero de parametros a estimar no crece
exponencialmente con N.
Ejemplos de la aplicacion de estos modelos se puede ver en (Small, Cottrell, y Shastri,
1982), (Cottrell y Small, 1983) y (Miikkulainen, 1993) aplicado al procesamiento del
lenguaje natural. En (Nakamura y Shikano, 1989), (Xu y Rudnicky, 2000a), (Bengio et
al., 2003) se muestra que las redes neuronales pueden aprender modelos de lenguaje con
resultados comparables a los modelos estocasticos de N-gramas. En (Vilar, Castro, y
Sanchis, 2002), (Castro y Sanchis, 2002), (Sanchis y Castro, 2002) y (Vilar, Castro, y
Sanchis, 2003) se emplean redes conexionistas aplicado a la clasificacion para el uso de
modelos de lenguaje especficos en el proceso de comprension de un sistema de dialogo.
2.3.2.
37
Modelos estoc
asticos
i=1...n
i=1...n
Sin embargo por razones de complejidad y por la necesidad de una gran cantidad de
muestras para obtener estimaciones fiables, tpicamente los Modelos basados en N-gramas
emplean secuencias de dos o a lo sumo tres palabras (bigramas, trigramas). Este hecho
hace que los modelos basados en N-gramas, si bien modelizan de forma adecuada aspectos
locales de la estructura del lenguaje, no pueden capturar relaciones a larga distancia entre
38
terminos (mas alla de tres en el caso de los trigramas), lo cual puede redundar en una
deficiente modelizacion del lenguaje. Numerosas ideas de tipo practico se han incorporado
en los Modelos de N-gramas con el fin de reducir el n
umero de parametros a estimar y,
de esta forma conseguir estimaciones fiables. La mas inmediata, y de uso generalizado es
la combinacion (interpolacion) de modelos de orden N con modelos de orden N-1, etc.
A estas u
ltimas se le denomina suavizado de los modelos de N-gramas. A continuacion
pasamos a describir los metodos de suavizado de N-gramas mas comunes.
Suavizado de N-gramas
Los metodos de suavizado son necesarios para el calculo de parametros poco significativos o no contemplados en el corpus de aprendizaje. Cuando la estimacion se hace por el
criterio de maxima verosimilitud (probabilidades proporcionales a las frecuencias relativas
de los sucesos), si la muestra de aprendizaje no es lo suficientemente rica (muestra insuficiente y/o no completa) se pueden obtener modelos que no describan de manera adecuada
las secuencias de unidades semanticas o las de las palabras que pertenecen a una de las
unidades semanticas. En la literatura aparecen diferentes metodos para solucionar estos
problemas y han sido empleados en m
ultiples aplicaciones, principalmente en el campo
del reconocimiento automatico del habla, para obtener modelos de lenguaje de diferentes
niveles: unidades ac
usticas, palabras, categoras lexicas, unidades semanticas, etc.
Uno de los mas sencillos es el a
nadir 1que consiste en incrementar todos los contadores de frecuencias de los sucesos de S i , f (Si ) en 1, Ley de Laplace, o en una cierta
cantidad k, Ley de Lidstone, donde (0 < k 1).
f (Si ) + k
Pb (Si ) = P
Si (f (Si ) + k))
0<k1
(2.1)
El problema de esta aproximacion es la sobreestimacion de los sucesos con baja probabilidad, que probablemente, se corresponden con los de baja frecuencia.
Otra alternativa es el Suavizado Plano consistente en reservar una cierta cantidad
uniforme, P reservada , que se descontara a los sucesos vistos, para repartirla entre los no
umero de sucesos no vistos.
vistos por igual, donde #Si N o V istos es el n
Pb(Si ) =
modif icada (S
i)
P reservada
#Si N o V istos
Si 6= 0
(2.2)
Si = 0
Esto obliga a recalcular la probabilidad de los sucesos vistos a fin de mantener la consistencia del modelo, es decir que se cumpla que la suma de las probabilidades modificadas
para todo suceso visto sea igual a uno menos la probabilidad reservada:
X
modif icada
=1P
reservada
Si /Si 6=0
El principal problema que presentan estas aproximaciones es que asignan a todos los
sucesos no vistos exactamente la misma probabilidad. Para solucionar estos problemas se
39
emplean metodos que combinan diferentes distribuciones de probabilidad para tratar los
sucesos no vistos. Estos metodos se pueden dividir en dos grupos: Interpolacion Lineal y
Back-off. El primero tiene en cuenta todas las distribuciones de probabilidad disponibles
para la estimacion de un determinado suceso. El segundo utiliza solo una, la que se espera
sea la mas apropiada de entre las disponibles para ese suceso. Vamos a ver estos dos
metodos particularizados para un modelo de bigramas, el caso mas general de N gramas,
para las probabilidades de un modelo de lenguaje de unidades v i (el caso de n-gramas
se podra realizar de igual manera considerando las probabilidades P (v i |vin . . . vi1 )).
El problema consiste en estimar P (v i |vj ) para cualquier par de unidades (vi ,vj ) V V .
Supongamos que se dispone de dos distribuciones de probabilidad: bigramas (P (v i |vj )) y
unigramas (P (vi )) a suavizar.
La aproximacion mediante Interpolacion Lineal se expresa en la ecuacion (2.3) donde
se ponderan las dos distribuciones, bigramas y unigramas, mediante los parametros de
interpolacion i . Estos
pueden ser estimados experimentalmente o utilizando el algoritmo
deleted interpolation (Jelinek y Mercer, 1985) (Jelinek, 1991). El n
umero de parametros
de interpolacion a estimar se reduce considerablemente si suponemos que que estos son
independientes de la unidad considerada v i . Siguiendo esta suposicion, se simplifica el
calculo de los parametros, como aparece en los trabajos de H. Ney (Ney y Kneser, 1991)
(Ney, Essen, y Kneser, 1994).
P Int (vi |vj ) = i1 P (vi |vj ) + i2 P (vi );
i1 + i2 = 1
(2.3)
r>k
P (vi |vj )
Suavizada
dr P (vi |vj ) 0 < r k
P
(vi |vj ) =
P (vi )
r=0
(2.4)
A continuacion se detallan las funciones de descuento mas comunes que se han definido
para el suavizado por Back-Off:
La funcion de descuento Good Turing Discount (Good, 1953), utilizada por Katz
(Katz, 1987) que se muestra en la ecuacion (2.5), se define en funcion de unos
contadores especiales (nx : n
umero de veces que un suceso aparece con frecuencia x)
obtenidos a partir del corpus de aprendizaje. Esta funcion garantiza que el descuento
umero de sucesos de frecuencia
total aplicado sea igual a nR1 , donde n1 representa el n
1 y R el n
umero total de muestras de aprendizaje.
40
(r + 1) nr+1 (k + 1) nk+1
r nr
n1
dr =
(k + 1) nk+1
1
n1
(2.5)
suavizada
(vi |vj ) =
(2.6)
El Descuento lineal (Jelinek, 1991) aplica el mismo descuento a todos los sucesos
independientemente de su frecuencia (ecuacion 2.7).
dr =
n1
R
(2.7)
n1
rb
, donde b =
R
n1 + 2n2
(2.8)
41
42
43
Varigramas y Multigramas
La mayora de las metodologas de modelado del lenguaje descritas con anterioridad
representan como denominador com
un el uso de un valor fijo N que condiciona todas
las probabilidades del modelo. La probabilidad de aparicion de una palabra (categora o
palabra etiquetada) se relaciona, exactamente, con las N-1 palabras anteriores.
Existen metodologas del lenguaje en la cuales la probabilidad de aparicion de una
palabra esta ligada a la aparicion de un n
umero flexible de palabras vistas con anterioridad.
En algunas de estas aproximaciones como los llamados poligramas o varigramas se
intenta combinar dentro de un mismo modelo las ventajas de los unigramas, bigramas,
trigramas, etc. De esta manera u
nicamente se utiliza las dependencias de palabras a mas
larga distancia (N mayores) si esto redunda en un beneficio para el modelo.
En otra aproximacion conocida como multigramas se introduce los segmentos como
base de los modelos, en lugar de las palabras. La diferencia principal entre los modelos
basados en multigramas (Deligne y Bimbot, 1995) y otros modelos de lenguaje es su
unidad basica. Mientras los modelos estocasticos se basan en la palabras o en la clase en
la que se agrupan un conjunto de palabras, los multigramas se basan en el concepto de
segmento. Un segmento es una secuencia de palabras que aparecen de forma consecutiva
en el texto y que, en principio, formaran una unidad a alg
un nivel, ya sea sintactico o
semantico. Dependiendo del mecanismo utilizado para modelizar las relaciones entre los
distintos segmentos estaramos ante un tipo de multigramas u otro (Deligne y Sagisaka,
2000).
El uso de multigramas y en consecuencia segmentos como base de un modelo de
lenguaje esta justificado en el campo de la modelizacion y comprension del discurso por
la propia naturaleza del discurso humano, constituido por distintas subunidades las cuales
intentan modelizar las clases de segmentos.
La aproximacion mas empleada es la de N-multigramas, que consiste en asumir que
la verosimilitud de cada segmento depende de un n
umero determinado de segmentos
que le preceden (N). Esta aproximacion se puede ver como una generalizacion de los Ngramas. Esta metodologa con sus distintas variantes (diferentes valores de N, limitacion
del n
umero de palabras por segmento, uso o no de categoras de segmento) es la mas
utilizada, en (Deligne y Sagisaka, 2000) se aplica a la estimacion de modelos de lenguaje
para la tarea ATIS.
La dificultad de estas aproximaciones como los N-multigramas es la elevada complejidad computacional que presenta su manipulacion, debido a las m
ultiples posibles
segmentaciones de las frases.
2.3.3.
SLMtoolkit
44
2.3.4.
Aproximaciones gramaticales
Existen otras aproximaciones, que podramos llamar gramaticales, en las que se modeliza la estructura de la frase haciendo uso de gramaticas formales, principalmente gramaticas regulares y gramaticas incontextuales, que son capaces de capturar mejor la estructura
del lenguaje. Estas tecnicas de Inferencia Gramatical (Garcia y Vidal, 1990) (Fu y Booth,
1975) empleadas para abordar el problema de la definicion del lenguaje desde el aprendizaje basado en datos, tienen las siguientes ventajas:
- Aprendizaje automatico a partir de un conjunto de datos, al igual que los N-gramas.
- Flexibilidad, es decir tolerancia a construcciones ling
usticas no estrictamente correctas, pero aceptables, mediante la introduccion de suavizado de los modelos.
- Representacion natural de las descripciones del lenguaje, es decir de su estructura
global, caracterstica de los modelos basados en gramaticas.
A continuacion se muestra un resumen de algoritmos susceptibles de ser aplicados al
problema de la comprension:
- Los k-explorables en sentido estricto (Garcia y Vidal, 1990). Es la aproximacion de
N-gramas desde el punto de vista de la inferencia gramatical (Segarra, 1993). En
(Bordel, 1993) (Bordel, 1994) se muestra la aplicacion al aprendizaje de modelos de
lenguaje, con diferentes metodos de suavizado e interpolacion para la aplicacion de
consulta de la base de datos de informacion geografica BDGEO.
- Generadores morficos (MGGI) (Garca, Vidal, y Casacuberta, 1987). Es una tecnica
de inferencia gramatical compromiso entre los metodos heursticos y los metodos caracterizables, pues incorpora un conocimiento a priori sobre el problema particular
a abordar. En (Segarra, 1993) y (Segarra y Hurtado, 1997) se presenta la aproximacion al aprendizaje de modelos de lenguaje mediante la tecnica MGGI.
- k-explorables con umbral (Ruiz, 1998), cuya tecnica consiste en contar el n
umero
de ocurrencias de los factores de longitud k de sus palabras hasta un cierto umbral
r. El umbral r proporciona un segundo control de generalizacion en los segmentos
de palabras del lenguaje.
- El Error Correcting Grammatical Inference (ECGI) basado en correccion de errores
(Rulot y Vidal, 1987) ha sido empleado con exito en numerosos problemas de reconocimiento de formas y en tareas como la consulta de la base de datos de BDGEO
(Prieto, Sanchis, y Palmero, 1994) (Prieto, 1995) (Sanchis, 1994).
45
Podran ser aplicadas otras aproximaciones como: los algoritmos de inferencia de lenguajes k-reversibles (Angluin, 1982), tecnica que se basa en la agrupacion de estados e
infiere lenguajes regulares a partir de una muestra positiva; inferencia de lenguajes a partir de muestra positivas y negativas (Oncina, 1991), metodo que tambien se basa en la
agrupacion de estados, pero utiliza muestras negativas para evitar ciertas construcciones y
evitar la sobregeneralizacion del automata o por u
ltimo la inferencia de gramaticas incontextuales Inside-Outside aparecen en (Baker, 1979) (Lari y Young, 1991) (Sanchez, 1999),
tecnica que estima las probabilidades de las reglas incontextuales a partir de muestras
positivas.
46
Captulo 3
Tarea BASURDE
El sistema de dialogo BASURDE pretende ser capaz de responder, a traves de la lnea
telefonica, a preguntas en lenguaje natural sobre horarios, precios y servicios de los trenes
de largo recorrido de la red de ferrocarriles espa
nola. Para ello, debe entender aquellas
cuestiones que el usuario le plantea y a partir de ellas, consultar a una base de datos
para que le suministre informacion y poder construir una respuesta adecuada. El dialogo
mantenido entre el usuario y el sistema debe ser de iniciativa mixta para ser lo mas natural
posible, donde el usuario es libre de realizar cualquier cuestion cuando lo desee. Es normal
que el dialogo conste de varios turnos de usuario y sistema para conseguir el objetivo, de
modo que el sistema puede interrogar al usuario, tanto para clarificar la peticion de este,
como para completar la informacion necesaria para realizar la consulta a la base de datos
o por u
ltimo acotar la dimension de la respuesta.
Este sistema de dialogo ha sido creado dentro del proyecto BASURDE financiado
parcialmente por Comision Interministerial de Ciencia y Tecnologa espa
nola (CICYT
TIC98-0423-C06) (1998-2000) cuyo objetivo es el adquirir experiencia en los interfaces
para el acceso a informacion hablados basados en dialogo a traves de la lnea telefonica. En
este proyecto participaron grupos de investigacion de diferentes universidades espa
nolas,
en concreto los grupos de tratamiento del habla y tratamiento del lenguaje natural de la
Universitat Polit`ecnica de Catalunya (UPC), el grupo de tecnologa de las comunicaciones
de la Universidad de Zaragoza, el grupo de reconocimiento automatico del habla de la
Universidad del Pas Vasco (EHU), el grupo de aprendizaje computacional de la Universitat Jaume I de Castellon (UJI) y el grupo de reconocimiento de formas e inteligencia
artificial de la Universidad Politecnica de Valencia (UPV).
Uno de los objetivos del proyecto BASURDE es la creacion de un corpus oral personamaquina, para ello, se penso en la posibilidad de crearlo bajo el paradigma del Mago de Oz
(Fraser y Gilbert, 1991), donde una persona especializada (el mago) controla el dialogo y
responde al usuario como si del propio sistema se tratara. A la hora de aplicar esta tecnica
es indispensable acotar bien la tarea y plantear una serie de situaciones (escenarios) para
que los hablantes las reproduzcan. Ademas el Mago de Oz debe seguir unas normas de
actuacion, a estas se les denomina estrategia del mago y se utiliza en la obtencion de corpus
de dialogo para que este se adapte al modo de actuacion predefinido por los dise
nadores
del Mago de Oz (Life y Salter, 1997).
47
48
Para poder acotar la tarea y crear una estrategia de Mago de Oz realista se analizaron
distintas aplicaciones en las que interviniera dialogo oral para obtener un primer corpus
a analizar. Entre ellas, se escogio la informacion telefonica sobre trenes de viajeros. Las
grabaciones de dialogos persona-persona entre los operadores del servicio de informacion
telefonica de RENFE y usuarios reales fueron el punto de partida para la creacion del
corpus de BASURDE, a este conjunto de dialogos se le denomino corpus PERSONA. En
la elaboracion de este corpus han participado de forma directa los grupos de investigacion
de la UPC (grupo de reconocimiento del habla) y de la UZ. El grupo de la UPC se
encargo de las gestiones con el grupo RENFE, la seleccion y grabacion de los dialogos y la
edicion final del corpus. El grupo de la UZ realizo la tarea de transcribir los dialogos entre
personas. A continuacion se hace una breve descripcion de este corpus cuya descripcion
completa junto sus transcripciones aparecen en (Bonafonte y Mayol, 1999) y (Lleida,
1999) respectivamente.
3.1.
Adquisici
on de los di
alogos del corpus PERSONA
3.1.1.
Criterios de selecci
on de los di
alogos
Se han seleccionado 204 dialogos entre las grabaciones cedidas. Para la seleccion se
han utilizado los siguientes criterios:
Se ha primado las conversaciones de informacion sobre las de reserva (de hecho solo
un peque
no porcentaje de las llamadas que recibe RENFE son de reserva). Algunas
49
3.1.2.
Transcripci
on de los di
alogos del corpus PERSONA
50
3.1.3.
Breve an
alisis del corpus PERSONA
El corpus consiste en 204 dialogos con un total de 7.739 turnos (3.949 Operador +
3.790 Usuario), por tanto, unos 38 turnos (19+19) en promedio. El dialogo mas corto
tiene 8 turnos; el mas largo tiene 179 turnos. En la tabla 3.1 puede verse un histograma
que indica el n
umero de dialogos en funcion del n
umero de turnos. La gran mayora de
los dialogos (el 84 %) tienen entre 10 y 60 turnos.
n turnos
n dlg
< 10
6
n turnos
n dlg
10-19
40
60-69
8
20-29
50
70-79
4
30-39
40
80-89
4
40-49
25
90-99
3
50-59
16
> 99
8
3.2.
Corpus BASURDE
Una vez analizados los datos del corpus PERSONA para delimitar la tarea, se procedio a la adquisicion del corpus de BASURDE bajo el paradigma del Mago de Oz (Fraser
y Gilbert, 1991), donde se dise
na una estrategia para responder al usuario como si del
propio sistema se tratara, para ello se debe establecer una serie de situaciones (escenarios)
para que los hablantes las reproduzcan (Mari
no y Hernando, 1999b). A continuacion se
va a describir el formato de los escenarios, los distintos tipos de escenarios y el n
umero
de dialogos adquiridos de cada uno de ellos, as como una peque
na descripcion del corpus
obtenido a partir de la adquisicion.
3.2.1.
Definici
on de Escenarios
A los efectos de analisis de los dialogos obtenidos mediante las grabaciones con Mago
de Oz interesa que estos se realicen en condiciones controladas: con una estrategia de
1
51
dialogo definida para el Mago y en unas circunstancias concretas para el informante. Este
segundo condicionante se ha descrito mediante escenarios, que incluyen un objetivo (la
informacion que debe obtener el informante) y una situacion que motiva el interes en la
informacion (Lamel et al., 1997). He aqu un ejemplo de escenario:
Objetivo: Precios y horarios de ida y vuelta para ir a una ciudad dada a pasar un
fin de semana.
Situaci
on: Piense en una actividad que practica con unos amigos que viven en una
ciudad (escoja una entre capitales de provincia o de importancia similar) distinta
de su ciudad de residencia. Ha quedado que el fin de semana visitara a sus amigos
para practicar esa actividad en com
un. Desea viajar en un tren rapido pero que no
sea muy caro.
Los escenarios fueron dise
nados conjuntamente por todos los miembros de BASURDE y
se recogen en (Mari
no y Hernando, 1999a) donde tambien se describe la plataforma de
adquisicion del Mago de Oz y la adquisicion de dialogos llevada a cabo por el grupo de
reconocimiento del habla de la UPC. El Apendice D contiene algunos ejemplos de los
diferentes tipos y objetivos de escenarios practicados.
Tipos de escenarios
Para definir los escenarios se han estudiado los dialogos del corpus PERSONA (Seccion
3.1). En estos dialogos se han identificado tres categoras de objetivos que se han descrito
del siguiente modo:
[Tipo A:]
[Tipo B:]
[Tipo C:]
Pregunta
Opcional
alternativa
As, el primer tipo tiene por objetivo obtener el horario de trenes en viajes de ida,
en los que la fecha o el tipo de tren pueden estar especificados o el tipo de tren puede
tambien ser motivo de la consulta. Aunque el origen aparece como opcional, es evidente
que un tren siempre ha de tener un origen y un destino. La opcionalidad del origen ha de
entenderse del siguiente modo: el origen puede ser la ciudad de residencia del informante
y desde la que se hace la consulta (Barcelona o Zaragoza) u otra distinta, que hay que
especificar. Los escenarios B incluyen la consulta sobre precios y el horario puede ser
especificado por el informante. Los escenarios C se refieren a trayectos de ida y vuelta.
Horario, destino, origen, fecha-intervalo, tipo de tren y precio pueden considerarse variables para la formulacion de los escenarios. Las variables que intervienen en un escenario
concreto han de ser instanciadas (se les ha de asignar valor) o bien en la formulacion de
52
3.2.2.
Distribuci
on y transcripci
on de los escenarios
Las grabaciones en Mago de Oz han sido realizadas por 75 informantes, cada uno de
los cuales practicara 3 escenarios: los dos primeros de los tipos A, B o C y el tercero
tipo D. En la distribucion de los escenarios entre los informantes se han respetado las
siguientes condiciones:
Los escenarios practicados por un informante han de corresponder a tipos diferentes.
Los dos primeros escenarios practicados por un informante no deben responder
simultaneamente a variantes semiabiertas.
53
No ha de repetirse ning
un escenario.
Los informantes fueron reclutados entre estudiantes y profesores. Se procuro que hubiera una distribucion equilibrada entre estudiantes y profesores, y entre sexos. Ninguno
de los informantes tiene experiencia en procesado del habla.
La transcripcion y el etiquetado se han realizado en la Universidad de Zaragoza. Existe
un fichero de transcripcion por fichero de voz, es decir, uno para cada canal. Se ha realizado
la transcripcion de acuerdo con los criterios adoptados en el proyecto, que se resumen a
continuacion.
Para la transcripcion del contenido ling
ustico se ha procedido como sigue:
1.
La transcripcion es basicamente ortografica, con solo algunas marcas que representan eventos ac
usticos audibles (de habla o no) presentes en los ficheros de se
nal.
2.
Las palabras mal pronunciadas (no variaciones dialectales) que son inteligibles se
marcan con un asterisco * a la izquierda de la palabra sin espacio. Cuando hay una
secuencia de palabras mal pronunciadas, cada una de ellas se marca individualmente.
3.
Las palabras o secuencias de palabras que son completamente ininteligibles se denotan con dos asteriscos ** con espacio.
4.
5.
transcripci
on .
transcripci
on.
transcripci
on.
Se diferencia entre una frase que ha sido cortada pero que no tiene palabras cortadas
al inicio o al fin y una frase con palabras cortadas. indica el corte de la palabra
marcada, que se transcribe entera. Sin embargo, las frases cortadas sin palabras
cortadas no se marcan.
Los eventos ac
usticos no ling
usticos se han agrupado en cuatro categoras. Estos
eventos solo se transcriben si se distinguen claramente. Se ignoran los eventos de muy
bajo nivel. Los eventos se transcriben en el instante en que ocurren, usando los smbolos
definidos entre corchetes. En el caso de eventos ruidosos que se extienden sobre una o mas
palabras, la transcripcion indica el principio del ruido, justo antes de la primera palabra
a la que afecta. Las dos primeras categoras de estos eventos proceden del informante y
las otras dos proceden de otras fuentes. Los sonidos procedentes del informante no suelen
solaparse con el habla y los sonidos procedentes de otras fuentes pueden solaparse con el
habla.
Las cuatro categoras son:
[ fil ]: Pausa de relleno del informante. Estos sonidos se pueden modelar bien con un
modelo propio en los reconocedores de voz. Ejemplos: ah, mm, . . . .
54
55
3.2.3.
Caractersticas de los di
alogos adquiridos
A partir de los escenarios descritos en los apartados anteriores se adquirieron y posteriormente transcribieron un total de 227 dialogos de los cuales 50 son de tipo A, 51 son de
tipo B, 51 son de tipo C y 75 de tipo D. Los dialogos contienen un total de 4.884 turnos,
2.333 de usuario y 2.551 de sistema (Mago), lo cual nos lleva a una media de 21,5 turnos.
El dialogo con menos turnos contiene 7 turnos y el mas grande 105 turnos. En cuanto
al vocabulario, los dialogos contienen un total de 61.843 palabras de las cuales 2.402 son
nombres de ciudad. Hay 860 palabras distintas y de ellas 101 son nombres de ciudad. La
longitud media de caracteres por palabra es de 5,4. La frase mas larga esta compuesta de
100 palabras y la mas corta de 1 palabra, el n
umero medio de palabras por turno es de
aproximadamente 14,6 palabras.
3.3.
Representaci
on sem
antica en Frames
La representacion de la semantica de la tarea se basa en el concepto de Frame (Fillmore, 1968) todo mensaje enviado por el modulo de comprension y por cada intervenci
on
del usuario al m
odulo de di
alogo, es un frame. En algunos casos este frame se corresponde
con una consulta completa a la base de datos, en otros son solo una lista de restricciones
a a
nadir a la semantica de intervenciones anteriores; tambien se puede expresar con un
frame una peticion de confirmacion sobre datos, una afirmacion, etc. Los grupos de tratamiento del lenguaje natural de la UPC y el grupo de la UPV se encargaron de definir
los frames de la tarea que se recogen en (Segarra et al., 2000).
Para tratar esta variabilidad se ha definido como unidad de comunicacion o interfaz
comprension-dialogo el llamado frame can
onico, un formato estandar de frame que permite explicitar el tipo particular de cualquier frame y sus caractersticas, p.e. conceptos,
atributos y valores susceptibles de aparecer en el.
Dos decisiones que se han tomado a priori son:
las fechas y horas expresadas por el usuario se traduciran a una forma canonica.
el modulo de comprension no va a propagar al modulo de dialogo las redundancias,
de forma que si en la frase de entrada se nombra un determinado concepto o valor
varias veces se propagara una u
nica instancia del mismo. Sin embargo, informaciones
diferentes sobre el mismo atributo se propagan todas. El conocimiento que el modulo
de comprension tiene sobre el estado e historia del dialogo es nulo, por lo que
pensamos no debe tomar decisiones de eliminacion de ning
un valor expresado en
56
El criterio con el que se han definido hasta ocho tipos de frames es el tipo de pregunta
realizada por el usuario en una intervencion. En particular, un usuario puede hacer una
intervencion de dos tipos:
Dependiente de la tarea: si hace una consulta (completa o incompleta o de vuelta) o una peticion de confirmacion o expresa falta de comprension sobre un concepto
dependiente de la tarea. Hablaremos de frame de consulta, frame incompleto, frame
de vuelta, frame de confirmacion y frame de falta de comprension respectivamente.
Independiente de la tarea: si hace una intervencion propia del tipo de comunicacion que se establece en cualquier tarea de dialogo. En particular, se han establecido
tres tipos de preguntas de este genero: afirmacion, negacion y cierre. Hablaremos de
frame de afirmacion, frame de negacion y frame de cierre respectivamente.
Para el caso de una intervenci
on dependiente de la tarea, se ha determinado la siguiente
lista de conceptos susceptibles de aparecer en el frame canonico correspondiente.
-
HORA-SALIDA
PRECIO
ESTACION-DESTINO
PARA-EN
SERVICIOS
FECHA-LLEGADA
HORA-LLEGADA
ESTACION-ORIGEN
TIEMPO-RECORRIDO
TIPO-TREN
FECHA-SALIDA
CIUDAD-ORIGEN
PARA-EN
ESTACION-DESTINO
FECHA-LLEGADA
INTERVALO-FECHA-LLEGADA
TIPO-DIA-LLEGADA
HORA-LLEGADA
INTERVALO-HORA-LLEGADA
TIPO-VIAJE
NUMERO-RELATIVO-ORDEN
TIEMPO-RECORRIDO
CIUDAD-DESTINO
ESTACION-ORIGEN
FECHA-SALIDA
INTERVALO-FECHA-SALIDA
TIPO-DIA-SALIDA
HORA-SALIDA
INTERVALO-HORA-SALIDA
TIPO-TREN
CLASE-BILLETE
PRECIO
SERVICIOS
En esta lista estan recogidos atributos para los que, en la frase de entrada, se fija
un determinado valor. Los valores que pueden tomar estos atributos se recogen en mas
adelante en la Seccion 3.4 de este Captulo.
57
En la siguiente lista enumeramos los atributos que han ido apareciendo en los dialogos
estudiados y que hacen referencia a valores que no se explicitan en la frase de entrada,
sino que son valores que debe conocer el controlador de dialogo, ya que se han fijado en
intervenciones anteriores a la actual.
-
TREN-ACTUAL
FECHA-ACTUAL
TRAYECTO-ACTUAL
CIUDAD-DESTINO-ACTUAL
- HORA-ACTUAL
- MES-ACTUAL
- CIUDAD-ORIGEN-ACTUAL
Por tanto, y a modo de resumen, cada intervencion del usuario (consulta, confirmacion,
etc. . . ) generara uno o varios frames. Por ejemplo, las frases:
la frase Dgame los precios y el horario de los trenes hacia Barcelona disparara dos
frames de consulta en los que apareceran los conceptos PRECIO y HORA-SALIDA y
el atributo CIUDAD-DESTINO con valor Barcelona que afectara a ambos conceptos;
la frase Si. Pero ha habido un error, en realidad yo quiero ir de Valencia a Alicante
disparara un frame de AFIRMACION y un frame incompleto en el que apareceran
como atributos CIUDAD-ORIGEN con valor Valencia y CIUDAD-DESTINO con valor
Alicante.
Ahora bien, si en una consulta no se especifica el concepto, como por ejemplo en la
frase Dgame los trenes para Valencia, por defecto se dispara el frame HORA-SALIDA;
es decir, se supone que Dgame los trenes para Valencia pregunta por los horarios de
los trenes para Valencia.
Definimos el frame canonico o formato de cualquier tipo de frame como sigue:
Parte 1 o Cabecera: entre parentesis, en el caso de los frames de consulta el nombre
del concepto por el que se pregunta y en los otros tipos de frames el nombre del
tipo de frame.
Parte 2 o Lista de Pares Atributo-Valor afectados por la pregunta: En cada par el
smbolo : separa el atributo de su valor.
(nombre concepto/tipo de frame)
nombre atributo 1: valor atributo 1
......
nombre atributo i: valor atributo i
......
nombre atributo n: valor atributo n
58
Deseo informaci
on sobre el horario, precio y tipo de tren de Barcelona a Madrid Chamartn.
(HORA-SALIDA)
CIUDAD-ORIGEN: Barcelona
ESTACION-DESTINO: Madrid Chamartin
(PRECIO)
CIUDAD-ORIGEN: Barcelona
ESTACION-DESTINO: Madrid Chamartin
(TIPO-TREN)
CIUDAD-ORIGEN: Barcelona
ESTACION-DESTINO: Madrid Chamartin
Conviene notar que se considera el posible uso de partculas de negacion o reafirmacion de un cierto valor de un atributo (NO, SI). En los casos en que aparece alguna
de estas partculas, el valor del atributo se parentizara. Cuando hay varios valores
para el mismo atributo se expresa dando la lista de todos ellos. Por ejemplo:
Dime los horarios del primer y del segundo tren que salga hacia Madrid.
(HORA-SALIDA)
CIUDAD-DESTINO: Madrid
NUMERO-RELATIVO-ORDEN: primero segundo
59
Este u
ltimo ejemplo ilustra el tratamiento que se lleva a cabo en las intervenciones
en las que se corrige alg
un dato.
Frame de Confirmaci
on se corresponde con una peticion explcita de confirmacion por
parte del usuario. En este tipo de intervenciones se da/n un/os nombre/s de atributo/s y un/os valor/es que se pretende/n confirmar. El formato de un frame de este
tipo, su frame canonico correspondiente, es el mismo que el definido para un frame
de consulta pero con cabecera (CONFIRMACION). Se hace uso de una cierta parentizacion para se
nalar los pares atributo-valor afectados por la confirmacion. Por
ejemplo:
Quisiera saber si el de las 10.50 es un Talgo.
(CONFIRMACION)
TIPO-TREN: Talgo
HORA-SALIDA: 10.50
60
Este frame puede no aparecer aislado, sino como inicio de una lista de frames de
diferentes tipos. Por ejemplo,
Puede repetir el horario? , origina el frame canonico compuesto
(NO-ENTENDIDO)
(HORA-SALIDA)
Frame de Afirmaci
on expresa la respuesta afirmativa a una pregunta del sistema. Su
formato, frame canonico correspondiente, contiene una u
nica linea con cabecera
(AFIRMACION). Por ejemplo, si en un momento dado de un dialogo el sistema
acaba de preguntar al usuario:
SIST: :Quiere viajar desde Valencia a Alicante?
Y el usuario responde:
US: Exactamente,
el frame canonico correspondiente sera:
(AFIRMACION)
En general este frame no aparece aislado, sino como inicio de una lista de frames de
diferentes tipos. Por ejemplo, si a la pregunta del sistema,
SIST: :Desea alguna informaci
on m
as? ,
el usuario responde:
61
Frame de Negaci
on corresponde a una respuesta negativa a una pregunta del sistema.
Su formato, frame canonico correspondiente, contiene una u
nica linea con cabecera
(NEGACION).
Frame de Cierre expresa cierre de dialogo. Su formato contiene una u
nica linea con
cabecera (CIERRE). Por ejemplo, si en un momento dado de un dialogo el sistema
acaba de preguntar al usuario:
SIST: Desea alguna informaci
on adicional?.
Y el usuario responde:
US: No. Muchas gracias.,
el frame canonico correspondiente a este cierre de dialogo es:
(CIERRE)
3.4.
En este apartado se muestran los posibles valores que los cases (atributos) asociados
a cada frame pueden alcanzar.
Cases que hacen referencia a ciudades y estaciones podran tomar los valores que
se determinen en el vocabulario de la tarea.
En cuanto al case PARA-EN, puede adquirir, ademas de los valores que se determinen
en el vocabulario de la tarea, el valor directo en el sentido de sin paradas.
Cases que hacen referencia a fechas Para las fechas se ha fijado el formato:
FECHA-SALIDA/LLEGADA:
INTERVALO-FECHA-SALIDA/LLEGADA:
DD-MM-AAAA
DD-MM-AAAA/DD-MM-AAAA
62
63
64
Captulo 4
M
odulo de comprensi
on
Una definicion generica de un sistema de Comprension del Lenguaje, es la de una
maquina que acepta cadenas de palabras como entrada y produce frases de un cierto
lenguaje semantico que especifica las acciones que se van a llevar a cabo. Bajo este punto
de vista, la Comprension del Lenguaje es un proceso de traduccion. Para implementar
este proceso se pueden emplear una serie de tecnicas de inferencia para aprender, de forma
automatica, el traductor necesario a partir de un conjunto de muestras de entrada y salida
de entrenamiento.
En este trabajo se describe la aplicacion de traductores inferidos de forma automatica a una tarea de comprension en el marco de los sistemas de dialogo para entornos
semanticamente restringidos.
4.1.
Modelo de traducci
on para la comprensi
on
66
desarrollado para los proyectos RAILTEL y ARISE (Minker, 1999b) del LIMSI.
Secuencia de pares
segmento/
unidad semantica
Frase de Entrada
Decodificacion
FRAME
Generacion
de FRAME
ortografica/semantica
v = v1 v2 ...vn ,
vi V
para i = 1, ..., n
Cada frase de entrada en W tiene un par (u,v) asociado a ella, donde v es una
secuencia de unidades semanticas y u es una secuencia de segmentos de palabras de la
frase. A continuacion sigue un ejemplo:
Par de entrada (u,v)=(u1 u2 u3 u4 , v1 v2 v3 v4 ) donde:
u1 :
u2 :
u3 :
u4 :
quisiera
horarios de trenes
a
Alicante
v1 :
v2 :
v3 :
v4 :
consulta
<hora s>
m destino
ciudad destino
67
(HORA-SALIDA)
CIUDAD-DESTINO: Alicante
4.2.
4.2.1.
El lenguaje sem
antico intermedio
68
69
70
US : el primero de ese da ?
el primero : numero relativo orden s
de ese da : fecha actual
b) Los marcadores de algunos atributos:
m origen (le sigue de cerca la ciudad o estacion origen)
m destino (le sigue de cerca la ciudad o estacion destino)
m salida (le sigue de cerca alguno de los cases de salida)
m llegada (le sigue de cerca alguno de los cases de llegada)
m dato valido (le sigue de cerca el valor de un dato que se confirma)
not (le sigue de cerca el valor de alg
un dato que se niega)
El uso de estos marcadores puede apreciarse en el ejemplo anterior para el caso de
la ciudad de origen y la estacion destino del trayecto solicitado.
...
de : m origen
barcelona : ciudad origen
a : m destino
madrid chamartn : estacion destino
c) Unidades que hacen referencia al tipo de intervencion del usuario, y que generalmente se corresponden con actos de dialogo:
consulta
<confirmacion>
<no entendido>
<afirmacion>
<negacion>
Por ejemplo, a continuacion se muestra una intervencion de usuario y su traduccion
correspondiente:
US : s . me lo repite.
s : <afirmacion>
me lo repite : <no entendido>
d) Unidades sin relevancia semantica para la tarea.
nada (segmentos de relleno)
<cortesa> ( formula de cortesa)
<cierre> (formula de cortesa de cierre de dialogo)
A continuacion se muestra un ejemplo de etiquetado de fragmentos de una inter-
71
vencion de usuario con la etiqueta nada, para el caso de palabras sin significado
semantico relevante:
si pudiera ser : nada
no le he comentado que : nada
o para servicios que se encuentran fuera de la tarea:
el aeropuerto de : nada
Por ejemplo la u
ltima intervencion de un usuario al final del dialogo, se etiquetara/segmentara de la siguiente forma:
...
SIS : Desea usted algo m
as?
US : no gracias .
no gracias:<cierre>
4.2.2.
72
Una de las ventajas de esta aproximacion, es que podemos escoger la tecnica de aprendizaje mas adecuada para la estimacion de cada modelo (el modelo semantico y el modelo
de unidad semantica). La u
nica restriccion es que la representacion de estos modelos debe
darse en forma de un automata de estados finitos.
4.2.3.
73
Proceso de an
alisis por Viterbi
max
l1 ,l2 ,...ln1
{P (w1 , ..., wl1 |v1 ) P (wl1 +1 , ..., w(l1 +l2 ) |v2 ) ...
... P (w(l1 +l2 +...+ln1 )+1 , ..., wm |vn )}
j
Y
P (wk |wk1 , vs )
k=i
El termino P (v) es estimado en terminos de la probabilidad de la secuencia de conceptos asociada a la frase de entrada, donde si suponemos que esta probabilidad solo depende
de la categora anterior (bigramas) sera:
P (v) =
n
Y
P (vi |vi1 )
i=1
74
max
q pred(q)
{P (q , t 1) P (q|q , wt )}
0
donde qvfk es el estado final del automata Avk asociado a la unidad semantica vk V y
P (vj |vk ) es la probabilidad de la secuencia de unidades semanticas v k vj
En la Figura 4.3 aparece un ejemplo de esta traduccion.
4.2.4.
Modelo de comprensi
on de dos niveles con unidades POS y sem
anticas
En los u
ltimos a
nos, los modelos estocasticos, que son automaticamente estimados a
partir de los datos, han sido ampliamente utilizados en el modelado de la comprension del
lenguaje natural (Levin y Pieraccini, 1995) (Schwartz et al., 1996) (Minker, 1999b) (Segarra et al., 2001). La gran mayora de estos trabajos se basan en la definicion de secuencias
de palabras como unidades semanticas basicas para los modelos de lenguaje semanticos.
En muchos de ellos la definicion de clases de palabras es necesaria para obtener una alta
cobertura a partir de los datos (el problema de la carencia de datos esta siempre presente
75
cuando se emplean tecnicas de aprendizaje automatico). Esta aproximacion al problema de la comprension del lenguaje presenta una fuerte similitud con la aproximacion
estocastica aplicada en los u
ltimos tiempos (Brants, 1999) (Pla, Molina, y Prieto, 2000c)
(Pla, Molina, y Prieto, 2000a) al problema del etiquetado de textos, donde el objetivo no
es solo asociar la etiqueta POS a las palabras sino detectar algunas estructuras sintacticas tales como NP, VP, PP, etc. En el primer caso, los segmentos representan unidades
semanticas, y en el segundo, unidades sintacticas.
La aproximacion que se presenta en este apartado trata el problema de forma similar a
la aproximacion estocastica para la deteccion de estructuras sintacticas (Shallow Parsing
or Chunking) en las sentencias en lenguaje natural. Sin embargo, en este caso, los modelos
de lenguaje estocasticos se basan en la deteccion de algunas unidades semanticas a partir
de los turnos de usuario del dialogo.
Descripci
on de los modelos estoc
asticos de dos niveles basados en etiquetas
POS
Se propone una aproximacion basada tambien en modelos estocasticos a 2 niveles.
Este modelo va a combinar diferentes fuentes de conocimiento a dos niveles. En el nivel
superior se encuentran modeladas las secuencias de unidades semanticas del lenguaje
intermedio. La diferencia con lo explicado anteriormente es que en este caso el nivel
inferior se representa la estructura interna de cada una de las unidades semanticas en
terminos de categoras lexicas (palabras, POS, lemas) (Pla, Molina, y Prieto, 2000a) Para
la modelizacion de los 2 niveles se emplean modelos de bigramas suavizados a partir
de la tecnica de Back-Off (Katz, 1987) para alcanzar la maxima cobertura del lenguaje
considerado. Las probabilidades se obtienen con el SLMtk a partir de las secuencias de
diferentes unidades del conjunto de entrenamiento.
Cuando se aprenden modelos de palabras para modelar la estructura de las unidades
semanticas el tama
no de estos es muy grande pese al uso de la categorizacion de ciertas
palabras con identico significado semantico (ciudades, n
umeros, etc. . . ). Por ello, se propone un metodo alternativo basado en las etiquetas POS (figura 4.4). Para ello, se emplea
un etiquetador de Castellano (Pla, Molina, y Prieto, 2000a) que nos proporciona la etique-
76
...
...
Sj
</s>
Ci
[Si
...
Cj
...
Si]
Ck
Si
(a) Semantic Model
w1
...
wn
<s>
...
Ci
[Si
...
Cj
...
Si]
...
</s>
Ck
Ci
[Si
...
...
Cj
Si]
Ci
[Si
...
Cj
...
Si]
Ck
Ck
(c) Integrated LM
wn
...
wi
...
w1
wn
...
wi1
wi+1
...
w1
Ci
Ci
77
wi
C i|wi
palabra wi . De esta forma, se obtiene un nuevo estado (el que aparece en negrita) donde
solo puede ser emitida la palabra w i con una probabilidad lexica igual a 1.
4.3.
Una vez segmentada la frase de entrada y traducida a un lenguaje semantico intermedio esta se ha de convertir en un frame, para ello se hace preciso el reorganizar los
contenidos hallados en la frase de entrada y convertir aquellos valores relativos o cualitativos en valores cuantitativos, siguiendo aquellas normas que se describieron en el
apartado 3.3 dedicado a la descripcion de los frames de la tarea. Estas normas convierten
expresiones como por la ma
nana en valores concretos: entre 5.00 y 13.00. Un sistema
basado en reglas sera el encargado de realizar esta transformacion a frame a partir de las
segmentaciones en lenguaje semantico intermedio.
A continuacion se explican algunas de las peculiaridades del traductor a frame.
4.3.1.
Perdida de la secuencialidad
78
4.3.2.
El frame de vuelta
79
TIEMPO-RECORRIDO
SERVICIOS
4.3.3.
Unidades sem
anticas no utilizadas en la traducci
on
Existe una serie de unidades semanticas del lenguaje intermedio que, dada su naturaleza de marcadores, no son utilizadas en el proceso de elaboracion de los frames. Estos
segmentos simplemente son ignorados por el traductor. Se trata de segmentos utilizados
como marcadores o que representan explcitamente partes de la frase carentes de informacion relevante o mal reconocidas. Estas unidades son:
nada
<cortesia>
<consulta>
m origen
m destino
m salida
m llegada
4.3.4.
Unidades sem
anticas que generan frames
Otra serie de unidades semanticas del lenguaje intermedio hacen que el traductor
genere un frame. Estas unidades son:
<hora s>
<hora a>
<fecha s>
<fecha a>
<precio>
<estacion origen>
<estacion destino>
<tiempo recorrido>
<para en>
<tipo tren>
<servicios>
Por ejemplo:
Lenguaje sem
antico intermedio:
querra saber :
el precio :
<consulta>
<precio>
(ignorado)
(genera el frame)
Traducci
on a frame:
(PRECIO)
4.3.5.
Unidades sem
anticas que generan atributos
El traductor a frame genera tambien los atributos de los frames basandose en las
unidades semanticas. La relacion entre las unidades semanticas del lenguaje intermedio y
80
querra
horarios
a partir de
las cuatro
Lenguaje sem
antico intermedio:
: <consulta>
(ignorado)
: <hora s>
(genera el frame)
: intervalo hora s (genera atributo)
: hora s
(genera atributo)
Traducci
on a frame:
(HORA-SALIDA)
INTERVALO-HORA-SALIDA: >= 16.00
muchos a muchos. Varias unidades semanticas generan varios atributos. Normalmente se produce cuando una misma unidad afecta a varios atributos:
querra
horarios
a partir de
las cuatro
o las cinco
Lenguaje sem
antico intermedio:
: <consulta>
(ignorado)
: <hora s>
(genera el frame)
: intervalo hora s (genera atributo)
: hora s
(genera atributo)
: hora s
(genera atributo)
Traducci
on a frame:
(HORA-SALIDA)
INTERVALO-HORA-SALIDA: >= 16.00 >=17.00
4.3.6.
Existen algunas intervenciones del usuario en las cuales no se demanda mas informacion, sino que se aportan nuevas restricciones sobre la consulta ya realizada. Se trata
de refinamientos a las consultas formuladas en intervenciones anteriores. Este tipo de intervenciones se caracteriza por la ausencia de unidades semanticas que generen frames y
s por otras unidades que generan atributos.
Cuando una intervencion del usuario solo genera atributos estos se incluyen dentro de
un frame incompleto denotado como () que indica que se trata de una intervencion de
refinamiento, es decir de ampliacion de las restricciones.
el ocho
de enero
a partir de
las cuatro
Lenguaje sem
antico intermedio:
: dia mes s
(genera atributo)
: mes s
(genera atributo)
: intervalo hora s (genera atributo)
(genera atributo)
: hora s
Traducci
on a frame:
(frame incompleto)
FECHA-SALIDA: 08/01/??
INTERVALO-HORA-SALIDA: >= 16.00 >=17.00
()
81
82
Captulo 5
Aproximaciones Gramaticales
Como se ha se
nalado en el captulo 2, el formalismo de los N-gramas es el mas empleado en la modelizacion tanto de los modelos de lenguaje para el reconocimiento como para
la comprension. Sin embargo, estos presentan el inconveniente de no reflejar adecuadamente la estructura completa de la frase, lo cual redunda en una deficiente modelizacion
de las relaciones de larga distancia entre terminos. Ademas existen diferentes clases de
errores que se pueden dar al emplear estos formalismos, como son la concordancia entre
sujeto y verbo y ambig
uedades entre terminos etc., y que se pueden evitar utilizando
aproximaciones gramaticales (Derouault y Merialdo, 1986).
En este captulo se propone la utilizacion de tecnicas de inferencia gramatical (Fu y
Booth, 1975), para abordar el problema de la representacion del lenguaje hablado desde
un formalismo gramatical (en concreto gramaticas regulares) que incorpora el aprendizaje
basado en los datos. Desde este punto de vista se pretende aglutinar las principales ventajas de dos aproximaciones clasicas a la modelizacion del lenguaje que se han se
nalado
anteriormente. De forma resumida estas son las siguientes:
Aprendizaje a partir de un conjunto de datos, al igual que los N-gramas.
Flexibilidad, es decir, tolerancia a las construcciones ling
usticas no estrictamente
correctas, pero aceptables, caracterstica de los modelos basados en N-gramas.
Representacion natural de las restricciones del lenguaje, es decir de sus estructura
global, caracterstica de los modelos basados en gramaticas.
Las tecnicas que aqu se presentan se van a aplicar a la construccion del modulo de
comprension del sistema de dialogo BASURDE.
5.1.
Algoritmo ECGI
El algoritmo de inferencia gramatical basado en Analisis Corrector de Errores (ECGI) (Rulot, 1992) es un heurstico que construye una gramatica regular (o el equivalente
automata de estado finitos) de una forma incremental a partir de un conjunto de muestras
positivas, consideradas una detras de otra. Como tal heurstico, incorpora directamente
83
84
(B aC) (A bC) a = b
; A, B, C N, a, b V
85
(a) Gram
atica inicial obtenida con la muestra aabb
c
(b) Gram
atica obtenida con acbb
(c) Gram
atica obtenida con aaabb
a
a
e
a
(d) Gram
atica obtenida con abb
Figura 5.1: Automata de estados finitos A inferido con el algoritmo ECGI a partir de la
muestra S = {aabb, acbb, aaabb, abb}
El mecanismo de construccion genera un nuevo arco (en negrita). Como puede observarse
al lenguaje inferido pertenecen no solo las muestras de aprendizaje, sino tambien otras
cadenas de similares caractersticas (en este caso solo una cadena, aacbb).
86
5.1.1.
Descripci
on y Propiedades del Algoritmo ECGI
Algoritmo ECGI
Datos: R+ = {0 , 1 , . . . , m };
Inicializaci
on: Gn = (S, V, Nn , Pn );
N0 = {A0 , A1 , . . . , Am }S = A0 ; F = Am ;
P0 = {A0 a1 A1 , A0 a2 A2 , . . . , Am1 am Am };
Iteraci
on
k = 1 . . . n hacer /* k = a1 , a2 , . . . , aT */
ANALISIS:
/*Obtener una derivaci
on o
ptima con correcci
on de errores de k */
0
CONSTRUCCION:
subsequencia
0
0
0
0
(Ci1 ai Ci ), (Ci ai+1 Ci+1 ), . . . , (Cj1 aj Cj ), (Cj aj+1 Cj+1 )
de reglas de error (en negrita), comprendidas entre las dos de no error
0
0
(Ci1 ai Ci ), (Cj aj+1 Cj+1 )
0
0
0
Sea w = b1 b2 , . . . , bl la secuencia ai+1 ai+2 , . . . , aj sin smbolos nulos e.
A
nadir:
si w = entonces /* si es cadena vaca */
0
Pk = Pk1 {(Ci aj+1 Cj+1 )} /*A
nadir una transici
on (regla)*/
sino /*A
nadir nuevos estados (no terminales) y transiciones (reglas)*/
0
0
0
Nk = Nk1 {C1 , C2 , . . . , Cl }
0
0
0
0
0
Pk = Pk1 {(Ci b1 C1 ), (C1 b2 C2 ), .., (Cl1 bl Cl ), (Cl bj+1 Cj+1 )
finsi
finpara
finpara
fin ECGI
87
88
5.1.2.
Aplicaci
on del algoritmo ECGI como modelo de lenguaje para la
comprensi
on de BASURDE
89
Este criterio conduce a modelos mas compactos y que permiten una mayor cobertura del
lenguaje como se demuestra en la tesis de (Prieto, 1995).
Se ha aplicado el ECGI para el aprendizaje del modelo de lenguaje de las secuencias
de etiquetas semanticas (modelo superior), as como a las secuencias de palabras que han
sido etiquetadas con la misma etiqueta semantica (modelo inferior).
A continuacion vamos a mostrar la aplicacion del ECGI sobre un conjunto de muestras de aprendizaje de la etiqueta semantica consulta ordenadas seg
un el criterio LCS,
{me podra decir cu
al es, me gustara saber cu
al es, mire me gustara saber, me podra
confirmar, me podra informar, podra saber}
En la Figura 5.3 se muestran los seis automatas generados a partir de las muestras
de entrenamiento de la etiqueta consulta. Como puede observarse en la Figura 5.3 (c)
en vez de crearse un bucle sobre el estado 0 con la etiqueta mire, se genera un nuevo
camino a
nadiendo un nuevo estado 1 y dos nuevas transiciones, lo que permitira la
generalizacion y que el modelo pueda llegar a reconocer hasta 14 frases, es decir 8 nuevas frases que no pertenecan al lenguaje que son: {mire me podra decir cu
al es, mire
me gustara saber cual es, me gustara saber,mire me podra confirmar, mire me podra
informar, podra confirmar, podra informar, podra decir c
ual es}
5.2.
5.2.1.
90
me
podra
decir
cul
es
(a) Gram
atica inicial obtenida con la muestra me podra decir cu
al es
podra
me
decir
gustara
es
cul
saber
cul
7
(b) Gram
atica obtenida con me gustara saber cu
al es
mire
0
me
podra
2
me
decir
cul
cul
gustara
5
saber
es
(c) Gram
atica obtenida con mire me gustara saber
confirmar
es
mire
podra
me
decir
cul
cul
0
me
gustara
5
saber
(d) Gram
atica obtenida con me podra confirmar
confirmar
informar
mire
podra
me
es
4
me
gustara
cul
7
cul
decir
saber
6
(e) Gram
atica obtenida con me podra informar
91
saber
confirmar
8
informar
podra
3
podra
0
mire
1
me
decir
me
es
4
cul
7
cul
gustara
5
saber
(f) Gram
atica obtenida con podra saber
Figura 5.3: Automatas inferidos con el algoritmo ECGI para la unidad semantica
consulta a partir de las muestras {me podra decir cu
al es, me gustara saber cu
al es,
mire me gustara saber, me podra confirmar, me podra informar, podra saber}
5.2.2.
Una extension de la familia de los k-TSS son los k-explorables en sentido estricto con
umbral (k,r)-TTSS (Ruiz, Espa
na, y Garca, 1998). Los lenguajes (k,r)-TTSS se describen
de forma similar a los k-TSS. La diferencia es que en los lenguajes (k,r)-TTSS, la frecuencia
de segmentos de longitud k es controlada hasta un lmite r 1 (los lenguajes k-TSS son
una instancia especfica de los lenguajes (k,r)-TTSS, para el caso r = 1). Si una palabra
x pertenece a un lenguaje (k,r)-TTSS para unos valores dados de k y r, cualquier palabra
y puede a su vez pertenecer a L si y solo si cumple los siguientes tres requerimientos:
Que comience y termine por los mismos segmentos de longitud k 1 que x.
Que la frecuencia de cada segmento de longitud menor o igual que k en y sea la
misma que en x si esta frecuencia es menor que r.
Si la frecuencia de un segmento de longitud menor o igual que k en x es mayor o
igual que r entonces la frecuencia de ese segmento en y tambien es mayor o igual
que r.
Se definen los lenguajes k-TTSS mediante dos conjuntos, de prefijos y sufijos de longitud menor que un cierto k y por un conjunto de segmentos restringidos de longitud menor
o igual que k. Cada segmento en el conjunto de segmentos restringidos lleva asociado un
nivel de restriccion menor que un cierto umbral r. Si este nivel es cero el segmento es
prohibido.
El lenguaje definido de esta forma contiene aquellas palabras que comienzan y terminan en los conjuntos indicados y tales que ning
un segmento restringido puede ocurrir
en ellas por encima de su nivel de restriccion. Para cada valor de k, el valor r = 1 se
corresponde con la familia de los lenguajes k-explorables en sentido estricto.
92
5.2.3.
Inferencia de (k,r)-TTSS
En (Ruiz, Espa
na, y Garca, 1998) se presenta un algoritmo de agrupamiento de
estados eficiente capaz de identificar la familia de lenguajes (k,r)-TTSS.
Este algoritmo (k,r)-TTSSI se muestra en la Figura 5.4, donde S es una muestra
de aprendizaje, es el alfabeto sobre el que esta definida la muestra, AF D son las
siglas de automata finito determinista, T k,r (S) representa el conjunto de segmentos de
longitud menor o igual que k cuyo n
umero de ocurrencias en las palabras de la muestra
esta por debajo de un umbral r, P T A son las siglas de arbol aceptor de prefijos, P r(S)
es el conjunto de prefijos del conjunto de cadenas S, f k1 (x) : x S es el conjunto de
segmentos finales de longitud k 1 y es la congruencia definida en la figura. Estos
conceptos aparecen ampliamente explicados en (Ruiz, Espa
na, y Garca, 1998).
Algoritmo (k, r) T T SSI
Entrada:
S , k 1, r 1
Salida:
M
etodo:
A0 = (Q, , , q0 , F ) con
0
Ak,r := A0 /
Fin Algoritmo
Figura 5.4: Algoritmo (k,r)-TTSSI para la inferencia de la familia de lenguajes (k,r)-TTSS
L(Ak+1,r ) L(Ak,r )
L(Ak,r+1 ) L(Ak,r )
Por otra parte, el algoritmo puede ser implementado de modo que trabaje de manera
incremental, es decir, que si un nuevo dato es considerado, la nueva hipotesis puede
obtenerse solo a partir de este nuevo dato y de la hipotesis en curso.
93
a
6
a
1
10
a
11
12
10
11
12
fk1 (P r(S))
|v|aa
|v|bb
0
0
En las Figuras 5.6, 5.7 y 5.8 se muestra los sucesivos pasos para crear A 0 y el automata
0
cociente A0 / , asimismo se construye el automata cociente para la muestra S con el valor
de r = 1.
b
3
a
4
b
5
a
6
a
1
a
8
a
9
b
10
a
11
12
5.2.4.
Aplicaci
on del algoritmo (k,r)-TTSSI como modelo de comprensi
on BASURDE
Los lenguajes (k,r)-TSSI se definen por medio de los conjuntos de los prefijos y sufijos
de longitud < k y por el conjunto de segmentos restringidos de tama
no <= k. Cada
segmento en el conjunto de segmentos restringidos es asociado a un nivel de restriccion,
que es menor que un umbral dado r. El lenguaje definido de esta manera contiene las
94
{3,5,7,10,12}
{4,6,11}
a
1
b
{2,9}
8
0
a
a
b
a
palabras que empiezan y terminan con elementos de los conjuntos antes mencionados de
tal manera que ninguno de los segmentos restringidos aparezcan un n
umero de veces mas
alla del nivel de restriccion. En (Ruiz, Espa
na, y Garca, 1998) se muestra la aplicacion
del algoritmo (k,r)-TSSI para el reconocimiento de dgitos manuscritos y se muestra la
evolucion del proceso de aprendizaje conforme varan r y k.
Para aplicaciones de comprension del lenguaje el alfabeto de la tarea consiste en un
conjunto de palabras, y un elemento de las muestras de entrenamiento consiste en una
frase en lenguaje natural. Para este tipo de tareas, los lenguajes (k,r)-TTSS son de interes
porque son capaces de representar las concatenaciones permitidas de las secuencias de k
palabras, y al mismo tiempo asegurar que la frecuencia de estas secuencias es mayor que
un cierto umbral r.
En la Figura 5.9 se muestra el automata obtenido a partir del conjunto de muestras
positivas de secuencias de palabras {me podra decir cu
al es, me gustara saber cu
al es,
mire me gustara saber, me podra confirmar, me podra informar}, etiquetadas con la
etiqueta semantica consulta.
Como se puede observar en la Figura 5.9 (a) el automata obtenido con los valores de
r = 2 y k = 2 corresponde al arbol aceptor de prefijos, en la Figura 5.9 (b) se muestra
el resultado para los valores de r = 1 y k = 2, este automata es equivalente al automata
que se obtiene utilizando un modelo de bigramas. Este automata en comparacion con
el obtenido con el ECGI permite reconocer una nueva frase que no se encontraba en el
lenguaje: podra saber cu
al es.
2
podra
95
cul
decir
confirmar
14
es
informar
15
me
mire
podra
10
gustara
me
11
saber
16
saber
cul
gustara
12
saber
es
13
17
a) Aut
omata obtenido con las muestras de la etiqueta consulta para r = 2 y k = 2
informar
confirmar
11
es
podra
8
podra
0
mire
decir
saber
cul
6
cul
me
4
me
gustara
saber
5
b) Aut
omata obtenido con las muestras de la etiqueta consulta para r = 1 y k = 2
5.3.
96
5.3.1.
5.3.2.
La estrategia de suavizado
Para poder utilizar el SLMtk y obtener una version probabilstica suavizada del modelo
regular, que ha sido previamente inferida a partir de una muestra, necesitamos una funcion
de reetiquetado que convierta la muestra original en una nueva muestra. El proceso se
muestras a continuacion:
Sea el alfabeto de la tarea, sea S la muestra de entrenamiento, y sea x S
una palabra de la muestra S tal que x = a 1 a2 a|x| donde ai , i = 1, |x|.
Sea A = (Q, , , 1, F ) el automata finito inferido a partir de S a traves de un cierto
algoritmo de inferencia gramatical, tal que S L(A). Sea Q = {1, 2, , |Q|} el conjunto
de estados del automata A.
Debido al hecho de que x L(A), existe al menos un camino que acepta x en
el automata A, empezando en el estado inicial 1 y acabando en un estado final. Sea
1, i1 , i2 , . . . , i|x| la secuencia de estados que corresponden a este camino en A donde
i|x| F .
0
97
c
2
a
1
Figura 5.10: Automata de estados finitos A inferido con el algoritmo ECGI a partir de la
muestra S = {aabb, acbb, aaabb, abb}
(a,7)
a,7
(a,2)
a,2
(a,2)
1
(c,6)
c,6
(b,4)
(a,3)
(a,3)
(b,4)
b,4
(b,5)
b,5
a,3
Figura 5.11: Automata de estados finitos A inferido con el algoritmo 2-TSS a partir de
0
la muestra anotada S = {f (aabb), f (acbb), f (aaabb), f (abb)}
Por u
ltimo, si renombramos los estados del automata A empleando el segundo componente del estado, la tabla de transiciones Tabla 5.2 se convierte en la tabla de transiciones
0
Tabla 5.1 y el automata A y A son los mismos.
98
a
{2,3,7}
{3}
{2}
b
{4}
{5}
{4}
-
c
{6}
-
Q /
1
(a,2)
(a,3)
(b,4)
(b,5)
(c,6)
(a,7)
a
{(a,2),(a,3),(a,7)}
{(a,3)}
{(a,2)}
b
{(b,4)}
{(b,5)}
{(b,4)}
-
c
{(c,6)}
-
Por otro lado, el SLMtk nos permite obtener modelos de lenguaje a partir de la muestra
dada, proporcionandonos modelos estocasticos suavizados.
Por lo tanto, proponemos el siguiente proceso:
1.
Inferimos el automata finito A a partir de la muestra S empleando un cierto algoritmo de inferencia de lenguajes regulares (i.e. el algoritmo ECGI o el algoritmo de
inferencia de lenguajes k-TTSS)
2.
3.
5.3.3.
Aplicaci
on del suavizado en BASURDE
99
100
Captulo 6
Experimentaci
on
En este captulo se describe la experimentacion que se ha llevado a cabo en esta tesis
en el ambito de la comprension del lenguaje aplicando las siguientes aproximaciones:
modelos de bigramas, modelos de bigramas con etiquetado lexico, modelos inferidos con
el algoritmo ECGI y modelos inferidos con el algoritmo de inferencia de los lenguajes
(k,r)-TTSSI.
En primer lugar se describe el corpus utilizado. A partir del corpus adquirido de
BASURDE se han llevado a cabo dos procesos: un analisis lexico donde se plantea el uso
de lemas en vez de palabras y un analisis conceptual para agrupar el lexico en categoras.
Posteriormente se muestran los resultados y conclusiones obtenidos en la experimentacion
llevada a cabo con dicho corpus tanto con texto como con voz (salida del reconocedor).
6.1.
Corpus
A partir del analisis de los 227 dialogos adquiridos con la tecnica del Mago de Oz que
componen el corpus de BASURDE, se clasificaron los dialogos en base a un criterio de
usabilidad, creando con ello tres grupos denominados: completos, incompletos y eliminados. Se consideraron 12 dialogos para el grupo de eliminados por alguna de las siguientes
razones: encontrarse fuera de la tarea, por un exceso de longitud en los turnos de usuario,
por un exceso de turnos de usuario, o simplemente porque la actuacion del Mago se encuentra fuera de la estrategia establecida, estos dialogos se desecharon por completo. De
los restantes, a 21 de ellos se les elimino alguno de sus turnos por las mismas razones de
antes, sin embargo, el resto de turnos de ese dialogo se considero aprovechable, pasando
a la categora de dialogos incompletos. Quedando pues solo 194 dialogos como dialogos
completos. Los grupos de dialogos completos e incompletos pasaran a formar parte del
corpus de experimentacion de BASURDE, esta distincion entre dialogos completos e incompletos se tendra en cuenta en aquellos experimentos en los que se tenga en cuenta la
secuencia (estructura) de los turnos dentro de un dialogo.
El corpus de experimentacion de comprension de BASURDE consta de 215 dialogos
(completos + incompletos) de los cuales se han eliminado las intervenciones vacas quedando un total de 1.440 turnos de usuario con un total de 14.902 palabras, de ellas hay
637 palabras distintas, la longitud media de los turnos es de 10,5 palabras, el n
umero de
101
102
Captulo 6. Experimentacion
unidades semanticas distintas del lenguaje semantico intermedio es de 53. Para aprovechar mejor el corpus se ha llevado a cabo un procedimiento de validacion cruzada, con lo
que se ha dividido el conjunto experimental en 5 conjuntos diferentes de aproximadamente 290 turnos cada uno, que se han empleado para test, empleando el resto 1.150 para
entrenamiento, dando lugar a 5 diferentes instancias en cada experimento (entrenamiento
y test) de los que se promediaran los resultados obtenidos. En la tabla 6.1 se aprecian
las caractersticas de los conjuntos definidos junto con el calculo de la perplejidad de los
modelos de bigramas de palabras estimados a partir de las muestras de entrenamiento de
cada uno de ellos. Para el calculo de la perplejidad se ha empleado el SLMtk.
Conjuntos de entrenamiento
N
um. total de intervenciones
N
um. palabras distintas
N
um. total de palabras
1
1.150
596
11.962
2
1.153
584
11.794
3
1.155
585
12.098
4
1.152
594
11.786
5
1.150
580
11.968
Conjuntos de test
N
um. total de intervenciones
N
um. palabras distintas
N
um. total de palabras
Perplejidad (modelo de bigramas)
1
290
337
2.940
27,40
2
287
339
3.108
26,95
3
285
340
2.804
23,36
4
288
334
3.116
25,01
5
290
353
2.934
31,12
1
52
5.894
2
53
5.859
3
52
5.954
4
51
5.828
5
53
5.881
Conjuntos de test
N
um. total unidades sem
anticas
Perplejidad (modelo de bigramas)
1
1.458
7,79
2
1.502
9,05
3
1.398
7,21
4
1.523
8,13
5
1.470
7,35
Tabla 6.2: Caractersticas de los conjuntos de entrenamiento y test del modelo superior de
secuencias de unidades semanticas y perplejidad para un modelo de bigramas de unidades
semanticas
6.1.1.
Categorizaci
on y lematizaci
on del corpus
6.1. Corpus
103
Al proceso de sustitucion de ciertas palabras del corpus con identico significado semantico por una etiqueta semantica que representa una unidad semantica de la tarea se le
denomina categorizacion. Los conjuntos de palabras susceptibles de ser sustituidos por
las etiquetas semanticas, junto con algunos ejemplos se describen a continuacion:
104
Captulo 6. Experimentacion
Se ha sustituido cualquier instancia del nombre de una ciudad o estacion por la etiqueta semantica nombre ciudad, reduciendo con ello el lexico de BASURDE de 637
a 370 palabras diferentes y tambien los nombres de estacion para aquellas ciudades
con mas de una estacion:
albacete:nombre ciudad
...
barcelona sants:nombre estacion
Das de la semana:
lunes:diasem
...
viernes:diasem
Los n
umeros ordinales:
cinco:numero u
...
treinta:decena
...
novecientas:centena
...
Las fechas se
naladas, como las fiestas y las estaciones del a
no:
nochebuena:nom fiesta
...
primavera:est anyo
La enumeracion de todas las instancias que se han sustituido por categoras semanticas,
sinonimos, infinitivos o formas singulares se puede contemplar en el apendice B. En la
Tabla 6.3 se muestra las nuevas caractersticas del corpus de experimentacion una vez
lematizado y categorizado, como se puede apreciar la perplejidad para un modelo de
bigramas disminuye aproximadamente un 31 % con respecto a los conjuntos originales.
105
Conjuntos de entrenamiento
N
um. palabras distintas
N
um. total de palabras
1
363
11.962
2
358
11.794
3
352
12.098
4
360
11.786
5
356
11.968
Conjuntos de test
N
um. palabras distintas
N
um. total de palabras
Perplejidad (modelo de bigramas)
1
213
2.940
15,02
2
221
3.108
16,12
3
221
2.804
12,67
4
213
3.116
14,78
5
222
2.934
16,10
Tabla 6.3: Caractersticas de los conjuntos de entrenamiento y de test una vez lematizados
y categorizados
6.2.
Con el fin de comparar las diferentes aproximaciones seguidas a lo largo de esta tesis
se especifican cuatro medidas de la adecuacion de los modelos tanto a nivel de lenguaje
intermedio (primera fase del modulo de comprension) como a nivel de frame (segunda
fase del modulo de comprension), estas medidas son una extension sencilla de las medidas
empleadas mas frecuentemente en el ambito del reconocimiento del habla y coinciden con
las medidas de evaluacion propuestas por (Minker, 1999b). Las cuatro medidas se definen
a continuacion:
porcentaje de secuencias semanticas correctas ( %ssc).
%ssc =
100
100
Bigramas
En la Tabla 6.4 se muestran las caractersticas de los modelos de bigramas sin suavizar
(BIG-BIG SinSuavizar) de las secuencias de unidades semanticas A s y para del modelo
final At obtenido a partir de la sustitucion regular de los modelos A vi inferidos para cada
106
Captulo 6. Experimentacion
BIG-BIG SinSuavizar
N
um. categoras
N
um. estados As
N
um. de transiciones As
Factor Ramificaci
on
N
um. estados At
N
um. de transiciones At
Factor Ramificaci
on
1
52
52
662
12,26
1.086
2.957
2,72
2
53
53
643
11,69
1.087
2.921
2,69
3
52
52
667
12,13
1.104
3.003
2,72
4
51
51
656
12,38
1.090
2.935
2,69
5
53
53
678
12,33
1.086
2.924
2,69
Media
52,2
52,2
661
12,15
1.091
2.948
2,7
Tabla 6.4: Caractersticas de los modelos de bigramas sin suavizar indeferidos en los niveles
superior e inferior para cada particion del corpus y la media
1
45,86
49,61
56,21
65,19
2
46,34
48,85
54,7
60,95
3
56,84
57,65
63,51
68,61
4
54,51
54,4
66,67
68,67
5
47,9
48,46
57,93
64,61
Media
50,3
51,8
59,8
65,6
Tabla 6.5: Resultados al aplicar modelos de bigramas sin suavizar en los niveles superior
e inferior para cada particion del corpus y la media
A partir de los modelos bigramas y empleando el SLMtoolkit se aplico la tecnica
de suavizado de Back-Off con la funcion de descuento Good Turing (Seccion 2.3.2). Los
resultados al aplicar los modelos de bigramas suavizados se muestran en la Tabla 6.6,
como se puede observar se incrementa en un 17,8 % las ssc, un 35,7 % las usc un 21 % los
fc y un 21,9 % las ufc. Evidentemente han mejorado los resultados. Este aumento ademas
es muy alto, ya que los modelos sin suavizar estan aprendidos con pocas muestras, debido
a que el corpus es peque
no. Se puede observar ademas que los resultados a nivel de frame
correcto ( % fc) y de unidades de frame correctas ( % ufc) mejoran claramente los del
lenguaje intermedio ( % ssc y % usc), ello es debido a que muchos errores del lenguaje
intermedio estan relacionados con segmentos de palabras que no tienen relevancia a la
hora de construir el frame.
Bigramas con etiquetado l
exico
A continuacion se muestran los resultados obtenidos empleando el etiquetador lexico
(Tabla 6.7), aplicando tres aproximaciones: empleando modelos de bigramas de etiquetas
de categoras lexicas POS (BIG-BIG), modelos de bigramas de etiquetas POS lexicalizando las palabras mas frecuentes (BIG-BIG-words) y empleando modelos de bigramas de
etiquetas POS lexicalizando los lemas mas frecuentes (BIG-BIG-lemas). Donde ademas
107
BIG-BIG Back-Off
%ssc
%usc
%fc
%ufc
1
64,14
87,21
80,69
87,95
2
65,5
86,29
77,7
85,3
3
71,93
89,7
84,21
89,34
4
72,22
87,92
82,64
86,32
5
66,55
86,39
78,97
87,93
Media
68,1
87,5
80,8
87,4
Tabla 6.6: Resultados de aplicar modelos de bigramas suavizados por Back-Off para cada
particion del corpus y la media
de las medidas anteriormente comentadas, se emplean unas nuevas medidas para evaluar
la eficiencia de los modelos provenientes del estudio de los etiquetadores lexicos:
La precision ( %P), esto es, el ratio entre el n
umero de unidades semanticas propuestas correctas y el n
umero de unidades semanticas propuestas.
El recall ( %R), esto es, el ratio entre el n
umero de unidades semanticas propuestas
y el n
umero de unidades semanticas propuestas en la referencia.
El score F=1 =
2P R
P +R ,
Modelos
BIG-BIG
BIG-BIG-word
BIG-BIG-lema
% ssc
32,3
58,7
59,9
% fc
41,0
67,3
72,5
%P
55,9
78,9
79,6
%R
51,0
79,2
81,0
F=1
53,3
79,0
80,3
108
Captulo 6. Experimentacion
ECGI-ECGI
N
um. categoras
N
um. estados As
N
um. transiciones As
Factor Ramificaci
on
N
um. estados At
N
um. transiciones At
Factor Ramificaci
on
1
52
378
1.407
3,72
15.749
63.202
4,01
2
53
386
1.364
3,53
16.506
66.173
4,01
3
52
411
1.455
3,54
17.588
70.704
4,02
4
51
394
1.406
3,57
16.735
67.294
4,02
5
53
401
1.432
3,57
16.268
65.154
4,01
Media
52,2
394
1.413
3,59
16.569
66.505
4,01
Tabla 6.8: Caractersticas de los modelos inferidos con el algoritmo ECGI para cada
particion del corpus y la media
ECGI-ECGI
%ssc
%usc
%fc
%ufc
1
49,66
78,38
67,93
81,34
2
54,36
77,25
65,85
74,93
3
61,75
83,48
73,68
82,97
4
60,42
80,04
71,53
79,83
5
55,17
79,05
71,03
80,91
Media
56,3
79,6
70,0
80,0
Tabla 6.9: Resultados obtenidos con el algoritmo ECGI para cada particion del corpus y
la media
Se hizo un nuevo experimento en el que se empleo como modelo superior un modelo
de Bigramas, lo cual hace que el n
umero de estados y transiciones del modelo integrado
sea bastante mas peque
no que utilizando un modelo superior inferido con el ECGI (Tabla
6.10). Como se puede observar en la Tabla 6.11 se obtienen mejores resultados empleando
como modelo superior un modelo de Bigramas.
BIG-ECGI
N
um. categoras
N
um. estados As
N
um. transiciones As
Factor Ramificaci
on
N
um. estados At
N
um. transiciones At
Factor Ramificaci
on
1
52
52
662
12,26
1.373
5.744
4,18
2
53
53
643
11,69
1.381
5.730
4,15
3
52
52
667
12,13
1.401
5.857
4,18
4
51
51
656
12,38
1.375
5.737
4,17
5
53
53
678
12,33
1.361
5.677
4,17
Media
52,2
52,2
661
12,15
1.378,2
5.749
4,17
Tabla 6.10: Caractersticas de los modelos empleando un modelo de Bigramas como modelo superior y un modelo inferido con el ECGI como el modelo inferior para cada particion
del corpus y la media
BIG-ECGI
%ssc
%usc
%fc
%ufc
1
65,86
87,74
80
88,1
2
66,55
85,87
76
83
3
71,58
89,63
83,86
89,8
4
72,22
88,24
82,29
87,83
5
63,44
85,37
77,93
88,65
Media
67,9
87,4
80,0
87,5
Tabla 6.11: Resultados obtenidos con el algoritmo ECGI en el modelo inferior y Bigramas
en el modelo superior para cada particion del corpus y la media
109
(r,k)-TTSSI
El automata inferido para los valores r = 1 y k = 2 es por completo equivalente al
obtenido al aplicar bigramas. Para comparar con los bigramas, se ha incrementado el
valor del umbral r a 2 manteniendo el valor de k a 2. Los resultados y caractersticas de
los modelos inferidos se muestran a continuacion:
(r=2,k=2)-TTSSI
N
um. categoras
N
um. estados As
N
um. transiciones As
Factor Ramificaci
on
N
um. estados At
N
um. transiciones At
Factor Ramificaci
on
1
52
2.610
2.712
1,04
237.598
353.418
1,49
2
53
2.643
2.731
1,03
233.783
346.923
1,48
3
52
2.707
2.820
1,04
253.598
377.513
1,49
4
51
2.537
2.643
1,04
217.498
323.562
1,49
5
53
2.709
2.809
1,04
229.906
342.460
1,49
Media
52,2
2.641
2.743
1,04
234.477
348.775
1,49
Media
60,7
85,71
77,6
85,6
60,63
83,71
74,6
80,8
67,02
88,09
82,11
88
66,32
85,65
78,1
85,3
61,03
82,83
74,8
85,1
63,1
85,2
77,4
85,0
110
Captulo 6. Experimentacion
Como se puede apreciar en la Tabla 6.13 los resultados son inferiores a los obtenidos
con modelos de Bigramas suavizados, sobre un 2 % en las ufc y las usc, sobre 3 % en los
fc y de un 5 % en las ssc.
6.3.
Texto
68,1
87,5
80,8
87,4
Rec. 1
42,4
71,1
52,5
68,2
Rec. 2
44,3
74,7
56,3
73,8
Tabla 6.14: Resultados de aplicar modelos de bigramas suavizados por Back-Off sobre
pronunciaciones transcritas manualmente y sobre reconocimiento
BIG-ECGI
%ssc
%usc
%fc
%ufc
Texto
67,9
87,4
80,0
87,5
Rec. 1
39,0
70,0
49,5
67,3
Rec. 2
41,6
70,9
53,5
72,9
Texto
Rec. 1
Rec. 2
63,1
85,2
77,4
85,0
40,3
70,1
50,8
66,4
42,9
73,7
55,1
72,2
6.4. Conclusiones
111
que las frases transcritas manualmente. Los resultados son mejores para el reconocedor
de Zaragoza que para el de la universidad del Pas Vasco, cosa que era de esperar pues
este u
ltimo tiene un valor mas bajo de Word Accuracy.
Se debe destacar la dificultad de obtener buenos porcentajes de reconocimiento en
frames completos ( % fc). Este problema queda paliado por el hecho de que los porcentajes
de acierto a nivel de tipo de frame y atributo ( % ufc) es bastante bueno 70 % -75 % . Es
de esperar que con informacion a
nadida, tal como valores de confianza de reconocimiento
suministrados por el reconocedor y valores de confianza asociados a la identificacion del
frame y de los atributos de este suministrados por el modulo de comprension, el gestor
de dialogo sea capaz de diferenciar aquellas partes de la informacion suministrada que no
han sido bien entendidas o reconocidas por el sistema y le permita generar subdialogos
clarificadores en los que se confirme aquellas informaciones con un bajo nivel de confianza.
6.4.
Conclusiones
En este captulo de experimentos hemos visto que las tecnicas propuestas proporcionan resultados razonables al problema de comprension del habla en el marco de un
sistema de dialogo. Pese a la escasez de muestras de entrenamiento, los modelos estocasticos son capaces de calcular las relaciones entre las unidades que componen el habla, tanto
a nivel lexico-sintactico, como semantico. Pese al esfuerzo en obtener modelos mas ricos
estructuralmente, como los proporcionados por el ECGI o los (r,k)-TTSSI, la aproximacion basada en bigramas es la que mejor resultados da. Podemos apuntar como posibles
explicaciones, que para este tipo de tarea no es necesaria una exhaustiva representacion
de la estructura, y que las tecnicas conocidas de suavizado son mas adecuadas para los
modelos de bigramas, siendo el metodo de suavizado una de las claves para que funcionen
este tipo de modelos estocasticos.
Esperamos que los resultados obtenidos puedan mejorar con el uso de otras aproximaciones gramaticales como el MGGI, metodologa de inferencia gramatical basada en
el reetiquetado de muestras, para la generacion de modelos estocasticos de uno y dos
niveles para la primera fase del modelo de comprension propuesto. En esta aproximacion,
a partir del corpus, se busca un etiquetado de las muestras ad-hoc capaz de mejorar los
resultados. Cabe esperar que el uso de medidas de confianza tanto las proporcionadas por
el reconocedor como las extraidas de la primera fase del modulo de comprension (Garca
et al., 2003b) mejoren las prestaciones del sistema de dialogo en global. Por otra parte,
hay que profundizar en el estudio del etiquetado y los ficheros empleados para categorizar
y lematizar, de los cuales se esta empleando una version basica.
112
Captulo 6. Experimentacion
Captulo 7
Aplicaci
on del sistema de
comprensi
on al corpus ARISE
En este captulo se eval
ua la tecnica de 2 niveles aplicada al componente de comprension de un sistema de dialogo desarrollado por el grupo de investigacion frances Traitement
du Langage Parle (TLP) del Laboratoire dInformatique pour la Mecanique et les Sciences
de lIngenieur (LIMSI) dentro del proyecto ARISE 1 .
El proyecto europeo ARISE (Automatic Railway Information Systems for Europe)
(Lamel et al., 2000) tiene el proposito de desarrollar un servicio de informacion telefonica
para la red de ferrocarriles en varios pases Europeos. En colaboracion con la compa
na
VECSYS y la SNCF (Ferrocarriles de Francia), se ha desarrollado un prototipo de servicio
telefonico capaz de proveer informacion sobre horarios, reservas, precios e informacion
sobre los descuentos y servicios ofrecidos para la mayor parte de las conexiones entre
ciudades de Francia.
Este sistema de dialogo se basa en el desarrollado anteriormente para el proyecto
RAILTEL dentro del programa Multi-Lingual Action Plan (MLAP) (Bennacef et al.,
1996) (Lamel et al., 1997) y el proyecto ESPRIT MASK (Gauvain et al., 1997). La arquitectura del sistema es modular y los programas han sido desarrollados para ejecutarse
sobre una estacion de trabajo UNIX equipada de una interfaz telefonica. Comparando
con su predecesor RAILTEL los principales avances que ofrece este sistema son: el control
del dialogo, el uso de medidas de confianza y la inclusion de un modo opcional de deletreo
para los nombres de ciudades/estaciones, ademas de permitir interrupciones al sistema
como una forma de interaccion mas natural entre el usuario y la maquina.
7.1.
Descripci
on del sistema
Existen seis modulos en el sistema de dialogo (Figura 7.1) (Lamel et al., 2000). Un
reconocedor de habla continua independiente del locutor, que en tiempo real, transforma
1
113
114
la se
nal vocal en la secuencia de palabras mas probable. El vocabulario de reconocimiento contiene 1.800 palabras, incluyendo 500 nombres de estaciones. La independencia del
locutor se lleva a cabo empleando modelos ac
usticos que han sido entrenados a partir de
locuciones de un gran n
umero de hablantes representativos, cubriendo un amplio rango de
acentos y calidades vocales. El reconocedor emplea modelos ocultos de Markov HMM continuos, con una mezcla de distribuciones guassianas para los modelos ac
usticos y modelos
de N-gramas suavizados con Back-Off para los modelos de lenguaje. Para los modelos
ac
usticos se emplearon modelos telefonicos independientes del contexto para la variacion
alofonica observada en los diferentes entornos contextuales.
Acoustic
Models
Language
Models
Speech
Recognizer
most
probable
word
sequence
Knowledge
Sources
Understanding
Model
Literal
Understanding
LU
semantic
frame
Dialog
Manager
DBMS
CU
semantic
frame
SQL Query
Database
Access
DB Info
constrained dialog
vocal response
Speech
Synthesizer
text
Response
Generator
Rules
Unit
Dictionary
El reconocedor asocia un valor de confianza a cada una de las hipotesis sobre una
palabra pronunciada. Si este valor esta por debajo de un lmite obtenido empricamente,
la hipotesis es marcada como incierta. La deteccion de estas palabras inciertas permite
al controlador de dialogo llevar a cabo subdialogos clarificadores. En la actual implementacion la salida del reconocedor de voz es la mejor secuencia de palabras junto con sus
correspondientes valores de confianza, sin embargo, el reconocedor ha sido implementado
para ser capaz de suministrar un grafo de palabras.
La cadena de texto proveniente del reconocedor es pasada al componente de comprension de lenguaje natural. Este componente primero realiza una Comprensi
on Literal de la
salida del reconocedor, y despues reinterpreta la consulta en el contexto del dialogo que
se esta llevando a cabo. En la Comprensi
on Literal se aplica una representacion de caseframes para determinar el significado de la frase y construir una adecuada representacion
semantica. Se emplea la tecnica de deteccion de palabras clave para elegir una estructura
de frame adecuada para la frase sin tener que llevar a cabo un analisis sintactico completo.
La mayor parte del trabajo en el dise
no de este componente consiste en definir cuales son
los conceptos significativos para la tarea y las palabras clave adecuadas. Los conceptos
que aparecen en la tarea ARISE tienen que ver con los horarios de los trenes, conexiones,
precios y reservas (incluyendo descuentos y otras restricciones).
Voz
Reconocimiento
115
Secuencia de
conceptos
Comprensin
literal
Normalizacin
de los valores
CVR
Tras la Comprensi
on Literal se lleva a cabo la comprension contextual que consiste
en reinterpretar la pronunciacion en el contexto del dialogo actual, teniendo en cuenta
el sentido com
un y el conocimiento de la tarea. Los frames que resultan de la Comprensi
on Literal son reinterpretados empleando valores establecidos en reglas predefinidas y
los valores cualitativos son transformados en valores cuantitativos a esta fase se le llama
Normalizaci
on de los Valores (Figura 7.2). Los frames semanticos son ademas completados empleando la historia del dialogo para poder tener en cuenta la informacion dada
previamente por el usuario, as como las cuestiones que el sistema plantea.
El controlador del dialogo interroga al usuario para completar la informacion de los
frames, cuando esta es suficiente para hacer una consulta, genera una peticion en un
lenguaje similar al SQL al sistema de gestion de bases de datos. Para poder realizar una
consulta son necesarias al menos cuatro informaciones: la estacion de salida, la estacion
de llegada, la fecha y la hora aproximada del viaje. El controlador del dialogo vela por
evitar contradicciones, bien volviendo a anteriores estados del dialogo, o bien interrogando
al usuario para pedir una aclaracion. El sistema de gestion de la base de datos (DBMS)
emplea una base de datos de informacion de la SNCF denominada Riho.
El componente de generacion de respuesta convierte el frame semantico generado por
el controlador de dialogo en una frase en lenguaje natural, que es reproducida por el
sintetizador de voz a traves de la concatenacion de unidades de voz, variables en tama
no,
almacenadas en forma de diccionario.
La capacidad de este sistema de ser interrumpido por el usuario (barge-in capability) se considera importante a la hora de conseguir un interfaz mas natural. Al a
nadir
esta capacidad algunos modulos deben ser modificados. En primer lugar, la grabacion y
reconocimiento de voz deben estar activas en todo momento, incluido cuando se esta sintetizando una respuesta. Si se detecta voz entrante, la sntesis se para, aunque existen
ciertas situaciones en que el barge-in se deshabilita para asegurar que el usuario escuche
la respuesta.
7.2.
Comprensi
on del lenguaje en ARISE
116
diccionario de conceptos.
7.2.1.
Representaci
on sem
antica en el dominio del ARISE
El componente de comprension del sistema ARISE emplea una representacion especfica denominada concepto/valor (CVR) (Bonneau-Maynard y Devillers, 2000), donde un
total de 64 conceptos, representativos de la tarea, han sido extrados de un diccionario
de conceptos, y para cada concepto la lista de valores que le podran ser asociados. Un
ejemplo de representacion CVR aparece al final de la Tabla 7.1. Los valores son n
umeros,
nombres propios o clases semanticas que agrupan unidades lexicas sinonimas para esta
tarea. Por ejemplo para el concepto range-dep (intervalo temporal), las expresiones
dans la matinee, le matin o avant midi estan normalizadas en un forma u
nica
matin.
Una informacion modal (afirmativa o negativa) es asignada a cada par concepto/valor
convirtiendo esta representacion en un triplete. La Tabla 7.1 ilustra el uso de la informacion modal. La secuencia cest pas Croisic (no es Croisic) esta representada en CVR
con el concepto place que tiene asignado un modo negativo (-/place:Croisic). Por
u
ltimo, un concepto null es asociado a aquellas palabras dentro de la pronunciacion
que no contienen informacion semantica (p.e. et en la Tabla 7.1).
Para la aproximacion estocastica, el conjunto inicial de conceptos es ampliado con 40
marcadores modales (p.e. -/m:mode para la palabra pas en la Tabla 7.1). As pues, se
definieron para la version estocastica un total de 170 etiquetas (conceptos con informacion
modal, marcadores de modo y la etiqueta null en su modo positivo y negativo).
Entrada
Usuario
dans la matinee
et
Frase Reconocida
dans la matinee
Secuencia
Conceptos
(+/range-dep)
Valores
Normalizados
matin
CVR
(+/range-dep)
(-/place)
(+/place)
cest
pas
Croisic
cest
Roissy
et
pas
Croisic
Roissy
(+/null)
(-/m:mode)
(-/place)
(+/place)
Croisic
Roissy
matin
Croisic
Roissy
Tabla 7.1: Ejemplo de decodificacion semantica para la version estocastica del ARISE
7.2.2.
Comprensi
on del lenguaje basada en reglas en el ARISE
117
ciudad de llegada. Pre- y Post- marcadores del caso, que no tienen porque aparecer cerca
del caso, proporcionan el contexto del caso. Se realiza un analisis basado en palabras
clave, para determinar en un primer momento el caseframe y entonces se construye un
frame semantico del significado de la sentencia instanciando sus atributos.
Para evaluar la representacion semantica obtenida frente a la transcrita manualmente
se emplea una herramienta de evaluacion en terminos de inserciones, sustituciones y borrados. La evaluacion se lleva a cabo en todo el triplete CVR tanto del modo como del
nombre de concepto semantico as como del valor asignado al concepto (Bonneau-Maynard
y Devillers, 2000).
7.2.3.
Adaptaci
on de la anotaci
on sem
antica
La anotacion del corpus en el sistema ARISE esta basada en conceptos esto es, solo las
palabras que tienen informacion semantica relevante son anotadas con su correspondiente
etiqueta. Algunas palabras (preposiciones, afijos,. . . ) que son capaces de determinar el
concepto son tambien anotadas. A estas u
ltimas se les denomina marcadores markers
(Fillmore, 1968), y son anotados manualmente con el prefijo p: y el nombre del concepto
al que determina. Las demas palabras en la frase son consideradas como no significativas
y son etiquetadas con la palabra null, como se muestra en la Tabla 7.2.
je
voudrais
aller
a
`
Paris
(+/null)
(+/null)
(+/null)
(+/p:place-to)
(+/place-to)
118
Anotaci
on Original
(+/null)
(+/null)
(+/null)
(+/p:place-to)
(+/place-to)
Sin Marcadores
(+/null)
(+/null)
(+/null)
(+/null)
(+/place-to)
Palabras Adyacentes
(+/place-to)
(+/place-to)
(+/place-to)
(+/place-to)
(+/place-to)
v1 =(+/place-to)
El algoritmo que incorpora las palabras adyacentes a los conceptos tiene dos partes
que se describen a continuacion:
1.
Extracci
on de la secuencia m
axima de palabras: En esta parte extraemos la
secuencia mas larga de palabras adyacentes al conjunto de palabras asociadas con
un concepto en la frase a partir del corpus de entrenamiento. En la parte derecha
solo se considera una palabra. Solo las palabras adyacentes anotadas con el concepto
null pueden ser concatenadas. Sea (u, v) = (u 1 , v1 ) . . . (un , vn ) el conjunto de pares
asociados a la frase w donde v es la secuencia de conceptos pertenecientes a V y
u es la secuencia de segmentos de palabras en w. En la Figura 7.3 se muestra el
algoritmo seguido para la implementacion de la extraccion de la secuencia maxima
de palabras.
Fase de Poda: En esta etapa solo se guardan aquellas secuencias de palabras asociadas a los conceptos mas significativas de las que se extrajeron en la primera parte
del algoritmo. Previamente a la ejecucion de esta segunda fase del algoritmo se ordenan las secuencias de palabras asociadas a cada concepto por longitud decreciente.
119
Esta tecnica permite encontrar de forma automatica el contexto de palabras para cada
concepto anotado en el corpus de entrenamiento sin la necesidad de supervision de una
persona experta.
7.2.4.
Normalizaci
on
120
Error!
dans la matinee
matin
7.3.
7.3.1.
Experimentos
Descripci
on del Corpus
El conjunto de entrenamiento contiene 14.582 frases. Estas frases han sido extraidas
del corpus ARISE del LIMSI, el cual contiene sobre 10k dialogos hombre-maquina. Este
corpus ha sido semi-manualmente etiquetado en terminos de conceptos. El n
umero medio
7.3. Experimentos
121
Entrenamiento
14.582
72.380
44812
-
Tun.
400
2.261
708
13,4 %
Test
400
2.261
708
14,3 %
7.3.2.
Resultados
Se compara el modelo basado en reglas del LIMSI con dos tecnicas estocasticas diferentes, la primera han sido desarrollada por el grupo TLP del LIMSI (1 nivel) (BonneauMaynard y Lef`evre, 2001) y consiste en una red de secuencias de conceptos semanticos
asociados a cada frase etiquetada del corpus de entrenamiento. Cada estado en la red es
capaz de emitir cualquier palabra que haya sido vista en el corpus de entrenamiento estando todos los estados conectados entre s (HMM ergodicos). La segunda es la tecnica de 2
niveles descrita en el captulo 4. Los resultados de la comparacion se muestran en la Tabla
7.8. La medida que se muestra es el ratio de error de comprension (REC) de la instancia
y su etiqueta CVR correspondiente como se describe en el apartado 7.2.1. Se emplea una
transcripcion manual (Manual) y la salida de un reconocedor de voz (Autom
atica) de las
pronunciaciones tanto para el conjunto de tuning (Tun.) como el conjunto de test (Test).
El reconocedor tiene un Word Accuracy aproximado del 87 %, siendo 2,6 puntos mejor
que el reconocedor del la Universidad de Zaragoza para BASURDE.
Basada en reglas
1 nivel LIMSI
2 niveles
Manual
Tun. Test
2,1
9,2
7,8
9,4
7,8
10,6
Autom
atica
Tun. Test
13,2 19,8
16,6 19,1
17,1 20,4
Tabla 7.8: Ratios de error para comprension ( %REC) para la aproximacion basada en
reglas, el modelo estocastico 1 nivel del LIMSI y el modelo estocastico de 2 niveles para las
transcripciones Manuales y salida del reconocedor (Automatica) tanto para el conjunto
de Tuning como para el de Test
Como se puede observar en la Tabla 7.8 los resultados de la aproximacion de 2 niveles son similares a la de un solo nivel. Para el conjunto de tuning no existe diferencia
122
left
-0
-1
-2
-2
-3
-2
-2
-
-
-
-
Marcadores Autom
aticos
grouped right depart-arriv
no
+0
no
no
+0
no
no
+0
no
yes
+0
no
yes
+1
no
yes
+1
no
yes
+1
yes
yes
+0
no
yes
+1
no
yes
+0
yes
yes
+1
yes
REC
12,6 %
12,4 %
11,6 %
9,1 %
9,1 %
8,8 %
8,3 %
8,7 %
8,4 %
8,1 %
7,8 %
Tabla 7.9: Comparativa de los ratios de comprension ( %REC) de las diferentes combinaciones de premarkers y postmarkers as como su agrupamiento para el conjunto de
tuning
Se llevaron a cabo otros experimentos con el algoritmo descrito en la seccion 7.2.3 que
trata de encontrar el optimo n
umero de palabras adyacentes en el corpus de entrenamiento
para incorporarlas en el proceso de expansion del etiquetado de las categoras semanticas.
Los resultados se muestran en la Tabla 7.10 para los conjuntos de tuning y test. Las prey post- palabras adyacentes extradas de cada categora semantica y el concepto fueron
procesados por separado (Individual) y agrupados (Agrupado) para determinar cual es la
influencia del programa que extrae las palabras adyacentes antes de aplicar el programas
de normalizacion de los valores. Los resultados para los experimentos individuales son
los mismos mostrados previamente en la Tabla 7.8 para 2 niveles. En todos los casos
para los experimentos existe en el combinado una diferencia significativa con respecto al
individual, que es menor en el test automatico, ello es debido a la influencia del programa
7.4. Conclusiones
123
Individual
Agrupado
7.4.
Conclusiones
124
Captulo 8
M
odulo de Di
alogo
Este modulo es el encargado de proporcionar un interfaz natural entre el usuario y
el ordenador, debiendo aportar el conocimiento pragmatico del dominio de la tarea para
facilitar la comprension del mensaje, mantener una historia del dialogo para resolver los
problemas de elipsis y anaforas, detectar cuando no es completo el requerimiento del
usuario y activar el generador de respuestas para interaccionar con el usuario pidiendo
nueva informacion o verificando la informacion ya suministrada. A este tipo de estrategia
de dialogo se le conoce con el nombre de iniciativa mixta.
En un sistema de consulta basado en frames, una vez completado el frame semantica
este se convierte en una plantilla capaz de realizar una consulta en un lenguaje estandar de
interrogacion a una base de datos. La informacion obtenida de esta consulta sera analizada
por el controlador de dialogo para comprobar que responde a la pregunta del usuario y
construira una respuesta (no demasiado larga, pues se supone que el sistema es hablado)
en base a una plantilla que enviara al generador de respuestas para que conteste al usuario
del sistema.
8.1.
La estructura del di
alogo
Los desarrolladores de sistemas de lenguaje natural hombre-maquina a menudo coinciden en que uno de los mayores problemas en este campo es encontrar una estructura que
pueda adaptarse a diferentes aplicaciones. En los u
ltimos a
nos se han realizado trabajos
para aprender de forma automatica la estructura del dialogo a partir de muestras de dialogos (corpora obtenidos por tecnicas de Mago de Oz (Fraser y Gilbert, 1991)) etiquetadas
en unidades de dialogo.
Un dialogo se puede ver como un conjunto de intervenciones, donde una intervencion
es uno de los turnos de los participantes del dialogo, cada una de estas intervenciones
se puede descomponer en varios segmentos. Dependiendo de la funcion de cada uno de
estos segmentos se le asocia un acto de dialogo (speech acts (Bennacef, Neel, y BonneauMaynard, 1995) (Allen y Core, 1996)). Un segmento puede ser una frase completa, un
conjunto de estas o un simple conjunto de palabras. Esta segmentacion en actos de dialogo
se emplea en numerosos proyectos de consulta a servicios de informacion como son el
AMICA (Pieraccini, Levin, y Eckert, 1997), el sistema RAILTEL o ARISE de LIMSI
125
126
(Lamel et al., 1997) (Lamel et al., 2000) o BASURDE (Martinez y Casacuberta, 2000).
A partir de las muestras etiquetadas se puede formalizar la estructura del dialogo, bien
mediante un conjunto de reglas como en ocurre en (Bennacef, Neel, y Bonneau-Maynard,
1995) o de forma automatica, empleando aprendizaje a partir de muestras. Estos u
ltimos
modelos de lenguaje para actos de dialogo pueden predecir cual es el siguiente acto de
dialogo mas probable que se va a producir en la conversacion, pudiendo as especializar
la comprension del siguiente turno de dialogo y evitar acciones no deseables por parte del
sistema.
8.2.
La estrategia del di
alogo
8.3.
La historia del di
alogo
8.4.
El etiquetado de di
alogo
La gestion del dialogo en muchos de estos sistemas se basa en las reglas obtenidas
del conocimiento sobre el comportamiento general de los dialogos y de la observacion de
127
8.4.1.
128
dialogo de usuario. En el primer nivel, se etiqueta esta intervencion como una Pregunta
al sistema, en el segundo nivel se muestra que el objetivo de la consulta es obtener la
Hora salida, como tercer nivel aparece aquellas restricciones a la consulta como son el
Destino la Hora salida u intervalo de hora en que se desea partir y por u
ltimo el Origen.
El etiquetado de un segmento tanto en el segundo como en el tercer nivel es susceptible de
contener mas de una etiqueta en el mismo nivel, para luego poder agrupar segmentos con
igual etiquetado se decidio ordenar dentro de un mismo nivel las etiquetas alfabeticamente
y no en el orden de aparicion de la instancia de esa etiqueta en el segmento.
querra saber horarios de trenes de zaragoza a ciudad real para el pr
oximo viernes
por la tarde o s
abado por la ma
nana .
(U:Pregunta:Hora salida:Destino,Dia,Hora salida,Origen)
8.5.
Sistemas de di
alogo dirigidos por la sem
antica
8.5.1.
El modelo de di
alogo
El modelo de dialogo que se propone (Sanchis et al., 2001) es una red estocastica
que se aprende a partir de un conjunto de dialogos etiquetados obtenidos en el caso
de BASURDE a traves de la tecnica del Mago de Oz. Una muestra de dialogo es una
concatenacion de actos de dialogo que representan la traduccion de una pronunciacion del
129
La red estocastica que representa el modelo de dialogo se obtiene a partir del conjunto
de dialogos de entrenamiento etiquetados en terminos de secuencias de actos de dialogo.
Un ejemplo de esta red para un solo nivel se muestra en la Figura 8.1.
Los actos de dialogo se emplean para:
Predecir el acto de dialogo siguiente del usuario; ayudando a los procesos de reconocimiento y comprension.
130
M:Cierre
U:Pregunta
M:Apertura
M:Pregunta
M:Pregunta
U:Cierre
U:Indefinida
10
U:Apertura
U:Pregunta
U:Indefinida
U:No_entendido
U:Indefinida
M:Pregunta
U:Pregunta
U:Pregunta
U:Pregunta
U:No_entendido
U:Indefinida
6
U:Respuesta
M:Confirmacion
17
U:Respuesta
M:Confirmacion
M:Apertura
U:Indefinida
M:No_entendido
M:Cierre
18
M:Indefinida
M:Pregunta
M:Confirmacion
5
U:Indefinida
M:Cierre
U:Pregunta
U:Indefinida
14
U:Respuesta
M:Confirmacion
M:No_entendido
U:Indefinida
M:Espera
U:Respuesta
U:Respuesta
M:Pregunta
U:Indefinida
9
3
U:Negacion
M:Confirmacion
U:Pregunta
U:Negacion
U:Respuesta
U:Respuesta
M:Respuesta
U:No_entendido
M:Respuesta
U:Indefinida
M:Pregunta
M:Confirmacion
U:Negacion
M:Espera
M:No_entendido
M:Espera
M:Respuesta
M:Confirmacion
M:Espera
U:Cierre
M:Confirmacion
U:Indefinida
8
M:Espera
U:Negacion
U:Negacion
15
U:Afirmacion
M:Pregunta
U:Negacion
U:No_entendido
M:No_entendido
U:Afirmacion
U:Pregunta
16
U:Afirmacion
U:Confirmacion
M:Respuesta
U:Pregunta
M:No_entendido
M:Espera
M:No_entendido
M:Nueva_consulta
U:Respuesta
M:Respuesta
M:Pregunta
M:Respuesta
M:Nueva_consulta
U:Confirmacion
M:Respuesta
1
M:Confirmacion
U:Pregunta
M:Respuesta
7
11
U:Negacion
U:Pregunta
U:Confirmacion
M:Respuesta
U:Confirmacion
M:Nueva_consulta
0
M:Nueva_consulta
M:No_entendido
U:Afirmacion
M:Respuesta
M:Nueva_consulta
12
U:Afirmacion
M:Pregunta
U:Pregunta
13
M:Nueva_consulta
M:Pregunta
M:Nueva_consulta
U:Indefinida
M:Respuesta
U:Pregunta
M:Nueva_consulta
U:Confirmacion
U:Afirmacion
M:Nueva_consulta
U:Cierre
U:Cierre
U:Pregunta
U:Cierre
Figura 8.1: Red obtenida a partir del primer nivel de etiquetado de dialogo
M:Pregunta
131
M:Nueva_pregunta:Nil
M:Respuesta:Hora_Salida
M:Cierre:Nil
M:Apertura:Nil
U:Cierre:Nil
Respuesta BD
U:Pregunta:Hora _salida
Consulta a la BD
(HORASALIDA)
GENERADOR DE
RESPUESTAS
CIUDAD_ORIGEN:Valencia
CIUDAD_DESTINO:Barcelona
FECHA_SALIDA: 23/06/2001
...
132
/*Inicializaci
on*/
Hacer Estado=Apertura
Iniciar(Registro de Valores Actuales) /*Iniciar(RVA)*/
Repetir
Sentencia=obtener sentencia del turno de usuario
Frame=extraer significado(Sentencia)
Estado=Transici
on a(Estado,Frame)
RVA=Actualizar(Frame)
/* acciones del controlador */
si Consulta completa(RVA)
entonces
Enviar Consulta Base de Datos
Estado=Elegir transici
on
sino
seleccionar las transiciones permitidas por el RVA
Estado=Elegir una de las transiciones seleccionadas
Generar el frame de de salida
hasta Estado=Cierre
8.5.2.
Experimentos
A partir de los conjuntos de entrenamiento del corpus de experimentacion de BASURDE anotados utilizando solamente los dos primeros niveles del etiquetado de dialogo
se aprendio un modelo de bigramas como modelo de dialogo, este modelo consta de 158
estados de los que 57 corresponde a etiquetas de turnos de sistema y 101 a etiquetas de
turnos de usuario, el n
umero de transiciones en el modelo es de 666 transiciones eso hace
un factor de ramificacion de 4,22. A partir de este modelo suavizado con Back-off se
intento predecir cual es el siguiente acto de dialogo del usuario de los conjuntos de test
obteniendo una media de acierto del 87 % en la identificacion del siguiente acto de dialogo
de usuario.
8.6.
Modelos de comprensi
on especficos de Di
alogo
133
y Ward, 2001).
Nos centraremos en el primer nivel de etiquetado de dialogo, que corresponde al comportamiento del dialogo independiente de la tarea. Este primer nivel presenta las siguientes
etiquetas de dialogo: Apertura, Cierre, Indefinida, Espera, Nueva consulta, No entendido,
Afirmaci
on, Confirmaci
on, Pregunta y Respuesta. Un ejemplo de anotacion a un nivel se
muestra en la Figura 8.4.
S1:
U1:
S2:
U2:
Bienvenido al sistema automatico de informacion de trenes regionales y de largo recorrido, que desea? (S:Apertura)
Puede decirme a que hora salen los trenes de Valencia a Barcelona?
(U:Pregunta)
De Valencia a Barcelona,(S:Confirmation) que dia quiere salir?
(S:Confirmaci
on S:Pregunta)
El proximo jueves (U:Respuesta)
Figura 8.4: Ejemplo de etiquetado de dialogo a un nivel
8.6.1.
Modelizaci
on especfica de la comprensi
on
Para conseguir modelos especficos se han clasificado las muestras en funcion del estado
del dialogo. Se dividieron las muestras de entrenamiento del usuario en 10 subconjuntos.
Cada subconjunto es asociado con el primer nivel de etiquetas de dialogo, y contiene el
turno de usuario que sigue a esta etiqueta. Por ejemplo, el conjunto Apertura contiene
todos los turnos de usuario que se han pronunciado despues de haber generado el sistema
el acto de dialogoApertura. Como ya se ha comentado en la introduccion, pensamos que
esta clasificacion de las muestras permite una mejor modelizacion de los turnos de usuario.
Posteriormente despues de analizados los subconjuntos obtenidos se comprobo que solo
cuatro de los subconjuntos, los que corresponden a las etiquetas Apertura, Confirmaci
on,
umero de muestras suficiente para llevar a
Nueva Consulta y Pregunta, contienen un n
cabo una estimacion aceptable del modelo estocastico.
La modelizacion especializada solo se ha aplicado en el nivel superior de la tecnica de 2
niveles. Justificamos esta eleccion en el hecho de que este nivel representa la semantica de
la entrada, mientras que el nivel inferior representa solo la instanciacion de esta semantica
en terminos de secuencias de palabras. Gracias a esta eleccion, para inferir los modelos
de palabras de cada unidad semantica hemos aprovechado todas las muestras de dicha
unidad en el corpus de entrenamiento.
En el proceso de decodificacion, el controlador de dialogo selecciona el modelo especfico adecuado (Figura 8.5), es decir, el que viene predeterminado por el u
ltimo acto
de dialogo generado por el sistema.
8.6.2.
Experimentaci
on y Conclusiones
134
aquellos que fueron obtenidos empleando un modelo de lenguaje general. A partir de esta
comparacion se presentan una serie de conclusiones.
Para cada subconjunto de muestras correspondiente a cada una de las cuatro etiquetas de dialogo escogidas Apertura, Confirmacion, Nueva consulta y Pregunta se crea un
conjunto de entrenamiento del 75 % y uno de test del 25 %. El primer conjunto se emplea
en el aprendizaje del modelo especfico de esa etiqueta y el segundo se empleara como
test, tanto para el modelo especfico como para el modelo general. El modelo general se
aprende a partir de todo el conjunto de muestras que no es de test. Notese que el conjunto
de aprendizaje para el modelo general es mucho mayor que el de los modelos especficos.
En particular hay etiquetas para las cuales el conjunto de aprendizaje para el modelo
general, supera el 90 % de las muestras.
Sobre los conjuntos de test definidos anteriormente se han hecho tres experimentos de
comprension: uno con la transcripcion manual de las pronunciaciones del usuario (Texto),
y otros dos con la salida de dos reconocedores diferentes. El primero (Rec. 1) con un Word
Accuracy del 81,1 % y el segundo (Rec. 2) con un Word Accuracy del 84,8 %.
Para estos experimentos se han utilizado las cuatro medidas de comprension a nivel
de lenguaje intermedio y frame ya definidas en el captulo de dicado a la experimentacion
porcentaje de secuencias semanticas correcta ( %ssc), porcentaje de unidades semanticas
correctas ( %usc), porcentaje de frames correctos ( %fc) y porcentaje de unidades correctas
del frame ( %ufc)
Los resultados ( %ssc, %usc, %fc y %ufc) obtenidos empleando modelos especficos (esp.)
y general (gen.) aparecen en la Tabla 8.1
Aunque el porcentaje de turnos completamente comprendidos ( %fc) no es muy alto,
en algunos conjuntos, el porcentaje de atributos y tipo de frame identificados ( %ufc)
s que es suficientemente bueno, incluso cuando las frases son la salida del reconocedor.
Esto permite que en sucesivos turnos de dialogo, el sistema pueda completar informaciones
sobre atributos y corregir errores.
En cuanto al comportamiento de los modelos especficos, se puede observar que es mejor en los conjuntos Apertura y Confirmaci
on, que corresponden a tipos de intervenciones
con estructuras mas similares. En los otros casos no se consiguen mejoras, pero hay que
135
%ssc
%usc
%fc
%ufc
Apertura
Texto
Rec. 1
esp. gen. esp. gen.
50,9 50,2 22,4 22,9
89,6 88,7 73,8 73,3
76,7 71,2 39,5 36,1
91,6 89,4 72,2 67,8
Rec. 2
esp. gen.
23,4 21,5
77,8 76,2
32,7 30,3
73,9 72,5
%ssc
%usc
%fc
%ufc
Confirmacion
Texto
Rec. 1
esp. gen. esp. gen.
80,8 77,7 61,2 58,8
89,7 88,7
71
70,8
91,4 87,1 67,1 64,3
95,1 94,2 75,2 73,9
Rec. 2
esp. gen.
61,2 58,8
74,9 75,9
73,3 69,8
81,9 82,3
%cssu
%csu
%fc
%ufc
Nueva
Texto
esp. gen.
68,3 68,8
86,6 87,4
76,9 78,3
83,5 84,8
consulta
Rec. 1
esp. gen.
40,5 39,6
70,7 70,5
50,7 50,6
64,9 65,7
Rec. 2
esp. gen.
43,9 44,2
73
73,7
55,3 56,2
70,8 72,1
%ssc
%usc
%fc
%ufc
Pregunta
Texto
Rec. 1
esp. gen. esp. gen.
73,3 77,1 51,4 52,4
82,6 87,1 67,5 70,2
77,1 88,6 59,1 60,9
87,1 92,8 70,1 72,2
Rec. 2
esp. gen.
54,3 53,3
67,2 69,3
62,9 61,9
77,6 78,8
Tabla 8.1: Resultados de los experimentos sobre modelos especficos y generales para las
etiquetas Apertura, Confirmaci
on, Nueva consulta y Pregunta.
tener en cuenta que el conjunto de muestras de aprendizaje es muy peque
no para los modelos especficos. Es de esperar que con una futura ampliacion del corpus, se obtenga una
mejora de resultados para estas clases y para otras clases que no han sido consideradas en
estos experimentos. Ademas el uso de tecnicas de interpolacion puede servir para sacar
mayor partido de ambos tipos de modelos (especficos y general).
136
Captulo 9
137
138
Ap
endice A
L
exico de la tarea
Este documento contiene el lexico generado para la tarea del proyecto, que contiene
1.799 formas (Arranz et al., 2000). Previo a su desarrollo, se ha llevado a cabo un estudio detallado del vocabulario utilizado en los dos corpora tambien desarrollados para
el proyecto: el persona-persona (Bonafonte y Mayol, 1999) y el persona-maquina creado
mediante la tecnica del Mago de Oz (Sesma et al., 1999). El lexico se ha generado con las
entradas seleccionadas de estos corpora junto con todas aquellas que se ha considerado
morfologica o semanticamente pertinente a
nadir. Los criterios de seleccion y ampliacion
se han establecido en funcion del tipo de entrada lexica de la siguiente manera:
Lista de categoras abiertas, excluyendo verbos: estas han sido organizadas en relacion a la funcion semantica del vocabulario, tal y como se muestra a continuacion:
- Nombres propios (de ciudades y estaciones): esta lista contiene todos los nombres propios relevantes para la tarea que se han extrado de los corpora y de
la pagina web de Renfe (i.e., largo recorrido).
- Fechas e intervalos de fecha.
- Horas e intervalos de hora (tambien compartido con tiempo de recorrido).
- Tipo de da.
- Tipo de tren: este listado tambien ha sido ampliado con nombres de trenes
extrados de la web de Renfe.
- Tipo de viaje.
- Clase de billete.
- N
umero relativo de orden (diferente de los numerales cardinales que forman
parte de la lista de categoras cerradas).
- Precio.
- Tiempo de recorrido.
- Servicios.
- Otras entradas de la tarea: vocabulario relacionado con la tarea, pero que no
se ci
ne a ninguna de las clases anteriores.
139
140
2.
De estas 1.459 formas se ha efectuado una segunda fase de criba, donde se han
seleccionado manualmente las formas correspondientes a las personas y n
umero
pertinentes para cada verbo, quedandonos as con 854 formas diferentes que
han pasado a formar parte del lexico (Seccion A.5).
3.
A.1.
141
Elda Preter
El Ferrol
El Portillo
Estacio de Franca
Ferrol
Figueras
Figueres
Franca
Fribourg
Friburgo
Gasteiz
Geneve
Gerona
Gij
on
Gij
on Jovellanos
Ginebra
Girona
Granada
Guadalajara
Huelva
Huelva Termino
Huesca
Ir
un
Iru
na
Jaen
Jerez de la Frontera
Jovellanos
La Coru
na
Le
on
Lerida
Linares
Linares Baeza
Lisboa
Lisboa Santa Apolonia
Lleida
Logro
no
Lorca
Lorca Sutullena
Lugo
Madrid
Madrid Atocha
Madrid Chamartn
Madrid Ministerios
Madrid Norte
Madrid Principe Pio
Madrid Puerta de Atocha
Madrid Recoletos
M
alaga
Medina del Campo
Merida
Milano
Ministerios
Miranda de Ebro
Monforte de Lemos
Montpellier
Murcia
Murcia del Carmen
Navalmoral de la Mata
O Porto
O Porto Campanha
Orense
Ourense
Oviedo
Palencia
Pamplona
Pars
Pars Austerlitz
Passeig de Gracia
Placa Catalunya
Plaza Catalu
na
Ponferrada
Pontevedra
Portbou
Porto
Porto Campanha
Principe Pio
Puerta de Atocha
Puerto de Santa Mara
Puertollano
Recoletos
Reus
Sahag
un
Salamanca
San Sebasti
an
Santa Justa
Santander
Sant Andreu Arenal
Sant Andreu Comtal
Santiago
Santiago de Compostela
Sants
Segovia
Sevilla
Sevilla Santa Justa
Soria
Tarragona
Termino
Teruel
Toledo
Torino
Tudela de Navarra
Valencia
Valladolid
Valladolid Campo Grande
142
semanas
septiembre
s
abado
s
abados
verano
viernes
Horas e intervalos de hora
(+tiempo de recorrido)
cuarto
hora
horas
minuto
minutos
ma
nana
ma
nanas
madrugada
media
medioda
momento
momentos
noche
noches
tarde
tardes
electrotrenes
estrella
euromed
euromeds
expreso
expresos
expres
extremadura
finisterre
galicia
intercities
intercity
miguel de unamuno
nocturno
nocturnos
pablo picasso
po baroja
regional
regional delta
regionales
talgo
talgos
tren hotel
trenes hotel
triana
Tipo de viaje
Tipo de da
festivo
festivos
laborable
laborables
Tipo de tren
alaris
alta velocidad
antonio machado
arco
arcos
ave
aves
catalunya expres
c
omodo
c
omodos
costa brava
covadonga
delta
directo
directos
diurno
diurnos
electrotren
ida
vuelta
Clase de billete
asiento
butaca
cama
camas
gran clase
litera
literas
preferente
sentado
sentada
turista
N
umero relativo de orden (diferente de numerales ordinales)
antepen
ultima
antepen
ultimas
antepen
ultimo
antepen
ultimos
anterior
anteriores
Precio
barata
baratas
barato
baratos
billete
billetes
cara
caras
caro
caros
coste
descuento
descuentos
econ
omico
econ
omicos
importe
precio
precios
pesetas
tarifa
tarifas
Tiempo de recorrido
duraci
on
largo
r
apido
r
apidos
recorrido
tiempo
Servicios
ambiental
autoexpreso
bar
bar m
ovil
cafetera
Otras entradas
de la tarea
almuerzo
almuerzos
cabina
cena
cenas
ciudad
ciudades
comida
comidas
compartimento
compartimentos
consulta
consultas
destino
direcci
on
estaci
on
favor
horario
horarios
informaci
on
llegada
llegadas
maleta
maletas
merienda
meriendas
n
umero
origen
parada
paradas
pregunta
pr
oxima
pr
oximas
pr
oximo
pr
oximos
regreso
salida
salidas
taquilla
taquillas
tipo
tipos
transbordo
transbordos
trayecto
trayectos
tren
trenes
viaje
viajes
va
Generales
acuerdo
adi
os
adulto
adultos
aeropuerto
aj
a
amable
buenas
bueno
buenos
cambio
camino
carnet
carnet de estudiante
carnet joven
caso
cierto
claro
concreto
correcto
cosa
departamento
diferencia
diferente
diferentes
distinta
distintas
distinto
distintos
doble
estudiante
estudiantes
estupendo
exacta
exacto
fallas
frecuencia
gracias
grupo
hola
igual
interesada
intermedia
intermedias
intermedio
intermedios
itinerario
jubilado
jubilados
lento
lentos
localidad
143
localidades
manera
mayor
mayores
mejor
necesario
necesarios
ni
no
ni
nos
nombre
normal
opci
on
opciones
pasajero
pasajeros
pascua
pensionista
perd
on
perfecto
persona
personas
pico
plaza
plazas
posibilidad
posibilidades
posible
posibles
problema
problemas
punto
ramos
reducida
regularidad
relativa
respuesta
retorno
reserva
roco
sanfermines
santo
seguro
se
nor
se
norita
solo
suficiente
suplemento
tarjeta dorada
vacaciones
vale
vaya
verdad
vez
144
A.2.
al cabo de
alrededor de
al reves
antes de
as como
cerca de
ida y vuelta
de acuerdo
de manera que
dentro de
dentro del
en direcci
on a
en medio de
en particular
en principio
en realidad
en torno a
en vez de
es decir
con tal de
m
as o menos
o sea
para que
por ejemplo
por favor
por supuesto
respecto a
siempre que
tal vez
Cardinales
cero
uno
dos
tres
cuatro
cinco
seis
siete
ocho
nueve
diez
once
doce
trece
catorce
quince
dieciseis
diecisiete
dieciocho
diecinueve
veinte
veintiuno
veinti
un
veintid
os
veintitres
veinticuatro
veinticinco
veintiseis
veintisiete
veintiocho
veintinueve
treinta
cuarenta
cincuenta
sesenta
setenta
ochenta
noventa
cien
ciento
doscientas
doscientos
trescientas
trescientos
cuatrocientas
cuatrocientos
quinientas
quinientos
seiscientas
seiscientos
setecientas
setecientos
ochocientas
ochocientos
novecientas
novecientos
mil
Ordinales
primera
primeras
primeros
primero
primer
segunda
segundas
segundo
segundos
terceras
tercera
terceros
tercer
tercero
cuarto
cuarta
cuartos
cuartas
quinta
quinto
quintas
quintos
tras
al
del
Conjunciones
aunque
como
cuando
donde
e
ni
o
pero
porque
pues
que
si
sino
u
y
Preposiciones y
contracciones
a
bajo
con
contra
de
desde
durante
en
entre
hacia
hasta
para
por
seg
un
sin
sobre
Pronombres
interrogativos
c
omo
cu
al
cu
ales
cu
ando
cu
anta
cu
antas
cu
anto
cu
antos
d
onde
que
Pronombres
indefinidos
algo
alguien
alguna
algunas
alguno
algunos
nada
nadie
ninguna
ninguno
ningunas
ningunos
ella
nosotros
nosotras
ellos
ellas
me
te
se
le
lo
nos
les
usted
Pronombres
demostrativos
este
esta
estos
estas
ese
esa
esos
esas
aquel
aquella
aquellos
aquellas
esto
eso
aquello
Adverbios
Pronombres
personales
yo
el
ello
acaso
adelante
adem
as
adonde
ad
onde
A.3.
nunca
pronto
quiz
a
quiz
as
salvo
siempre
s
s
olo
tambien
tampoco
tan
temprano
todava
ya
concretamente
efectivamente
exactamente
excesivamente
preferiblemente
pr
oximamente
relativamente
seguramente
simplemente
solamente
u
nicamente
aproximadamente
directamente
Determinantes
alg
un
ambas
ambos
aquel
aquella
aquellas
aquellos
bastante
bastantes
cada
cualesquiera
cualquier
cualquiera
cuya
cuyas
cuyo
cuyos
demasiada
demasiadas
demasiado
demasiados
dem
as
el
esa
esas
ese
esos
esta
estas
este
estos
la
las
los
145
mi
ma
mas
mo
mos
mis
misma
mismas
mismo
mismos
mucha
muchas
muchsimas
mucho
muchos
ning
un
nuestra
nuestras
nuestro
nuestros
otra
otras
otro
otros
poca
pocas
poco
pocos
sendas
sendos
su
sus
suya
suyas
suyo
suyos
tal
tales
tanta
tantas
tanto
tantos
toda
todas
todo
todos
tu
tus
tuya
tuyas
tuyo
tuyos
un
una
unas
unos
varias
varios
vuestra
vuestras
vuestro
vuestros
acabar
acompa
nar
admitir
adquirir
agradecer
ahorrar
almorzar
aprovechar
apuntar
atender
averiguar
buscar
calcular
cambiar
cenar
circular
coger
comentar
comer
compartir
comprar
concretar
confirmar
conocer
conseguir
consultar
convencer
convenir
costar
creer
dar
deber
decidir
decir
depender
desayunar
desear
disculpar
disponer
dormir
durar
efectuar
elegir
enlazar
entender
equivocar
escuchar
esperar
estar
evitar
existir
facilitar
facturar
faltar
funcionar
gastar
gustar
haber
hablar
hacer
imaginar
incluir
indicar
informar
intentar
interesar
ir
llamar
llegar
llevar
marchar
merendar
meter
mirar
molestar
146
A.4.
perder
perdonar
permitir
poder
preferir
preguntar
preocupar
quedar
querer
realizar
recoger
recordar
reducir
referir
regresar
repetir
reservar
residir
saber
sacar
salir
seguir
sentar
sentir
ser
suponer
tardar
tener
tomar
trabajar
valer
venir
ver
viajar
vivir
volver
Inf, Pres-Ind, PP
Inf, PP (+fem)
Inf, Pres-Ind
Inf, Pres-Ind, Cond
Inf, PP (+fem)
Inf
Inf
Inf
Inf, Pres-Ind, PP
Inf, Pres-Ind
Inf
Inf
Inf, Pres-Ind
Inf, Pres-Ind, Pres-Sub, Imp
Inf
Inf, Pres-Ind, Pres-Sub
Inf, Pres-Ind, Pas-Imp, Fut-Imp, Cond, Imp-Sub, PP, Ger,
Imp
Inf(+clit:selo), Pres-Ind, PP
Inf
Inf, Ger, PP
Inf, Pres-Ind, Cond
Inf, Ger
Inf, Pres-Sub, Imp-Sub
Inf
Inf, Pres-Ind
Inf, Pres-Ind
Inf, Pres-Ind
Inf, Imp-Ind, Cond
Inf, Pres-Ind, Fut-Imp, Cond
Inf, Pres-Ind
Inf, Pres-Ind, Imp-Ind, Pas-Ind, Fut-Imp, Pres-Sub, ImpSub, Imp(+clit:melos), PP
Inf, Pres-Ind, Cond
Inf, Pres-Ind, Fut-Imp, Imp-Sub
Inf(+clit:melo), Pres-Ind, Imp-Ind, Pas-Imp, Fut-Imp,
Pres-Sub, Imp-Sub, Fut-Sub, Imp(+clit), PP, Ger
Inf, Pres-Ind
Inf
Inf, Pres-Ind, Cond
Inf, Imp
Inf, Pres-Ind
Inf, PP (+fem)
Inf, Pres-Ind
Inf, Pres-Ind
Inf, Pres-Ind, Imp-Sub
Inf
Inf, Pres-Ind, PP
Inf, PP
Inf, Pres-Ind, Imp
Inf, Imp
Inf, Pres-Ind, Imp-Ind, Cond, Pres-Sub
Inf, Ger
Inf, Pres-Ind
Inf
Inf
Inf, Pres-Ind
Inf, Pres-Ind
Inf, Fut-Imp, Cond
Inf, Cond
Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond, Pres-Sub, Imp-Sub,
PP, Aux
Inf, Pres-Ind, Ger, Imp
Inf, Pres-Ind, Pas-Ind, Fut-Imp, Cond, Pres-Sub, Imp(tb.
+clit), PP, Ger(tb. +clit)
Inf, Pres-Ind
Inf, PP, Ger
Inf
Inf, Imp-Sub
Inf
Inf, Pres-Ind, Imp-Ind, Cond, PP
Inf, Pres-Ind, Imp-Ind, Pas-Ind, Fut-Imp, Cond, Pres-Sub,
Imp-Sub, PP
Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond, PP, Ger
Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond, Pres-Sub, PP
Inf, Pres-Ind, Imp-Ind, Pres-Sub, Imp-Sub
Inf, Pres-Sub
Inf
Inf
Inf, Imp, PP
Inf, Pres-Sub (s
olo: moleste/molesten)
Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond
Inf
Inf, Pres-Ind, Imp (oye/oiga/oigame)
Inf, Cond
Inf, Pres-Ind, Pres-Sub, Cond, Imp-Sub
Inf, Pres-Ind, PP
Inf, Pres-Ind, Pres-Sub
Inf, Pres-Ind, Fut-Imp, Pres-Sub, PP, Ger
Inf, Pres-Ind, Imp-Ind, PP, Ger
Inf, Pres-Ind, Fut-Imp
147
148
donde:
Inf:
Pres-Ind:
Imp-Ind:
Pas-Ind:
Fut-Imp:
Cond:
Pres-Sub:
Imp-Sub:
Fut-Sub:
Imp:
PP:
PP (+fem)
Infinitivo
Presente de Indicativo
Preterito Imperfecto de Indicativo
Preterito Indefinido de Indicativo
Futuro Imperfecto de Indicativo
Condicional
Presente de Subjuntivo
Preterito Imperfecto de Subjuntivo
Futuro Imperfecto de Subjuntivo
Imperativo
Participio
Participio en forma femenina
A.5.
149
Gerundio
Auxiliar (para las formas de haber como auxiliar)
Forma con cltico(s)
acabar
acompa
nar
admitir
adquirir
agradecer
ahorrar
almorzar
aprovechar
apuntar
atender
averiguar
buscar
calcular
cambiar
cenar
circular
coger
comentar
comer
compartir
comprar
concretar
confirmar
conocer
conseguir
consultar
convencer
convenir
costar
creer
dar
deber
decidir
decir
depender
desayunar
desear
disculpar
disponer
dormir
durar
efectuar
elegir
enlazar
entender
equivocar
escuchar
esperar
estar
evitar
existir
facilitar
facturar
faltar
funcionar
gastar
gustar
haber
hablar
hacer
imaginar
incluir
indicar
informar
intentar
interesar
ir
llamar
llegar
llevar
marchar
merendar
meter
mirar
molestar
necesitar
obtener
oir
pagar
parar
parecer
partir
pasar
pedir
pensar
perder
perdonar
permitir
poder
preferir
preguntar
preocupar
quedar
querer
realizar
recoger
recordar
reducir
referir
regresar
repetir
reservar
residir
saber
sacar
salir
seguir
sentar
sentir
ser
suponer
tardar
tener
tomar
trabajar
valer
venir
ver
viajar
vivir
volver
acaba
acabado
acabamos
acaban
acabas
acabo
acompa
nada
acompa
nado
admite
admiten
admits
adquiero
adquirimos
adquirira
adquiriramos
agradecida
agradecido
apunta
apuntado
apuntamos
apunto
atendemos
atendeis
atiende
atienden
atiendes
atiendo
calcula
calculamos
calculan
calculas
calculo
cambia
cambiad
cambiamos
cambian
cambias
cambie
cambien
cambies
cambio
cambi
ais
circula
circulan
circule
circulen
coge
cogemos
cogen
cogeremos
cogere
cogera
cogeramos
cogido
cogiendo
cogiera
cogieran
cogiese
cogiesen
cogimos
cogieramos
cogiesemos
cogi
o
cog
coja
cojamos
cojo
comenta
comentado
comentamos
comentan
comento
compartida
compartido
compartiendo
compra
compramos
compran
comprara
compraramos
compro
concretando
confirmara
confirmarais
confirmaran
confirmaras
confirmase
confirmaseis
confirmasen
confirmases
confirme
confirmemos
confirmen
confirm
aramos
150
decidiremos
decidir
a
decidire
decidieramos
decidiesemos
decido
decid
decimos
deca
decas
di
dice
dices
dicho
diciendo
diga
digamos
digan
digas
digo
dijera
dijeras
dijeres
dijeron
dijese
dijeses
dijiste
dijo
dijeramos
dijesemos
dir
an
dire
depende
dependemos
dependo
deseamos
deseara
desearamos
deseo
disculpa
disculpe
dispone
disponemos
disponen
dispones
dispongo
disponeis
dormida
dormido
dura
duran
efectuamos
efect
uo
elegimos
eligiera
eligiese
eligieramos
eligiesemos
elijamos
elijo
entendemos
entendido
entiende
entiendo
equivocada
equivocado
escucha
escuche
escucho
espera
espere
estaba
estamos
estara
estaramos
estemos
estoy
est
a
est
abamos
est
an
este
evitando
existe
existen
falta
faltan
funciona
funcionan
gastaremos
gastare
gastara
gastaramos
gustara
he
has
ha
hemos
habeis
han
haba
habas
habamos
habais
haban
habre
habr
as
habr
a
habremos
habreis
habr
an
habra
habramos
habrais
habran
hubiera
hubiese
hubieras
hubieses
hubieramos
hubiesemos
hubierais
hubieseis
hubieran
hubiesen
haya
hayas
hayamos
hay
ais
hayan
habido
habla
hablaba
hablado
hablando
hable
hablemos
hablo
hace
haced
hacemos
hacen
haciendo
haga
hagamos
hagan
hagas
hago
haremos
har
a
har
an
har
as
hare
hara
haramos
haran
haras
haz
hecha
hecho
hice
hicieron
hicimos
hizo
iba
iban
ido
iremos
ir
a
ir
an
ire
ira
iramos
iran
va
vamos
van
vaya
vayamos
vayan
voy
bamos
fui
fue
fuimos
fueron
fuera
fueran
fuese
fuesen
fueramos
fuesemos
imagino
incluida
incluido
incluyendo
informara
informaran
informaras
informase
informasen
informases
interesa
interesaba
interesaban
interesada
interesado
interesan
interesara
interesaran
llamaba
llamada
llamado
llamando
llamaremos
llamare
llamara
necesitaran
necesito
necesit
abamos
oigo
oye
oiga
pagara
pagaramos
pagaran
para
paramos
paran
parara
pararan
parara
pararamos
pararan
parase
parasen
pare
paremos
paren
paro
par
aramos
par
asemos
parece
parecido
parta
partamos
partan
parte
parten
partimos
parto
pasa
pasado
pasamos
pasan
pasando
pasaremos
pasar
a
pasare
pase
pasemos
paso
pedido
pedimos
peda
pedamos
pidiendo
pido
pensamos
pensaremos
pensare
pienso
perdemos
perderemos
perdere
pierdo
perdona
perdone
permita
permitan
permite
permiten
permitido
permit
ais
permits
podemos
podido
podremos
podr
a
podr
an
podr
as
podre
podreis
podra
podrais
podramos
podran
podras
podeis
poda
podamos
podan
podas
pudiera
pudierais
pudieran
pudieras
pudiese
pudieseis
pudiesen
pudieses
pudieramos
pudiesemos
pueda
puede
pueden
puedes
puedo
preferimos
preferira
preferiramos
prefiero
preguntado
preocupa
preocupan
151
preocupara
preocuparan
preocupe
preocupes
preocupo
queremos
querra
querramos
quera
queramos
quiere
quieren
quiero
quisiera
quisieran
quisiese
quisiesen
quisieramos
quisiesemos
realiza
realizamos
realizan
realizo
recordamos
recuerda
recuerdan
recuerdo
reducida
reducido
referimos
refera
referamos
referan
refiere
refieren
refiero
regresa
regresamos
regresan
regresando
regreso
repita
repite
repites
reserva
reserve
residimos
resido
sabe
sabemos
saben
sabes
sabra
sabramos
sabras
se
saca
sacamos
sacan
sacas
saco
saldra
saldramos
saldran
sale
salen
salga
salgamos
salgan
salgo
saliendo
saliera
salieran
saliese
saliesen
salimos
salieramos
saliesemos
sala
salan
sentada
sentadas
sentado
sentados
sentimos
siento
sea
seamos
sean
seremos
ser
a
ser
an
sere
sera
seramos
seran
seras
se
ais
sido
siendo
somos
son
soy
era
eran
es
eramos
supone
152
A.6.
toman
tomara
tomaran
tomase
tomasen
tomo
tom
aramos
tom
asemos
trabaja
trabajamos
trabajan
trabajo
valdr
a
valdr
an
valdra
valdran
vale
valen
valido
venga
vengamos
vengan
vengas
vengo
venimos
viene
vienen
vemos
veo
veremos
ver
a
ver
an
ver
as
vere
visto
viaja
viajamos
viajan
viajo
viajare
viajaremos
vive
viven
vivimos
vivo
volvamos
volvemos
volveremos
volver
a
volver
an
volvere
volvera
volveramos
volveran
volviendo
vuelva
vuelvan
vuelve
vuelven
vuelvo
cambiarlo
cogerlo
comentarle
comprarlo
confirmarlo
confirmarme
darme
decirle
decirlo
decirme
decrmelo
A.7.
tena
tenais
tenamos
tenan
tenas
tiene
tienen
tienes
tuviera
tuvierais
tuvieran
tuvieras
tuviese
tuvieseis
tuviesen
tuvieses
tuvieramos
tuviesemos
toma
tomamos
deme
dime
d
amelos
dgame
entenderle
hacerla
hacerlas
hacerle
hacerlo
hacerme
hacerte
haciendolo
h
agame
informarle
informarme
informarse
interesarme
irme
marcharme
oigame
pagarlas
perd
oname
preguntarle
preguntarte
quedarme
realizarlo
recogerlas
recogerme
repetirme
reservarlo
reservarme
reserveme
saberlo
c
ambialo
c
ambielo
c
ambiamelo
c
ambiemelo
cambiarlos
cambi
armelo
cambi
armelos
c
ogeme
cogerlos
c
ojame
comprarlos
confirmarlos
confirm
armelo
confirm
armelos
confirmarnos
consultarle
costarme
costarnos
dame
danos
darnos
d
amelo
d
armelo
d
armelos
demelo
demelos
denos
disc
ulpeme
disc
ulpenos
esc
uchame
esc
ucheme
hazme
irnos
irse
marcharnos
oirle
pagarlo
pagarlos
pagarla
perd
oneme
quedarnos
repetrmelo
reptamelo
repteme
reptame
reservarlos
Ap
endice B
Reducci
on del L
exico de Basurde
A continuacion se muestra en contenido de los dos ficheros de diccionario que se han
empleado en los experimentos de comprension del proyecto BASURDE.
B.1.
dado:dar
dan:dar
darme:dar
decimos:decir
decirle:decir
decirme:decir
deis:dar
deja:dejar
descuentos:descuento
deseara:desear
deseo:desear
dicho:decir
diferentes:diferente
diga:decir
digas:decir
dijera:decir
dijerais:decir
dijeras:decir
directos:directo
disculpe:disculpar
dispone:disponer
dispongo:disponer
distinta:distinto
dura:durar
dgame:decir
153
efectivamente:efectivo
elijo:elegir
ellas:ella
ellos:el
en torno a:alrededor de
entendido:entender
equivocado:equivocar
era:ser
es:ser
estaba:estar
estamos:estar
estara:estar
est
a:estar
exactamente:exacto
excesivamente:excesivo
existe:existir
fuese:ser
fuera:ser
fui:ir
funciona:funcionar
gustara:gustar
ha:haber
hablando:hablar
habra:haber
haba:haber
154
pasamos:pasar
pasan:pasar
pasando:pasar
pase:pasar
peda:pedir
perdone:perdonar
permita:permitir
permite:permitir
personas:persona
plazas:plaza
podr
a:poder
podra:poder
podramos:poder
podras:poder
poda:poder
posee:poseer
posibilidades:posibilidad
posibiliten:posibilitar
posibles:posible
precios:precio
preferiblemente:preferir
preferira:preferir
prefiero:preferir
prontamente:pronto
pudiera:poder
pueda:poder
puedan:poder
puede:poder
pueden:poder
puedes:poder
puedo:poder
quedado:quedar
quedarme:quedar
querra:querer
quera:querer
quieren:querer
quiero:querer
quisiera:querer
realiza:realizar
realizan:realizar
realizarlo:realizar
recordado:recordar
recuerdo:recordar
regionales:regional
regresa:regresar
regreso:regresar
relativa:relativo
relativamente:relativo
repetirme:repetir
repita:repetir
resido:residir
reserveme:reservar
sabe:saber
saldra:salir
sale:salir
salen:salir
salga:salir
salgan:salir
salgo:salir
saliendo:salir
saliera:salir
sal:salir
sala:salir
sali
o:salir
se:saber
sea:ser
sean:ser
seguramente:seguro
sentados:sentado
separado:separar
ser
a:ser
sera:ser
sido:ser
siendo:ser
simplemente:simple
solamente:s
olo
somos:ser
son:ser
supongo:suponer
sus:su
talgos:talgo
tarda:tardar
tarifas:tarifa
tendre:tener
tendra:tener
tenemos:tener
tengo:tener
teniendo:tener
teneis:tener
tena:tener
tiene:tener
tienen:tener
tienes:tener
toma:tomar
u
nicamente:
unico
va:ir
valencianos:valenciano
vamos:ir
van:ir
vayan:ir
vendr
an:venir
ver
a:ver
viajare:viajar
viajes:viaje
viene:venir
vienen:venir
vivo:vivir
volvere:volver
B.2.
155
coches:coche
c
omodos:c
omodo
durmiendo:dormir
motoexpresos:motoexpreso
peri
odicos:peri
odico
revistas:revista
debe:deber
deberan:deber
tendr
a:tener
deltas:delta
electrotrenes:electrotren
estrellas:estrella
euromeds:euromed
expreso:expres
expresos:expres
intercitys:intercity
festivos:festivo
laborables:laborable
coches cama:coche cama
camas:cama
Fichero de Categoras
En este fichero se han agrupado, por razones de cobertura, aquellas palabras que
pertenecen a una determinada categora semantica, sustituyendo sus ocurrencias por una
secuencia de caracteres que no pertenezca al vocabulario de la tarea.
lunes:diasem
jueves:diasem
domingo:diasem
enero:nom mes
abril:nom mes
julio:nom mes
octubre:nom mes
cero:numero u
dos:numero u
cinco:numero u
ocho:numero u
once:numero u
catorce:numero u
diecisiete:numero u
veinte:numero u
veintid
os:numero u
veinticinco:numero u
veintiocho:numero u
cuarenta:decenas
setenta:decenas
ciento:centenas
trescientas:centenas
seiscientas:centenas
novecientas:centenas
da semana
martes:diasem
viernes:diasem
miercoles:diasem
s
abado:diasem
nombre de mes
febrero:nom mes
mayo:nom mes
agosto:nom mes
noviembre:nom mes
n
umeros ordinales
una:numero u
tres:numero u
seis:numero u
nueve:numero u
doce:numero u
quince:numero u
dieciocho:numero u
veintiuna:numero u
veintitres:numero u
veintiseis:numero u
veintinueve:numero u
cincuenta:decenas
ochenta:decenas
cien:centenas
cuatrocientas:centenas
setecientas:centenas
novecientos:centenas
marzo:nom mes
junio:nom mes
septiembre:nom mes
diciembre:nom mes
uno:numero u
cuatro:numero u
siete:numero u
diez:numero u
trece:numero u
dieciseis:numero u
diecinueve:numero u
veintiuno:numero u
veinticuatro:numero u
veintisiete:numero u
treinta:decenas
sesenta:decenas
noventa:decenas
doscientas:centenas
quinientas:centenas
ochocientas:centenas
mil:miles
156
fiestas
semana santa:nom fiestas
fallas:nom fiestas
navidad:nom fiestas
nochebuena:nom fiestas
a
nonuevo:nom fiestas
pursima:nom fiestas
constituci
on:nom fiestas
las 4 estaciones
primavera:est anyo
verano:est anyo
oto
no:est anyo
invierno:est anyo
ciudades
a coru
na:nom ciudad
la coru
na:nom ciudad
coru
na:nom ciudad
albacete:nom ciudad
alicante:nom ciudad
almera:nom ciudad
arcos de jal
on:nom ciudad
asturias:nom ciudad
badajoz:nom ciudad
barcelona:nom ciudad
benicarl
o:nom ciudad
benic
assim:nom ciudad
bilbao:nom ciudad
las borges blanques:nom ciudad
les borges blanques:nom ciudad
borges blanques:nom ciudad
burgos:nom ciudad
calatayud:nom ciudad
cambrils:nom ciudad
cartagena:nom ciudad
castell
o de la plana:nom ciudad
castell
on:nom ciudad
cercedilla:nom ciudad
ciudad real:nom ciudad
coru
na:nom ciudad
cuenca:nom ciudad
c
aceres:nom ciudad
c
adiz:nom ciudad
c
ordoba:nom ciudad
espa
na:nom ciudad
flas
a:nom ciudad
gerona:nom ciudad
gij
on:nom ciudad
girona:nom ciudad
granada:nom ciudad
guadalajara:nom ciudad
huesca:nom ciudad
ir
un:nom ciudad
jaca:nom ciudad
la coru
na:nom ciudad
la tour de querol:nom ciudad
las borges blanques:nom ciudad
le
on:nom ciudad
llanes:nom ciudad
lleida:nom ciudad
logro
no:nom ciudad
loja:nom ciudad
lora del ro:nom ciudad
lorca:nom ciudad
lugo:nom ciudad
lerida:nom ciudad
madrid:nom ciudad
miranda de ebro:nom ciudad
moj
acar:nom ciudad
monz
on:nom ciudad
monz
on ro cinca:nom ciudad
murcia:nom ciudad
m
alaga:nom ciudad
nuria:nom ciudad
orense:nom ciudad
oviedo:nom ciudad
palencia:nom ciudad
pamplona:nom ciudad
pars:nom ciudad
pobla de segur:nom ciudad
pontevedra:nom ciudad
reus:nom ciudad
ribes:nom ciudad
ribes de freser:nom ciudad
sabadell:nom ciudad
157
salou:nom ciudad
san vicente de calders:nom ciudad
santiago:nom ciudad
sevilla:nom ciudad
soria:nom ciudad
teruel:nom ciudad
valencia:nom ciudad
valls:nom ciudad
vilanova y la geltr
u:nom ciudad
vitoria:nom ciudad
zaragoza:nom ciudad
nombre de estaci
on
barcelona sants:nom estacion
benicarl
o pe
nscola:nom estacion
bilbao abando:nom estacion
ciudad real central:nom estacion
c
ordoba central:nom estacion
madrid atocha:nom estacion
madrid chamartn:nom estacion murcia del carmen:nom estacion
m
alaga termino:nom estacion
plaza catalu
na:nom estacion
port aventura:nom estacion
sants:nom estacion
sevilla santa justa:nom estacion zaragoza el portillo:nom estacion
158
Ap
endice C
Introducci
on
C.2.
Primer nivel
160
161
- Confirmacion: todas las interrogaciones (o equivalentes) que buscan confirmar un dato previo o ya obtenido por el sistema (incluye datos por defecto);
el heurstica a seguir es que en tercer nivel se dice algo que tambien se incluye
en el segundo nivel. Para el caso de usuario, es cuando confirma un dato dado
explcitamente por el sistema/WOZ en turnos previos.
- Respuesta: cualquier respuesta a una pregunta previa que no sea Afirmacion
o Negacion; preferentemente, cubrira turnos completos (sobre todo en el caso
del WOZ). Una respuesta clasica del WOZ suele incluir el n
umero de trenes que
cumplen las condiciones; estas respuestas se incluyen en el frame Hora-salida.
C.3.
Segundo nivel
Este segundo nivel indica la frame que, se esta buscando rellenar para dar la respuesta.
La lista de frames definidas en el modulo de comprension son:
Nil
Hora-salida
Hora-salida-v (para el viaje de vuelta)
Hora-llegada
Hora-llegada-v (para el viaje de vuelta)
Precio
Origen
Destino
Tiempo-recorrido
Para-en
Dia-salida
Dia-llegada
Tipo-tren
Tipo-viaje
Servicio
Por defecto, se supone que las preguntas del usuario estan enfocadas a obtener una
hora de salida (frame Hora-salida). Es posible que esta lista quede ampliada en un futuro
a medida que se encuentren situaciones no abordables.
162
C.4.
Tercer nivel
El tercer nivel indica los datos que se aportan dentro de segmento; por tanto, indica
los cases que se estan rellenando o se han rellenado en el frame en curso. Los cases, luego
etiquetas de tercer nivel, son:
Nil
Origen
Estacion-origen
Destino
Estacion-destino
Dia
Hora-salida
Hora llegada
Precio (incluyendo terminos como barato, caro, economico, . . . )
Parada-en
Tipo-tren (Talgo, lntercity, Expreso, . . . )
Tipo-viaje (ida, ida y vuelta, vuelta)
Tipo-dia (laborable, festivo . . . )
Numero-relativo-orden (primero, segundo, tercero, u
ltimo, . . . )
Tiempo-recorrido (incluyendo terminos como rapido, lento, . . . )
Numero-trenes
Servicio (primera clase, segunda clase, camas, literas, bar, autoexpreso, . . . )
Esta lista tambien es susceptible de ampliacion a medida que se encuentren situaciones
no encontradas en los dialogos tratados hasta ahora.
A continuacion se muestra un ejemplo de uno de los dialogos anotado con el etiquetado
a tres niveles. Los turnos de usuario aparecen con una U may
uscula delante y los del
mago con una M. La primera lnea que empieza con un # especifica la fecha de
etiquetado, las iniciales del etiquetador y la version del etiquetador empleado.
#Thu Mar 16 20:57:51 2000PAAVersion 5
M0: bienvenido al sistema autom
atico de informaci
on de trenes regionales y de largo recorrido
. que desea ?
bienvenido al sistema autom
atico de informaci
on de trenes regionales y de largo recorrido .
que desea ?
(M:Apertura:Nil:Nil) pal:1-18
163
164
Ap
endice D
Descripci
on de los escenarios de la
tarea
Para cada tipo de escenario se han definido 10 objetivos concretos (que se numeran
del 0 al 9) y para cada uno de estos se han establecido 5 variantes (numeradas del 1 al
5). De este modo se obtiene un total de 150 escenarios distintos. A cada escenario se le
asigna un codigo en funcion del tipo, el objetivo y la variante, seg
un el siguiente patron:
X.n.m
donde:
X indica el tipo de escenario: A, B o C (vease el apartado 3).
n indica el objetivo del escenario (del 0 al 9).
m indica la variante (del 1 al 5).
El codigo de los escenarios tipo D es:
D.i
donde i es el n
umero de orden (o codigo) asignado al informante.
Es importante mencionar aqu que las variantes 1 y 5 se han destinado a los informantes
de Zaragoza y las variantes 2, 3 y 4 a los informantes de Barcelona. Esta circunstancia ha
sido tenido en cuenta a la hora de formular los escenarios. A continuacion se muestran la
variante 1 y 5 (en esta u
ltima se debe escoger alguno de los valores) de los 10 objetivos
practicados para los tipos A, B y C.
165
166
D.1.
Escenarios tipo A
Objetivo 0
C
odigo: A.0.1
Objetivo: Horarios de los trenes hacia destino el pr
oximo viernes por la tarde o s
abado por la
ma
nana.
Situaci
on: Unos parientes suyos celebran las bodas de plata en Ciudad Real el pr
oximo s
abado
por la noche. Prefiere viajar en tren el s
abado por la ma
nana. Si as no llega a tiempo, tendr
a que
salir el viernes por la tarde.
C
odigo: A.0.5
Objetivo: Horarios de los trenes hacia destino el pr
oximo viernes por la tarde o s
abado por la
ma
nana.
Situaci
on: El pr
oximo fin de semana le apetece visitar a unos amigos que viven a unos 300 Kms de
distancia. Escoja la estaci
on de tren m
as pr
oxima a donde ellos viven y su da de salida (viernes
o s
abado) e inf
ormese.
Objetivo 1
C
odigo: A.1.1
Objetivo: Horario de trenes a destino.
Situaci
on: Unos amigos suyos que viven en Lleida acaban de tener un hijo y le gustara hacer una
escapada en tren para visitarles y conocer al recien nacido.
C
odigo: A.1.5
Objetivo: Horario de trenes a destino.
Situaci
on: En estos u
ltimos a
nos, son muchas las ciudades del pas que est
an renov
andose y
mejorando su aspecto. Usted y unos amigos han decido aprovechar este verano para ir a visitar
una de estas ciudades. Escoja una ciudad, capital de provincia, e inf
ormese para organizar su
viaje.
Objetivo 2
C
odigo: A.2.1
Objetivo: Horario de los trenes a destino el fin de semana.
Situaci
on: Usted tiene unos amigos en Alicante que constantemente le invitan a pasar un fin de
semana en su casa de la playa y por fin ha aceptado. Le han comentado que el medio de transporte
m
as confortable es el tren.
167
C
odigo: A.2.5
Objetivo: Horario de los trenes a destino el fin de semana.
Situaci
on: Con la llegada de la primavera, son muchas las ciudades del pas que organizan festivales
al aire libre. Usted est
a muy interesado en asistir a una de estas ciudades un fin de semana. Escoja
un fin de semana concreto y una ciudad (capital de provincia o de similar importancia).
Objetivo 3
C
odigo: A.3.1
Objetivo: Horario de los trenes a destino en una fecha determinada.
Situaci
on: Usted quiere ir a los San Fermines el da 7 de julio. Quiere estar en Pamplona el da
anterior para poder asistir al primer encierro.
C
odigo: A.3.5
Objetivo: Horario de los trenes a destino en una fecha determinada.
Situaci
on: Usted puede coger 4 das de fiesta y ha decidido aprovecharlos para hacer una corta
escapada al Pas Vasco. Escoja una capital de provincia vasca y unas fechas.
Objetivo 4
C
odigo: A.4.1
Objetivo: Horario y tipo de los trenes a destino en una fecha determinada por la ma
nana.
Situaci
on: Su jefe acaba de llamar proponiendole que asista a una reuni
on de trabajo en la que
se discutir
an temas relacionados con un proyecto en el que usted est
a trabajando en su empresa.
La reuni
on tendr
a lugar en Monz
on el da 15 de junio por la ma
nana. Deber
a partir el mismo
da 15 por la ma
nana porque la noche anterior tiene una cena familiar. Desea elegir el tren m
as
confortable posible.
C
odigo: A.4.5
Objetivo: Horario y tipo de los trenes a destino en una fecha determinada por la ma
nana.
Situaci
on: El 15 de junio de cada a
no se encuentra con unos amigos que viven en diferentes ciudades
que conoci
o en un viaje a Marruecos. Cada a
no realizan una comida en una ciudad (capital de
provincia o de importancia similar y de marcado interes cultural) diferente. Este a
no usted decide
la ciudad. Escoja una ciudad e inf
ormese de como podr
a usted llegar en tren hasta ella. Tenga en
cuenta el tipo de tren.
Objetivo 5
C
odigo: A.5.1
Objetivo: Horarios de un tipo concreto de tren entre origen y destino.
168
Situaci
on: Su empresa est
a colaborando en un proyecto en C
ordoba con una empresa de Madrid.
Ha surgido un problema de u
ltima hora y su jefe le ha insinuado que lo m
as conveniente sera que,
en compa
na de alguien de la empresa de Madrid, se desplazara hasta C
ordoba. Sabe que es una
buena oportunidad para quedar bien con el jefe, pero como tiene mucho trabajo intentar
a perder el
menor tiempo posible en el viaje. Se acercar
a en coche a Madrid, pero el trayecto Madrid-C
ordoba
lo piensa hacer en el Ave.
C
odigo: A.5.5
Objetivo: Horarios de un tipo concreto de tren entre origen y destino. 15
Situaci
on: Tiene una semana de vacaciones y quisiera visitar dos ciudades de las muchas que
no conoce. Para aprovechar la semana, quiere que esten a una distancia relativamente corta en
tren. Escoja esas dos ciudades(capitales de provincia o de importancia similar), e inf
ormese de la
conexi
on entre ellas en tren. Desea evitar los trenes de cercanas cuando haga el viaje.
Objetivo 6
C
odigo: A.6.1
Objetivo: Horario de los trenes de origen a destino el pr
oximo da concreto de la semana.
Situaci
on: Usted reside en San Sebasti
an y tiene unos amigos que van a ir a Bilbao a visitar el
museo Guggenhein el pr
oximo fin de semana. Usted estuvo en el museo recientemente, pero estos
das hay una exposici
on temporal de su escultor favorito. El problema es que sus amigos salen el
viernes y usted el viernes trabaja hasta tarde. Deber
a salir el s
abado.
C
odigo: A.6.5
Objetivo: Horario de los trenes de origen a destino el pr
oximo da concreto de la semana.
Situaci
on: La pr
oxima semana empiezan sus vacaciones. Deber
a acercarse en coche hasta la ciudad
A donde viven los amigos con los cuales piensa ir de viaje en tren hasta la ciudad costera B. Escoja
que da de la semana pr
oxima quiere viajar, elija las ciudades A y B (capitales de provincia o de
importancia similar) e inf
ormese.
Objetivo 7
C
odigo: A.7.1
Objetivo: Horarios de un tipo concreto de tren entre origen y destino en una fecha determinada.
Situaci
on: Quiere asistir a un festival de m
usica medieval que se celebra durante los das 1, 2 y 3
de julio en la ciudad de Cuenca. Usted reside en Guadalajara y desea tomar un r
apido el propio
1 de julio.
C
odigo: A.7.5
Objetivo: Horarios de un tipo concreto de tren entre origen y destino en una fecha determinada.
Situaci
on: Est
a preparando sus vacaciones y ha pensado que este a
no le toca conocer Andaluca.
Escoja una ciudad de la costa para establecer su residencia y elija una ciudad interior para visitar
169
Objetivo 8
C
odigo: A.8.1
Objetivo: Horarios de un tipo concreto de tren a destino.
Situaci
on: Usted hace muchos a
nos que intenta asistir a la Fiesta de Abril de Sevilla pero diversos
motivos se lo impiden. Este a
no ha decidido visitar Sevilla aunque no sea en abril, pero al menos
quiere viajar en el Ave.
C
odigo: A.8.5
Objetivo: Horarios de un tipo concreto de tren a destino.
Situaci
on: Escoja un tipo de tren (Intercity, Talgo, Euromed, R
apido) y una ciudad de la costa
mediterr
anea para pasar un fin de semana.
Objetivo 9
C
odigo: A.9.1
Objetivo: Horario de trenes de origen a destino.
Situaci
on: Usted reside en Valladolid y quiere ir este verano a Bilbao a visitar el museo Guggenhein.
C
odigo: A.9.5
Objetivo: Horario de trenes de origen a destino.
Situaci
on: Usted tiene 4 das de fiesta y desea aprovecharlos para ver a dos amigos del colegio
que viven en dos ciudades diferentes, aunque no muy alejadas. Escoja las fechas y las ciudades
(capitales de provincia o de importancia similar) e inf
ormese.
D.2.
Escenarios tipo B
Objetivo 0
C
odigo: B.0.1
Objetivo: Horarios y precio desde origen a destino en una fecha determinada.
Situaci
on: Usted reside en Guadalajara y durante sus vacaciones del a
no pasado en Lanjar
on
entabl
o amistad con una familia de C
aceres. Ha decidido ir a visitarles estas vacaciones y pasar
unos das en esa ciudad que desconoce. Prefiere llevarse a toda su familia en tren. Su idea es
desplazarse a primeros de agosto. Para precisar el da se informar
a de la oferta de trenes. El precio
del viaje le ser
au
til para empezar a presupuestar sus vacaciones.
170
C
odigo: B.0.5
Objetivo: Horarios y precio desde origen a destino en una fecha determinada.
Situaci
on: Desea pasar una semana de vacaciones en una capital de provincia gallega. El viaje de
ida lo hace en coche con unos amigos, pero la vuelta la ha de hacer por su cuenta. Elija la ciudad
que le gustara visitar y el da que preferira volver.
Objetivo 1
C
odigo: B.1.1
Objetivo: Precio de un tipo concreto de tren para un horario determinado.
Situaci
on: Usted es un gran aficionado a la m
usica cl
asica y ha conseguido entradas para una
o
pera en el Liceo de Barcelona el S
abado 26 de junio. La o
pera empieza a las 22.30 y quiere ir a
Barcelona en un tren r
apido.
C
odigo: B.1.5
Objetivo: Precio de un tipo concreto de tren para un horario determinado.
Situaci
on: Imagnese que es un medico y que debe acudir a la presentaci
on de un producto de una
on
compa
na farmaceutica. La sede de la compa
na est
a en CIUDAD DESTINO y la presentaci
es el DIA, a la HORA. Escoja la CIUDAD DESTINO entre capitales de provincia o ciudades de
importancia similar, y el DIA y la HORA de la presentaci
on. Elija el tipo de tren en el que le
gustara realizar el viaje. Compruebe que el precio no sea excesivamente caro.
Objetivo 2
C
odigo: B.2.1
Objetivo: El horario y el precio de un tipo concreto de tren.
Situaci
on: Suponga que en un par de meses realizar
a una estancia de 9 meses en Madrid por
motivos de trabajo. Ha planeado acudir previamente a Madrid para hablar sobre las condiciones
de trabajo y ha concertado su visita el pr
oximo lunes a las 12:30 de la ma
nana. Ha decidido viajar
en el Talgo, si no es excesivamente caro, y as comprobar por usted mismo si es tan buen tren
como dicen.
C
odigo: B.2.5
Objetivo: El horario y el precio de un tipo concreto de tren.
Situaci
on: Acaban de comunicarle que su hermana, que vive en una capital de provincia del sur de
Espa
na, ha tenido un hijo. Desea ir a verla ma
nana mismo, pero, como no sabe conducir, ir
a en
tren. Quiere ir en un tren r
apido pero barato.
171
Objetivo 3
C
odigo: B.3.1
Objetivo: Horario y precio de trenes de una ciudad origen a una ciudad destino en una determinada
fecha.
Situaci
on: Usted reside en Soria y unos buenos amigos suyos, que est
an viviendo en Benicassim, le
han ofrecido la posibilidad de pasar con ellos unos das durante las pr
oximas vacaciones de verano.
Sus vacaciones empiezan el da 31 de julio y le apetece salir cuanto antes, siempre y cuando el
viaje no sea excesivamente caro. Como sus amigos le recoger
an en la estaci
on, no debera llegar a
Benicassim ni muy pronto ni muy tarde.
C
odigo: B.3.5
Objetivo: Horario y precio de trenes de una ciudad origen a una ciudad destino en una determinada
fecha.
Situaci
on: Por razones de trabajo su pareja y usted se encuentran durante una temporada en
ciudades muy alejadas, una del sur y otra del norte de Espa
na. Elija la ciudad en la que usted se
encuentra destinado entre capitales de provincia o ciudades de importancia similar. Resulta que el
pr
oximo martes es el aniversario de cuando se conocieron y deciden encontrarse en Madrid para
festejarlo. Le interesa estar en Madrid lo antes posible, pero no muy temprano, siempre que no le
cueste excesivamente caro.
Objetivo 4
C
odigo: B.4.1
Objetivo: Precio de trenes a una ciudad dada en una determinada fecha.
Situaci
on: Este verano se va de vacaciones a la India. El vuelo sale desde Barcelona a las 12 de
la ma
nana del da 3 de agosto. Usted quiere estar en el aeropuerto unas 2 horas antes de las 12 y
preferira no tener que hacer noche en Barcelona, aunque tenga que madrugar.
C
odigo: B.4.5
Objetivo: Precio de trenes a una ciudad dada en una determinada fecha.
Situaci
on: Escoja una capital de provincia del Pas Vasco donde supondremos que tiene una oferta
de trabajo. Decida un da para ir a visitar la empresa e inf
ormese de la disponibilidad de trenes
desde Zaragoza a la ciudad vasca y del precio del billete.
Objetivo 5
C
odigo: B.5.1
Objetivo: Horarios y precio de un tipo concreto de tren desde una ciudad origen a una ciudad
destino para un da determinado (viaje de ida y vuelta).
Situaci
on: Usted vive en Sevilla y viaja con frecuencia a Madrid por motivos laborales. Sabe que
hay un nuevo tren (ha visto anuncios en la tele, pero no recuerda el nombre) que es bastante
172
r
apido y c
omodo. De hecho quiere conocer la forma m
as r
apida de realizar este tipo de viaje y ver
las posibilidades de ir y volver en el mismo da (siempre das laborables).
C
odigo: B.5.5
Objetivo: Horarios y precio de un tipo concreto de tren desde una ciudad origen a una ciudad
destino para un da determinado (viaje de ida y vuelta).
Situaci
on: Usted vive en CIUDAD ORIGEN y tiene una reuni
on que le exige estar en CIUDAD DESTINO (elija la ciudad destino a una distancia no superior a 200 km de su ciudad de
residencia) el DIA (elija da). La reuni
on comenzar
a a primera HORA de la tarde (elija la hora)
y no durar
a mucho (m
aximo 2 horas). Desea regresar en el da.
Objetivo 6
C
odigo: B.6.1
Objetivo: Horarios, precios y tipo de tren a destino el pr
oximo fin de semana.
Situaci
on: Usted tiene una boda el pr
oximo s
abado en La Coru
na a las 12 del medioda y el
lunes a las ocho debe estar de vuelta en el trabajo. No quiere viajar el mismo s
abado y por tanto
quiere tomar alg
un tren el viernes por la tarde, teniendo en cuenta que sale del trabajo a las tres.
Desconoce que trenes hay ni de que tipo son. Adem
as, el precio del viaje es un dato necesario para
tomar la decisi
on.
C
odigo: B.6.5
Objetivo: Horarios, precios y tipo de tren a destino el pr
oximo fin de semana.
Situaci
on: Escoja una ciudad con estaci
on de tren y a una distancia razonable teniendo en cuenta
que quiere pasar en ella el pr
oximo fin de semana con su pareja. Inf
ormese de la disponibilidad de
trenes para organizar su viaje de forma que aproveche al m
aximo el fin de semana. Como no le
gusta viajar de cualquier manera, tambien quiere conocer los tipos de tren y por cuanto le sale el
viaje.
Objetivo 7
C
odigo: B.7.1
Objetivo: Horarios y precios a destino desde origen en un intervalo de tiempo dado. 22
Situaci
on: Usted se encuentra por razones de trabajo en Madrid y tiene por fin unos das para
visitar Cuenca, la famosa ciudad encantada. En las pr
oximas semanas dispondr
a de un fin de
semana largo (jueves a domingo) y quiere aprovecharlos al m
aximo, sin importarle madrugar. No
sabe si los horarios de tren le permitir
an realizar esa visita y desconoce el coste del viaje.
C
odigo: B.7.5
Objetivo: Horarios y precios a destino desde origen en un intervalo de tiempo dado.
173
Situaci
on: Suponga que reside en una ciudad de la costa catalana. Escoja otra ciudad de la costa
mediterr
anea andaluza donde deseara llevar a su familia la primera semana del pr
oximo mes, pues
ha conseguido unos das de permiso. Quiere olvidarse del coche y por tanto viajar
an en tren.
Objetivo 8
C
odigo: B.8.1
Objetivo: Confirmar el horario y averiguar el tipo de tren y el precio entre origen y destino un da
determinado de la semana.
Situaci
on: Usted reside en Vigo y tendr
a que viajar con frecuencia a Madrid por motivos laborales.
Son visitas de un da y prefiere llegar descansado en el tren a pegarse el madrug
on para coger el
primer avi
on. Le interesa confirmar si hay alg
un tren nocturno (salida sobre las 10 de la noche)
los domingos e informarse del tipo de tren (lleva camas o literas) y el precio del billete.
C
odigo: B.8.5
Objetivo: Confirmar el horario y averiguar el tipo de tren y el precio entre origen y destino un da
determinado de la semana.
Situaci
on: Escoja dos ciudades que usted sepa que tengan conexi
on nocturna en tren. Decida cual
de ellas es la ciudad origen y suponga una cierta hora de salida del tren nocturno. Intente confirmar
que efectivamente hay alg
un tren nocturno a esa hora o similar para esta noche y averig
ue que
tipo de tren hace ese trayecto y cuanto cuesta el billete.
Objetivo 9
C
odigo: B.9.1
Objetivo: Horarios, precio y tipo de tren de origen a destino.
Situaci
on: Usted se presenta a unas oposiciones que convoca el ayuntamiento de Ciudad Real. La
idea es ir a Madrid en avi
on y desde all en tren. Las oposiciones empiezan el martes 6 de julio
a las 18.00 horas y pueden acabar el miercoles al medioda o el jueves al medioda (depende de
cuantos candidatos se presenten finalmente). Quiere saber los horarios y tipos de los diferentes
trenes, con el precio del billete en primera, siempre teniendo en cuenta que hay que combinar con
el avi
on en Madrid.
C
odigo: B.9.5
Objetivo: Horarios, precio y tipo de tren de origen a destino.
Situaci
on: Usted es representante de una f
abrica de calzado y se ha desplazado en coche por motivos
laborales a una ciudad de Castilla - La Mancha (a elegir). Tena previsto seguir viaje profesional
hacia otra ciudad de Castilla - Le
on (a elegir). Su coche ha sufrido una avera y deber
a permanecer
en un taller de la primera ciudad dos das. Por tanto, su plan es ahora ir en tren desde la ciudad
de Castilla - La Mancha a la ciudad de Castilla - Le
on. Necesita conocer los horarios y tipos de
trenes disponibles para reorganizar toda su ruta y el precio del billete para su planificaci
on de
gastos.
174
D.3.
Escenarios tipo C
Objetivo 0
C
odigo: C.0.1
Objetivo: Precios y horarios de ida y vuelta para una ciudad concreta en unas fechas determinadas.
Situaci
on: Tiene una reuni
on de negocios en Palencia el pr
oximo miercoles a las 11 de la ma
nana.
Es muy posible que la reuni
on se alargue hasta bien entrada la tarde. Como no le gustara tener
que pernoctar en Palencia, quiere saber si podra viajar en litera o coche-cama.
C
odigo: C.0.5
Objetivo: Precios y horarios de ida y vuelta para una ciudad concreta en unas fechas determinadas.
Situaci
on: Trabaja en la sucursal de una importante empresa cuya sede central est
a situada en
una ciudad diferente (escoja una entre capitales de provincia) a la de su residencia. El pr
oximo
jueves tiene una importante reuni
on en la sede central, reuni
on que previsiblemente durar
a todo
el da. Preferira viajar c
omodamente en coche cama.
Objetivo 1
C
odigo: C.1.1
Objetivo: Precios y horarios de ida y vuelta entre dos ciudades dadas, para unas fechas determinadas y en un tipo concreto de tren.
Situaci
on: Un amigo suyo que vive en Castell
on ha tenido un accidente y usted, que se encuentra
casualmente en Barcelona, quiere ir a visitarlo. Puede coger un tren el viernes por la tarde y volver
el domingo por la noche. Le gustara hacer un viaje c
omodo y r
apido, por eso intentar
a coger el
Euromed o alg
un otro tren r
apido (como el Talgo).
C
odigo: C.1.5
Objetivo: Precios y horarios de ida y vuelta entre dos ciudades dadas, para unas fechas determinadas y en un tipo concreto de tren.
Situaci
on: Usted va a hacer un viaje de dos semanas a una ciudad A (capital de provincia) y desea
visitar un museo que se encuentra en otra capital de provincia B durante el fin de semana. Con
antelaci
on al viaje a la ciudad A, usted llama al servicio de informaci
on para averiguar los horarios
de trenes entre las ciudades A y B que circulan el s
abado. Desea viajar en un tren r
apido.
Objetivo 2
C
odigo: C.2.1
Objetivo: Precios y horarios de ida y vuelta para ir a una ciudad dada a pasar un fin de semana.
Situaci
on: Tiene que visitar a un amigo enfermo en Santander el fin de semana. Le gustara salir el
viernes por la tarde despues del trabajo y poder regresar el domingo por la noche. No le importa
175
viajar de noche, pero no quiere ni coche-cama ni litera. En la vuelta, el tren tiene que llegar antes
de las 12 de la noche del domingo, ya que el lunes temprano tiene una importante reuni
on en el
trabajo a la que le gustara acudir descansado.
C
odigo: C.2.5
Objetivo: Precios y horarios de ida y vuelta para ir a una ciudad dada a pasar un fin de semana.
Situaci
on: Piense en una actividad que practica con unos amigos que viven en una ciudad (escoja
una entre capitales de provincia o de importancia similar) distinta de su ciudad de residencia. Ha
quedado que el fin de semana visitar
a a sus amigos para practicar esa actividad en com
un. Desea
viajar en un tren r
apido pero que no sea muy caro.
Objetivo 3
C
odigo: C.3.1
Objetivo: Horarios y precios de los trenes (ida y vuelta) entre dos ciudades concretas para un da
determinado.
Situaci
on: Unos amigos americanos, que se encontrar
an en Madrid el pr
oximo jueves en tr
ansito
para pasar las vacaciones en Grecia, han decidido hacer una escapada para verle y de paso visitar
a la Pilarica. Le han pedido que les organice el viaje sabiendo que llegar
an a Madrid a las 8 de la
ma
nana y salen para Atenas a las 9 de la noche. Sus amigos son muy mirados con el dinero.
C
odigo: C.3.5
Objetivo: Horarios y precios de los trenes (ida y vuelta) entre dos ciudades concretas para un da
determinado.
Situaci
on: Escoja una ciudad origen (en la que le gustara estar de vacaciones) y una ciudad destino
tales que, por su proximidad o por que existan trenes r
apidos entre ellas, sea posible organizar un
viaje de ida y vuelta el mismo da para realizar una actividad de 4 o
5 horas en la ciudad destino.
Escoja un da y pida informaci
on para preparar el viaje.
Objetivo 4
C
odigo: C.4.1
Objetivo: Horarios y precios de trenes a una ciudad concreta sabiendo el da de ida y el da de
vuelta.
Situaci
on: Por ser las fiestas locales tiene 3 das de vacaciones. Est
a pensando en ir con su familia
a Barcelona para visitar el Aquarium, el zoo, el puerto y alguna otra cosa. Quiere salir de viaje el
da 16 de junio y volver el 19.
C
odigo: C.4.5
Objetivo: Horarios y precios de trenes a una ciudad concreta sabiendo el da de ida y el da de
vuelta.
176
Situaci
on: Usted dispone de varios das de vacaciones y desea visitar alguna ciudad de Espa
na.
Escoja la ciudad que va a visitar (entre capitales de provincia o de importancia similar) y unas
fechas concretas de ida y vuelta dentro del presente o del pr
oximo mes.
Objetivo 5
C
odigo: C.5.1
Objetivo: Precios y horarios de ida y vuelta a Valencia para pasar unos das por Fallas.
Situaci
on: Quiere hacer una visita a Valencia durante las Fallas. Como esta semana tiene turno
de trabajo por la ma
nana y ha pedido fiesta el jueves, saldra el miercoles 17 despues de comer
para regresar el domingo a u
ltima hora. No le importara viajar de noche en coche-cama siempre
que no le salga demasiado caro
C
odigo: C.5.5
Objetivo: Precios y horarios de ida y vuelta a Valencia para pasar unos das por Fallas.
Situaci
on: Por Fallas, quiere hacer un viaje de ida y vuelta a Valencia. Prefiere viajar de noche ya
que resulta m
as tranquilo. Deseara que el viaje no fuera muy caro. Elija las fechas para el viaje,
pero suponga que tiene cierta flexibilidad en los das de salida y de vuelta.
Objetivo 6
C
odigo: C.6.1
Objetivo: Horarios y precios de un viaje de fin de semana a una ciudad determinada.
Situaci
on: Usted tiene la familia en Jaca. Ha decidido que este fin de semana ir
a a verlos, ya que
este viernes por la tarde no trabaja. Puede salir a partir de las 5 de la tarde y quiere llegar lo antes
posible. No le importa el que el precio del billete sea caro. Quisiera volver el domingo a partir de
las 5 de la tarde.
C
odigo: C.6.5
Objetivo: Horarios y precios de un viaje de fin de semana a una ciudad determinada.
Situaci
on: Usted tiene la familia en una ciudad (esc
ojala entre capitales de provincia o ciudades
de importancia similar) distinta de la ciudad en la que reside. Ha decidido que este fin de semana
va a ir a verlos, ya que este viernes por la tarde no trabaja.
Objetivo 7
C
odigo: C.7.1
Objetivo: Horarios y precio para un viaje a Madrid, haciendo la ida y la vuelta el mismo da.
Situaci
on: Usted vive en Sevilla y tiene que ir a una reuni
on en la sede central de su empresa que
est
a en Madrid. La reuni
on es el jueves de la semana pr
oxima. Por razones de trabajo tiene que ir
y volver el mismo da. La reuni
on est
a convocada a las 10 de la ma
nana y se espera que termine
177
hacia las 5 de la tarde. Debe ser muy puntual en la llegada. Le sede de la empresa est
a cerca (a
unos 15 minutos) de la estaci
on de Atocha. Le interesa, si lo horarios lo permiten, ir en AVE,
primera clase.
C
odigo: C.7.5
Objetivo: Horarios y precios haciendo la ida y la vuelta el mismo da.
Situaci
on: Escoja una ciudad como su lugar de residencia. Tiene que hacer un viaje de ida y vuelta
el mismo da a Madrid o Barcelona por motivos de trabajo o particulares. Escoja el da que quiere
ir (o los das que podra ir) y las horas aproximadas de salida y llegada que le permitan realizar
sus actividades en la ciudad correspondiente. Busque siempre trenes r
apidos como el AVE, Talgo
o Intercity.
Objetivo 8
C
odigo: C.8.1
Objetivo: Horarios y precios de un viaje de ida y vuelta a una ciudad determinada en la que ha
de estar a primera hora de la ma
nana.
Situaci
on: Usted tiene que estar ma
nana a primera hora en Madrid. Est
a muy ocupado y le
interesara salir lo m
as tarde posible esta misma noche. La vuelta desde Madrid la quiere hacer
ma
nana por la noche a u
ltima hora.
C
odigo: C.8.5
Objetivo: Horarios y precios de un viaje de ida y vuelta a una ciudad determinada en la que ha
de estar a primera hora de la ma
nana.
Situaci
on: Escoja una ciudad como lugar de residencia. Quiere hacer un viaje a otra ciudad para
estar en ella un da determinado (escoja el da) antes de las 8 de la ma
nana. Escoja un da para
volver, bien el mismo da de llegada, el siguiente o dos das despues.
Objetivo 9
C
odigo: C.9.1
Objetivo: Precios, horarios y tipo de tren de ida y vuelta a una ciudad concreta para unas fechas
determinadas.
Situaci
on: Usted prepara un viaje para a Valladolid durante el puente del Pilar. Le gustara salir
el viernes da 8 a medio da y regresar el da 12. Preferira viajar de da y que no le saliera muy
caro. Le interesara saber el tipo de tren en el que puede viajar, ya que al ser el viaje muy largo
puede resultar cansado.
C
odigo: C.9.5
Objetivo: Precios, horarios y tipo de tren de ida y vuelta a una ciudad concreta para unas fechas
determinadas.
178
Situaci
on: Elija una ciudad espa
nola (capital de provincia o de una importancia similar) en la que
desea pasar un periodo vacacional. Le interesa planificar el viaje y, adem
as de horarios y precios,
quiere informarse del tipo de tren que m
as le conviene.
Bibliografa
Abney, S., R. Berwick, y C. Tenny. 1991. Parsing by Chunks. Kluwer Academic Publishers, Dordrecht.
Allen, J. y M. Core. 1996. Dialog act markup in several layers. Informe tecnico, University
of Rochester, Department of Computer Science, December.
Allen, J., G. Ferguson, B.W. Miller, E.K. Ringger, y T.S. Zollo, 2000. Handbook of Natural
Language Processing, paginas 347376. Marcel Dekker, New York, July.
Allen, J. F., L. K. Schubert, G. Ferguson, P. Heeman, C.H. Hwang, T. Kato, M. Light,
N. G. Martin, B.W. Miller, M. Poesio, y D.R. Traum. 1995. The TRAINS Project: A
case study in building a conversational planning agent. Journal of Experimental and
Theoretical AI (JETAI), 7:748.
Allen, J.F. 1995. Natural Language Understanding. Computer Science. 2nd ed.
Angluin, D. 1982. Inference of Reversible Languages. Journal of the ACM, 29:741765.
Arranz, V., N. Castell, Monserrat Civit, y A. Sesma. 2000. Lexico de la Tarea. Informe
tecnico, proyecto BASURDE, Noviembre.
Aubert, X. y H. Ney. 1995. Large Vocabulary Continuous Speech Recognition Using
Word Graphs. En Proc. ICASSP 95, paginas 4952, Detroit, MI, May.
Baggia, P., A. Kelner, E. Perennou, C. Popovici, J. Strum, y F. Wessel. 1999. Language
Modeling and Spoken Dialogue Systems the ARISE experience. En Proc. Eurospeech
99, paginas 17671770, Budapest, Hungary, September.
Bahl, L.R., F. Jelinek, y R.L. Mercer. 1983. A Maximum Likelihood Approach to Continuous Speech Recognition. IEEE Transactions on Pattern Analysis and Machine
Intelligence, PAMI-5(2):179190, March.
Baker, J. 1979. Trainable Grammars for Speech Recognition. Speech Communication
Papers for the 97th Meeting of the Acoustical Society of America, paginas 547550.
Bengio, Y., R. Ducharme, P. Vincent, y C. Jauvin. 2003. A neural probabilistic language
model. En Journal of Machine Learning Research, paginas 11371155.
Bennacef, S., H. Bonneau-Maynard, J.L. Gauvain, L.F. Lamel, y W. Minker. 1994. A
Spoken Language System For Information Retreival. En Proceedings of ICSLP, paginas 12711274.
179
180
Bibliografa
Bibliografa
181
En Alvarez
eds. Mira, editor, Proceedings of the 7th International Work-conference
on Artificial and Natural Neural Networks IWANN 2003, paginas 598605. SpringerVerlag. LNCS Vol. 2686.
Castro, M. J. y E. Sanchis. 2002. A Simple Connectionist Approach to Language Understanding in a Dialogue System. En Advances in Artificial Intelligence IBERAMIA
2002, volumen 2527 de LNAI. Springer-Verlag, paginas 664673. 8th Ibero-American
Conference on AI, Seville, Spain, 1215, 2002. Proceedings.
182
Bibliografa
Bibliografa
183
Good, I.J. 1953. The Polulation Frecuencies of Species and the Estimation of Population
Parameters. Biometrika, 40.
Gorin, A. L., G. Riccardi, y J. H. Wright. 1997. How may I help you? Speech Communication, 23(1/2):113127.
Grishman, R. 1986. Computational Linguistics. Cambridge University Press.
Hacioglu, K y W. Ward. 2001. Dialog-Context Dependent Language Modeling Combining
N-grams and Stochastic Context-Free Grammars. En Proc. of ICASSP.
Hayes, P., A. Hauptman, y J. Carbonell. 1986. Parsing Spoken Language, a Semantic
Caseframe Approach. COLING.
Hernando, J., J. Padrell, y Rodrguez H. 2002. Sistema de Informacion Metereologica
Automatica por Telefono ATTEMPS. Procesamiento del Lenguaje Natural, 29:311
312, septiembre.
Hopcroft, J. y J. Ullman. 1979. Introduction to Automata Theory, Languages, and Computation. Addison-Wesley, N. Reading, MA.
Jelinek, F. 1986. Self-organized Language Modeling for Speech Recognition. Informe
tecnico, IBM Europe Institute, Advances in Speech Processing, July.
Jelinek, F. 1991. Up from Trigrams!: The Struggle for Improved Language Model. En
Proc. Eurospeech 91, paginas 10371041, Genova, Italy, Septiembre.
Jelinek, F. 1997. Statistical Methods for Speech Recognition. The MIT Press, Cambridge,
Massachusetts.
Jelinek, F., J.D. Lafferty, y R.L. Mercer. 1992. Basic methods of probabilistic context free
grammars. En P. Laface y R. De Mori, editores, Speech Recognition and Understanding. Recent Advances, Trends and Applications. Springer Verlag, paginas 345360.
Jelinek, F. y R.L. Mercer. 1985. Probability Distribution Estimation from Sparse Data.
Technical disclosure bulletin, IBM.
Joshi, A. K. y Y. Schabes. 1992. Tree-Adjoining Grammar and lexicalized grammars. En
Maurice Nivat y Andreas Podelski, editores, Tree automata and languages. Elsevier
Science, paginas 409431.
Kaplan, R. y J. Bresnan. 1982. Lexical-functional grammar. En Joan Bresnan, editor, The mental representation of grammatical relations. MIT Press, Cambridge, MA,
pagina **.
Katz, S.M. 1987. Estimation of Probabilities from Sparse Data for the Language model
Component of a Speech Recognizer. IEEE Transactions on Acoustics, Speech and
Signal Processing, 35(3):400401, Marzo.
Kay, M., J.M. Gawron, y P. Norvig. 1994. Verbmobil: A Translation System For FaceTo-Face Dialog. CSLI Publications, Stanford.
184
Bibliografa
Kay, Martin. 1984. Functional Unification Grammar: A formalism for machine translation. En Proceedings of the Tenth International Conference on Computational Linguistics (COLING-84) and the 22nd Annual Meeting of the ACL, paginas 7578, Stanford
University, Stanford, CA, Julio 2-6,.
Khudanpur, S. y J. Wu. 2000. Maximum Entropy Techniques for Exploiting Syntactic,
Semantic and Collocational Dependencies in Language Modeling. Computer Speech
and Language, 14:355372.
Klein, M. 1999. Standardisation efforts on the level of dialogue acts in the mate project.
En Proceedings of the ACL Workshop: Towars Standards and Tools for Discourse
Tagging, paginas 3541, University of Maryland, May.
Kneser, R. y H. Ney. 1993. Improved clustering techniques for class-based statistical
language modeling. En Proc. of EUROSPEECH93, paginas 779782, Berln.
Kuhn, R. y R. De Mori. 1990. A Cache-Based Language Model for Speech Recognition.
IEEE Transactions on Pattern Analysis and Machine Intelligence PAMI, 12:570583.
Kuhn, R. y R. De Mori. 1993. Learning speech semantics with keyword classification
trees. En Proc of ICASSP.
Lamel, L., S. Rosset, J.L. Gauvain, S. Bennacef, M. Garnier-Rizet, y B. Prouts. 2000.
The LIMSI ARISE system. Speech Communication, 31:339353.
Lamel, L.F., S.K. Bennacef, S. Rosset, L. Devillers, S. Foukia, J.J. Gangolf, y J.L. Gauvain. 1997. The LIMSI RailTel System: Field trial of a telephone service for Rail
Travel information. spcom, 23:6782, October.
Lari, K. y S. Young. 1991. Application of Stocastic Context-Free Grammars using the
Inside-Outside Algorithm. Computer Speech and Language, 5(237-257).
Lau, R., R. Rosenfeld, y S. Roukos. 1993. Trigger-based Language Models: A Maximum
Entropy Apporach. En Proceedings ICASSP93, paginas II45II48, April.
Lehtinen, G., S. Safra, J.M. Pardo, R. Cordoba, y R. San-Segundo. 2000. IDAS: Interactive Directory Assistance Service. En VOTS-2000 Workshop, Belgium.
Levin, E. y R. Pieraccini. 1995. Concept-Based Spontaneous Speech Understanding
System. En Proc. of EUROSPEECH95, paginas 555558.
Levin, E., R. Pieraccini, y W. Eckert. 2000. A stochastic model of human-machine
interaction for learning dialog strategies. En IEEE transations on speech and Audio
Processing, volumen 8(1), paginas 1123.
Life, A. y I. et al. Salter. 1997. Data Collection for the MASK Kiosk: WOz vs Prototype
System. Eurospeech 97.
Lleida, E. 1999. Corpus Persona-Persona. Informe tecnico, Proyecto BASURDE.
Mari
no, J. B. y J. Hernando. 1999a. Especificacion de las grabaciones mediante Mago de
Oz. Informe tecnico, proyecto BASURDE.
Bibliografa
185
Mari
no, J. B. y Javier Hernando. 1999b. Especificaciones de las grabaciones mediante
Mago de Oz. Informe tecnico, proyecto BASURDE.
Martinez, C. y F. Casacuberta. 2000. A pattern recognition approach to dialog labelling
using finite-state transducers. En In Proc. of V Iberoamerican Symposium on Pattern
Recognition, paginas 669677.
Martinez, C., E. Sanchis, F. Garca, y P. Aibar. 2002. A labeling proposal to annotate
dialogues. En Proc. of third International Conference on Language Resources and
Evaluation (LREC)), paginas 15771582, 21-30 May.
eel, y J. Mariani. 1990. An Oral Task Oriented Dialog for
Matrouf, A., J.L. Gauvain, F.N
Air-traffic Controller Training. SPIEs Technical Symposium on Optical Engineering
and Photonics in Aerospace Sensing, Applications of Artificial Intelligence, VIII.
McTear, M.F. 1998. Modelling spoken dialogues with state transition diagrams: experiences with the CSLU toolkit. En Proc. 5th International Conference on Spoken
Language Processing, paginas 12231226, Sydney, Australia, December.
McTear, M.F. 1999. ESCA/SOCRATES Workshop on Method and Tool Innovations for
Speech Science Education. En Proc. 5th International Conference on Spoken Language
Processing, paginas 113116, London, UK, April.
Miikkulainen, R. 1993. Subsymbolic Natural Language Processing: An Integrated Model
of Scripts, Lexicon, and Memory. MIT Press, Cambridge, MA.
Miller, S., D. Stallard, D. Bobrow, y R. Schwartz. 1996. A fully statistical approach to
natural language interfaces. En Proc. of the 34 Annual meeting of the ACL, paginas
5561.
Minker, W. 1998. Stocastic versus Rule-based Speech Understanding for Information
Retreival. Speech Communication, 25(4):223227, September.
Minker, W. 1999a. Stocastically-Based Semantic Analysis. Kluwer Academic Publishers,
Boston.
Minker, W. 1999b. Stocastically-Based Semantic Analysis for ARISE - Automatic Railway Information Systems for Europe. Grammars.
Moisa, L. y E. Giachin. 1995. Automatic Clustering of Words for Probabilistic Language
Models. En Proceedings of EUROSPEECH95, volumen 2, paginas 12491253.
Nakamura, M. y K. Shikano. 1989. A study of English word category prediction based
on neural networks. En Proceedings of the ICASSP, Glasgow, Scotland, May.
Ney, H., U. Essen, y R. Kneser. 1994. On Structuring Probabilistic Dependencies in
Stochastic Language Modelling. Computer Speech and Language, 8:138.
Ney, H. y K. Kneser. 1991. On smoothing techniques for bigram-based natural language
modelling. En International Conference on Acustics, Speech ans Signal Processing
ICASSP-91, paginas 825828, Toronto.
186
Bibliografa
Ney, H., S. Ortmanns, y I. Lindam. 1997. Extensions to the Word Graph Method for
Large Vocabulary Continuous Speech Recognition. En Proc. ICASSP 97, paginas
17911794, Munich, Germany, Abril.
Nyberg, E., T. Mitamura, P. Placeway, M. Duggan, y N. Hataoka. 2002. DialogXML:
Extending VoiceXML for Dynamic Dialog Management. En Proc. Human Language
Workshop.
Oeder, M. y H.A. Aust. 1994. Prototipe of an automatic inquiry system. En Proc. of
ICSLP, paginas 703706.
Oncina. 1991. Aprendizaje de lenguajes regulares y funciones subsecuenciales. Ph.D.
tesis, Departamento de Sistemas Informaticos y Computacion. Universidad Politecnica
de Valencia.
Pallet, D.S., J.G. Fiscus, W.M. Fisher, J.S. Garofolo, B.S. Lund, A. Martin, y M.A. Przybocki. 1995. The 1994 Benchmark Tests for the ARPA Spoken Language Program.
En Proceedings of ARPA Workshop on Spoken Language Technology.
Peckham, J. 1993. A new generation of spoken dialogue systems: results and lessons from
the SUNDIAL project. En Proceedings of the 3rd European Conference on Speech
Communication and Technology, paginas 3340.
Peckman, J. 1991. Speech understanding and dialogue over the telephone: an overview
of progress in the sundial project. En Proceedings of the 2nd European Conference on
Speech Communication and Technology, paginas 146972.
Pieraccini, R., E. Levin, y W. Eckert. 1997. AMICA: The AT&T Mixed Initiative Conversational Architecture. En Proc. Eurospeech 97, paginas 18751878, Rhodes, Greece,
Septiembre.
Pla, F., A. Molina, y N. Prieto. 2000a. An Integrated Statistical Model for Tagging and
Chunking Unrestricted Text. Lecture Notes in Computer Science, 1902:1520.
Pla, F., A. Molina, y N. Prieto. 2000b. Improving Chunking by Means of LexicalContextual Information in Statistical Language Models. En Claire Cardie Walter
Daelemans Claire Nedellec, y Erik Tjong Kim Sang, editores, Proceedings of the Fourth
Conference on Computational Natural Language Learning and of the Second Learning
Language in Logic Workshop, Lisbon, 2000, paginas 148150, Somerset, New Jersey.
Association for Computational Linguistics.
Pla, F., A. Molina, y N. Prieto. 2000c. Tagging and Chunking with Bigrams. En Proc.
of the COLING-2000, Saabr
ucken, Germany, August.
Pollard, Carl y Ivan Sag. 1994. Head-Driven Phrase Structure Grammar. University of
Chicago Press, Chicago. Draft distributed at the Third European Summer School in
Language, Logic and Information, Saarbr
ucken, 1991.
Prieto, N. 1995. Aprendizaje de modelos sem
anticos para sistemas de comprensi
on del
habla. Ph.D. tesis, Universidad Politecnica de Valencia.
Bibliografa
187
188
Bibliografa
Bibliografa
189
Segarra, E., E. Sanchis, I. Galiano, F. Garca, y L.F. Hurtado. 2001. Extracting semantic information through automatic learning. En Proc. of IX Spanish Symposium on
Pattern Recognition and Image Analysis (AERFAI), paginas 177182.
Segarra, E., E. Sanchis, M. Galiano, y F. Garcia L. Hurtado. 2002. Extracting Semantic Information Through Automatic Learning Techniques. International Journal of
Pattern Recognition and Artificial Intelligence IJPRAI, 16(3):301307.
Segarra, E., E. Sanchis, F. Garcia, L. Hurtado, y I. Galiano. 2003. Achieving full coverage of automatically learnt finite-state language models. En Workshop on Finite-State
Methods in Natural Language Processing. 10th Conference of the European Chapter
of the Association for Computational Linguistics (EACL2003), paginas 135142, Budapest, Hungary, April.
Seneff, S. 1992. TINA: A natural language system for spoken languaje applications.
Computational Linguistics, 18(1):6186, March.
Sesma, A., J.B. Mari
no, I. Esquerra, y J. Padrell. 1999. Estrategia del Mago de Oz.
Informe tecnico, proyecto BASURDE.
Small, S., G. Cottrell, y L. Shastri. 1982. Toward Connectionist Parsing. En David Waltz,
editor, Proceedings of the National Conference on Artificial Intelligence, paginas 247
250, Pittsburgh, PA, Aug. AAAI Press.
Soong, F. y E. Huang. 1991. A tree-treliss based fast search for finding the n best sentence
hypoteses in continuous speech recognition. En Proceedings of ICASSP91, paginas
537540.
Stolcke, A., N. Corraco, R. Bates, P. Taylor, C. VanEssDykema, K. Ries, E. Shriberg,
D. Jurafsky, y R. Martin. 2000. Dialogue act modeling for automatic tagging and
recognition of conversational speech. Computational Linguistics, 26(3):134.
Vilar, D., M. J. Castro, y E. Sanchis. 2002. Comparacion de metodos de deteccion
de actos de dialogo. En Antonio Rubio Ayuso, editor, Actas de las II Jornadas en
Tecnologas del Habla, Granada (Espa
na), Diciembre.
Vilar, D., M. J. Castro, y E. Sanchis. 2003. Connectionist classification and specific
stochastic models in the understanding process of a dialogue system. En Eurospeech,
Ginebra, Swiss, september. Aceptado, pendiente publicacion.
Ward, W. 1994. Extracting information in spontaneous speech. En Proc. of the ICLSP,
paginas 8386.
Xu, W y A. Rudnicky. 2000a. Language Modeling for Dialog System. En Proceedings
of the 6th International Conference in Spoken Language Processing ICSLP, paginas
Paper B106, Beijing, China.
Xu, Wei y Alexander I. Rudnicky. 2000b. Task-Based Dialog Management Using an
Agenda. En Candace Sidner et al., editor, ANLP/NAACL Workshop on Conversational Systems, paginas 4247, Somerset, New Jersey. Association for Computational
Linguistics, Association for Computational Linguistics.
190
Bibliografa
Zue, V., S. Seneff, J. Glass, J. Polifroni, C. Pao, T.J. Hazen, y L. Hetherington. 2000.
JUPITER: A telephone-based conversational interface for weather information. IEEE
Trans. on Speech and Audio Processing, 8(1), January.