Sie sind auf Seite 1von 190

Una aproximaci

on estoc
astica para la
comprensi
on del lenguaje

D. Fernando Garca Granada

Memoria para optar al grado de Doctor en Informatica


bajo la direccion de los doctores:

Dr. D. Emilio Sanchis Arnal


Dra. D
na. Encarna Segarra Soriano

Valencia, Diciembre 2003

Agradecimientos
Quisiera agradecer la colaboracion de todas las personas que han participado en el
proyecto CICYT BASURDE financiado por el Ministerio de Educacion, tanto de esta
Universidad como de las universidades del Pas Vasco (EHU), Zaragoza (UZ), Catalunya
(UPC) y de la Jaume I (UJI), sin las cuales no habra sido posible la realizacion de este
proyecto que ha sido la base de esta tesis. En especial al grupo de comprension de Valencia
del cual forman parte mis directores (Emilio y Encarna) junto con Mabel, Llus y Paco
Torres. Sin olvidar la ayuda de Ferran y Antonio en el etiquetado lexico.
Tambien quiero agradecer a la Universidad Politecnica de Valencia su apoyo a la
investigacion que ha permitido la publicacion de artculos, la asistencia a los congresos e
incluso el hacer una estancia de investigacion en un laboratorio en el extranjero, as como
al Departamento de Sistemas Informaticos y computacion por ofrecernos unos medios e
infraestructuras que permiten que nuestro trabajo tenga su fruto.
Agradecer al grupo TLP del LIMSI y a su responsable Jean-Luc Gauvain su amabilidad
por dejarme realizar una estancia de investigacion en su laboratorio y en especial a mis
supervisores Hel`ene y Fabrice por sus consejos y a Patrick y Leonardo por su paciencia
conmigo.
Por u
ltimo agradecer a mis seres queridos y en especial a mi compa
nera Sagra su
comprension y apoyo en todo momento en la ardua tarea que supone tanto el trabajo de
investigador as como el escribir esta tesis.

Resumen
En este trabajo se ha desarrollado una aproximacion para abordar la tarea de comprension de un sistema de dialogo hablado para un entorno semantico restringido. El
sistema de comprension representa distintos niveles de conocimiento del lenguaje a traves
de modelos de estados finitos, que se aprenden de forma automatica a partir de corpora
anotados con informacion semantica.
Para la construccion del sistema de comprension se han empleado metodos estocasticos, aprendizaje automatico a partir de datos y tecnicas de inferencia gramatical. Estos
modelos emplean una representacion de dos niveles en la que se considera la informacion
de las secuencias de unidades semanticas presentes en el corpus, as como la informacion de las secuencias de palabras asociadas a cada una de estas unidades semanticas,
permitiendo una segmentacion y un etiquetado secuencial de la frase completa de entrada. Un sistema de reglas convierte esta segmentacion en un frame semantico, que es la
representacion semantica elegida para esta tarea.
La aproximacion propuesta ha sido aplicada para desarrollar el modulo de comprension
de un sistema de dialogo hablado que atiende preguntas en lenguaje natural a traves de
la lnea telefonica, sobre horarios y precios de trenes de largo recorrido. Los resultados
obtenidos, evaluados sobre la representacion semantica que da como salida el sistema
de comprension, han sido satisfactorios. Podemos considerar que el uso de este tipo de
metodos estocasticos es adecuado para resolver el tipo de tarea abordada.

Resum
En aquest treball sha desenvolupat una aproximacio capac dabordar la tasca de
comprensio dun sistema de di`aleg parlat per a un entorn sem`antic restringit. El sistema
de comprensio representa distints nivells de coneixement del llenguatge a traves de models destats finits, que saprenen de forma autom`atica a partir de corpora anotats amb
informacio sem`antica.
Per a la construccio del sistema de comprensio shan emprat m`etodes estocastics,
aprenentatge autom`atic a partir de dades i tecniques dinfer`encia gramatical. Aquests
models empren una representacio de dos nivells en la qual es considera la informacio de
les seq
u`encies dunitats sem`antiques presents en el corpus. aixi com la informacio de les
seq
u`encies de paraules associades a cadascuna daquestas unitats sem`antiques, permetent
una segmentacio i un etiquetat seq
uencial de la frase dentrada. Un sistema de regles
converteix aquesta segmentacio en un frame sem`antic, que es la representacio sem`antica
elegida per a aquesta tasca.
Laproximacio que es proposa sha aplicat per al desenvolupament del m`odul de comprensio dun sistema de di`aleg parlat que aten preguntes en llenguatge natural a traves de
5

6
la lnia telef`onica, sobre horaris i preus de trens de llarg recorregut. Els resultats obtinguts,
avaluats sobre la representacio sem`antica que ofereix com eixida el sistema de comprensio,
han estat satisfactoris. Podem considerar que l
us daquest tipus de m`etodes estoc`astics
es adequat per a resoldre el tipus de tasca abordada.

Abstract
In this work, a system able to carry out the task of understanding of a spoken dialogue
system in a limited domain has been developed. The understanding system represents
different levels of language knowledge throught like finite states models, that are learned
automatically from corpora labeled with semantic information.
Automatic learning and grammar inference techniques have been used to learn stochastic models. These models use a two level representation in which the information of
sequences of semantic units is considered, as well as the information of the sequences of
words associated to each one of these semantic units, allowing for a sequential segmentation and labelling of the input phrase. A system of rules turns this segmentation into a
semantic frame, which is the chosen semantic representation for this task.
The proposed approach has been applied for the development of the understanding
module of a spoken dialogue system. This system answers questions in spoken natural language through the telephone about railway timetables and prices. The results obtained,
which have been evaluated on the semantic representation that produces the understanding system, have been satisfactory. We can consider that the use of this kind of stochastic
methods is adequated for the type of undertaken task.

Indice general
1. Introducci
on
1.1. Estructura de un sistema de dialogo hablado . . .
1.2. Descripcion de algunos sistemas de dialogo hablado
1.3. Objetivos de la Tesis . . . . . . . . . . . . . . . . .
1.4. Estructura de la Tesis . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

15
17
21
24
25

2. Comprensi
on del habla
2.1. Representacion del conocimiento . . . . . . . . . . . . . . .
2.1.1. Modelos sintacticos . . . . . . . . . . . . . . . . . . .
2.1.2. Modelos semanticos . . . . . . . . . . . . . . . . . .
2.2. El metodo de Analisis . . . . . . . . . . . . . . . . . . . . .
2.2.1. Metodos de analisis semantico basado en reglas . . .
2.2.2. Metodos de estimacion automatica a partir de datos
2.3. Modelos de lenguaje . . . . . . . . . . . . . . . . . . . . . .
2.3.1. Modelos conexionistas . . . . . . . . . . . . . . . . .
2.3.2. Modelos estocasticos . . . . . . . . . . . . . . . . . .
Modelos de N-gramas . . . . . . . . . . . . . . . . .
Suavizado de N-gramas . . . . . . . . . . . . . . . .
Modelos basados en categoras . . . . . . . . . . . .
Modelos dinamicos . . . . . . . . . . . . . . . . . . .
Varigramas y Multigramas . . . . . . . . . . . . . .
2.3.3. SLMtoolkit . . . . . . . . . . . . . . . . . . . . . . .
2.3.4. Aproximaciones gramaticales . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

27
27
28
30
31
31
33
35
36
37
37
38
40
41
43
43
44

3. Tarea BASURDE
3.1. Adquisicion de los dialogos del corpus PERSONA . . . . . .
3.1.1. Criterios de seleccion de los dialogos . . . . . . . . .
3.1.2. Transcripcion de los dialogos del corpus PERSONA
3.1.3. Breve analisis del corpus PERSONA . . . . . . . . .
3.2. Corpus BASURDE . . . . . . . . . . . . . . . . . . . . . . .
3.2.1. Definicion de Escenarios . . . . . . . . . . . . . . . .
Tipos de escenarios . . . . . . . . . . . . . . . . . . .
3.2.2. Distribucion y transcripcion de los escenarios . . . .
3.2.3. Caractersticas de los dialogos adquiridos . . . . . .
3.3. Representacion semantica en Frames . . . . . . . . . . . . .
3.4. Valores que pueden tomar los cases . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

47
48
48
49
50
50
50
51
52
55
55
61

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

INDICE GENERAL

4. M
odulo de comprensi
on
4.1. Modelo de traduccion para la comprension . . . . . . . . . . . . . . . . . .
4.2. Primera fase del modulo de comprension . . . . . . . . . . . . . . . . . . .
4.2.1. El lenguaje semantico intermedio . . . . . . . . . . . . . . . . . . .
4.2.2. Aprendizaje: el modelo de 2 niveles . . . . . . . . . . . . . . . . . .
4.2.3. Proceso de analisis por Viterbi . . . . . . . . . . . . . . . . . . . .
4.2.4. Modelo de comprension de dos niveles con unidades POS y semanticas
Descripcion de los modelos estocasticos de dos niveles basados en
etiquetas POS . . . . . . . . . . . . . . . . . . . . . . . .
4.3. Segunda fase del modulo de comprension . . . . . . . . . . . . . . . . . . .
4.3.1. Perdida de la secuencialidad . . . . . . . . . . . . . . . . . . . . . .
4.3.2. El frame de vuelta . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.3. Unidades semanticas no utilizadas en la traduccion . . . . . . . . .
4.3.4. Unidades semanticas que generan frames . . . . . . . . . . . . . . .
4.3.5. Unidades semanticas que generan atributos . . . . . . . . . . . . .
4.3.6. Atributos sin frame . . . . . . . . . . . . . . . . . . . . . . . . . . .

65
65
67
67
71
73
74

5. Aproximaciones Gramaticales
5.1. Algoritmo ECGI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.1. Descripcion y Propiedades del Algoritmo ECGI . . . . . . . . . . .
5.1.2. Aplicacion del algoritmo ECGI como modelo de lenguaje para la
comprension de BASURDE . . . . . . . . . . . . . . . . . . . . . .
5.2. Algoritmo para la inferencia de lenguajes k-TTSS . . . . . . . . . . . . . .
5.2.1. Lenguajes k-explorables en sentido estricto . . . . . . . . . . . . .
5.2.2. Lenguajes k-explorables en sentido estricto con umbral . . . . . . .
5.2.3. Inferencia de (k,r)-TTSS . . . . . . . . . . . . . . . . . . . . . . . .
Ejemplo de funcionamiento del (k,r)-TTSSI . . . . . . . . . . . . .
5.2.4. Aplicacion del algoritmo (k,r)-TTSSI como modelo de comprension
BASURDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3. Suavizado de modelos de lenguaje . . . . . . . . . . . . . . . . . . . . . .
5.3.1. Suavizado de aproximaciones gramaticales con el SLMtk . . . . . .
5.3.2. La estrategia de suavizado . . . . . . . . . . . . . . . . . . . . . . .
5.3.3. Aplicacion del suavizado en BASURDE . . . . . . . . . . . . . . .

83
83
86

6. Experimentaci
on
6.1. Corpus . . . . . . . . . . . . . . . . . . .
6.1.1. Categorizacion y lematizacion del
6.2. Experimentos con texto . . . . . . . . .
Bigramas . . . . . . . . . . . . .
Bigramas con etiquetado lexico .
ECGI . . . . . . . . . . . . . . .
(r,k)-TTSSI . . . . . . . . . . . .
6.3. Experimentos con voz . . . . . . . . . .
6.4. Conclusiones . . . . . . . . . . . . . . .

. . . . .
corpus .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

75
77
77
78
79
79
79
80

88
89
89
91
92
93
93
95
96
96
98
101
101
102
105
105
106
107
109
110
111

INDICE GENERAL

7. Aplicaci
on del sistema de comprensi
on al corpus ARISE
7.1. Descripcion del sistema . . . . . . . . . . . . . . . . . . . . . .
7.2. Comprension del lenguaje en ARISE . . . . . . . . . . . . . . .
7.2.1. Representacion semantica en el dominio del ARISE . . .
7.2.2. Comprension del lenguaje basada en reglas en el ARISE
7.2.3. Adaptacion de la anotacion semantica . . . . . . . . . .
7.2.4. Normalizacion . . . . . . . . . . . . . . . . . . . . . . .
7.3. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.3.1. Descripcion del Corpus . . . . . . . . . . . . . . . . . .
7.3.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . .
7.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

113
113
115
116
116
117
119
120
120
121
123

8. M
odulo de Di
alogo
8.1. La estructura del dialogo . . . . . . . . . . . . . .
8.2. La estrategia del dialogo . . . . . . . . . . . . . .
8.3. La historia del dialogo . . . . . . . . . . . . . . .
8.4. El etiquetado de dialogo . . . . . . . . . . . . . .
8.4.1. El etiquetado a tres niveles . . . . . . . .
8.5. Sistemas de dialogo dirigidos por la semantica . .
8.5.1. El modelo de dialogo . . . . . . . . . . . .
8.5.2. Experimentos . . . . . . . . . . . . . . . .
8.6. Modelos de comprension especficos de Dialogo .
8.6.1. Modelizacion especfica de la comprension
8.6.2. Experimentacion y Conclusiones . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

125
125
126
126
126
127
128
128
132
132
133
133

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

9. Conclusiones y Trabajos Futuros

137

A. L
exico de la tarea
A.1. Listado de Categoras Abiertas (excluyendo verbos) . .
A.2. Listado de Categoras Cerradas . . . . . . . . . . . . .
A.3. Listado de Verbos para la Tarea (formas infinitivas) .
A.4. Listado de Modos y Tiempos Verbales Seleccionados .
A.5. Listado de Formas Verbales del Lexico . . . . . . . . .
A.6. Formas Verbales con Clticos Extradas de los Corpora
A.7. Formas Verbales con Clticos A
nadidas . . . . . . . . .

139
141
144
145
146
149
152
152

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

B. Reducci
on del L
exico de Basurde
153
B.1. Fichero de lemas y sinonimos . . . . . . . . . . . . . . . . . . . . . . . . . 153
B.2. Fichero de Categoras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
C. Normas de etiquetado de los di
alogos del proyecto Basurde
C.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.2. Primer nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.3. Segundo nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . .
C.4. Tercer nivel . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

159
159
159
161
162

INDICE GENERAL

10
D. Descripci
on de los escenarios
D.1. Escenarios tipo A . . . . . .
D.2. Escenarios tipo B . . . . . .
D.3. Escenarios tipo C . . . . . .
Bibliografa

de
. .
. .
. .

la tarea
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .

165
166
169
174
179

Indice de figuras
1.1. Descripcion de un sistema de dialogo hablado . . . . . . . . . . . . . . . .

18

2.1. Diagrama del sistema de comprension Chronus de AT&T. . . . . . . . .

34

3.1. Representacion grafica de frame can


onico. . . . . . . . . . . . . . . . . . .

57

4.1.
4.2.
4.3.
4.4.
4.5.

66
72
75
76
77

Esquema del proceso de comprension . .


Creacion del modelo integrado A t . . . .
Ejemplo de traduccion. . . . . . . . . . .
Modelo integrado de lenguaje. . . . . . .
Ejemplo de lexicalizacion de un estado. .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

5.1. Automata de estados finitos A inferido con el algoritmo ECGI a partir de


la muestra S = {aabb, acbb, aaabb, abb} . . . . . . . . . . . . . . . . . . . .
5.2. Algoritmo ECGI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3. Automatas inferidos con el algoritmo ECGI para la unidad semantica
consulta a partir de las muestras {me podra decir cu
al es, me gustara
saber cu
al es, mire me gustara saber, me podra confirmar, me podra informar, podra saber} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4. Algoritmo (k,r)-TTSSI para la inferencia de la familia de lenguajes (k,r)TTSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.5. Arbol
aceptor de prefijos obtenido con la muestra S = aababa, abaaba . .
0
5.6. Automata A0 obtenido a partir de la muestra anterior . . . . . . . . . . .
0
0
5.7. Automata cociente A0 / obtenido a partir de A0 . . . . . . . . . . . . .
0
5.8. Automata cociente A0 / obtenido a partir de la muestra S para el valor
r=1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.9. Automatas obtenidos a partir de la muestras {me podra decir cu
al es,
me gustara saber cu
al es, mire me gustara saber, me podra confirmar,
me podra informar, podra saber} de la etiqueta semantica consulta para
diferentes valores de r y k . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.10. Automata de estados finitos A inferido con el algoritmo ECGI a partir de
la muestra S = {aabb, acbb, aaabb, abb} . . . . . . . . . . . . . . . . . . . .
0
5.11. Automata de estados finitos A inferido con el algoritmo 2-TSS a partir de
0
la muestra anotada S = {f (aabb), f (acbb), f (aaabb), f (abb)} . . . . . . . .

85
86

91
92
93
93
94
94

95
97
97

6.1. Esquema de analisis semantico . . . . . . . . . . . . . . . . . . . . . . . . 103


7.1. Modulos del sistema de dialogo ARISE . . . . . . . . . . . . . . . . . . . . 114
7.2. Esquema de Comprension ARISE . . . . . . . . . . . . . . . . . . . . . . . 115
11

INDICE DE FIGURAS

12

7.3. Algoritmo para la extraccion de la secuencia maxima de palabras . . . . . 118


7.4. Algoritmo de la fase de poda . . . . . . . . . . . . . . . . . . . . . . . . . 119
8.1.
8.2.
8.3.
8.4.
8.5.

Red obtenida a partir del primer nivel de etiquetado de dialogo


Esquema de funcionamiento del controlador de dialogo . . . . .
Algoritmo del controlador de dialogo . . . . . . . . . . . . . . .
Ejemplo de etiquetado de dialogo a un nivel . . . . . . . . . . .
Seleccion de los modelos especficos . . . . . . . . . . . . . . . .

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

130
131
132
133
134

Indice de tablas
3.1. Analisis de la longitud de los dialogos expresado en turnos . . . . . . . . .

50

5.1. Tabla de transicion del automata A . . . . . . . . . . . . . . . . . . . . . .


0
5.2. Tabla de transicion del automata A . . . . . . . . . . . . . . . . . . . . .

98
98

6.1. Caractersticas de los conjuntos de entrenamiento y test . . . . . . . . . .


6.2. Caractersticas de los conjuntos de entrenamiento y test del modelo superior
de secuencias de unidades semanticas y perplejidad para un modelo de
bigramas de unidades semanticas . . . . . . . . . . . . . . . . . . . . . . .
6.3. Caractersticas de los conjuntos de entrenamiento y de test una vez lematizados y categorizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.4. Caractersticas de los modelos de bigramas sin suavizar indeferidos en los
niveles superior e inferior para cada particion del corpus y la media . . . .
6.5. Resultados al aplicar modelos de bigramas sin suavizar en los niveles superior e inferior para cada particion del corpus y la media . . . . . . . . .
6.6. Resultados de aplicar modelos de bigramas suavizados por Back-Off para
cada particion del corpus y la media . . . . . . . . . . . . . . . . . . . . .
6.7. Resultados experimentales empleando etiquetas POS . . . . . . . . . . . .
6.8. Caractersticas de los modelos inferidos con el algoritmo ECGI para cada
particion del corpus y la media . . . . . . . . . . . . . . . . . . . . . . . .
6.9. Resultados obtenidos con el algoritmo ECGI para cada particion del corpus
y la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.10. Caractersticas de los modelos empleando un modelo de Bigramas como
modelo superior y un modelo inferido con el ECGI como el modelo inferior
para cada particion del corpus y la media . . . . . . . . . . . . . . . . . .
6.11. Resultados obtenidos con el algoritmo ECGI en el modelo inferior y Bigramas en el modelo superior para cada particion del corpus y la media . . .
6.12. Caractersticas modelos obtenidos con el algoritmo (r=2,k=2)-TTSSI para
cada particion del corpus y la media . . . . . . . . . . . . . . . . . . . . .
6.13. Resultados obtenidos aplicando el algoritmo (r=1,k=2)-TTSSI para inferir
el modelo superior de la tecnica de 2 niveles y (r=2,k=2)-TTSSI para inferir
el modelo inferior, para cada particion del corpus y la media . . . . . . . .
6.14. Resultados de aplicar modelos de bigramas suavizados por Back-Off sobre
pronunciaciones transcritas manualmente y sobre reconocimiento . . . . .
6.15. Resultados de aplicar el modelo BIG-ECGI sobre pronunciaciones transcritas manualmente y sobre reconocimiento . . . . . . . . . . . . . . . . .

102

13

102
105
106
106
107
107
108
108

108
108
109

109
110
110

INDICE DE TABLAS

14

6.16. Resultados de aplicar modelos de (r=1,k=2)-TTSSI para el modelos superior y (r=2,k=2)-TTSSI para el modelo inferior sobre pronunciaciones
transcritas manualmente y sobre reconocimiento . . . . . . . . . . . . . . 110
7.1.
7.2.
7.3.
7.4.
7.5.

Ejemplo de decodificacion semantica para la version estocastica del ARISE


Ejemplo de anotacion semantica basada en conceptos . . . . . . . . . . . .
Ejemplo de la anotacion de conceptos con palabras adyacentes . . . . . .
Ejemplo de la normalizacion de valores . . . . . . . . . . . . . . . . . . . .
Ejemplo de la anotacion con Palabras Adyacentes en la normalizacion de
valores para el Frame sin extraccion de palabras . . . . . . . . . . . . . .
7.6. Ejemplo de la anotacion con Palabras Adyacentes en la normalizacion de
valores para el frame aplicando el programa de extraccion de palabras . .
7.7. Descripcion de los corpus de entrenamiento, tuning y test. N
umero de pronunciaciones (#Utt.), palabras (#Words) y conceptos CVR (#Concepts)
de los conjuntos de entrenamiento, tuning y test. Se muestra el Word Error
Rate de las pronunciaciones reconocidas para los conjuntos de tuning y de
test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.8. Ratios de error para comprension ( %REC) para la aproximacion basada
en reglas, el modelo estocastico 1 nivel del LIMSI y el modelo estocastico
de 2 niveles para las transcripciones Manuales y salida del reconocedor
(Automatica) tanto para el conjunto de Tuning como para el de Test . . .
7.9. Comparativa de los ratios de comprension ( %REC) de las diferentes combinaciones de premarkers y postmarkers as como su agrupamiento para el
conjunto de tuning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.10. Ratios de error para la compresion ( %REC) de la expansion de la anotacion
de los conceptos con el n
umero optimo de palabras adjacentes combinado
e individual para el conjunto de tuning (Tun.) y el de test (Test) . . . . .

116
117
118
119
120
120

121

121

122

123

8.1. Resultados de los experimentos sobre modelos especficos y generales para


las etiquetas Apertura, Confirmaci
on, Nueva consulta y Pregunta. . . . . . 135

Captulo 1

Introducci
on
Las posibilidades de comunicacion oral entre el hombre y los computadores se han ido
incrementando ampliamente a lo largo de las u
ltimas decadas. Son muchos los factores
que han permitido llegar al estado del arte actual en lo que se denomina Ingeniera de
la Lengua. El paso de los sistemas de reconocimiento de palabras aisladas de los a
nos 70
a los actuales sistemas de reconocimiento de habla continua para grandes vocabularios y
primeros sistemas de dialogo hablado se ha producido gracias al gran esfuerzo de muchos
grupos de investigacion y a los avances tecnologicos en muchos campos, entre los que se
encuentran las mayores prestaciones de los computadores actuales.
Sin embargo, y a pesar de estos logros, a
un ciertas dificultades inherentes a los procesos
de comunicacion oral hacen difcil disponer de sistemas robustos de comunicacion hombremaquina. En concreto nos referimos a la cantidad y diversidad de fuentes de conocimiento
involucradas en el proceso de comunicacion oral, como la fonetica, sintactica, semantica,
contextual, o a la dificultad de tratar con m
ultiples fuentes de ruido, que pueden aparecer
en el proceso de comunicacion. Tal es el caso de los ruidos externos, si el ambiente es
natural (oficinas, telefonos, etc, ), o los mismos errores producidos por el locutor, como
las incorrectas pronunciaciones foneticas o errores de tipo sintactico.
Es quizas esta caracterstica de tener que tratar con informacion muy ruidosa la que
ha determinado que la aplicacion de metodos estocasticos en la modelizacion de las fuentes de conocimiento haya sido la que mejores resultados ha producido. Es interesante
observar que siempre que se han abordado nuevos retos dentro de las tecnologas de habla
en un principio se ha intentado representar el conocimiento mediante reglas, pero conforme se han ido adaptando y desarrollando los algoritmos de aprendizaje y decodificacion
de modelos estocasticos, los metodos basados en reglas han quedado relegados ante las
buenas prestaciones de los metodos estocasticos. Tal sera el caso de la representacion
de las caractersticas ac
usticas de los fonemas, que frente a las descripciones ling
usticas
proporcionadas por los foneticos, los Modelos Ocultos de Markov (HMM) (Rabiner, 1989)
han dado mejores resultados; o la sintaxis cuya descripcion de forma deductiva mediante
una gramatica esta descartada a no ser que se trate de una tarea muy simple, siendo los
mejores resultados los obtenidos por sistemas que se basan en N-gramas (Bahl, Jelinek, y
Mercer, 1983) (Jelinek, 1986) o en gramaticas aprendidas por tecnicas de Inferencia Gramatical (IG) (Fu y Booth, 1975). En la actualidad el problema de la comprension de habla
se aborda tanto por metodos basados en reglas como estocasticos, y el de la gestion del
15

16

Captulo 1. Introduccion

dialogo se aborda principalmente mediante reglas. Es de suponer que conforme avancen


las investigaciones sobre la aplicacion de metodos estocasticos a modelos de comprension
y dialogo, y se vayan construyendo grandes corpora de datos etiquetados, este tipo de
aproximaciones vayan mejorando sus prestaciones.
Dentro de la necesaria cooperacion entre el conocimiento deductivo que aporta el
dise
nador del sistema y el conocimiento inductivo, que es inferido de forma automatica por
los metodos de aprendizaje basados en muestras, y que permite obtener una modelizacion
de las fuentes de conocimiento, la situacion actual sera la siguiente.
La definicion del catalogo de unidades basicas para cada nivel de representacion, o
fuente de conocimiento, se hace en base al conocimiento de la tarea. Por ejemplo, se
utiliza el conocimiento ling
ustico para la eleccion del conjunto de unidades ac
usticas
(fonemas, fonemas con contexto, slabas, etc), el conocimiento sobre la tarea para
la eleccion de las unidades basicas que representan los significados, es decir, la
semantica, o el conocimiento sobre los tipos de interacciones que se producen en un
dialogo para definir los llamados actos de dialogo.
El aprendizaje de los modelos que representan estas unidades basicas o la relacion
(concatenacion) entre ellas se realiza mediante tecnicas de aprendizaje automatico,
a partir de muestras.
Gracias a la existencia de las tecnicas de aprendizaje automatico, la adaptacion de
los sistemas a nuevas tareas (cambio de idioma, o cambio de aplicacion) se limita a la
definicion de las correspondientes unidades basicas para las tareas y a disponer de un conjunto de muestras de aprendizaje. Estos metodos de aprendizaje automatico y definicion
de unidades estan bien estudiados y son de facil aplicacion para los primeros niveles del
reconocimiento del habla, como son el ac
ustico-fonetico y el sintactico, pero entra
nan a
un
gran dificultad en el caso de la modelizacion semantica y de la estructura del dialogo.
A partir del estado del arte en estas areas involucradas en el desarrollo de los sistemas
de dialogo, podemos plantear que tipo de sistemas pueden obtenerse, basandonos en su
potencial utilidad, y en las capacidades actuales. Desde el punto de vista de la utilidad,
partiendo de la base de que la comunicacion oral es la forma natural de comunicacion
humana, la existencia de sistemas de comunicacion oral hombre-maquina abre grandes
posibilidades para el aprovechamiento de la potencia de los computadores, en cuanto a la
gestion de informacion, control de procesos, etc.
Que tipo de aplicaciones pueden ser u
tiles e implementables en la actualidad? En el
caso mas simple, podemos considerar los sistemas de accesos telefonico a informacion que
se basan en que el usuario, mediante la pronunciacion de dgitos o palabras clave, indique
al sistema la informacion que requiere. Este tipo de aplicaciones estan absolutamente
dirigidas por el sistema y el usuario solo tiene opciones del tipo de indicar mediante
un n
umero o un nombre la opcion elegida, proporcionar su n
umero de identificacion o
DNI, y responder palabras como s o no. Aunque estos sistemas pueden ser u
tiles
para algunas aplicaciones concretas, en las que la informacion solicitada esta claramente
predeterminada, no existe ambig
uedad, y la variedad en cuanto el tipo de las informaciones
es peque
na, no estan exentos de las dificultades del reconocimiento robusto de voz en
ambientes ruidosos, ya que su utilidad se basa en que sean accesibles desde cualquier

1.1. Estructura de un sistema de dialogo hablado

17

lugar, por ejemplo mediante telefono movil, dentro de un coche, o desde una oficina en
la que hay ruido ambiente. El siguiente tipo de sistemas de interaccion hombre-maquina,
que es el que mas interes despierta en la actualidad, es aquel que permite la comunicacion
oral , y permite a su vez establecer un dialogo que ayude a la consecucion de los objetivos
planteados por el usuario. Dejando en el ambito de lo futurible la existencia de sistemas
de dialogo que acepten toda la variabilidad de un dialogo hombre-hombre, podemos en
la actualidad abordar el dise
no de sistemas de dialogo de iniciativa mixta para tareas
concretas. Un sistema de dialogo de este tipo, para ser u
til requiere tener las siguientes
caractersticas:
El modo de acceso telefonico. Cada vez sera mas importante el acceso a traves de
telefono movil, con las dificultades a
nadidas que conlleva.
Debe ser independiente del locutor. Logicamente los accesos seran de m
ultiples
usuarios, y ni siquiera es aceptable la adaptacion al locutor.
Uso de lenguaje natural. Los usuarios deben poder hablar de forma natural, sin
una sintaxis rgida impuesta por el sistema y usando el lexico mas amplio posible.
Se deben ademas aceptar las incorrecciones lexicas y sintacticas propias del habla
espontanea, y aunque el lexico este limitado por el ambito de la tarea, se ha de
permitir que el usuario utilice un amplio vocabulario.
Aceptar habla continua. Para una interaccion fluida se debe permitir habla continua,
sin pausas entre palabras.
Gestion mixta del dialogo. El dialogo no estara totalmente dirigido por el sistema.
El usuario podra tomar la iniciativa y orientar con sus preguntas el curso de la
interaccion. De todas formas, como puede suponerse, no se podra dar demasiada
libertad al usuario ya que no es posible dise
nar un gestor de dialogo que este preparado para cualquier intervencion de los usuarios. Ante situaciones no esperadas,
debera tomar la iniciativa y reconducir el dialogo.
El desarrollo de este tipo de sistemas empezo a plantearse a partir de los a
nos 90,
cuando el reconocimiento de habla continua alcanzo un nivel suficiente como para abordar
tareas de mayor complejidad. Algunas de las aplicaciones mas habituales han sido el
acceso telefonico a sistemas de informacion, por ejemplo horarios de aviones o trenes,
informacion municipal, ocio y servicios, como cines o restaurantes, catalogo de ventas de
productos, informacion meteorologica, navegacion por voz en Internet, etc. Tambien se
ha explorado el desarrollo de sistemas de gestion de los buzones de voz telefonicos, o la
creacion de centralitas telefonicas gestionadas por voz. Otros sistemas mas ambiciosos
pretenden automatizar la interaccion hombre-maquina para tareas de planificacion o de
b
usqueda conjunta de un objetivo, por ejemplo establecer una cita o planificar un viaje.

1.1.

Estructura de un sistema de di
alogo hablado

En la Figura 1.1 se muestra un esquema general de un sistema de dialogo hablado. Como puede verse existen m
ultiples fuentes de conocimiento que deben tenerse en
consideracion para su desarrollo. Podemos establecer tres bloques:

18

Captulo 1. Introduccion
El bloque correspondiente al tratamiento del turno del usuario. Comprende la adquisicion, preproceso, reconocimiento y comprension. Al final de este bloque se espera
que el sistema haya comprendido la pronunciacion del usuario, lo cual significa que
mediante alg
un tipo de representacion se conozca el objetivo o funcion del turno
(llamado acto de dialogo) (Fillmore, 1968) y/o la informacion (o datos) proporcionados.
El gestor de dialogo, que debera tomar una decision para generar un turno de respuesta. La actuacion del gestor de dialogo se basara en tres factores: la informacion
proporcionada por el usuario en el u
ltimo turno; la informacion almacenada por
el propio gestor a lo largo del dialogo hasta este momento, es decir la historia del
dialogo; y la informacion del contexto de la aplicacion, que basicamente estara representada por la base de datos sobre la que se esta preguntado. Las principales acciones
que suele realizar un gestor de dialogo son: confirmar datos, recuperar errores, dirigir el dialogo hacia el objetivo solicitando nuevos datos, proporcionar la informacion
solicitada, y acciones propias del metalenguaje de dialogo como cortesa, apertura
de dialogo, o frases del tipo espere un momento por favor.
El bloque de generacion de respuesta, al que el gestor de dialogo enviara una representacion del mensaje que se debe emitir al usuario y que se ha de convertir en una
frase en lenguaje natural, y posteriormente sera sintetizada y emitida.

Modelos
Acsticos

Modelos de
Lenguaje

Modelos
Semnticos

Historia del
Dilogo

Secuencia de
palabras

Voz

Reconocedor
de voz

Consulta
BD

Frame

Analizador
Semntico

Base de
Datos (BD)

Controlador
del Dilogo

Consulta a
la BD

Secuencia de
palabras

Respuesta

Sintetizador
de voz

Generador
de respuestas

Reglas

Diccionario de
unidades de voz

Figura 1.1: Descripcion de un sistema de dialogo hablado


Como se ha dicho anteriormente el desarrollo de sistemas de dialogo hablado ha sido
posible gracias a las prestaciones alcanzadas en las distintas areas implicadas. En particular, el reconocimiento automatico del habla, que es el primer eslabon del sistema, sin el
cual no podra pensarse en la existencia de sistemas de dialogo.

1.1. Estructura de un sistema de dialogo hablado

19

a) Reconocimiento del habla.


Los sistemas de reconocimiento del habla empezaron a dar buenos resultados a partir de los a
nos 80 en que se generalizo el uso de Modelos Ocultos de Markov (HMM)
(Rabiner, 1989) como forma de representar las caractersticas ac
usticas de las unidades del habla. El exito de los HMM se basa principalmente en la existencia de
algoritmos de aprendizaje automatico de los parametros del modelo (Baum-Welch)
(Rabiner y Juang, 1993), as como en su capacidad para representar el habla como
un fenomeno secuencial en el tiempo. Se han estudiado m
ultiples aproximaciones,
como son los modelos discretos, semicontinuos o continuos, as como diversas topologas de los modelos. Un factor importantsimo es la eleccion de las unidades
ac
usticas basicas. Aunque inicialmente es el fonema la unidad mas elemental del
habla, para la implementacion de sistemas de reconocimiento es necesario el uso de
fonemas con contexto (u otras unidades mayores como las slabas o semislabas),
como unidad basica, ya que de esta forma se pueden representar los efectos ac
usticos debido a la coarticulacion de fonemas y palabras. El inconveniente que tiene la
proliferacion de unidades basicas, as como el de modelos mas precisos (como son los
modelos continuos con m
ultiples gaussianas) es que se requiere mayor computacion
en el proceso de aprendizaje, y por tanto mayor n
umero de muestras.
Uno de los elementos imprescindibles para disponer de un reconocedor de habla
continua es el modelo de lenguaje. Dado que la percepcion de la ac
ustica es a menudo
insuficiente, incluso para las personas, para reconocer la secuencia de fonemas o
palabras pronunciadas, es necesario tener un modelo de concatenacion de palabras.
Los modelos de lenguaje mas utilizados son los basados en N-gramas (Bahl, Jelinek,
y Mercer, 1983) (Jelinek, 1986) y los basados en gramaticas regulares (Segarra, 1993)
o independientes del contexto (Jelinek, Lafferty, y Mercer, 1992). Las gramaticas
suelen ser adecuadas para tareas reducidas, ya que permiten mas precision en el tipo
de restricciones que imponen, pero son incapaces de representar la gran variabilidad
del habla natural. Los N-gramas, sin embargo recogen de una forma mas sencilla las
concatenaciones entre palabras pero son muy adecuados cuando se dispone de un
n
umero suficiente de muestras de entrenamiento. En ambos casos la existencia de
tecnicas de aprendizaje automatico (Inferencia Gramatical) para las Gramaticas (Fu
y Booth, 1975) y tecnicas de estimacion de parametros para los N-gramas y tecnicas
de suavizado permite la obtencion de modelos adecuados para el reconocimiento del
habla. En el caso de HMM como representacion ac
ustico-fonetica y de N-gramas
como modelos de lenguaje, se construye una red de estados en que las palabras estan
representadas por la concatenacion de modelos de los fonemas que las componen. El
proceso de reconocimiento, el cual puede ser llevado a cabo mediante el algoritmo de
Viterbi, consiste en obtener la mejor secuencia de palabras, dada la entrada ac
ustica
y el modelo de lenguaje. Es decir:
c = argmaxwW + P (W ) P (A|W )
W

c = w1 , w2 , . . . , ww es la secuencia de palabras, A = A1 A2 . . . A|A| la secuendonde W


cia ac
ustica, P (W ) es la probabilidad a priori de la generacion de la secuencia
de palabras w1 w2 . . . wn y viene determinada por el modelo de lenguaje. En general
esta probabilidad se puede expresar como:

20

Captulo 1. Introduccion

P (W ) =

i=1..n

P (wi |w1 . . . wi1 )

donde P (wi |w1 . . . wi1 ) representa la probabilidad de que sea pronunciada la palabra wi si hasta el momento se ha pronunciado la subsecuencia de palabras w 1 . . . wi1 .
Los reconocedores de habla que se han de implementar en un sistema de dialogo
deben tener en cuenta algunas de las caractersticas del tipo de pronunciaciones con
las que se van a encontrar. Podemos destacar el hecho de que al ser independientes
del locutor hay que trabajar con un tipo de representacion de la se
nal de entrada,
lo mas independiente del locutor, y del canal que se utilice. Por otra parte se han de
considerar los efectos del habla espontanea, como son los sonidos carentes de significado (hum, ehh, mm), los reinicios de palabras o frases, o la incorreccion sintactica.
Asimismo habra que disponer de mecanismos para detectar o tratar palabras fuera
del vocabulario.
b) Comprension del habla.
Tras los sistemas de reconocimiento, debemos considerar los sistemas de comprension que, aunque seran tratados con profundidad a lo largo de esta tesis, veremos
cuales son sus caractersticas principales. En primer lugar podemos establecer dos
tipos de aproximaciones al proceso de comprension: las basadas en reglas (Bennacef et al., 1994), (Seneff, 1992), (Peckham, 1993), (Ward, 1994), (Cheng, Fortier, y
Normandin, 1994), (Kuhn y Mori, 1993) y (Oeder y Aust, 1994) y las basadas en
modelos estocasticos (Miller et al., 1996), (Segarra et al., 2001), (Bonneau-Maynard
y Lef`evre, 2001), (Minker, 1998), (Epstein et al., 1996) y (Levin y Pieraccini, 1995).
En el caso de las basadas en reglas la informacion semantica se extrae a partir del
analisis sintactico-semantico de las frases, utilizando gramaticas definidas para la
tarea, o a partir de la deteccion de palabras (o secuencias de palabras) clave, con
significado semantico. En el caso de los metodos estocasticos el proceso se basa en
la definicion de unidades ling
usticas con contenido semantico y en la obtencion de
modelos a partir de muestras etiquetadas. El proceso de comprension se realiza de
forma similar al del reconocimiento del habla, mediante el algoritmo de Viterbi, puede interpretarse como un proceso de traduccion de una frase de entrada (secuencia
de palabras) en una frase de salida (secuencia de unidades semanticas). Un aspecto
importante a considerar es la forma de transmitir la informacion entre los modulos
de reconocimiento y de comprension. Con el objetivo de que los errores de la etapa
de reconocimiento puedan ser recuperados en posteriores etapas hay m
ultiples propuestas para proporcionar mas de una sola frase, como es el caso de las N mejores
frases (N-best) (Soong y Huang, 1991), o de los grafos de palabras (Aubert y Ney,
1995) y (Ney, Ortmanns, y Lindam, 1997). De esta forma la etapa de comprension
puede tener en consideracion m
ultiples hipotesis del reconocedor. Esta misma idea
podra ser aplicada a la comunicacion entre el modulo de comprension y el gestor
de dialogo.
c) Gestion del dialogo.
As como en los modulos anteriormente descritos es habitual encontrar aproximaciones basadas en metodos estocasticos, en el caso de los gestores de dialogo hay
mayores dificultades para estas modelizaciones, principalmente debido a la falta de

1.2. Descripcion de algunos sistemas de dialogo hablado

21

muestras de aprendizaje y a la gran cantidad de situaciones, o estados del dialogo,


que habra que representar. Por ello la mayora de sistemas de dialogo tienen representada la estrategia del dialogo en forma de reglas. Se han desarrollado en los
u
ltimos a
nos, algunas herramientas toolkit para el desarrollo de sistemas de dialogo que permiten al dise
nador que defina el comportamiento del gestor de dialogo
(CMU Communicator (Xu y Rudnicky, 2000b), VOICEXML (Nyberg et al., 2002),
CSLU (McTear, 1998), (McTear, 1999)). Sin embargo, tambien hay aproximaciones basadas en metodos estocasticos, donde las unidades basicas son los actos de
dialogo (Bennacef, Neel, y Bonneau-Maynard, 1995), y se puede modelizar el comportamiento del dialogo como una secuencia de estos. Se debe tener en cuenta que
este tipo de representacion es limitada, en la medida en que un acto de dialogo
representa una intencion del turno, pero en principio no aporta informacion sobre
su contenido semantico.
d) Sntesis de voz.
Finalmente en el caso de la sntesis del habla, existen en la actualidad buenos sistemas (Bonafonte et al., 2000). Para producir voz, pueden utilizarse mecanismos
diversos, dependiendo de la complejidad de los recursos que se disponga. Existen
sistemas que se limitan a unos pocos los mensajes que puede generar la maquina
(cita previa de la ITV, informacion bursatil). En estos sistemas la generacion de voz
puede realizarse mediante la reproduccion de mensajes grabados, o concatenando
grabaciones de palabras o frases. Sin embargo existen apliaciones donde la informacion es tan grande que es muy posible que nunca se llegue a escuchar toda (noticias,
lectura de correo electronico, etc.) en este contexto se contemplan los sistemas de
conversion de texto en habla, capaces de producir voz a partir de un representacion
escrita.
La conversion de texto en habla puede dividirse en tres procesos (Bonanfonte, 2003).
El primero nos dicta que se ha de decir, esto es, que sonidos se han de pronunciar.
Este proceso debe analizar el texto, interpretar formas de expresion no explcita como son abreviaturas, cifras, etc. (normalizacion) y determinar los sonidos asociados
a cada palabra (transcripcion fonetica). El segundo indica c
omo se ha de pronunciar
cada sonido (rapido, lento, grave, agudo, fuerte, flojo, etc.) considerados individualmente o en su conjunto. Son las caractersticas llamadas prosodicas (pitch, pausas,
duracion, entonacion). Finalmente se ha de generar el habla acorde a esos sonidos y
a esas caractersticas, donde los metodos para generar voz se suelen clasificar en tres:
sntesis por formantes, sntesis articulatoria y sntesis por concatenacion, siendo este
u
ltimo el metodo dominante en los sistemas actuales y que se basa en disponer de un
gran catalogo de unidades basicas, y mediante la concatenacion de estas unidades
se forman las frases, no sin antes realizar los postprocesos necesarios para dotar a
la pronunciacion de la mayor naturalidad.

1.2.

Descripci
on de algunos sistemas de di
alogo hablado

Son muchos los laboratorios que han dedicado grandes esfuerzo a la obtencion de
sistemas de dialogo. Aunque las aplicaciones escogidas son variadas, la mayora de ellos se
ha centrado en sistemas de acceso a informacion. Las restricciones que suelen tener estos

22

Captulo 1. Introduccion

sistemas son: una talla del vocabulario de una 2.000 palabras, iniciativa mixta, acceso en
lenguaje natural, y tareas semanticamente restringidas.
Una de las primeras tareas que se planteo fue la tarea ATIS (Air Travel Information
Services) (Pallet et al., 1995) patrocinado por la organizacion ARPA (Advanced Research
Projects Agency) que consiste en obtener informacion sobre vuelos. En torno a esta tarea
se desarrollaron m
ultiples proyectos y se convirtio, junto a la de informacion sobre trenes
en un tipo de aplicacion ampliamente estudiada en otras lenguas. Un ejemplo de ello son
los proyectos SUNDIAL (Peckham, 1993), ARISE (Lamel et al., 2000), MASK (Gauvain
et al., 1997),...
A continuacion se muestra una breve descripcion de algunos de los proyectos y laboratorios mas representativos, que representan la evolucion en el desarrollo de sistemas de
dialogo:
ATT: Desde los primeros proyectos de desarrollo de sistemas de dialogo, los laboratorios
de ATT han trabajado en esta lnea, haciendo especial enfasis en la utilizacion
de modelos estocasticos, tanto para comprension como para dialogo. Desarrollaron
diversas aplicaciones para la tarea ATIS, como fue el proyecto AMICA (Pieraccini,
Levin, y Eckert, 1997). Actualmente desarrolla proyectos como How May I Help
you? (Gorin, Riccardi, y Wright, 1997), consistente en una tarea de callrouting.
Durante tres a
nos se adquirieron 30.000 dialogos.
MIT: Ademas de trabajar con la tarea ATIS, en el MIT se desarrollo un sistema de
dialogo, GALAXY (Goddeau et al., 1994), con el objetivo de ser un sistema conversacional valido para distintos dominios. Un ejemplo de los diferentes sub-dominios,
es el WHEELS que es un sistema de acceso a informacion sobre ventas de coches, el
VOYAGER, cuyo objetivo es proporcionar informacion tpicamente relacionadas con
viajes, como distancias entre ciudades, hoteles, direcciones o n
umeros de telefono.
El JUPITER (Zue et al., 2000) es un sistema de informacion sobre el tiempo. Desde
mayo de 1997 se han recibido sobre 100.000 llamadas, y la talla del vocabulario es
de 1.957 que incluye 650 ciudades y 166 pases.
CMU: Uno de los principales proyectos desarrollados en la CMU es el Communicator
Travel Planning system, cuya tarea es la de planificacion de viajes: aviones, hoteles
o reservas de coche (Rudnicky et al., 1999). La talla del vocabulario es de 2.500
palabras. Otro proyecto es el CMU-VODIS (Geutner et al., 1998), orientado al
desarrollo de aplicaciones de interfaz oral hombre-maquina en los automoviles.
SUNDIAL: Entre los primeros proyectos desarrollados en Europa se encuentra el SUNDIAL (Peckman, 1991) (Peckham, 1993) (Giachin y McGlashan, 1997). Se desarrollaron cuatro prototipos en cuatro lenguas distintas para las consultas de horarios de
trenes en Aleman e Italiano y de vuelos en Ingles y Frances. El objetivo del proyecto era construir sistemas de dialogo integrados en tiempo real capaces de mantener
dialogos cooperativos con los usuarios.
LIMSI: A partir de los trabajos desarrollados sobre la version francesa de ATIS (Bennacef et al., 1994), se desarrollo el proyecto ARISE (Lamel et al., 2000), y el MASK
(Gauvain et al., 1997). El ARISE fue un proyecto europeo para desarrollar un prototipo automatico de consulta de horarios y servicios para trenes que permita manejar

1.2. Descripcion de algunos sistemas de dialogo hablado

23

la gran mayora de las rutinarias consultas telefonicas. Se construyo un sistema para los operadores alemanes e italianos y dos para el frances. El proyecto predecesor
RAILTEL (Bennacef et al., 1996; Lamel et al., 1997), definio la estructura para
el desarrollo de los servicios interactivos de voz que proporcionan los horarios y
planificacion en diversos lenguajes (Aleman, Ingles, Frances y Italiano) a traves
del telefono. El proyecto MASK (Gauvain et al., 1997) desarrollo un servicio de
quiosco multimodal y multimedia para ser colocado en las estaciones de tren. Se
desarrollo un prototipo de quiosco de informacion que se instalo en la estacion de
St. Lazare en Pars. El quiosco pretende mejorar la eficacia de tales servicios permitiendo la interaccion con el uso coordinado de entradas multimodales (discurso y
tacto) y salidas multimedia (sonido, vdeo, texto y graficos) creando as una nueva
modalidad de servicios al p
ublico.
TRAINS Universidad de Rochester: (Allen et al., 1995) (Allen et al., 2000) es un
sistema de dialogo en lenguaje natural para la planificacion de la ruta de trenes
desarrollado en la Universidad de Rochester. La motivacion es obtener el conjunto
de rutas mas eficiente entre dos ciudades. Un analisis bottom-up para Context Free
Grammars produce una secuencia de actos de dialogo a la vez de llevar a cabo un
exacto analisis sintactico. El rendimiento de la tarea de TRAINS fue evaluada en
terminos de dos metricas: la cantidad de tiempo que se necesita para obtener la
informacion del itinerario y la calidad de la solucion, medida por la cantidad de
tiempo necesaria para cubrir las rutas.
Los proyectos VERBMOBIL (Kay, Gawron, y Norvig, 1994) y C-STAR (consorcio
fundado en 1991 por ATR Interpreting Telephony Laboratories (Kyoto, Japan), Carnegie Mellon University (Pittsburgh, USA), University of Karlsruhe (Karlsruhe, Germany) y Siemens AG (Munich, Germany) http://www.c-star.org/main/english/cstar2/navigator.html) incluyen los recursos de un sistema de dialogo para una tarea de traduccion multiling
ue entre lenguaje hablado.
En Espa
na existen en la actualidad diversos grupo trabajando en el desarrollo de
sistemas de dialogo:
Universidad de Granada: STACC (Rubio et al., 1997) Es un sistema de acceso telefonico o por internet a informacion sobre calificaciones desarrolado por el Departamento de Electronica y Tecnologa de Computadores (GiPSC).
UPC: Han participado en el proyecto BASURDE (Bonafonte et al., 2000), en la definicion
de escenarios y adquisicion del corpus a traves de tecnicas de Mago de Oz (Fraser y
Gilbert, 1991), definicion de la representacion semantica de la tarea, definicion del
vocabulario de la tarea e implementacion del modulo de sntesis de habla, ademas
de implementar el modulo de comprension y dialogo basado en reglas. Tambien han
desarrollado un sistema de acceso telefonico a informacion meteorologica en catalan
denominado Attemps (Hernando, Padrell, y H., 2002), que permite el acceso a la
informacion de las estaciones metereologicas del Departament de Medi Ambient,
pudiendo as recibir informacion de un determinado municipio de Catalu
na.
UPV: Ha participado en la definicion de escenarios para la adquisicion de dialogos, la
definicion del vocabulario y de la representacion semantica, as como, en la cons-

24

Captulo 1. Introduccion
truccion del modulo de comprension y de control del dialogo, ambos estocasticos,
del sistema BASURDE (Segarra et al., 2001).

Universidad de Vigo: Han desarrollado un sistema de acceso mediante voz al buzon


de voz telefonico en gallego y castellano (Rodrguez-Li
nares et al., 2002). Participan
investigadores de las universidades de Vigo y Santiago de Compostela. El sistema
esta desarrollado usando la herramienta VOICEXML y en (Perez-Pi
nar-Li
nares
et al., 2002) se presenta una arquitectura especfica para sistemas de dialogo que
permite la integracion automatica de todas las fuentes de conocimiento ling
ustico
(gramatica, modelo de lenguaje y vocabulario) a partir de la especificacion formal
de la aplicacion.
Telef
onica I+D: Ha participado en el proyecto IDAS financiado por la Union Europea
(1998-2000) en el que se ha desarrollado un sistema automatico mediante reconocimiento de voz capaz de dar un servicio de paginas blancas por telefono, proporcionando n
umeros de telefono o de fax de particulares y empresas (Lehtinen et al.,
2000). El sistema es de habla aislada para grandes vocabularios (10.000 palabras) e
independiente del locutor.
Ademas tiene un sistema de acceso a la informacion sobre horarios de trenes para
las conexiones entre ciudades espa
nolas, donde se propone una combinacion de varias fuentes de informacion con el fin de definir y evaluar la estrategia de dialogo:
intuici
on a partir del conocimiento que nos pueda dar el diagrama entidad relacion
de la base de datos, observaci
on a partir de transcripciones de dialogos entre usuarios y operadores y simulaci
on empleando la tecnica del Mago de Oz para aprender
las caractersticas especiales de la interaccion hombre-maquina (San-Segundo et al.,
2001). Ademas se incorpora medidas de confianza en el reconocimiento con el fin de
definir y controlar los mecanismos de confirmacion.

1.3.

Objetivos de la Tesis

En este apartado se va a detallar aquellos aspectos mas significativos que esta tesis
pretende abordar. El principal objetivo es el desarrollo de metodologas de aprendizaje a
partir de corpus para el proceso de comprension del lenguaje en el contexto de un sistema
de dialogo hablado. Para ello se han propuesto diversas aproximaciones que han sido
evaluadas sobre un corpus de datos, en nuestro caso dialogos hablados, adquirido dentro
del proyecto BASURDE.
Las principales lineas de trabajo que se han desarrollado son:
- Definicion de una representacion de la semantica asociada a las frases. Se ha trabajado en la definicion de la representacion mediante frames de la informacion proporcionada en las frases, y en la definicion de un lenguaje intermedio, secuencial con la
frase de entrada, que permite un proceso de traduccion secuencial de las frases.
- Estudio de tecnicas de aprendizaje automatico de modelos estocasticos y su aplicacion al proceso de comprension del habla. Se ha abordado el problema de la comprension con un esquema de dos niveles: un nivel semantico, que debe representar
las posibles secuencias de unidades semanticas en el lenguaje, y un nivel sintactico

1.4. Estructura de la Tesis

25

que debe representar las diferentes formas de decir ciertas unides semanticas. Para ello se han aprendido modelos estocasticos utilizando N-gramas y aplicando dos
algoritmos de inferencia gramatical ampliamente empleados en reconocimiento del
habla y en decodificacion ac
ustico fonetica: el basado en el Analisis Corrector de
Errores (ECGI) (Rulot, 1992) que construye una gramatica regular (o el equivalente automata de estados finitos) de forma incremental a partir de un conjunto de
muestras positivas, o el algoritmo para la inferencia de lenguajes k-explorables con
umbral (r,k)-TTSSI (Garcia y Vidal, 1990) donde la pertenencia de una cadena al
lenguaje esta determinada por el conjunto de segmentos de un tama
no k que pueden
aparecer en ella y por los prefijos o sufijos de longitudes menores que k.
- Se ha abordado el problema del suavizado de los modelos de comprension con el
fin de conseguir una cobertura lo mas amplia posible de la tarea. Por otra parte,
se han aplicado tecnicas orientadas a reducir la talla del vocabulario y aumentar la
cobertura de los modelos, como son el uso de lemas, categoras lexicas o semanticas.
- La comprension en el contexto de un dialogo. Se ha estudiado la posibilidad de
utilizar la informacion aportada por el estado en que se encuentra un dialogo para
ayudar al proceso de comprension, en particular se ha estudiado la posibilidad de
utilizar modelos especficos en funcion del contexto del dialogo.

1.4.

Estructura de la Tesis

La tesis se estructura en 9 captulos y 4 apendices. En el presente captulo de introduccion se describe la estructura y funcionamiento de los sistemas de dialogo hablados,
as como se enumeran algunos de los laboratorios y grupos de investigacion que han llevado a cabo la construccion de sistemas de dialogo. Por u
ltimo se marcan los objetivos
de la tesis.
En el captulo 2 se hace una revision bibliografica de las principales aproximaciones
a la comprension del lenguaje. En el se desarrolla como se representa el conocimiento,
cuales son los metodos analisis, as como una descripcion de los diferentes modelos de
lenguaje.
En el captulo 3 se presenta la tarea BASURDE, describiendo como se han adquirido
los dialogos que forman parte del corpus BASURDE. Tambien se describe la representacion semantica elegida, en nuestro caso se emplea el formalismo de los case frames.
En el captulo 4 se presenta una aproximacion al modulo de comprension del sistema
de dialogo BASURDE en dos fases, para la primera fase se emplean modelos estocasticos
aprendidos a partir de los datos y para la segunda fase se emplea un conjunto de reglas
con el fin de normalizar y cuantificar los valores obtenidos en la primera fase, obteniendo
como resultado uno o varios frames a partir de la frase de entrada.
En el captulo 5 se presenta la inferencia de modelos con el algoritmo ECGI y con el
algoritmo (k,r)-TSSI para la primera fase del modulo de comprension. Estos modelos son
suavizados aplicando una tecnica de reetiquetado de muestras.
En el captulo 6 se muestra la experimentacion llevada a cabo sobre el modulo comprension propuesto empleando los diferentes modelos aprendidos a partir de las muestras

26

Captulo 1. Introduccion

etiquetadas del corpus BASURDE etiquetado manualmente y con la salida de dos reconocedores de voz.
En el captulo 7 se aplica la aproximacion del modulo de comprension al sistema
frances de consulta sobre trenes ARISE. Para mejorar los resultados se lleva a cabo la
implementacion de un programa que expande la notacion original del corpus ARISE. Por
u
ltimo se muestran resultados experimentales.
En el captulo 8 se presenta una aproximacion estocastica al modulo de dialogo empleando una red de estados finitos para predecir cual es el siguiente acto de dialogo del
usuario y con ello poder emplear modelos especficos de comprension en funcion de ese
acto de dialogo esperado. Se presentan resultados sobre el uso de modelos especficos de
comprension.
En el captulo 9 de conclusiones se hace una recopilacion de las tecnicas empleadas y los
principales objetivos conseguidos. A partir de estos se establecen una serie de conclusiones
y trabajos futuros a realizar.
En el apendice A se enumera el vocabulario de la tarea. En el apendice B se describe
los ficheros empleados para obtener los lemas y categorias en la reduccion del lexico
de BASURDE. En el apendice C se describe como se ha llevado a cabo el etiquetado de
dialogo del corpus BASURDE y finalmente en el apendice D se muestran algunos ejemplos
de los diferentes tipos de escenarios practicados en la adquisicion del corpus BASURDE.

Captulo 2

Comprensi
on del habla
A la hora de construir un sistema de dialogo hombre-maquina, ademas de los componentes que se ocupan del reconocimiento y sntesis del habla, se hace necesario un
componente de comprension del lenguaje natural capaz de comprender la pronunciacion del usuario. Es decir, extraer y en parte desambiguar la informacion contenida en el
texto (frase o conjunto de posibles frases) generado por el reconocedor de voz y a partir
de el construir una adecuada representacion semantica que sera posteriormente procesada
por el algoritmo que controla el dialogo.
Al abordar este problema intervienen diferentes y complejas fuentes de conocimiento:
fonetica, morfologa, sintaxis, semantica, pragmatica, conocimiento del mundo, etc. La
cooperacion de todos estos conocimientos hace que se pueda conseguir una correcta interpretacion del significado y de la funcion sintactica de las palabras de una frase. Ademas
hay que tener en cuenta ciertos fenomenos de habla espontanea que se dan en la comunicacion hablada como son: falsos comienzos, nuevos comienzos, pausas, vacilaciones,
tartamudeos, repeticiones, interjecciones, etc.
Existen actualmente dos grandes paradigmas en el desarrollo de sistemas de comprension del habla: el basado en corpus y el basado en el conocimiento ling
ustico. En
el paradigma basado en corpus el sistema de comprension es un modelo parametrizado y sus parametros son aprendidos a partir de un corpus anotado semanticamente. En
los sistemas basados en el conocimiento ling
ustico, el necesario conocimiento ling
ustico/sintactico/semantico es codificado manualmente en forma de reglas.
Dos decisiones se deben tomar a la hora de dise
nar un analizador semantico: la primera
concierne al formalismo empleado para representar el significado de las pronunciaciones
del usuario (representacion del conocimiento) y la segunda en cuanto a la tecnica empleada
para extraer el significado del texto (metodo de analisis).

2.1.

Representaci
on del conocimiento

Como formalismo para describir las relaciones entre los constituyentes que componen
una frase se emplea la gramatica, formada por un conjunto de reglas que describen como
los distintos constituyentes se pueden combinar. Solo las combinaciones permitidas por
27

28

Captulo 2. Comprension del habla

la gramatica son consideradas gramaticales, mientras que el resto son agramaticales. Formalmente, una lengua es un conjunto de oraciones; cada oracion es una cadena de uno
o mas smbolos pertenecientes al vocabulario de la lengua. Desde esta perspectiva, una
gramatica no es mas que una especificacion formal y finita de este conjunto de oraciones
(Grishman, 1986).

2.1.1.

Modelos sint
acticos

La sintaxis contempla dos modos diferentes, pero no por ello opuestos, de analisis. El
primero es el analisis de constituyentes o analisis de estructura de frase: la estructuracion
de las oraciones en sus partes constituyentes y la categorizacion de estas partes como
nominales, verbales, adjetivales, etc. El segundo es el analisis de las relaciones o funciones
gramaticales: la asignacion de relaciones gramaticales tales como Sujeto, Objeto, etc.
Una amplia variedad de formalismos ling
usticos son los denominados gramaticas basadas en restricciones (las restricciones eliminan posibles alternativas, siendo su meta el
llamado analisis superficial) incluido bajo el termino gramaticas de unificacion introducido por (Kay, 1984). Ejemplos de ellas son: las Gramaticas Formales y de arboles descritas en (Fu y Booth, 1975) (Hopcroft y Ullman, 1979), las gramaticas lexico-funcionales
(Bresan y Kaplan, 1982), las gramatica de adjuncion de arboles (Tree Adjoining Grammar TAG) (Joshi y Schabes, 1992), las gramaticas de estructura de frase dirigidas por
el h-n
ucleo (Head-Driven Phrase Structure Grammar HPSG) (Pollard y Sag, 1994), que
pasamos a describir sucintamente a continuacion (Minker, 1999a).
Gram
aticas Formales: seg
un el tipo de reglas sintacticas (Hopcroft y Ullman, 1979), se
clasifican en no restrictivas, contextuales, independientes del contexto y regulares.
Las gramaticas independientes del contexto han sido ampliamente empleadas para
representar y analizar el lenguaje natural. Sin embargo, a pesar de la existencia de
metodos eficientes y simples para la implementacion de estas gramaticas, se requiere
una considerable cantidad de reglas para describir exhaustivamente la espontaneidad
del lenguaje natural. En casos en que el tipo de lenguaje lo permita se utilizan
Gramaticas Regulares debido a su simplicidad.
Lexical-Functional Grammar (LFG): es un modelo ling
ustico computacional desarrollado a finales de la decada de 1970 en la Universidad de Stanford en California, como fruto de la colaboracion entre la ling
uista Joan Bresnan y el informatico
Ronald Kaplan, conocido por sus trabajos pioneros sobre analisis morfosintactico
automatico mediante redes de transicion aumentadas. El objetivo de la LFG consiste en la elaboracion de un modelo altamente formalizado del lenguaje humano,
un modelo del lenguaje computacionalmente preciso, psicologicamente realista y
de orientacion ling
ustica lexicista y funcional (Kaplan y Bresnan, 1982)(Bresnan,
2001). En el terreno de la sintaxis, la LFG se caracteriza por mantener que la estructura sintactica debe representarse al menos en dos niveles: uno correspondiente a la
estructura de constituyentes (representada habitualmente mediante una estructura
de arbol) y otro correspondiente a la estructura funcional. La estructura de constituyentes (denominada, en este modelo, estructura-c) se describe formalmente mediante una gramatica sintagmatica independiente del contexto y constituye la base
del procesamiento fonologico de la oracion. Por su parte, la estructura funcional (o

2.1. Representacion del conocimiento

29

estructura-f) representa en LFG las funciones gramaticales y otras propiedades


gramaticales de base funcional presentes en la oracion, como la concordancia, el
tiempo, la definitud, el control o la anafora. La estructura-f adopta la forma de una
matriz no ordenada de rasgos, donde cada rasgo esta compuesto por un parametro
o propiedad ling
ustica (Bresan y Kaplan, 1982).

Tree Adjoining Grammar(TAG) (Joshi y Schabes, 1992) : El formalismo es muy


parecido al de las gramaticas independientes del contexto basadas en la unificacion, pero se le a
nade una funcionalidad adicional para el tratamiento del fenomeno
ling
ustico. Los modelos de TAG estan lexicalizados por completo (asocia sistematicamente descripciones sintacticas con lexicas). Un conjunto de estructuras de arbol
iniciales describen las frases mas simples del lenguaje. Una operacion de adjuncion
inserta un arbol dentro de otro para crear unas estructuras mas complejas. Como
contrapartida, el proceso de analisis para este formalismo, suavemente sensible al
contexto, implica mayores costes computacionales que el mismo proceso para las
gramaticas independientes del contexto (Carrillo, Daz, y Alonso, 2002).

Head-Driven Phrase Structure Grammar (HPSG): Es una mejora de la Generalized Phrase Structure Grammar (GPSG) (Gazdar et al., 1985), dise
nada por Pollard
y Sarg (Pollard y Sag, 1994). Permite una integracion mas explcita de los diferentes
niveles del analisis ling
ustico: fonetica, sintaxis y semantica. Uno de sus aspectos
mas interesantes es la codificacion del lexico, la sintaxis, la semantica y las frases en una identica estructura de datos. Esto permite una descripcion conjunta del
fenomeno sintactico y semantico as como de sus interacciones. Las descripciones
producidas por el HPSG son declarativas, independientes del orden y reversibles.

Estos modelos, en general, son mas adecuados para entornos de texto escrito (Allen,
1995) que para el habla, pues presuponen la correccion sintactica de la frase e ignoran
efectos de habla espontanea; estas disfluencias como son los falsos comienzos, titubeos,
palabras repetidas, etc., as como los errores generados en la etapa de reconocimiento,
deben poder ser abordados a la hora de trabajar con aplicaciones reales de consulta
hablada.
Por otra parte, en los a
nos 90 han aparecido aproximaciones que no persiguen el
analisis completo de las frases, sino que realizan un analisis parcial para poder abordar
el analisis de textos no restringidos y garantizar que este analisis sea robusto. El analisis
parcial permite obtener la segmentacion de una oracion en unidades sintacticas de una
manera rapida y con una alta fiabilidad. Dado que muchas aplicaciones no necesitan de
un analisis completo de los textos de entrada estas pueden ser objeto de la aplicacion de
estas tecnicas. En la literatura se emplean dos terminos para diferenciar la profundidad
del analisis sintactico llevado a cabo, el analisis parcial (partial parsing) que permite
el analisis sintactico de aquellas partes de la oracion que pueden analizarse y el analisis
superficial (shallow parsing o chunking) que divide el texto en segmentos no solapados
que se corresponden con ciertas estructuras o chunks, no permitiendo la recursividad
en estas estructuras (Abney, Berwick, y Tenny, 1991)(Pla, Molina, y Prieto, 2000a).

30

Captulo 2. Comprension del habla

2.1.2.

Modelos sem
anticos

Los modelos semanticos representan las secuencias posibles o probables de unidades


que describen el contenido conceptual del lenguaje, el objetivo de estos modelos es imponer restricciones semanticas a la tarea; de esta forma, solo aquellas frases que posean
significado dentro de la aplicacion abordada deberan resultar reconocidas.
A continuacion se describen dos tipos de gramaticas semanticas, como son las Gramaticas Semanticas (Burton, 1976) y las Gramaticas de Case Frames (Fillmore, 1968).
Gram
aticas Sem
anticas: descritas en (Burton, 1976), son similares a las de Chomsky
(Chomsky, 1965) (Hopcroft y Ullman, 1979), pero permiten la integracion de la
informacion semantica y sintactica dentro del mismo modelo. Las clases semanticas
son especficas para la aplicacion. Esta gramatica solo funciona bien en aplicaciones
restringidas y no es portable a otras tareas. Otra desventaja es que tiende a crecer
muy rapidamente, ello es debido a que deben construirse diferentes estructuras para
cada una de las categoras pese a que sean muy similares. Aunque se encuentran
muy cercanas a las gramaticas formales, son poco flexibles a la hora de abordar
como entrada lenguaje natural hablado.
Gram
aticas de Case Frames: Para conseguir una representacion semantica orientada
a la comprension en el analisis del habla se suelen emplear las gramaticas de Case
Frames. Estas han sido aplicadas con exito en numerosos sistemas (Hayes, Hauptman, y Carbonell, 1986) (Matrouf et al., 1990) (Bennacef et al., 1994) y son consideradas mas apropiadas para el tratamiento del habla espontanea que las gramaticas
basadas en un analisis sintactico.
El concepto ling
ustico original de Case Frame fue introducido por (Fillmore, 1968)
y se basa en un conjunto de Cases (casos) universalmente aplicables que muestran
la relacion entre un verbo y sus nombres (sintagmas nominales). Utilizando la metodologa descrita por (Bruce, 1975), un caso es la relacion que aparece entre un
predicado (no necesariamente un verbo) y uno de sus argumentos. Un Case Marker
(marcador del caso) es un indicador del caso (preposicion, afijo del caso, etc.). Un
Case Frame de un predicado es el conjunto de casos de ese predicado y un Sistema
de Cases es el conjunto completo de casos para un lenguaje.
La idea que se esconde detras de este tipo de comprension no es verificar la correcta
estructura sintactica de una sentencia, sino extraer su significado utilizando la sintaxis solo como restriccion, creando unas gramaticas mas robustas y adecuadas a la
interaccion hombre-maquina.
El predicado del Case Frame se convierte en concepto semantico en vez de en un verbo y los argumentos son las restricciones de este concepto. La identificacion de estos
conceptos y sus restricciones en una tarea determinada es un trabajo importante y
costoso, siendo este totalmente dependiente de la tarea.
El lenguaje, desde el punto de vista de esta tesis, se puede considerar como una forma
de comunicacion de significados. El objetivo del analisis semantico es pues extraer el
significado de la sentencia en vez de buscar si esta contiene o no estructuras sintacticas
correctas o incorrectas. La intencion de este analisis no es rechazar una sentencia que no es

2.2. El metodo de Analisis

31

gramaticalmente correcta, sino interpretar aquello que el hablante nos dice. Las gramaticas
que buscan los constituyentes semanticos de la sentencia respecto a una determinada
tarea pueden ser mas robustas frente a derivaciones de la gramatica, es por ello que para
nuestro trabajo es mas interesante utilizar una representacion semantica, en particular el
formalismo de los case frames es adecuado pues ha sido aplicado con exito en diferentes
sistemas de dialogo.

2.2.

El m
etodo de An
alisis

Una vez se ha seleccionado el formalismo de representacion del conocimiento, en nuestro caso los case frames, el siguiente paso es la seleccion de una tecnica para obtener la
estructura (analisis) de la pronunciacion analizada en terminos de sus entidades: conceptos, marcadores del caso y valores de los casos. En este punto, la solucion recae fundamentalmente en dos categoras de metodos: basados en reglas o estocasticos.
La aproximacion basada en reglas sobre un formalismo de gramaticas de casos implica
el escribir reglas que controlen la identificacion de los conceptos y de los valores de los
casos (Minker, 1999a). Normalmente, las reglas son lexicalizadas, definiendo familias de
palabras que identifican los conceptos y los marcadores de caso. Las reglas deben ademas
describir las relaciones entre los marcadores del caso y los valores.
El analisis estocastico (Minker, 1999a) emplea un modelo probabilstico para identificar los conceptos, marcadores y valores de los casos, para representar las relaciones
entre los marcadores de los casos y sus valores y para decodificar semanticamente las
pronunciaciones del usuario. El modelo es construido durante una fase de entrenamiento
(aprendizaje), donde sus parametros capturan las correspondencias entre las entradas de
texto y su representacion semantica. Una vez el modelo de entrenamiento esta completado, el modelo se emplea a modo de decodificador para generar la mejor representacion
semantica de la entrada.

2.2.1.

M
etodos de an
alisis sem
antico basado en reglas

En nuestros das los metodos basados en reglas, donde se define manualmente un


conjunto de estas en base a un analisis de la tarea, aplicados a la comprension del lenguaje natural proporcionan buenos resultados en aplicaciones restringidas con lenguajes
especficos. Conforme la cobertura del dominio crece, las estructuras que intervienen (lexicas, sintacticas, y/o semanticas) se complican y se hacen inmanejables creando problemas
de computabilidad y mantenimiento. Este tipo de analisis se suele adaptar a aplicaciones
y lenguajes especficos para intentar alcanzar el mejor rendimiento, haciendo imposible su
portabilidad a otros dominios. Ademas el esfuerzo humano (no automatico) en estos sistemas de comprension es costoso pues cada aplicacion y lenguaje requieren una adaptacion
o en el peor de los casos una nueva implementacion.
A continuacion se muestra una relacion de algunos laboratorios que han implementado
gramaticas basadas en restricciones a traves de un sistema de reglas para llevar a cabo
el sistema de comprension. Con el objetivo de mejorar la robustez del analisis, algunos
analizadores combinan los aspectos sintacticos y semanticos en la gramatica. Otros aplican

32

Captulo 2. Comprension del habla

un analisis a dos niveles en el cual las gramaticas sintacticas llevan a cabo un analisis
detallado y las gramaticas semanticas proporcionan una estrategia para la recuperacion
a partir de errores.
CSELT ha desarrollado un sistema de dialogo hombre maquina para el acceso hablado por va telefonica a informacion horaria de trenes para el italiano. Se enmarca
dentro del proyecto SUNDIAL. El procesador ling
ustico (Peckham, 1993) aplica
iterativamente el conocimiento sintactico y semantico detallado as como conocimiento semantico y pragmatico. Usa reglas de gramaticas de dependencia para el
analisis sintactico y gramaticas de casos para la representacion semantica.
MIT ha desarrollado un marco para los sistemas conversacionales llamado GALAXY.
Su analizador TINA (Seneff, 1992), usa una gramatica incontextual acompa
nada
de ciertas restricciones que produce arboles de derivacion que son a continuacion
convertidos en su correspondiente representacion en Frames.
CMU ha desarrollado el sistema PHOENIX (Ward, 1994) que emplea un analizador
flexible basado en gramaticas de casos, compilando en un conjunto de redes de
transicion recursivas para la tarea ATIS (que proporciona informacion sobre horarios y tarifas de vuelos). Este sistema trata los efectos de habla espontanea como
reinicios, repeticiones y frases gramaticalmente incorrectas.
LIMSI-CNRS ha desarrollado sistemas de consulta para diferentes tareas para el estudio de la portabilidad de los mismos. Las tareas consideradas incluyen la version de
ATIS en Frances (permite al usuario tanto la comunicacion hablada con el sistema
como a traves de una pantalla tactil o a traves del teclado), el MASK (quiosco para
el acceso multimodal y multimedia a la informacion a informacion sobre viajes en
tren) y el ARISE (informacion sobre trenes a traves de la lnea telefonica), todas
ellas relacionadas con el acceso a las bases de datos con informacion sobre viajes.
El analisis semantico (Bennacef et al., 1994) en los tres casos esta basado en reglas
y se lleva a cabo a traves de gramaticas de casos.
CRIM (Centre de recherche informatique de Montreal) participa en dos aproximaciones
diferentes para la construccion de sistemas de dialogo hablado. En la primera SICSA (Cheng, Fortier, y Normandin, 1994) se integran una aproximacion conexionista
y otra simbolica para la comprension del lenguaje natural a la tarea ATIS. Dos
redes conexionistas analizan las frases de palabras clave semanticas y extraen los
atributos de la consulta. A continuacion un analizador de case frames basado en
reglas se encarga de procesar los atributos junto con una serie de restricciones. En
la segunda aproximacion (Kuhn y Mori, 1993) se introduce los arboles de clasificacion semantica, un tipo especializado de arboles de decision que aprenden reglas
semanticas para una comprension robusta del lenguaje natural. El reconocedor de
voz identifica constituyentes de la consulta que son semanticamente significativos.
Estos constituyentes son analizados posteriormente por un bosque de arboles, cada
uno representando un aspecto diferente de la representacion semantica.
Philips Research Laboratoires ha dise
nado un interfaz de lenguaje natural robusta para diferentes dominios de aplicacion y diferentes lenguas. El componente de

2.2. El metodo de Analisis

33

comprension (Oeder y Aust, 1994) extrae los valores necesarios para construir una
consulta a la base de datos a partir de una representacion contextual en forma de
grafo de la entrada. Una gramatica semantica probabilstica identifica las partes
relevantes de la frase.

2.2.2.

M
etodos de estimaci
on autom
atica a partir de datos

Por otro lado los metodos de estimacion automatica a partir de datos intentan, a
partir de corpora etiquetados manualmente, aprender cual es la informacion semantica
contenida en estos y almacenarla en forma de parametros; la cobertura del dominio y las
caractersticas del lenguaje son extradas del mismo corpus. El mayor problema de esta
aproximacion estocastica es encontrar un buen balance entre la cobertura del dominio, el
n
umero de parametros y la calidad del modelo. Sin embargo, para trasladar los componentes semanticos a una nueva tarea es suficiente entrenar el modelo de la aplicacion a partir
de conjuntos especficos de datos, siendo el esfuerzo dirigido exclusivamente a la tarea
de etiquetado de los datos. Incluso este esfuerzo, en grandes corpora, puede ser aligerado
creando modelos a partir de unos pocos datos etiquetados manualmente y emplear estos
para etiquetar el resto (bootstrapping), procediendo luego a una simple tarea de revision
del etiquetado. Este proceso es mucho mas simple que un mantenimiento, extension y
traduccion de las reglas gramaticales.
En (Minker, 1998) se comparan ambos metodos empleando el corpus americano de la
tarea ATIS (Air Travel Information System) y el frances de la tarea MASK (MultimodalMultimedia Automated Service Kiosk), observando que, pese a que en ambos metodos
existe la necesidad de un delicado analisis e identificacion por expertos de los conceptos
semanticos de relevancia y sus restricciones de valor, los metodos estadsticos superan a
los basados en reglas si se entrenan sobre un corpus bien dise
nado.
Los siguientes laboratorios han desarrollado sistemas que usan modelos de comprension estadsticos que no requieren reglas gramaticales explcitas. Estos sistemas han demostrado la viabilidad de una aproximacion estocastica guiada por los datos para la
construccion de un componente de comprension en un sistema de dialogo hablado para
aplicaciones de consulta a una base de datos. Otro aspecto importante de este tipo de
aproximaciones es su portabilidad para diferentes lenguas, dominios y tareas.
BBN ha introducido una nueva clase de mecanismos estocasticos basados en modelos
ocultos de Markov para el procesamiento del lenguaje natural, y ha desarrollado una
representacion semantica estructurada en forma de arbol para la tarea ATIS (Miller
et al., 1996). El objetivo es la construccion de un sistema basado completamente
en tecnicas de aprendizaje automatico, para la comprension tanto en frases aisladas
como en un cierto contexto.
IBM ha presentado una aproximacion para la comprension estocastica del lenguaje natural (Epstein et al., 1996). El metodo consiste en la traduccion del lenguaje natural
en una representacion formal, que es una variante del NL parse paraphrase del ingles
de los datos de ATIS.
ATT ha desarrollado el sistema Chronus (Levin y Pieraccini, 1995) para la tarea ATIS.
Esta basado en la modelizacion estocastica de las entradas en forma de una secuencia

34

Captulo 2. Comprension del habla


de conceptos que representan su significado. Las unidades conceptuales definidas son
muy generales, y se deja en manos de un interprete basado en reglas y dise
nado a
manualmente la resolucion de las ambig
uedades. Se asume que la frase de entrada
es generada por un proceso oculto de Markov cuyos estados se corresponden con
unidades semanticas llamadas conceptos. El proceso de comprension aparece en la
Figura 2.1.
pronunciacin
reconocida

analizador
lxico

retculo de
palabras

conceptos
decodificador
conceptual

generador de
plantillas

significado
lxico

intrprete

significado
contextual

Figura 2.1: Diagrama del sistema de comprension Chronus de AT&T.


El papel del analizador lexico es la reduccion de la talla del modelo. Realiza un
analisis morfologico de las palabras y obtiene como salida un retculo con las diferentes asignaciones morfologicas posibles correspondientes a la entrada, es decir
no lleva a cabo ning
un proceso de desambig
uacion. El decodificador conceptual
asocia segmentos de las frases de entrada del retculo con unidades semanticas, es
decir, con los conceptos. Se han definido 7 conceptos generales (QUERY, OBJECT,
ATTRIBUTE, RESTRICTION, Q ATR, AND, DUMMY), que a su vez contienen
subconceptos, en un total de 44, para la tarea ATIS. Este proceso se lleva a cabo
mediante una modelizacion estocastica (a traves de un HMM ergodico) de la estructura conceptual de la tarea: los estados del modelo llevan asociadas a dichos
conceptos. A su vez, las observaciones representan secuencias de palabras asociadas
a dichos conceptos. A su vez, las observaciones son modelizadas a traves de modelos de lenguaje de bigramas, suavizados con back-off (Katz, 1987). El generador de
plantillas, formado por un conjunto de maquinas de estados finitos programables,
transforman la segmentacion producida por el decodificador conceptual en una plantilla, que sera usada por el interprete para construir la consulta en lenguaje formal
al sistema de informacion. Este sistema ofrecio unos esplendidos resultados en la
evaluacion de 1994.
UPV Dentro del proyecto espa
nol CICYT ALBAYZIN (Daz-Verdejo et al., 1998) de
construccion de una base de datos de voz orientada a una tarea, una de sus subtareas
es la de consulta en lenguaje natural a una base de datos sobre geografa de Espa
na
(BDGEO), donde se han abordado tecnicas de inferencia gramatical como el ECGI
para establecer todos los modelos que intervienen en el proceso de traduccion o
decodificacion: semantico, sintactico, fonetico y ac
ustico (Prieto, 1995). El ECGI
infiere una gramatica regular de un modo incremental, basandose en un analisis
corrector de errores. Este algoritmo ha sido aplicado con exito en el aprendizaje
de modelos de lenguaje para diferentes aplicaciones de reconocimiento del habla y
o BDGEO.
comprension como son la tarea de interpretacion de n
umeros MILL ON
Para ello se han aprendido, a partir de un corpus de frases segmentadas y etiquetadas
con un cierto lenguaje semantico intermedio definido para la tarea, un modelo de
secuencias de etiquetas semanticas y otro de palabras para cada una de las etiquetas,
inferidos con el ECGI integrando ambos modelos en una u
nica red de estados finitos
(E.Sanchis, N.Prieto, y J.Bernat, 1996).
La metodologa de Inferencia Gramatical mediante Generadores Morficos (MGGI)

2.3. Modelos de lenguaje

35

(Garcia y Vidal, 1990) (Segarra y Hurtado, 1997) que permite obtener una cierta
variedad de gramaticas regulares y ha sido aplicada en diferentes tareas de compren y la tarea BDGEO de consulta a
sion como las interpretacion de n
umeros MILL ON
una base de datos geografica espa
nola. La aplicacion de esta metodologa implica la
definicion de una funcion de reetiquetado, donde cada simbolo de una muestra de
entrada es reetiquetado siguiendo una cierta funcion g que incorpora conocimiento al modelo inferido, intentando suplir la falta de muestras negativas. Diferentes
definiciones de la funcion g producen diferentes modelos (automatas regulares estocasticos).

2.3.

Modelos de lenguaje

Con el nombre de Modelo de Lenguaje se suele designar a cualquier conjunto de


mecanismos que se emplean en un sistema de Reconocimiento del Habla para definir
la estructura del lenguaje de la aplicacion, es decir, para restringir adecuadamente las
secuencias posibles de unidades ling
usticas que definen el conjunto de frases permitidas
(Lenguaje) de una aplicacion de Reconocimiento o Comprension Automatica del habla.
El concepto de Modelo de Lenguaje es lo suficientemente general como para representar diferentes niveles de conocimiento ling
ustico: fonologico, sintactico, semantico etc..
Algunos sistemas utilizan Modelos de Lenguaje que llamaremos puramente sintacticos
(ya que describen las posibles concatenaciones de palabras, y por tanto la sintaxis del
lenguaje). Otros sistemas estan dirigidos por Modelos de Lenguaje que podramos llamar
semanticos, para se
nalar que modelan o representan las restricciones semanticas del lenguaje de la tarea; ademas pueden incluir o no las restricciones sintacticas. En los modelos
semanticos, las unidades basicas del modelo son ciertas categoras o conceptos relacionados con los significados asociados a las frases del lenguaje.
Los Modelos de Lenguaje sintacticos plantean varios inconvenientes. Por una parte,
presentan problemas para la definicion de modelos cuando se trabaja con grandes vocabularios; estos problemas se plantean en la estimacion de parametros si pensamos en un
formalismo de N-gramas y tambien en la definicion de un formalismo gramatical tanto si
se realiza de forma manual como de forma automatica. Por otra parte tambien se presentan problemas de sobreespecificacion, ya que en muchas aplicaciones, sobre todo en
aquellas en las que interviene el lenguaje hablado, solo es importante la semantica o el
significado del mensaje transmitido y no tanto la decodificacion lexica del mismo.
Si el Modelo de Lenguaje representa las posibles secuencias de unidades que describen
el contenido conceptual del lenguaje, lo denominaremos Modelo de Lenguaje Sem
antico.
El objetivo de estos modelos es imponer las restricciones semanticas de la tarea; de esta
forma, solo aquellas frases que posean significado dentro de la tarea abordada deberan
resultar comprendidas.
Existen dos grandes tendencias a la hora de elegir un formalismo en modelizacion del
lenguaje para tareas naturales:
a) Una primera aproximacion a la modelizacion del lenguaje, de uso muy extendido,
que podemos llamar estocastica, consiste en modelizar las concatenaciones posibles
de unidades ling
usticas o semanticas a traves de probabilidades (obtenidas a partir

36

Captulo 2. Comprension del habla


de su frecuencia de aparicion) de ocurrencia de secuencias de unidades ling
usticas
o semanticas de longitud fija (N). A estas secuencias se les suele denominar con el
nombre de N-gramas (Bahl, Jelinek, y Mercer, 1983)(Derouault y Merialdo, 1986)
y a estos modelos se les denomino Modelos de N-gramas.
b) Una segunda tendencia asume que el lenguaje a modelizar se particulariza a un
subconjunto (mas o menos restringido) de una lengua natural, y que por lo tanto
se puede definir un formalismo de gramatica (principalmente gramaticas regulares
o incontextuales) que determine las secuencias posibles que definen las frases pertenecientes a dicho lenguaje; a estos formalismos probabilsticos o no) basados en
la especificacion de la estructura completa de la frase, se les denomina Modelos de
Lenguaje Gramaticales.

La principal ventaja de los modelos estocasticos estriba en su capacidad para el aprendizaje automatico de los parametros del modelo a partir de un conjunto de frases del
lenguaje, lo cual los hace flexibles y adaptables a cualquier cambio de lenguaje. Su principal inconveniente es que el incremento del valor de N hace que el n
umero de posibles
secuencias de unidades a estimar (y almacenar) crezca exponencialmente, lo que crea la
necesidad de tener suficientes muestras. En la practica se suelen emplear valores de N
bajos, lo cual hace que estos metodos no sean capaces de explotar la estructura a largo
plazo de las frases del lenguaje.
Por otra parte los modelos basados en gramaticas se caracterizan por su capacidad
para representar las restricciones del lenguaje de una forma natural, sin embargo su
principal inconveniente es que la definicion de estos modelos entra
na una gran dificultad
para aquellas tareas con lenguajes proximos a lenguajes naturales. Asmismo la rigidez
en la estructura del lenguaje que especifican los hacen no adecuados para entornos de
lenguaje hablado.

2.3.1.

Modelos conexionistas

En los modelos conexionistas o redes neuronales, el proceso computacional se describe en terminos de interaccion entre cientos de procesadores elementales. En (Feldman y
Bullard, 1982) se introduce este tema. En (Castro y Prat, 2003) se proponen los modelos conexionistas como alternativa a los modelos basados en la frecuencia de N-gramas
para modelos de lenguaje. Los primeros pasos en esta direccion fueron dados en 1989
por (Nakamura y Shikano, 1989). Aunque estos modelos de lenguaje conexionistas gastan mucho tiempo en su entrenamiento, presentan dos ventajas: las redes presentan un
suavizado implcito en sus estimaciones y el n
umero de parametros a estimar no crece
exponencialmente con N.
Ejemplos de la aplicacion de estos modelos se puede ver en (Small, Cottrell, y Shastri,
1982), (Cottrell y Small, 1983) y (Miikkulainen, 1993) aplicado al procesamiento del
lenguaje natural. En (Nakamura y Shikano, 1989), (Xu y Rudnicky, 2000a), (Bengio et
al., 2003) se muestra que las redes neuronales pueden aprender modelos de lenguaje con
resultados comparables a los modelos estocasticos de N-gramas. En (Vilar, Castro, y
Sanchis, 2002), (Castro y Sanchis, 2002), (Sanchis y Castro, 2002) y (Vilar, Castro, y
Sanchis, 2003) se emplean redes conexionistas aplicado a la clasificacion para el uso de
modelos de lenguaje especficos en el proceso de comprension de un sistema de dialogo.

2.3. Modelos de lenguaje

2.3.2.

37

Modelos estoc
asticos

A continuacion se pasa a describir los modelos de lenguaje estocasticos mas extendidos.


Modelos de N-gramas
La aproximacion estocastica mas extendida es la de los modelos de N-gramas. Este
formalismo fue ampliamente empleado en el reconocimiento del habla y es perfectamente
trasladable a la comprension. Las razones que los justifican son varias:
- permiten representar de forma simultanea los diferentes niveles de conocimiento
(sintaxis, semantica y pragmatica) del dominio del discurso de la aplicacion
- permite lo que se conoce como aprendizaje basado en corpus, es decir, una vez fijado
N, los modelos se aprenden automaticamente a partir de un conjunto de datos de
la aplicacion.
- permiten una facil implementacion ya que existen algoritmos eficientes para su tratamiento.
Como inconveniente hay que destacar que no reflejan la estructura completa de la
frase, lo cual puede redundar en una deficiente modelizacion de las relaciones de larga
distancia entre terminos.
A continuacion vamos a dar la formulacion probabilstica de estos modelos, suponemos
una formulacion sintactica donde las unidades ling
usticas son palabras. Sea W el vocabulario de la tarea, la probabilidad a priori de generacion de la secuencia de palabras
w = w1 w2 . . . wn wi W i = 1, . . . , n determinada por el Modelo de Lenguaje, puede ser
vista como:
P (w) =

P (wi |w1 . . . wi1 )

i=1...n

donde la probabilidad de wi depende de toda la historia pasada w 1 . . . wi1 . Sin embargo en


la practica la estimacion de las probabilidades P (w i |w1 . . . wi1 ) sera imposible incluso a
partir de valores bajos de i. Por ello se definen diferentes tipos de particiones del espacio de
la historia, en particular una particion especialmente simple es la de los N-gramas, donde
la probabilidad de wi solo va a depender de las N-1 palabras anteriores en la secuencia,
quedando P (w) de la siguiente forma:
P (w) =

P (wi |wiN +1 . . . wi1 )

i=1...n

Sin embargo por razones de complejidad y por la necesidad de una gran cantidad de
muestras para obtener estimaciones fiables, tpicamente los Modelos basados en N-gramas
emplean secuencias de dos o a lo sumo tres palabras (bigramas, trigramas). Este hecho
hace que los modelos basados en N-gramas, si bien modelizan de forma adecuada aspectos
locales de la estructura del lenguaje, no pueden capturar relaciones a larga distancia entre

38

Captulo 2. Comprension del habla

terminos (mas alla de tres en el caso de los trigramas), lo cual puede redundar en una
deficiente modelizacion del lenguaje. Numerosas ideas de tipo practico se han incorporado
en los Modelos de N-gramas con el fin de reducir el n
umero de parametros a estimar y,
de esta forma conseguir estimaciones fiables. La mas inmediata, y de uso generalizado es
la combinacion (interpolacion) de modelos de orden N con modelos de orden N-1, etc.
A estas u
ltimas se le denomina suavizado de los modelos de N-gramas. A continuacion
pasamos a describir los metodos de suavizado de N-gramas mas comunes.
Suavizado de N-gramas
Los metodos de suavizado son necesarios para el calculo de parametros poco significativos o no contemplados en el corpus de aprendizaje. Cuando la estimacion se hace por el
criterio de maxima verosimilitud (probabilidades proporcionales a las frecuencias relativas
de los sucesos), si la muestra de aprendizaje no es lo suficientemente rica (muestra insuficiente y/o no completa) se pueden obtener modelos que no describan de manera adecuada
las secuencias de unidades semanticas o las de las palabras que pertenecen a una de las
unidades semanticas. En la literatura aparecen diferentes metodos para solucionar estos
problemas y han sido empleados en m
ultiples aplicaciones, principalmente en el campo
del reconocimiento automatico del habla, para obtener modelos de lenguaje de diferentes
niveles: unidades ac
usticas, palabras, categoras lexicas, unidades semanticas, etc.
Uno de los mas sencillos es el a
nadir 1que consiste en incrementar todos los contadores de frecuencias de los sucesos de S i , f (Si ) en 1, Ley de Laplace, o en una cierta
cantidad k, Ley de Lidstone, donde (0 < k 1).
f (Si ) + k
Pb (Si ) = P
Si (f (Si ) + k))

0<k1

(2.1)

El problema de esta aproximacion es la sobreestimacion de los sucesos con baja probabilidad, que probablemente, se corresponden con los de baja frecuencia.
Otra alternativa es el Suavizado Plano consistente en reservar una cierta cantidad
uniforme, P reservada , que se descontara a los sucesos vistos, para repartirla entre los no
umero de sucesos no vistos.
vistos por igual, donde #Si N o V istos es el n

Pb(Si ) =

modif icada (S

i)

P reservada
#Si N o V istos

Si 6= 0
(2.2)
Si = 0

Esto obliga a recalcular la probabilidad de los sucesos vistos a fin de mantener la consistencia del modelo, es decir que se cumpla que la suma de las probabilidades modificadas
para todo suceso visto sea igual a uno menos la probabilidad reservada:
X

modif icada

=1P

reservada

Si /Si 6=0

El principal problema que presentan estas aproximaciones es que asignan a todos los
sucesos no vistos exactamente la misma probabilidad. Para solucionar estos problemas se

2.3. Modelos de lenguaje

39

emplean metodos que combinan diferentes distribuciones de probabilidad para tratar los
sucesos no vistos. Estos metodos se pueden dividir en dos grupos: Interpolacion Lineal y
Back-off. El primero tiene en cuenta todas las distribuciones de probabilidad disponibles
para la estimacion de un determinado suceso. El segundo utiliza solo una, la que se espera
sea la mas apropiada de entre las disponibles para ese suceso. Vamos a ver estos dos
metodos particularizados para un modelo de bigramas, el caso mas general de N gramas,
para las probabilidades de un modelo de lenguaje de unidades v i (el caso de n-gramas
se podra realizar de igual manera considerando las probabilidades P (v i |vin . . . vi1 )).
El problema consiste en estimar P (v i |vj ) para cualquier par de unidades (vi ,vj ) V V .
Supongamos que se dispone de dos distribuciones de probabilidad: bigramas (P (v i |vj )) y
unigramas (P (vi )) a suavizar.
La aproximacion mediante Interpolacion Lineal se expresa en la ecuacion (2.3) donde
se ponderan las dos distribuciones, bigramas y unigramas, mediante los parametros de

interpolacion i . Estos
pueden ser estimados experimentalmente o utilizando el algoritmo
deleted interpolation (Jelinek y Mercer, 1985) (Jelinek, 1991). El n
umero de parametros
de interpolacion a estimar se reduce considerablemente si suponemos que que estos son
independientes de la unidad considerada v i . Siguiendo esta suposicion, se simplifica el
calculo de los parametros, como aparece en los trabajos de H. Ney (Ney y Kneser, 1991)
(Ney, Essen, y Kneser, 1994).
P Int (vi |vj ) = i1 P (vi |vj ) + i2 P (vi );

i1 + i2 = 1

(2.3)

La solucion mediante Back-Off consiste en descontar una cierta masa de probabilidad


a los sucesos vistos para repartirla entre los sucesos no vistos de una forma proporcional
a otra distribucion de probabilidad. Se puede ver como un caso particular de la interpolacion lineal en que un u
nico i puede ser distinto de cero. Bajo este esquema podemos
encontrar diferentes aproximaciones dependiendo de la funcion de descuento utilizada y
sobre que sucesos se aplica.
En la ecuacion (2.4) se presenta la aproximacion introducida por Katz en (Katz,
1987) para el bigrama vj vi donde r es la frecuencia del suceso, k es un umbral (definido
experimentalmente) a partir del cual se aplica P
la funcion de descuento d r y es una
constante de normalizacion para garantizar que vi P (vi |vj ) = 1, vj

r>k
P (vi |vj )
Suavizada
dr P (vi |vj ) 0 < r k
P
(vi |vj ) =

P (vi )
r=0

(2.4)

A continuacion se detallan las funciones de descuento mas comunes que se han definido
para el suavizado por Back-Off:
La funcion de descuento Good Turing Discount (Good, 1953), utilizada por Katz
(Katz, 1987) que se muestra en la ecuacion (2.5), se define en funcion de unos
contadores especiales (nx : n
umero de veces que un suceso aparece con frecuencia x)
obtenidos a partir del corpus de aprendizaje. Esta funcion garantiza que el descuento
umero de sucesos de frecuencia
total aplicado sea igual a nR1 , donde n1 representa el n
1 y R el n
umero total de muestras de aprendizaje.

40

Captulo 2. Comprension del habla

(r + 1) nr+1 (k + 1) nk+1

r nr
n1
dr =
(k + 1) nk+1
1
n1

(2.5)

El principal inconveniente de esta aproximacion es la determinacion experimental


del umbral k y el calculo de dr , puesto que para algunos casos, la ecuacion puede
dar valores indefinidos.
En la literatura aparecen otras aproximaciones que no tienen en cuenta el umbral
k y que sin embargo garantizan que dr > 0 para todo r, cumpliendose ademas, que
n1
el descuento total aplicado es de
. Esta aproximacion se muestra en la ecuacion
R
(2.6).
P

suavizada

(vi |vj ) =

dr P (vi |vj ) r > 0


P (vi )
r=0

(2.6)

El Descuento lineal (Jelinek, 1991) aplica el mismo descuento a todos los sucesos
independientemente de su frecuencia (ecuacion 2.7).
dr =

n1
R

(2.7)

El Descuento absoluto (Ney y Kneser, 1991)(Ney, Essen, y Kneser, 1994) reduce en


una constante b las probabilidades de todos los sucesos (ecuacion 2.8).
dr =

n1
rb
, donde b =
R
n1 + 2n2

(2.8)

Modelos basados en categoras


Un metodo para evitar los problemas relacionados con la falta de muestras y estimaciones poco fiables a la hora de emplear N-gramas consiste en utilizar modelos de
N-gramas en los que los elementos son o bien palabras o agrupaciones de estas en clases
(Derouault y Merialdo, 1986) (Jelinek, 1986). En el caso de bigramas la probabilidad del
bigrama wi1 wi sera:
P (wi |wi1 ) = P (wi |ci1 ) = P (ci |ci1 )P (wi |ci )
donde ci es la clase (categora) asociada a la palabra w i . La probabilidad de la clase
solo depende del predecesor, y la probabilidad de que se observe una palabra, dada una
historia, depende de su pertenencia a la clase.
Para la estimacion de estas probabilidades es necesario disponer de texto etiquetado,
es decir, texto en el que cada palabra ha sido sustituida por la clase a la que pertenece.
Una estimacion del modelo a partir de una muestra etiquetada (con las mismas tecnicas
vistas para N-gramas en general) dara lugar a eventos no vistos, por lo que se requieren
otra vez tecnicas de suavizado.
Se pueden dar diferentes tipos de clases o categoras:

2.3. Modelos de lenguaje

41

Por conocimiento ling


ustico: El caso mas habitual es el POS (Parts of Speech), donde se define una serie de categoras (gramaticales) de palabras y se realizan estadsticas de la frecuencia de aparicion de secuencias de N categoras, en vez de N palabras
(Jelinek, 1986), permitiendo incorporar restricciones gramaticales y/o morfologicas
en los modelos.
Los problemas que plantea esta aproximacion es que algunas palabras pueden pertenecer a mas de un POS. El etiquetado POS-tagging de esas palabras es un problema
abierto (los sistemas actuales tienen una tasa de error del 3 %). Existen diferentes
clasificaciones de POS, ademas de que estas clasificaciones no siempre son u
tiles
para la construccion de un modelo de lenguaje.
Por conocimiento del domino: Por ejemplo en la tarea ATIS los nombres de los aeropuertos, de las ciudades etc., tienen el mismo comportamiento y se agrupan en
clases.
El principal problema que plantea esta aproximacion es que requiere un experto a
la hora de definir las clases.
Dirigido por los datos: Se emplea el conjunto de datos para obtener automaticamente las clases, algunos de los metodos son el Algoritmo Voraz de Informacion Mutua (Merge) (Brown et al., 1992) y el Algoritmo basado en tecnicas estadsticas
(ML)(Kneser y Ney, 1993). En (Moisa y Giachin, 1995) se aplican los dos algoritmos para la obtencion de un modelo de bigramas de clases para una tarea especfica
de consulta a un horario de trenes, donde se han definido un agrupamiento automatico excepto para unas clases predefinidas como son: ciudades, estaciones, das de la
semana, etc. Se obtuvieron resultados similares para ambos metodos, dando mejores tasas de reconocimiento el uso de agrupamiento automatico frente al etiquetado
manual o a la ausencia de etiquetado.
Modelos din
amicos
Un modelo dinamico o adaptativo es un modelo que cambia su estimacion como resultado de analizar texto del corpus de test. Este tipo de modelo es u
til cuando:
El texto de aprendizaje as como el de test es un gran texto heterogeneo que se
compone de segmentos mas peque
nos homogeneos.
El modelo de lenguaje ha sido entrenado con datos de un dominio y se pretende
utilizar en otro dominio.
El modelo de lenguaje que mas exito ha tenido consiste en introducir el uso de un
componente dinamico cache, que recoge la informacion estadstica que va apareciendo
en el texto de prueba, para utilizarla para la modificacion de las probabilidades en el
modelo estocastico estimado a partir del texto de aprendizaje. Este componente trabaja
como una memoria que usa frecuencias de palabras de un pasado reciente para estimar
probabilidades a corto plazo que serviran para actualizar las de los modelos estaticos.
Existen variantes que emplean el componente cache como parte del modelo POS (Kuhn
y Mori, 1990), de forma que la informacion dinamica se a
nade a la probabilidad de una

42

Captulo 2. Comprension del habla

palabra en su categora. Otra variante utiliza el componente cache como suavizador de


la probabilidades del unigrama en un modelo de palabras, de forma que se a
nade a la
probabilidad del unigrama (Essen y Ney, 1991).
Otra aproximacion es la de los Triggers, su idea principal estriba en que ademas de
la contribucion del componente cache en la historia del documento de test, existe una
informacion importante a considerar: la correlacion entre palabras o secuencias de palabras donde si la la secuencia de palabras A esta altamente correlacionada con la secuencia
B, entonces (A->B) se considera un trigger pair A es el elemento desencadenador y B
el desencadenado. El modelo trigger trata de captar de forma sistematica esta informacion, usando la correlacion entre secuencias de palabras derivada de un gran corpus de
entrenamiento. En (Lau, Rosenfeld, y Roukos, 1993) se aplica al corpus del Wall Street
Journal para estimar un modelo estatico de trigramas suavizados con back-off y una lista
de triggers. Se interpolan linealmente el modelo estatico con el trigger obteniendo mejoras
de hasta un 32 % en el conjunto de test.
A la hora de crear un Modelo de Lenguaje adaptativo, se debe combinar diferentes
fuentes de informacion, para ello tradicionalmente se utiliza interpolacion lineal y sus
variantes, frente a estas tecnicas se propone en (Rosenfeld, 1996) el uso del principio
de Maxima Entropa (ME) para la construccion de un Modelo de Lenguaje adaptativo
empleando trigger pairs como elementos portadores de la informacion de la historia del
documento, donde:
Cada fuente de informacion fija un conjunto de restricciones.
La interseccion de las restricciones es un conjunto de funciones de probabilidad
consistente con todas las fuentes de informacion
La funcion de probabilidad con la ME es la solucion. Se garantiza una u
nica solucion
ME y existe un algoritmo iterativo cuya convergencia esta garantizada.
Esta aproximacion se utilizo para entrenar un Modelo de Lenguaje adaptativo de ME
sobre el corpus del Wall Street Journal, donde se consiguio una mejora de la perplejidad
entre el 32 % y el 39 %. Cuando este modelo se incorporo al reconocedor de voz de la
universidad Carnegie Mellon denominado SPHINX-II, este redujo su ratio de error del
10 % al 14 %
En (Khudanpur y Wu, 2000) se presenta otra aproximacion que emplea la tecnica ME
para crear un modelo unificado que combine:
dependencias posicionales (de corto alcance)
dos tipos de dependencia estadstica de largo alcance:
- la estructura sintactica
- el tema o asunto (topic)
Este modelo propicio mejoras sustanciales tanto en perplejidad como en el ratio de
error a nivel de palabras (Word Error Rate WER) para el corpus de conversaciones
telefonicas Switchboard con el fin de detectar topicos en un entorno conversacional.

2.3. Modelos de lenguaje

43

Varigramas y Multigramas
La mayora de las metodologas de modelado del lenguaje descritas con anterioridad
representan como denominador com
un el uso de un valor fijo N que condiciona todas
las probabilidades del modelo. La probabilidad de aparicion de una palabra (categora o
palabra etiquetada) se relaciona, exactamente, con las N-1 palabras anteriores.
Existen metodologas del lenguaje en la cuales la probabilidad de aparicion de una
palabra esta ligada a la aparicion de un n
umero flexible de palabras vistas con anterioridad.
En algunas de estas aproximaciones como los llamados poligramas o varigramas se
intenta combinar dentro de un mismo modelo las ventajas de los unigramas, bigramas,
trigramas, etc. De esta manera u
nicamente se utiliza las dependencias de palabras a mas
larga distancia (N mayores) si esto redunda en un beneficio para el modelo.
En otra aproximacion conocida como multigramas se introduce los segmentos como
base de los modelos, en lugar de las palabras. La diferencia principal entre los modelos
basados en multigramas (Deligne y Bimbot, 1995) y otros modelos de lenguaje es su
unidad basica. Mientras los modelos estocasticos se basan en la palabras o en la clase en
la que se agrupan un conjunto de palabras, los multigramas se basan en el concepto de
segmento. Un segmento es una secuencia de palabras que aparecen de forma consecutiva
en el texto y que, en principio, formaran una unidad a alg
un nivel, ya sea sintactico o
semantico. Dependiendo del mecanismo utilizado para modelizar las relaciones entre los
distintos segmentos estaramos ante un tipo de multigramas u otro (Deligne y Sagisaka,
2000).
El uso de multigramas y en consecuencia segmentos como base de un modelo de
lenguaje esta justificado en el campo de la modelizacion y comprension del discurso por
la propia naturaleza del discurso humano, constituido por distintas subunidades las cuales
intentan modelizar las clases de segmentos.
La aproximacion mas empleada es la de N-multigramas, que consiste en asumir que
la verosimilitud de cada segmento depende de un n
umero determinado de segmentos
que le preceden (N). Esta aproximacion se puede ver como una generalizacion de los Ngramas. Esta metodologa con sus distintas variantes (diferentes valores de N, limitacion
del n
umero de palabras por segmento, uso o no de categoras de segmento) es la mas
utilizada, en (Deligne y Sagisaka, 2000) se aplica a la estimacion de modelos de lenguaje
para la tarea ATIS.
La dificultad de estas aproximaciones como los N-multigramas es la elevada complejidad computacional que presenta su manipulacion, debido a las m
ultiples posibles
segmentaciones de las frases.

2.3.3.

SLMtoolkit

Con el fin de facilitar la construccion y prueba de modelos de lenguaje estocasticos


basados en modelos de N-gramas el grupo de habla de la universidad Carnegie Mellon ha
creado una herramienta llamada SLMtoolkit (Statistical Language Model) creado en 1994
y del cual ya han aparecido varias versiones (Clarkson y Rosenfeld, 1997). Este toolkit se

44

Captulo 2. Comprension del habla

emplea en numerosas universidades y centros de investigacion de todo el mundo y tambien


en esta tesis e implementa muchas de las tecnicas que se consideran estandar en el campo
de los modelos de lenguaje estocasticos. Algunas de sus caractersticas son: obtencion de
estadsticas de los modelos de N-gramas construidos, evaluacion del modelo de lenguaje
construido con el calculo de la perplejidad de un conjunto de test, calculo del ratio de
palabras de fuera del vocabulario, suavizado con Back-Off con diferentes estrategias de
descuento (Good Turing, Written Bell, Absoluto, Lineal) etc. (CMU, 1997).

2.3.4.

Aproximaciones gramaticales

Existen otras aproximaciones, que podramos llamar gramaticales, en las que se modeliza la estructura de la frase haciendo uso de gramaticas formales, principalmente gramaticas regulares y gramaticas incontextuales, que son capaces de capturar mejor la estructura
del lenguaje. Estas tecnicas de Inferencia Gramatical (Garcia y Vidal, 1990) (Fu y Booth,
1975) empleadas para abordar el problema de la definicion del lenguaje desde el aprendizaje basado en datos, tienen las siguientes ventajas:
- Aprendizaje automatico a partir de un conjunto de datos, al igual que los N-gramas.
- Flexibilidad, es decir tolerancia a construcciones ling
usticas no estrictamente correctas, pero aceptables, mediante la introduccion de suavizado de los modelos.
- Representacion natural de las descripciones del lenguaje, es decir de su estructura
global, caracterstica de los modelos basados en gramaticas.
A continuacion se muestra un resumen de algoritmos susceptibles de ser aplicados al
problema de la comprension:
- Los k-explorables en sentido estricto (Garcia y Vidal, 1990). Es la aproximacion de
N-gramas desde el punto de vista de la inferencia gramatical (Segarra, 1993). En
(Bordel, 1993) (Bordel, 1994) se muestra la aplicacion al aprendizaje de modelos de
lenguaje, con diferentes metodos de suavizado e interpolacion para la aplicacion de
consulta de la base de datos de informacion geografica BDGEO.
- Generadores morficos (MGGI) (Garca, Vidal, y Casacuberta, 1987). Es una tecnica
de inferencia gramatical compromiso entre los metodos heursticos y los metodos caracterizables, pues incorpora un conocimiento a priori sobre el problema particular
a abordar. En (Segarra, 1993) y (Segarra y Hurtado, 1997) se presenta la aproximacion al aprendizaje de modelos de lenguaje mediante la tecnica MGGI.
- k-explorables con umbral (Ruiz, 1998), cuya tecnica consiste en contar el n
umero
de ocurrencias de los factores de longitud k de sus palabras hasta un cierto umbral
r. El umbral r proporciona un segundo control de generalizacion en los segmentos
de palabras del lenguaje.
- El Error Correcting Grammatical Inference (ECGI) basado en correccion de errores
(Rulot y Vidal, 1987) ha sido empleado con exito en numerosos problemas de reconocimiento de formas y en tareas como la consulta de la base de datos de BDGEO
(Prieto, Sanchis, y Palmero, 1994) (Prieto, 1995) (Sanchis, 1994).

2.3. Modelos de lenguaje

45

Podran ser aplicadas otras aproximaciones como: los algoritmos de inferencia de lenguajes k-reversibles (Angluin, 1982), tecnica que se basa en la agrupacion de estados e
infiere lenguajes regulares a partir de una muestra positiva; inferencia de lenguajes a partir de muestra positivas y negativas (Oncina, 1991), metodo que tambien se basa en la
agrupacion de estados, pero utiliza muestras negativas para evitar ciertas construcciones y
evitar la sobregeneralizacion del automata o por u
ltimo la inferencia de gramaticas incontextuales Inside-Outside aparecen en (Baker, 1979) (Lari y Young, 1991) (Sanchez, 1999),
tecnica que estima las probabilidades de las reglas incontextuales a partir de muestras
positivas.

46

Captulo 2. Comprension del habla

Captulo 3

Tarea BASURDE
El sistema de dialogo BASURDE pretende ser capaz de responder, a traves de la lnea
telefonica, a preguntas en lenguaje natural sobre horarios, precios y servicios de los trenes
de largo recorrido de la red de ferrocarriles espa
nola. Para ello, debe entender aquellas
cuestiones que el usuario le plantea y a partir de ellas, consultar a una base de datos
para que le suministre informacion y poder construir una respuesta adecuada. El dialogo
mantenido entre el usuario y el sistema debe ser de iniciativa mixta para ser lo mas natural
posible, donde el usuario es libre de realizar cualquier cuestion cuando lo desee. Es normal
que el dialogo conste de varios turnos de usuario y sistema para conseguir el objetivo, de
modo que el sistema puede interrogar al usuario, tanto para clarificar la peticion de este,
como para completar la informacion necesaria para realizar la consulta a la base de datos
o por u
ltimo acotar la dimension de la respuesta.
Este sistema de dialogo ha sido creado dentro del proyecto BASURDE financiado
parcialmente por Comision Interministerial de Ciencia y Tecnologa espa
nola (CICYT
TIC98-0423-C06) (1998-2000) cuyo objetivo es el adquirir experiencia en los interfaces
para el acceso a informacion hablados basados en dialogo a traves de la lnea telefonica. En
este proyecto participaron grupos de investigacion de diferentes universidades espa
nolas,
en concreto los grupos de tratamiento del habla y tratamiento del lenguaje natural de la
Universitat Polit`ecnica de Catalunya (UPC), el grupo de tecnologa de las comunicaciones
de la Universidad de Zaragoza, el grupo de reconocimiento automatico del habla de la
Universidad del Pas Vasco (EHU), el grupo de aprendizaje computacional de la Universitat Jaume I de Castellon (UJI) y el grupo de reconocimiento de formas e inteligencia
artificial de la Universidad Politecnica de Valencia (UPV).
Uno de los objetivos del proyecto BASURDE es la creacion de un corpus oral personamaquina, para ello, se penso en la posibilidad de crearlo bajo el paradigma del Mago de Oz
(Fraser y Gilbert, 1991), donde una persona especializada (el mago) controla el dialogo y
responde al usuario como si del propio sistema se tratara. A la hora de aplicar esta tecnica
es indispensable acotar bien la tarea y plantear una serie de situaciones (escenarios) para
que los hablantes las reproduzcan. Ademas el Mago de Oz debe seguir unas normas de
actuacion, a estas se les denomina estrategia del mago y se utiliza en la obtencion de corpus
de dialogo para que este se adapte al modo de actuacion predefinido por los dise
nadores
del Mago de Oz (Life y Salter, 1997).

47

48

Captulo 3. Tarea BASURDE

Para poder acotar la tarea y crear una estrategia de Mago de Oz realista se analizaron
distintas aplicaciones en las que interviniera dialogo oral para obtener un primer corpus
a analizar. Entre ellas, se escogio la informacion telefonica sobre trenes de viajeros. Las
grabaciones de dialogos persona-persona entre los operadores del servicio de informacion
telefonica de RENFE y usuarios reales fueron el punto de partida para la creacion del
corpus de BASURDE, a este conjunto de dialogos se le denomino corpus PERSONA. En
la elaboracion de este corpus han participado de forma directa los grupos de investigacion
de la UPC (grupo de reconocimiento del habla) y de la UZ. El grupo de la UPC se
encargo de las gestiones con el grupo RENFE, la seleccion y grabacion de los dialogos y la
edicion final del corpus. El grupo de la UZ realizo la tarea de transcribir los dialogos entre
personas. A continuacion se hace una breve descripcion de este corpus cuya descripcion
completa junto sus transcripciones aparecen en (Bonafonte y Mayol, 1999) y (Lleida,
1999) respectivamente.

3.1.

Adquisici
on de los di
alogos del corpus PERSONA

El corpus PERSONA recoge llamadas reales realizadas al servicio de informacion de


RENFE (Barcelona) durante el mes de noviembre de 1997. RENFE ha cedido grabaciones
de su servicio de informacion de forma que las transcripciones de las llamadas puedan ser
u
tiles en tareas de investigacion.
Hasta finales de 1997 RENFE-Barcelona grababa todas las llamadas a su servicio
de informacion sobre trenes de viajeros y reservas de billetes. El sistema de grabacion
consista en un magnetofono de 30 canales (uno por puesto de informacion) conectado
de forma constante de inicio a fin de jornada. Cada canal estaba asociado al microfono
del operador y grababa, no solo las conversaciones de los operadores con clientes, sino
tambien las conversaciones con otros operadores, las conversaciones (atenuadas) de otros
operadores con otros clientes, etc. Se disponan de 15 cintas magnetofonicas de 8 canales,
cada una de ellas con capacidad para grabar un da, que se iban reciclando de forma
periodica.
Las se
nales de las grabaciones son muy ruidosas (ruido de oficina ruidosa) y contienen
en el mismo canal la se
nal del operador y del llamante. No se considera aprovechable la
se
nal en s misma de cara a entrenamiento o evaluacion de modelos ac
usticos sino que se
desea utilizar u
nicamente las transcripciones para definir el dominio semantico, e inspirar
en el dise
no del sistema de dialogo, de comprension del habla y de generacion de respuesta.
Tambien se utilizaran en el dise
no de escenarios bajo el paradigma del Mago de Oz. Las
transcripciones tambien pueden ser u
tiles, junto con otros materiales, para el dise
no del
modelo del lenguaje y el estudio del habla espontanea.

3.1.1.

Criterios de selecci
on de los di
alogos

Se han seleccionado 204 dialogos entre las grabaciones cedidas. Para la seleccion se
han utilizado los siguientes criterios:
Se ha primado las conversaciones de informacion sobre las de reserva (de hecho solo
un peque
no porcentaje de las llamadas que recibe RENFE son de reserva). Algunas

3.1. Adquisicion de los dialogos del corpus PERSONA

49

llamadas contienen una parte larga de informacion y al final se reservan billetes. En


ese caso se ha adquirido la llamada cuidando de no registrar datos personales de la
persona llamante.
La mayora de los dialogos se refieren a trenes de grandes lneas (largo recorrido).
Estos dialogos son en general mas largos y ricos que los dialogos sobre informaciones
de cercanas. Por ejemplo, aparecen mas servicios (literas, coche-cama, restaurante),
preguntas sobre enlaces, etc. La mayor complejidad de estos dialogos los hacen mas
apropiados para fines de investigacion. No obstante, tambien se han seleccionado un
cierto n
umero de dialogos de cercanas o regionales de forma que pueda apreciarse
el tipo de informacion que se requiere para este tipo de trenes.

3.1.2.

Transcripci
on de los di
alogos del corpus PERSONA

A la hora de emplear este corpus entre personas, analizo el servicio y se delimito el


dominio semantico, ademas de ser punto de partida para diferentes fases del sistema de
dialogo como son el controlador del dialogo, el componente de comprension y el generador
de respuestas.
La transcripcion es basicamente ortografica, utilizando como juego de caracteres el
ISO-8859 para codificar los caracteres no ASCII, (acentos, dieresis, signos de apertura de
interrogacion y exclamacion, etc.). Se utilizaron los signos de puntuacion para indicar la
entonacion apropiada.
Tambien se ha realizado un primer etiquetado de algunos fenomenos propios de conversaciones entre personas:
Se han utilizado las palabras uh, hum, para indicar sonidos de relleno en pausas (filler pauses). Tambien se utiliza el codigo <PAUSA> para indicar pausas
que producen discontinuidad en el discurso, como por ejemplo: a un <PAUSA>
compartimento de cuatro. Se ha utilizado el codigo <RISA> para indicar risas en
las conversaciones.
Cuando una persona ha empezado a hablar solapandose con lo que estaba diciendo
el interlocutor, se ha introducido al final de la frase el codigo <SIMULTANEO>.
As, en el ejemplo siguiente, el operador toma la iniciativa antes de que termine de
hablar el usuario.
Ejemplo:
US: si, buenas tardes, mire quisiera informaci
on para ir a Lerida. Para
ma
nana que horario y de d
onde salen los trenes ?
OP: vamos a ver, usted sobre que hora quiere salir para Lerida? (simultaneo)
En muchos casos, cuando la pronunciacion de una palabra no es estandar, se ha
escrito de la forma en la que fue pronunciada. Por ejemplo: pa (por para), sustituciones de ado por ao (fijao, gustao, precipitao, etc.), segundico, etc.
En los casos en que una palabra o fragmento no se ha entendido se ha marcado
mediante el codigo <ININTELIGIBLE>.

50

Captulo 3. Tarea BASURDE

3.1.3.

Breve an
alisis del corpus PERSONA

El corpus consiste en 204 dialogos con un total de 7.739 turnos (3.949 Operador +
3.790 Usuario), por tanto, unos 38 turnos (19+19) en promedio. El dialogo mas corto
tiene 8 turnos; el mas largo tiene 179 turnos. En la tabla 3.1 puede verse un histograma
que indica el n
umero de dialogos en funcion del n
umero de turnos. La gran mayora de
los dialogos (el 84 %) tienen entre 10 y 60 turnos.
n turnos
n dlg

< 10
6

n turnos
n dlg

10-19
40

60-69
8

20-29
50

70-79
4

30-39
40

80-89
4

40-49
25

90-99
3

50-59
16

> 99
8

Tabla 3.1: Analisis de la longitud de los dialogos expresado en turnos


Tama
no del lexico1 ,2 : El n
umero total de palabras son unas 60.000; de estas, unas
38.000 son pronunciadas por el operador del servicio de informacion y 22.000 por el
usuario. En cuanto al lexico, el n
umero de palabras distintas son alrededor de 2.200, de
las que unas 900 aparecen una u
nica vez. El n
umero de palabras medio que aparece en
cada turno son diez, cuando habla el operador y seis, cuando habla el usuario.
En el 76 % de las ocasiones se pregunta por trenes de largo recorrido, en un 17 % por
cercanas y un 4 % sobre enlaces internacionales, el 2 % restante son consultas combinadas
de trenes de largo recorrido con cercanas. En cuanto al tipo de informacion solicitada,
en el 72 % de las ocasiones se pregunta sobre horarios, en el 28 % sobre precios y en un
27 % sobre la combinacion de ambos.

3.2.

Corpus BASURDE

Una vez analizados los datos del corpus PERSONA para delimitar la tarea, se procedio a la adquisicion del corpus de BASURDE bajo el paradigma del Mago de Oz (Fraser
y Gilbert, 1991), donde se dise
na una estrategia para responder al usuario como si del
propio sistema se tratara, para ello se debe establecer una serie de situaciones (escenarios)
para que los hablantes las reproduzcan (Mari
no y Hernando, 1999b). A continuacion se
va a describir el formato de los escenarios, los distintos tipos de escenarios y el n
umero
de dialogos adquiridos de cada uno de ellos, as como una peque
na descripcion del corpus
obtenido a partir de la adquisicion.

3.2.1.

Definici
on de Escenarios

A los efectos de analisis de los dialogos obtenidos mediante las grabaciones con Mago
de Oz interesa que estos se realicen en condiciones controladas: con una estrategia de
1

Para contar las palabras se han eliminado los signos de puntuaci


on, risas, y la marca ..., pero se
han contabilizado como palabras uh, um, etc.
2
El n
umero de palabras distintas es, de hecho, menor debido a errores tipogr
aficos (bilete, bielletes),
de acentuaci
on (p.e. aparece andaluca y andalucia) y a variaciones en la pronunciaci
on, que aqu se
han contado como palabras distintas.

3.2. Corpus BASURDE

51

dialogo definida para el Mago y en unas circunstancias concretas para el informante. Este
segundo condicionante se ha descrito mediante escenarios, que incluyen un objetivo (la
informacion que debe obtener el informante) y una situacion que motiva el interes en la
informacion (Lamel et al., 1997). He aqu un ejemplo de escenario:
Objetivo: Precios y horarios de ida y vuelta para ir a una ciudad dada a pasar un
fin de semana.
Situaci
on: Piense en una actividad que practica con unos amigos que viven en una
ciudad (escoja una entre capitales de provincia o de importancia similar) distinta
de su ciudad de residencia. Ha quedado que el fin de semana visitara a sus amigos
para practicar esa actividad en com
un. Desea viajar en un tren rapido pero que no
sea muy caro.
Los escenarios fueron dise
nados conjuntamente por todos los miembros de BASURDE y
se recogen en (Mari
no y Hernando, 1999a) donde tambien se describe la plataforma de
adquisicion del Mago de Oz y la adquisicion de dialogos llevada a cabo por el grupo de
reconocimiento del habla de la UPC. El Apendice D contiene algunos ejemplos de los
diferentes tipos y objetivos de escenarios practicados.
Tipos de escenarios
Para definir los escenarios se han estudiado los dialogos del corpus PERSONA (Seccion
3.1). En estos dialogos se han identificado tres categoras de objetivos que se han descrito
del siguiente modo:
[Tipo A:]
[Tipo B:]
[Tipo C:]

<Horario> a destino [de origen] [el fecha-intervalo] ([en tipo-tren <tipotren>])


(<Horario> Horario) y <precio> a destino [de origen] [el fecha-intervalo]
([en tipo-tren <tipo-tren>])
(<Horario> Horario) y <precio> y <ida y vuelta> a destino [de origen]
[el fecha-intervalo] ([en tipo-tren <tipo-tren>])

donde la notacion empleada tiene el siguiente significado:


<>
[]

Pregunta
Opcional
alternativa

As, el primer tipo tiene por objetivo obtener el horario de trenes en viajes de ida,
en los que la fecha o el tipo de tren pueden estar especificados o el tipo de tren puede
tambien ser motivo de la consulta. Aunque el origen aparece como opcional, es evidente
que un tren siempre ha de tener un origen y un destino. La opcionalidad del origen ha de
entenderse del siguiente modo: el origen puede ser la ciudad de residencia del informante
y desde la que se hace la consulta (Barcelona o Zaragoza) u otra distinta, que hay que
especificar. Los escenarios B incluyen la consulta sobre precios y el horario puede ser
especificado por el informante. Los escenarios C se refieren a trayectos de ida y vuelta.
Horario, destino, origen, fecha-intervalo, tipo de tren y precio pueden considerarse variables para la formulacion de los escenarios. Las variables que intervienen en un escenario
concreto han de ser instanciadas (se les ha de asignar valor) o bien en la formulacion de

52

Captulo 3. Tarea BASURDE

la situacion del escenario o como resultado de la consulta. Por ejemplo, considerese el


siguiente escenario:
Objetivo: Confirmar el horario y averiguar el tipo de tren y el precio entre origen y
destino un da determinado de la semana.
Situaci
on: Usted reside en Tarragona. Tiene que ir ma
nana urgentemente a Vinaroz
y, a ser posible, ir y volver en el da. Solo necesita un par de horas en Vinaroz
para visitar un notario. Le suena que puede tomar alg
un tren sobre las ocho de la
ma
nana. Intente confirmar el horario y el tipo de tren que tomara. Informese del
precio del viaje.
En la descripcion de la situacion se da valor a horario, origen, destino y fecha-intervalo.
El objetivo es obtener los valores de tipo de tren y del precio.
Para cada tipo de escenario se han definido 10 objetivos concretos y para cada uno de
estos se han establecido 5 variantes. De este modo se obtiene un total de 150 escenarios
distintos.
Se han establecido dos clases de variantes. En la primera clase (que incluye las variantes
1, 2 y 3) las variables que definen la situacion del escenario (horario, destino, origen, etc.)
son instanciadas en la propia descripcion de la situacion. En la segunda clase (variantes
4 y 5) las clases son instanciadas por el informante. De este modo obtenemos escenarios
cerrados (primera clase) y semiabiertos (segunda clase).
Ademas de los tres tipos de escenarios descritos anteriormente, se ha a
nadido un
escenario totalmente abierto (tipo D) que el informante se encarga de concretar, tanto
en su objetivo como en el valor de las variables que intervienen en el. Su enunciado es la
siguiente
Objetivo/Situaci
on: Recuerde la u
ltima vez que haya viajado en tren dentro de la
pennsula entre dos capitales de provincia (o ciudades de similar importancia). Si no
recuerda ning
un viaje en ferrocarril, suponga que as ha sido en el u
ltimo que haya
realizado. Trate de traer a su memoria las circunstancias de aquel viaje. Consulte al
servicio de informacion telefonica la informacion que precisa para reproducir en tren
el viaje recordado. Tenga presente que el sistema no esta preparado para realizar
reserva de plazas.

3.2.2.

Distribuci
on y transcripci
on de los escenarios

Las grabaciones en Mago de Oz han sido realizadas por 75 informantes, cada uno de
los cuales practicara 3 escenarios: los dos primeros de los tipos A, B o C y el tercero
tipo D. En la distribucion de los escenarios entre los informantes se han respetado las
siguientes condiciones:
Los escenarios practicados por un informante han de corresponder a tipos diferentes.
Los dos primeros escenarios practicados por un informante no deben responder
simultaneamente a variantes semiabiertas.

3.2. Corpus BASURDE

53

No ha de repetirse ning
un escenario.
Los informantes fueron reclutados entre estudiantes y profesores. Se procuro que hubiera una distribucion equilibrada entre estudiantes y profesores, y entre sexos. Ninguno
de los informantes tiene experiencia en procesado del habla.
La transcripcion y el etiquetado se han realizado en la Universidad de Zaragoza. Existe
un fichero de transcripcion por fichero de voz, es decir, uno para cada canal. Se ha realizado
la transcripcion de acuerdo con los criterios adoptados en el proyecto, que se resumen a
continuacion.
Para la transcripcion del contenido ling
ustico se ha procedido como sigue:
1.

La transcripcion es basicamente ortografica, con solo algunas marcas que representan eventos ac
usticos audibles (de habla o no) presentes en los ficheros de se
nal.

2.

Las palabras mal pronunciadas (no variaciones dialectales) que son inteligibles se
marcan con un asterisco * a la izquierda de la palabra sin espacio. Cuando hay una
secuencia de palabras mal pronunciadas, cada una de ellas se marca individualmente.

3.

Las palabras o secuencias de palabras que son completamente ininteligibles se denotan con dos asteriscos ** con espacio.

4.

Los fragmentos de palabras, por ejemplo, cuando el informante no acaba la palabra,


se consideran palabras mal pronunciadas.

5.

Si la palabra ha sido cortada debido a un error en la grabacion, se usa la siguiente


notacion:
Inicio:
Fin:
Inicio y fin:

transcripci
on .
transcripci
on.
transcripci
on.

Se diferencia entre una frase que ha sido cortada pero que no tiene palabras cortadas
al inicio o al fin y una frase con palabras cortadas. indica el corte de la palabra
marcada, que se transcribe entera. Sin embargo, las frases cortadas sin palabras
cortadas no se marcan.
Los eventos ac
usticos no ling
usticos se han agrupado en cuatro categoras. Estos
eventos solo se transcriben si se distinguen claramente. Se ignoran los eventos de muy
bajo nivel. Los eventos se transcriben en el instante en que ocurren, usando los smbolos
definidos entre corchetes. En el caso de eventos ruidosos que se extienden sobre una o mas
palabras, la transcripcion indica el principio del ruido, justo antes de la primera palabra
a la que afecta. Las dos primeras categoras de estos eventos proceden del informante y
las otras dos proceden de otras fuentes. Los sonidos procedentes del informante no suelen
solaparse con el habla y los sonidos procedentes de otras fuentes pueden solaparse con el
habla.
Las cuatro categoras son:
[ fil ]: Pausa de relleno del informante. Estos sonidos se pueden modelar bien con un
modelo propio en los reconocedores de voz. Ejemplos: ah, mm, . . . .

54

Captulo 3. Tarea BASURDE

[ spk ]: Ruido del informante. Todos los tipos de sonidos no ling


usticos y ruidos producidos por elinformante que nos son pausas de relleno. Ejemplos: golpe de labios, tos,
gru
nido, carraspeo, golpe de lengua, respiracion profunda, risa, suspiro,...
[ sta ]: Ruido estacionario. Esta categora comprende ruido de fondo que no es intermitente y tiene un espectro mas o menos estable. Ejemplos: ruido de coche, ruido de
carretera, ruido de canal, ruido GSM, voice babble (ruido cocktail-party), ruido de
fondo de un lugar p
ublico, ruido de calle
[ int ]: Ruido intermitente. Esta categora comprende ruidos de naturaleza intermitente.
Estos ruidos ocurren solo una vez (como un portazo), tienen pausas entre ellos
(como un timbre de telefono) o cambian de color con el tiempo (como la m
usica).
Ejemplos: m
usica, voz de fondo, llanto de un ni
no, timbre de telefono, portazo,
timbre de puerta, crujido de papel, cruce de conversaciones,. . .
A continuacion se muestra un ejemplo de fichero de transcripcion y etiquetado. El
fichero del ejemplo corresponde a un informante. Las etiquetas de los ficheros de transcripcion del Mago de Oz son las mismas que en el caso de un informante. La u
nica
diferencia es que no existe la etiqueta NET, pues carece de sentido. El campo de etiqueta
USR distingue los dos canales: el valor User corresponde al informante y el valor System
corresponde al Mago de Oz. En este ejemplo los caracteres de los nombres que aparecan
a continuacion de la etiqueta EXP y EOZ, correspondientes al nombre de locutor y del
Mago de Oz respectivamente, han sido sustituidos por el caracter x para preservar su
intimidad.
LHD:
SES:
REP: UPC,BARCELONA,SPAINRED: 27/Oct/1999
RET: 10:51:10QNT: A LAW
SNB: 1
SBF:
SSB: 8
SAM: 8000
DIR: /OZ1/DAT/D540
SRC: OZ1D540U.ESA
USR: User
NET: PSTN
EXP: xxx xxxxx xxxxxx
EOZ: xxxxxxx xxxxx
SCN: D.5.4
LBD:
LBO: 0,0,0,
LBO: 59520,96448,133376,[fil] Buenos das [fil] querra informaci
on sobre horarios de trenes regionales
[spk] entre Zaragoza y Calatayud para el pr
oximo viernes
LBO: 195200,195200,195200,
LBO: 326016,350080,374144,[fil] Si podra decirme a que hora llega *el de las diecinueve cuarenta y cinco
a Calatayud
LBO: 452608,488256,523904,[fil] Si [fil] podra decirme el precio del billete *y si existe alg
un tipo de
descuento [spk] con carnet joven *o de la universidad

3.3. Representacion semantica en Frames

55

LBO: 590592,602048,613504,[fil] Si puede decirme el precio del billete


LBO: 718848,727488,736128,No gracias eso es todo
LBO: 798848,805312,811776,D cincuenta y cuatro
LBO: 840576,848576,856576,
NTR: 9
ELF:

3.2.3.

Caractersticas de los di
alogos adquiridos

A partir de los escenarios descritos en los apartados anteriores se adquirieron y posteriormente transcribieron un total de 227 dialogos de los cuales 50 son de tipo A, 51 son de
tipo B, 51 son de tipo C y 75 de tipo D. Los dialogos contienen un total de 4.884 turnos,
2.333 de usuario y 2.551 de sistema (Mago), lo cual nos lleva a una media de 21,5 turnos.
El dialogo con menos turnos contiene 7 turnos y el mas grande 105 turnos. En cuanto
al vocabulario, los dialogos contienen un total de 61.843 palabras de las cuales 2.402 son
nombres de ciudad. Hay 860 palabras distintas y de ellas 101 son nombres de ciudad. La
longitud media de caracteres por palabra es de 5,4. La frase mas larga esta compuesta de
100 palabras y la mas corta de 1 palabra, el n
umero medio de palabras por turno es de
aproximadamente 14,6 palabras.

3.3.

Representaci
on sem
antica en Frames

La representacion de la semantica de la tarea se basa en el concepto de Frame (Fillmore, 1968) todo mensaje enviado por el modulo de comprension y por cada intervenci
on
del usuario al m
odulo de di
alogo, es un frame. En algunos casos este frame se corresponde
con una consulta completa a la base de datos, en otros son solo una lista de restricciones
a a
nadir a la semantica de intervenciones anteriores; tambien se puede expresar con un
frame una peticion de confirmacion sobre datos, una afirmacion, etc. Los grupos de tratamiento del lenguaje natural de la UPC y el grupo de la UPV se encargaron de definir
los frames de la tarea que se recogen en (Segarra et al., 2000).
Para tratar esta variabilidad se ha definido como unidad de comunicacion o interfaz
comprension-dialogo el llamado frame can
onico, un formato estandar de frame que permite explicitar el tipo particular de cualquier frame y sus caractersticas, p.e. conceptos,
atributos y valores susceptibles de aparecer en el.
Dos decisiones que se han tomado a priori son:
las fechas y horas expresadas por el usuario se traduciran a una forma canonica.
el modulo de comprension no va a propagar al modulo de dialogo las redundancias,
de forma que si en la frase de entrada se nombra un determinado concepto o valor
varias veces se propagara una u
nica instancia del mismo. Sin embargo, informaciones
diferentes sobre el mismo atributo se propagan todas. El conocimiento que el modulo
de comprension tiene sobre el estado e historia del dialogo es nulo, por lo que
pensamos no debe tomar decisiones de eliminacion de ning
un valor expresado en

56

Captulo 3. Tarea BASURDE


la frase de entrada. Por ejemplo, en la traduccion de la frase Dime los horario
de trenes para ir de Barcelona a Valencia por la ma
nana, bueno, a partir de las
10 de la ma
nana se propagara al controlador de dialogo tanto el primer intervalo
horario que expresa el usuario (por la ma
nana), como el segundo (a partir de las
10 de la ma
nana), dejando en manos del controlador de dialogo las decisiones de
interpretacion en estos casos.

El criterio con el que se han definido hasta ocho tipos de frames es el tipo de pregunta
realizada por el usuario en una intervencion. En particular, un usuario puede hacer una
intervencion de dos tipos:
Dependiente de la tarea: si hace una consulta (completa o incompleta o de vuelta) o una peticion de confirmacion o expresa falta de comprension sobre un concepto
dependiente de la tarea. Hablaremos de frame de consulta, frame incompleto, frame
de vuelta, frame de confirmacion y frame de falta de comprension respectivamente.
Independiente de la tarea: si hace una intervencion propia del tipo de comunicacion que se establece en cualquier tarea de dialogo. En particular, se han establecido
tres tipos de preguntas de este genero: afirmacion, negacion y cierre. Hablaremos de
frame de afirmacion, frame de negacion y frame de cierre respectivamente.
Para el caso de una intervenci
on dependiente de la tarea, se ha determinado la siguiente
lista de conceptos susceptibles de aparecer en el frame canonico correspondiente.
-

HORA-SALIDA
PRECIO

ESTACION-DESTINO
PARA-EN
SERVICIOS
FECHA-LLEGADA

HORA-LLEGADA

ESTACION-ORIGEN
TIEMPO-RECORRIDO
TIPO-TREN
FECHA-SALIDA

Asimismo, y para cualquiera de los cinco tipos de frames dependientes de la tarea


definidos, se ha determinado las siguientes dos listas de atributos o cases susceptibles
de aparecer junto al tipo de pregunta en el frame canonico correspondiente:
-

CIUDAD-ORIGEN
PARA-EN
ESTACION-DESTINO
FECHA-LLEGADA
INTERVALO-FECHA-LLEGADA
TIPO-DIA-LLEGADA
HORA-LLEGADA
INTERVALO-HORA-LLEGADA
TIPO-VIAJE
NUMERO-RELATIVO-ORDEN
TIEMPO-RECORRIDO

CIUDAD-DESTINO
ESTACION-ORIGEN
FECHA-SALIDA
INTERVALO-FECHA-SALIDA
TIPO-DIA-SALIDA
HORA-SALIDA
INTERVALO-HORA-SALIDA
TIPO-TREN
CLASE-BILLETE
PRECIO
SERVICIOS

En esta lista estan recogidos atributos para los que, en la frase de entrada, se fija
un determinado valor. Los valores que pueden tomar estos atributos se recogen en mas
adelante en la Seccion 3.4 de este Captulo.

3.3. Representacion semantica en Frames

57

En la siguiente lista enumeramos los atributos que han ido apareciendo en los dialogos
estudiados y que hacen referencia a valores que no se explicitan en la frase de entrada,
sino que son valores que debe conocer el controlador de dialogo, ya que se han fijado en
intervenciones anteriores a la actual.
-

TREN-ACTUAL
FECHA-ACTUAL
TRAYECTO-ACTUAL
CIUDAD-DESTINO-ACTUAL

- HORA-ACTUAL
- MES-ACTUAL
- CIUDAD-ORIGEN-ACTUAL

Por tanto, y a modo de resumen, cada intervencion del usuario (consulta, confirmacion,
etc. . . ) generara uno o varios frames. Por ejemplo, las frases:
la frase Dgame los precios y el horario de los trenes hacia Barcelona disparara dos
frames de consulta en los que apareceran los conceptos PRECIO y HORA-SALIDA y
el atributo CIUDAD-DESTINO con valor Barcelona que afectara a ambos conceptos;
la frase Si. Pero ha habido un error, en realidad yo quiero ir de Valencia a Alicante
disparara un frame de AFIRMACION y un frame incompleto en el que apareceran
como atributos CIUDAD-ORIGEN con valor Valencia y CIUDAD-DESTINO con valor
Alicante.
Ahora bien, si en una consulta no se especifica el concepto, como por ejemplo en la
frase Dgame los trenes para Valencia, por defecto se dispara el frame HORA-SALIDA;
es decir, se supone que Dgame los trenes para Valencia pregunta por los horarios de
los trenes para Valencia.
Definimos el frame canonico o formato de cualquier tipo de frame como sigue:
Parte 1 o Cabecera: entre parentesis, en el caso de los frames de consulta el nombre
del concepto por el que se pregunta y en los otros tipos de frames el nombre del
tipo de frame.
Parte 2 o Lista de Pares Atributo-Valor afectados por la pregunta: En cada par el
smbolo : separa el atributo de su valor.
(nombre concepto/tipo de frame)
nombre atributo 1: valor atributo 1
......
nombre atributo i: valor atributo i
......
nombre atributo n: valor atributo n

Figura 3.1: Representacion grafica de frame can


onico.
En la Figura 3.1 se muestra la representacion grafica de frame canonico que se utilizara en adelante en todos los ejemplos. Como se observa, los nombres de conceptos/tipos
de frame de la cabecera aparecen entre parentesis para distinguirlos de los atributos

58

Captulo 3. Tarea BASURDE

homonimos. Por otra parte, se


nalaremos que el orden en el que aparecen los atributos
(cases) del frame debe respetar el orden en que aparecen en la anterior lista de atributos.
A continuacion se describen con detalle los ocho tipos establecidos (Segarra et al.,
2000), empezando por el mas general o Frame de Consulta.
Frame de Consulta es el que corresponde a una consulta completa sobre uno o mas
conceptos dependientes de la tarea, posiblemente con restricciones introducidas mediante la expresion de algunos de sus atributos.
Para presentar el frame canonico de consulta, a continuacion figuran algunos ejemplos de pares frase de entrada-frame can
onico obtenidos de los dialogos:
Hola, mire me interesara ir a Albacete la primera semana de agosto; estoy
en Alicante.
(HORA-SALIDA)
CIUDAD-ORIGEN: Alicante
CIUDAD-DESTINO: Albacete
INTERVALO-FECHA-SALIDA: 1-8-2004/8-8-2004

Deseo informaci
on sobre el horario, precio y tipo de tren de Barcelona a Madrid Chamartn.
(HORA-SALIDA)
CIUDAD-ORIGEN: Barcelona
ESTACION-DESTINO: Madrid Chamartin
(PRECIO)
CIUDAD-ORIGEN: Barcelona
ESTACION-DESTINO: Madrid Chamartin
(TIPO-TREN)
CIUDAD-ORIGEN: Barcelona
ESTACION-DESTINO: Madrid Chamartin

Conviene notar que se considera el posible uso de partculas de negacion o reafirmacion de un cierto valor de un atributo (NO, SI). En los casos en que aparece alguna
de estas partculas, el valor del atributo se parentizara. Cuando hay varios valores
para el mismo atributo se expresa dando la lista de todos ellos. Por ejemplo:
Dime los horarios del primer y del segundo tren que salga hacia Madrid.
(HORA-SALIDA)
CIUDAD-DESTINO: Madrid
NUMERO-RELATIVO-ORDEN: primero segundo

Que trenes hay, aparte del de las 12.30?


(HORA-SALIDA)
HORA-SALIDA: NO (12.30)

Si que me interesara salir a ver en el horario de tarde, mejor en el de noche


(HORA-SALIDA)
HORA-SALIDA: <= 13.00-21.00 SI(<=21.00-5.00)

3.3. Representacion semantica en Frames

59

Frame Incompleto es un caso particular de un frame de consulta en el que se enuncian, u


nica y exclusivamente, nuevas restricciones (atributos) sobre una consulta
previamente realizada. Debido a ello, el frame canonico correspondiente tiene una
cabecera vaca, tras la que aparece la lista de los nuevos atributos introducidos. Por
ejemplo, en un momento dado de un dialogo el sistema acaba de responder a una
consulta:
SIST: Ese da hay 5 trenes. El primero sale a las 7 horas y 30 minutos de la
ma
nana y el u
ltimo a las 21 horas y 50 minutos. Algo m
as ?.
A lo que el usuario responde:
US: Quisiera viajar en coche cama.
Con lo que el frame canonico correspondiente a esta consulta incompleta es:
( )
SERVICIOS: coche-cama

Otro ejemplo sera: en un momento dado de un dialogo el sistema acaba de responder


al usuario, y este detecta que el sistema ha cometido un error y lo corrige:
US: No viajo desde Palencia sino desde Valencia.
Con lo que el frame canonico correspondiente a esta consulta incompleta es:
( )
CIUDAD-ORIGEN: NO(Palencia) SI(Valencia)

Este u
ltimo ejemplo ilustra el tratamiento que se lleva a cabo en las intervenciones
en las que se corrige alg
un dato.
Frame de Confirmaci
on se corresponde con una peticion explcita de confirmacion por
parte del usuario. En este tipo de intervenciones se da/n un/os nombre/s de atributo/s y un/os valor/es que se pretende/n confirmar. El formato de un frame de este
tipo, su frame canonico correspondiente, es el mismo que el definido para un frame
de consulta pero con cabecera (CONFIRMACION). Se hace uso de una cierta parentizacion para se
nalar los pares atributo-valor afectados por la confirmacion. Por
ejemplo:
Quisiera saber si el de las 10.50 es un Talgo.
(CONFIRMACION)
TIPO-TREN: Talgo
HORA-SALIDA: 10.50

Frame de Vuelta es un caso particular de un frame de consulta que aparece en aquellas


intervenciones en las que el usuario, tras haber obtenido informacion sobre uno o mas
conceptos que ata
nen a un trayecto dado, requiere informacion sobre el concepto
de vuelta sobre lo ya consultado o incluso sobre nuevos conceptos. Ejemplos de

60

Captulo 3. Tarea BASURDE


este tipo seran frases como Dime el horario de trenes para volver., A que hora
llega el de vuelta o El de vuelta, tiene coche cama?. En estos casos, el sistema de
dialogo debera ser el que, para poder responder, intercambie los valores de CIUDADORIGEN y CIUDAD-DESTINO en su historia actual si ello no ha sido explcitamente
indicado por el usuario en alguna intervencion. Una forma de implementar dicho
cambio es distinguiendo un frame de Vuelta cuyo frame canonico correspondiente
es el mismo que el de uno de consulta, pero cuya cabecera consiste en el nombre del
concepto consultado terminado en -V. Por ejemplo:
Dime el horario de trenes para volver.,
(HORA-SALIDA-V)

Frame de Falta de Comprensi


on se utiliza para expresar la falta de comprension por
parte del usuario de un mensaje del sistema. Por tanto, el frame correspondiente
tiene como cabecera (NO-ENTENDIDO). Por ejemplo:
Puede repetir? origina el frame canonico
(NO-ENTENDIDO)

Este frame puede no aparecer aislado, sino como inicio de una lista de frames de
diferentes tipos. Por ejemplo,
Puede repetir el horario? , origina el frame canonico compuesto
(NO-ENTENDIDO)
(HORA-SALIDA)

Frame de Afirmaci
on expresa la respuesta afirmativa a una pregunta del sistema. Su
formato, frame canonico correspondiente, contiene una u
nica linea con cabecera
(AFIRMACION). Por ejemplo, si en un momento dado de un dialogo el sistema
acaba de preguntar al usuario:
SIST: :Quiere viajar desde Valencia a Alicante?
Y el usuario responde:
US: Exactamente,
el frame canonico correspondiente sera:
(AFIRMACION)

En general este frame no aparece aislado, sino como inicio de una lista de frames de
diferentes tipos. Por ejemplo, si a la pregunta del sistema,
SIST: :Desea alguna informaci
on m
as? ,
el usuario responde:

3.4. Valores que pueden tomar los cases

61

US: Si. Podras darme los servicios de ese tren? ,


el frame canonico correspondiente sera una concatenacion de dos frames, uno de
afirmacion y otro de consulta:
(AFIRMACION)
(SERVICIOS)

Frame de Negaci
on corresponde a una respuesta negativa a una pregunta del sistema.
Su formato, frame canonico correspondiente, contiene una u
nica linea con cabecera
(NEGACION).
Frame de Cierre expresa cierre de dialogo. Su formato contiene una u
nica linea con
cabecera (CIERRE). Por ejemplo, si en un momento dado de un dialogo el sistema
acaba de preguntar al usuario:
SIST: Desea alguna informaci
on adicional?.
Y el usuario responde:
US: No. Muchas gracias.,
el frame canonico correspondiente a este cierre de dialogo es:
(CIERRE)

3.4.

Valores que pueden tomar los cases

En este apartado se muestran los posibles valores que los cases (atributos) asociados
a cada frame pueden alcanzar.
Cases que hacen referencia a ciudades y estaciones podran tomar los valores que
se determinen en el vocabulario de la tarea.
En cuanto al case PARA-EN, puede adquirir, ademas de los valores que se determinen
en el vocabulario de la tarea, el valor directo en el sentido de sin paradas.
Cases que hacen referencia a fechas Para las fechas se ha fijado el formato:
FECHA-SALIDA/LLEGADA:
INTERVALO-FECHA-SALIDA/LLEGADA:

DD-MM-AAAA
DD-MM-AAAA/DD-MM-AAAA

El fin de semana que aparece de forma frecuente en los dialogos se traduce en un


intervalo de dos das: el siguiente viernes y sabado (siguientes si no se indica otra
cosa). Las fechas especiales tienen un tratamiento que se explicita. En cuanto al
tipo de da puede tomar los valores: laborable y festivo.
Cases que hacen referencia a horas Para las horas concretas se ha fijado el formato:

62

Captulo 3. Tarea BASURDE


HORA-SALIDA (HORA-LLEGADA): HH.MM.

En cuanto al tratamiento de los intervalos horarios, queda como sigue:


por la ma
nana y equivalentes: 5.00-13.00;
al medioda y equivalentes: 12.00-14.00;
por la tarde y equivalentes: 13.00-21.00;
por el da, de da, diurno, cuando no se refiere al tipo de tren del mismo
nombre, se considera equivalente a por la ma
nana + por la tarde: i.e. 5.0021.00;
por la noche y equivalentes: 21.00-5.00;
en particular, nocturno se considera equivalente a por la noche;
en particular, por la noche es equivalente a muy tarde;
de madrugada y equivalentes: 4.00-7.00; en particular, de madrugada es
equivalente a muy temprano;
si un intervalo va precedido de la expresion muy tarde o muy pronto,
como muy tarde por la ma
nana o muy pronto por la tarde, dicho intervalo
equivale, respectivamente, a sus dos u
ltimas o dos primeras horas de definicion.
As, muy tarde por la ma
nana es equivalente a 11.00-13.00 y muy pronto por
la tarde es equivalente a 13.00-15.00. Si el intervalo que se indica es a media
(por ejemploa media tarde) equivale a eliminar las primeras dos horas y las
u
ltimas dos horas del intervalo correspondiente. En el ejemplo sera 15.00-19.00,
a partir de las dos de la tarde: >= 14.00;
antes de las doce del medioda: <=12.00;
hacia las doce del medioda: 11.00-13.00;
desde primera hora de la ma
nana: >=5.00;
a partir de ahora mismo: >=HORA-ACTUAL,
donde entendemos que HORA-ACTUAL es una constante del sistema que debe
ser conocida por el controlador de dialogo;
se considera que un intervalo horario puede tomar tambien cualquiera de los
dos siguientes valores relativos: + tarde y + pronto. (un poco m
as tarde y
equivalentes se traducen como dicho intervalo)
el mismo da se traduce, cuando no significa fecha actual , como un intervalo que abarca desde el primer horario disponible (madrugada) hasta el
u
ltimo tren de la noche.
El case TIPO-TREN puede tomar cualquiera de los valores que se indican a continuacion:
Alaris, Arco, Ave, Diurno, Electrotren, Estrella, Euromed, Intercity, Regional,
Talgo y Tren Hotel, R
apido, Diario.
Ademas, seran valores de TIPO-TREN los identificadores de tren, como Antonio Machado, que puedan aparecer en el lexico.

3.4. Valores que pueden tomar los cases

63

El case TIPO-VIAJE Puede tomar dos valores: ida e ida y vuelta.


El case CLASE-BILLETE puede tomar cualquiera de los valores que se indican a continuacion:
primera, segunda, clase preferente, clase turista, litera, cama y gran clase,
sentado, butaca.
El case NUMERO-RELATIVO-ORDEN puede tomar cualquiera de los valores que se
indican a continuacion:
primero, segundo, tercero, cuarto, quinto, u
ltimo, anterior y siguiente.
El case PRECIO para este case se aceptan, ademas de valores numericos, el valor +barato.
El case TIEMPO-RECORRIDO para este case se aceptan, ademas de valores numericos, el valor +rapido. Rapido, que como diurno, cuando no se refiere al tipo de
tren del mismo nombre, se considera TIEMPO-RECORRIDO.
El case SERVICIOS puede tomar cualquiera de los valores que se indican a continuacion:
autoexpreso, bar, camas, coche cama, cafeteria, literas, motoexpreso, musica
ambiental, prensa, restaurante, revistas, telefono, television y video.
Puede tomar tambien el valor c
omodo.

64

Captulo 3. Tarea BASURDE

Captulo 4

M
odulo de comprensi
on
Una definicion generica de un sistema de Comprension del Lenguaje, es la de una
maquina que acepta cadenas de palabras como entrada y produce frases de un cierto
lenguaje semantico que especifica las acciones que se van a llevar a cabo. Bajo este punto
de vista, la Comprension del Lenguaje es un proceso de traduccion. Para implementar
este proceso se pueden emplear una serie de tecnicas de inferencia para aprender, de forma
automatica, el traductor necesario a partir de un conjunto de muestras de entrada y salida
de entrenamiento.
En este trabajo se describe la aplicacion de traductores inferidos de forma automatica a una tarea de comprension en el marco de los sistemas de dialogo para entornos
semanticamente restringidos.

4.1.

Modelo de traducci
on para la comprensi
on

Como se mencionaba anteriormente un sistema de Comprension puede ser visto como


un traductor que recibe frases en lenguaje natural y las traduce en su representacion
semantica correspondiente (en uno o varios frames). La aproximacion que hemos propuesto (Segarra et al., 2001) (Segarra et al., 2002) permite obtener un modelo efectivo
que describe este comportamiento. En esta aproximacion el proceso de traduccion esta
dividido en dos fases. La primera fase consiste en la traduccion de la frase de entrada en
terminos de un lenguaje semantico intermedio. Como este lenguaje intermedio que definimos es secuencial con la entrada, se pueden emplear tecnicas de traduccion secuencial.
En la segunda fase una serie de reglas traduce esta representacion intermedia en una representacion basada en frames. Como el lenguaje semantico intermedio que se ha definido
para esta tarea esta cercano a la representacion de frames, esta fase solo requiere de una
pocas reglas para construir el frame. Un ejemplo de las acciones llevadas a cabo en esta
segunda fase son las conversiones de las fechas relativas y horas en valores absolutos, p.e.
pr
oximo lunes por mm/dd/yy o por la ma
nana por intervalo de hora (5 a 12).
La primera fase se basa en modelos estocasticos aprendidos automaticamente. Ejemplos
de modelizacion de la comprension en dos fases se pueden ver en el sistema Chronus de
ATT sobre la tarea ATIS (Levin y Pieraccini, 1995) y en el componente estocastico de
comprension para la tarea ATIS (Minker, 1998) (Minker, 1999a) y posteriormente en el
65

66

Captulo 4. Modulo de comprension

desarrollado para los proyectos RAILTEL y ARISE (Minker, 1999b) del LIMSI.
Secuencia de pares
segmento/
unidad semantica

Frase de Entrada
Decodificacion

FRAME
Generacion
de FRAME

ortografica/semantica

Figura 4.1: Esquema del proceso de comprension


Se define un lenguaje semantico de 64 unidades semanticas para poder recoger los
significados o la funcion en el dialogo de las diferentes secuencias de palabras recogidas en
las frases de entrada del corpus de BASURDE. Cuando el lenguaje semantico es secuencial
con el lenguaje de entrada podemos segmentar esta en un n
umero de intervalos igual
al n
umero de unidades semanticas que hay en su correspondiente secuencia semantica
asociada. Esto es, sea W el vocabulario de la tarea (conjunto de palabras) y V el alfabeto
de unidades semanticas definido. El conjunto de entrenamiento es una conjunto de pares
(u,v) donde:
u = u1 u2 ...un , ui = wi1 wi2 ...wi|u , wij W, con i = 1, ..., n y j = 1, ..., |ui |
i|

v = v1 v2 ...vn ,

vi V

para i = 1, ..., n

Cada frase de entrada en W tiene un par (u,v) asociado a ella, donde v es una
secuencia de unidades semanticas y u es una secuencia de segmentos de palabras de la
frase. A continuacion sigue un ejemplo:
Par de entrada (u,v)=(u1 u2 u3 u4 , v1 v2 v3 v4 ) donde:
u1 :
u2 :
u3 :
u4 :

quisiera
horarios de trenes
a
Alicante

v1 :
v2 :
v3 :
v4 :

consulta
<hora s>
m destino
ciudad destino

La secuencia semantica v para entrenamiento del modelo de lenguaje semantico es:


consulta <hora s> m destino ciudad destino

Cuando se dispone de un conjunto de entrenamiento de este tipo, el problema del


aprendizaje de la traduccion secuencial puede ser resuelto a traves de automatas de estados
finitos.
Una vez segmentada la frase de entrada y asociado a cada segmento u una unidad
semantica v del lenguaje intermedio la segunda fase del modulo de comprension consistira en transformar estos pares en uno o varios frames. Para ello se aplicaran una serie
de reglas para reorganizar los contenidos, eliminar los marcadores o partes de la frase
carentes de informacion relevante o mal reconocidas, convertir los valores cualitativos en
cuantitativos, etc. El ejemplo anterior se convertira en el siguiente frame:

4.2. Primera fase del modulo de comprension

67

(HORA-SALIDA)
CIUDAD-DESTINO: Alicante

donde la unidad semantica consulta es eliminada por carecer de informacion relevante,


la unidad semantica <hora s> se traduce directamente por el frame (HORA-SALIDA),
el marcador de destino es eliminado pues solamente indica que la siguiente categora/s
esta asociada a un destino, la unidad ciudad destino se convierte directamente en el
caso CIUDAD-DESTINO del frame actual que corresponde a (HORA-SALIDA) y se le asocia
el valor Alicante despues de haber sido identificado como valido en el diccionario de
ciudades definido para esta tarea.

4.2.

Primera fase del m


odulo de comprensi
on

A continuacion se describe la primera fase del modulo de comprension que consiste


en la traduccion automatica, empleando modelos estocasticos, de la frase de entrada en
terminos de un lenguaje semantico intermedio. En este apartado se describe el lenguaje
semantico definido, el aprendizaje, a partir de un corpus segmentado y etiquetado con
unidades semanticas, de dos modelos estocasticos: uno de secuencias de palabras asociadas
a cada unidad semantica del lenguaje intermedio (habra un modelo por cada unidad
semantica) y un modelo de secuencias de unidades semanticas. Todos estos modelos se
integraran en un u
nico modelo estocastico capaz de segmentar la frase de entrada y
etiquetar cada uno de estos segmentos con un smbolo del lenguaje intermedio a traves
del alineamiento de Viterbi (Forney, 1973) de la frase de entrada con el modelo integrado
estocastico aprendido. Se obtiene de esta forma una secuencia de smbolos en este lenguaje
que es la traduccion de mayor probabilidad entre las posibles de la frase de entrada.

4.2.1.

El lenguaje sem
antico intermedio

El alfabeto sobre el que se ha definido el lenguaje semantico intermedio es especfico


para la tarea de consulta de horarios de trenes. Cada smbolo, llamado unidad semantica
(concepto), representa un tipo de significado (categorizacion semantica) o una funcion en
la frase. Una frase en este lenguaje intermedio es una secuencia de unidades semanticas
que contiene un mensaje. Como la frase de entrada es lenguaje natural, existen m
ultiples
formas de generar el mismo mensaje semantico. Por ejemplo la unidad semantica consulta
puede ser asociada a: Me podra decir, Cu
al es, Digame, etc. Se han definido 64 unidades
semanticas para poder recoger los significados o la funcion en el dialogo de las diferentes
secuencias de palabras recogidas en las frases de entrada del corpus de BASURDE. De esta
manera, una frase de entrada (secuencia de palabras) tiene una frase semantica (secuencia
de conceptos) asociada a ella, que comporta una segmentacion de la frase de entrada.
Utilizando la terminologa de representacion de los frames, se definieron varias categoras de etiquetas. Muchas de estas etiquetas tienen una conversion directa en un u
nico
frame o atributo del frame, otras han sido a
nadidas para modelizar diferentes estados
del dialogo o simplemente como marcadores del caso. A la hora de trasladar los valores
obtenidos de la segmentacion al frame, muchas veces se puede trasladar este valor, otras
ha de transformarse el valor cualitativo en cuantitativo, o el valor aproximado en valores

68

Captulo 4. Modulo de comprension

(intervalos) concretos. A esta reorganizacion y conversion de valores se le ha denominado


la conversion a Frame Canonico y es la segunda fase del modulo de comprension que
pasaremos a explicar mas adelante en este captulo.
A continuacion se enumeran algunas las unidades semanticas definidas, agrupadas
seg
un su funcion:
a) Unidades relevantes para la creacion posterior del frame. Los conceptos, que vienen
entre caracteres especiales < y >, representan una consulta sobre contenidos de la
tarea como: la estacion de destino, la hora de salida, la hora de llegada, el tipo de
tren, etc. (<estacion destino>,<hora salida> . . . ). Todas estas etiquetas concepto
se corresponden con tipos de frames que se han descrito en el Captulo 3.
Los conceptos
<hora s> / <hora a>
<fecha s> / <fecha a>
<precio>
<estacion origen>
<estacion destino>
<tiempo recorrido>
<para en>
<tipo tren>
<servicios>
<vuelta>
Los atributos (cases) se suelen emplear como una serie de restricciones al frame/s
al que acompa
nan en la frase de entrada, aunque a veces aparecen solos como una
lista de restricciones a a
nadir a la semantica de intervenciones anteriores. Se definen
tres tablas para diferenciar aquellos que llevan asociados un indicativo que expresa
si son de salida ( s) o de llegada ( a) y aquellos que hacen referencia a atributos ya
nombrados con anterioridad ( actual).
Los atributos (cases)
ciudad origen
ciudad destino
para en
estacion origen
estacion destino
tipo tren
tiempo recorrido
precio
tipo viaje
clase billete
numero relativo orden
servicios

4.2. Primera fase del modulo de comprension

69

Los atributos (cases) de salida y llegada


dia semana s
mes a
dia semana a
tipo dia s
dia mes s
tipo dia a
dia mes a
hora s
a
no s
hora a
intervalo hora s
a
no a
fecha relativa s intervalo hora a
fecha relativa a intervalo fecha s
mes s
intervalo fecha a

Los atributos (cases) que hacen


referencia a un case anterior
hora actual
dia actual
mes actual
a
no actual
trayecto actual
ciudad origen actual
ciudad destino actual
A continuacion se muestra un ejemplo de una intervencion del usuario en la aparece
una consulta sobre horarios, precios y tipos de tren para un determinado trayecto
y su correspondiente traduccion a lenguaje semantico intermedio:
US : Deseo informaci
on sobre horario , precio y tipo de tren , de
barcelona a madrid chamartn .
deseo informaci
on sobre : consulta
horario : <hora s>
precio : <precio>
y tipo de tren : <tipo tren>
de : m origen
barcelona : ciudad origen
a : m destino
madrid chamartn : estacion destino

En el siguiente ejemplo se muestra el uso de los atributos que hacen referencia a un


atributo ya nombrado en el dialogo:

70

Captulo 4. Modulo de comprension

US : el primero de ese da ?
el primero : numero relativo orden s
de ese da : fecha actual
b) Los marcadores de algunos atributos:
m origen (le sigue de cerca la ciudad o estacion origen)
m destino (le sigue de cerca la ciudad o estacion destino)
m salida (le sigue de cerca alguno de los cases de salida)
m llegada (le sigue de cerca alguno de los cases de llegada)
m dato valido (le sigue de cerca el valor de un dato que se confirma)
not (le sigue de cerca el valor de alg
un dato que se niega)
El uso de estos marcadores puede apreciarse en el ejemplo anterior para el caso de
la ciudad de origen y la estacion destino del trayecto solicitado.
...
de : m origen
barcelona : ciudad origen
a : m destino
madrid chamartn : estacion destino
c) Unidades que hacen referencia al tipo de intervencion del usuario, y que generalmente se corresponden con actos de dialogo:
consulta
<confirmacion>
<no entendido>
<afirmacion>
<negacion>
Por ejemplo, a continuacion se muestra una intervencion de usuario y su traduccion
correspondiente:
US : s . me lo repite.
s : <afirmacion>
me lo repite : <no entendido>
d) Unidades sin relevancia semantica para la tarea.
nada (segmentos de relleno)
<cortesa> ( formula de cortesa)
<cierre> (formula de cortesa de cierre de dialogo)
A continuacion se muestra un ejemplo de etiquetado de fragmentos de una inter-

4.2. Primera fase del modulo de comprension

71

vencion de usuario con la etiqueta nada, para el caso de palabras sin significado
semantico relevante:
si pudiera ser : nada
no le he comentado que : nada
o para servicios que se encuentran fuera de la tarea:
el aeropuerto de : nada
Por ejemplo la u
ltima intervencion de un usuario al final del dialogo, se etiquetara/segmentara de la siguiente forma:
...
SIS : Desea usted algo m
as?
US : no gracias .
no gracias:<cierre>

4.2.2.

Aprendizaje: el modelo de 2 niveles

En este trabajo se propone la construccion del modulo de comprension de BASURDE,


para ello se va llevar a cabo el aprendizaje de dos tipos de modelos a partir de un conjunto
de pares de entrenamiento (u,v) donde v es una secuencia de unidades semanticas y u es
una secuencia de segmentos de palabras de la frase. Esta aproximacion de dos niveles ya
fue llevada a cabo con exito para una tarea de consulta en lenguaje natural a una base
de datos sobre geografa de Espa
na BDGEO (Prieto, 1995).

- Un modelo para el lenguaje semantico L s V . Este


representa las secuencias de
unidades semanticas permitidas, es decir, el campo semantico de la tarea. El modelo
regular As (un automata de estados finitos) para el lenguaje semantico L s se estima
a partir de las secuencia de unidades semanticas v V de la muestra de entrenamiento. A continuacion se muestran dos secuencias semanticas correspondientes a
dos turnos de usuario del corpus de entrenamiento:
consulta <hora s> m destino ciudad destino
m dato valido consulta tren actual servicios

- Un conjunto de modelos, uno por categora semantica v i V . El modelo regular Avi


(un automata de estados finitos) es estimado para cada categora semantica v i V
a partir del conjunto de segmentos u i obtenido de la muestra de entrenamiento asociado a cada una de estas unidades semanticas v i . Por ejemplo posibles realizaciones
para la unidad semantica consulta seran:
quiero saber
cu
al es
dgame
podra informar
...

72

Captulo 4. Modulo de comprension

En ambos casos hemos escogido modelos de estados finitos. El aprendizaje de estos


modelos se realiza automaticamente a partir de un corpus de muestras segmentado y
etiquetado manualmente en terminos de unidades del lenguaje semantico intermedio. Este
trabajo de segmentacion y etiquetado ha sido llevado a cabo por el grupo de la UPV
encargado de la realizacion de un modulo de comprension del cual formo parte, empleando
segmentadores/etiquetadores desarrollados dentro del grupo para este proyecto y tecnicas
de bootstrapping y posterior supervision para aligerar esta ardua tarea.
Estos modelos de estados finitos se pueden aprender con diferentes tecnicas tanto de
Inferencia Gramatical, que proporciona la estructura del modelo, como mediante metodos
de estimacion automatica de los parametros del modelo como los N-gramas.
A partir de los modelos inferidos se genera un modelo final A t , a traves de la aplicacion de una sustitucion regular del lenguaje semantico L s . Sea : V P(W ) una
sustitucion regular tal que vi V (vi ) = L(Avi ). El modelo regular At es tal que
L(At ) = (L(As )) = (Ls ). Esta sustitucion convierte cada smbolo terminal v i V del
modelo regular As en su modelo regular Avi correspondiente. La creacion de este modelo
se muestra en la Figura 4.2.

Figura 4.2: Creacion del modelo integrado A t .

Una de las ventajas de esta aproximacion, es que podemos escoger la tecnica de aprendizaje mas adecuada para la estimacion de cada modelo (el modelo semantico y el modelo
de unidad semantica). La u
nica restriccion es que la representacion de estos modelos debe
darse en forma de un automata de estados finitos.

4.2. Primera fase del modulo de comprension

4.2.3.

73

Proceso de an
alisis por Viterbi

Una vez el modelo At ha sido estimado el objetivo es la b


usqueda de la segmentacion
optima u, u = u1 u2 ....un , de la frase de entrada w = w1 w2 . . . wm , wi W . Cada
uno de estos segmentos ui tiene asociada una unidad semantica (concepto) v i , con lo que
una secuencia de conceptos v = v1 , . . . , vn , vi V esta asociada a w y representa su
significado. Cada uno de estos segmentos u i esta formado por una secuencia de palabras
cuyo n
umero expresamos como li , tal que la suma de la longitud de todos los segmentos
asociados a la frase es el n
umero total de palabras de esta l 1 + l2 + . . . + ln = |w|.
Dada la secuencia de palabras w, el proceso estocastico consiste en encontrar la secuencia de conceptos v que maximiza la probabilidad:
vb = argmax P (v|w)
v

De acuerdo con la formula de Bayes la ecuacion puede reescribirse de la siguiente


forma:
vb = argmax P (w|v)P (v)
v

El termino P (w|v) es estimado como la probabilidad de cada segmento dentro de su


categora:
P (w|v) =

max

l1 ,l2 ,...ln1

{P (w1 , ..., wl1 |v1 ) P (wl1 +1 , ..., w(l1 +l2 ) |v2 ) ...
... P (w(l1 +l2 +...+ln1 )+1 , ..., wm |vn )}

donde la probabilidad de cada segmento es estimada a traves de la probabilidad de las


palabras dado el concepto asociado a la palabra k, y suponiendo que la probabilidad de
wk solo depende de la palabra anterior (bigramas):

P (wi , ..., wj |vs ) =

j
Y

P (wk |wk1 , vs )

k=i

El termino P (v) es estimado en terminos de la probabilidad de la secuencia de conceptos asociada a la frase de entrada, donde si suponemos que esta probabilidad solo depende
de la categora anterior (bigramas) sera:

P (v) =

n
Y

P (vi |vi1 )

i=1

As pues, se estiman dos probabilidades distintas, la probabilidad de sucesion de las


palabras dentro de un concepto (P (w k |wk1 , vs )) y la probabilidad de sucesion de conceptos (P (vi |vi1 )).

74

Captulo 4. Modulo de comprension

Como antes se comentaba se construye un modelo integrado (automata de estados


finitos) At (Figura 4.2) empleando el modelo semantico A s y el modelo de palabras Avi
para cada concepto a partir de las pronunciaciones anotadas semanticamente del corpus
de entrenamiento. Estos dos modelos pueden haber sido estimados por diferentes tecnicas.
El automata de estados finitos At contiene dos tipos de transiciones las del modelo de
secuencias semanticas que indicara un cambio de unidad semantica lo cual lleva implcita
la segmentacion y la de palabras dentro de un concepto que representa las secuencias
posibles de palabras dentro de una unidad semantica.
En nuestro caso, para aprender y estimar los modelos A vi y As a partir del corpus
anotado, se han empleado tres tecnicas, un modelo estocastico de bigramas empleando
el SLMtoolkit (CMU, 1997) y dos aproximaciones gramaticales empleando los algoritmos
de inferencia gramatical ECGI (Rulot, 1992) y (k,r)-TSSI (Ruiz, Espa
na, y Garca, 1998)
suavizados con el SLMtoolkit a traves de una tecnica de reetiquetado de muestras (Segarra
y Hurtado, 1997) (Segarra et al., 2003) que se explica en el proximo Captulo.
Para analizar la frase de entrada se realiza un alineamiento de Viterbi (Forney, 1973)
entre esta y la red del modelo integrado A t . Sea w = w1 w2 . . . w|w| la frase de entrada. La
probabilidad de estar en un estado q para una palabra w, habiendo observado la secuencia
de palabras w1 w2 . . . wt es:
P (q, t) =

max

q pred(q)

{P (q , t 1) P (q|q , wt )}
0

donde pred(q) es el conjunto de estados con una transicion a q y P (q|q , wt ) es la proba0


bilidad de transitar de q a q habiendo observado wt .
Sea V el alfabeto de unidades semanticas, sea A vj el automata asociado a la unidad
semantica vj V . La probabilidad de estar en el estado inicial del automata A vj , qvi j ,
habiendo observado la secuencia de entrada w 1 . . . wt viene dada por:
P (qvi j , t) = max {P (qvfk , t) P (vj |vk )}
vk V

donde qvfk es el estado final del automata Avk asociado a la unidad semantica vk V y
P (vj |vk ) es la probabilidad de la secuencia de unidades semanticas v k vj
En la Figura 4.3 aparece un ejemplo de esta traduccion.

4.2.4.

Modelo de comprensi
on de dos niveles con unidades POS y sem
anticas

En los u
ltimos a
nos, los modelos estocasticos, que son automaticamente estimados a
partir de los datos, han sido ampliamente utilizados en el modelado de la comprension del
lenguaje natural (Levin y Pieraccini, 1995) (Schwartz et al., 1996) (Minker, 1999b) (Segarra et al., 2001). La gran mayora de estos trabajos se basan en la definicion de secuencias
de palabras como unidades semanticas basicas para los modelos de lenguaje semanticos.
En muchos de ellos la definicion de clases de palabras es necesaria para obtener una alta
cobertura a partir de los datos (el problema de la carencia de datos esta siempre presente

4.2. Primera fase del modulo de comprension

75

Frase de entrada (8 palabras):


me podra decir los horarios de trenes para Barcelona
Frase de salida (9 unidades sem
anticas):
consulta consulta consulta <hora s> <hora s> <hora s> <hora s>
m destino ciudad destino
Transducci
on:
consulta <hora s> m destino ciudad destino
Segmentaci
on:
me podra decir: consulta
los horarios de trenes: <hora s>
para: m destino
Barcelona: ciudad destino

Figura 4.3: Ejemplo de traduccion.

cuando se emplean tecnicas de aprendizaje automatico). Esta aproximacion al problema de la comprension del lenguaje presenta una fuerte similitud con la aproximacion
estocastica aplicada en los u
ltimos tiempos (Brants, 1999) (Pla, Molina, y Prieto, 2000c)
(Pla, Molina, y Prieto, 2000a) al problema del etiquetado de textos, donde el objetivo no
es solo asociar la etiqueta POS a las palabras sino detectar algunas estructuras sintacticas tales como NP, VP, PP, etc. En el primer caso, los segmentos representan unidades
semanticas, y en el segundo, unidades sintacticas.
La aproximacion que se presenta en este apartado trata el problema de forma similar a
la aproximacion estocastica para la deteccion de estructuras sintacticas (Shallow Parsing
or Chunking) en las sentencias en lenguaje natural. Sin embargo, en este caso, los modelos
de lenguaje estocasticos se basan en la deteccion de algunas unidades semanticas a partir
de los turnos de usuario del dialogo.
Descripci
on de los modelos estoc
asticos de dos niveles basados en etiquetas
POS
Se propone una aproximacion basada tambien en modelos estocasticos a 2 niveles.
Este modelo va a combinar diferentes fuentes de conocimiento a dos niveles. En el nivel
superior se encuentran modeladas las secuencias de unidades semanticas del lenguaje
intermedio. La diferencia con lo explicado anteriormente es que en este caso el nivel
inferior se representa la estructura interna de cada una de las unidades semanticas en
terminos de categoras lexicas (palabras, POS, lemas) (Pla, Molina, y Prieto, 2000a) Para
la modelizacion de los 2 niveles se emplean modelos de bigramas suavizados a partir
de la tecnica de Back-Off (Katz, 1987) para alcanzar la maxima cobertura del lenguaje
considerado. Las probabilidades se obtienen con el SLMtk a partir de las secuencias de
diferentes unidades del conjunto de entrenamiento.
Cuando se aprenden modelos de palabras para modelar la estructura de las unidades
semanticas el tama
no de estos es muy grande pese al uso de la categorizacion de ciertas
palabras con identico significado semantico (ciudades, n
umeros, etc. . . ). Por ello, se propone un metodo alternativo basado en las etiquetas POS (figura 4.4). Para ello, se emplea
un etiquetador de Castellano (Pla, Molina, y Prieto, 2000a) que nos proporciona la etique-

76

Captulo 4. Modulo de comprension


Sk
<s>

...

...

Sj

</s>

Ci
[Si

...

Cj

...

Si]

Ck

Si
(a) Semantic Model
w1
...
wn

<s>

...

Ci
[Si

...

Cj

...

Si]

...

</s>

Ck

Ci
[Si

...

...

Cj

Si]

Ci
[Si

...

Cj

...

Si]

Ck

Ck

(b) Model for the Semantic Unit Si

(c) Integrated LM

Figura 4.4: Modelo integrado de lenguaje.

ta POS correspondiente a cada palabra. En esta situacion, se obtiene un nuevo conjunto


de entrenamiento etiquetado con informacion morfologica. Por cada unidad semantica se
aprende un HMM donde los estados representan las etiquetas POS y las palabras son
emitidas por estos estados de acuerdo con una cierta probabilidad lexica (figura 4.4(b)).
Este HMM se estima a partir de los segmentos de POS asociados a esa unidad semantica.
Una vez los modelos han sido aprendidos, se realiza una sustitucion regular de los
modelos del nivel bajo en los del nivel alto, creando un solo modelo a 2 niveles que
muestra las posibles concatenaciones de las unidades semanticas y su estructura interna.
Este modelo integrado incluye las probabilidades de transicion as como las probabilidades
lexicas. Este modelo es similar en su construccion al modelo de 2 niveles explicado en el
apartado 4.2.2. Pero en el nivel inferior de cada unidad semantica contiene un modelo
HMM de unidades POS capaz de emitir palabras en vez de una palabra. En este caso se
va a emplear un conjunto reducido de categoras gramaticales PAROLE de 68 etiquetas.
Para poder conseguir una modelizacion mas precisa de las unidades semanticas, se
emplea una tecnica para enriquecer los HMM (Pla, Molina, y Prieto, 2000b). Esta tecnica consiste en incorporar nuevas categoras al conjunto de etiquetas POS. Estas nuevas
categoras estan fuertemente relacionadas con algunas palabras seleccionadas, que pueden ser establecidas empricamente a partir del conjunto de entrenamiento o siguiendo
otros criterios. A partir de este proceso se obtienen modelos lexicalizados. Aunque esta
lexicalizacion produce modelos mas complejos, los modelos de unidades semanticas mejoran. Por ejemplos si lexicalizamos las preposiciones a y de podemos distinguir entre dos
significados muy distintos en la tarea de horarios de trenes.
En la figura 4.5 se muestra el estado de la lexicalizacion sobre un estado generico
Ci , perteneciente a cierta unidad sintactica, cuando esta es particularizada para cierta

4.3. Segunda fase del modulo de comprension

wn
...
wi
...
w1

wn
...
wi1
wi+1
...
w1

Ci

Ci

77

wi

C i|wi

Figura 4.5: Ejemplo de lexicalizacion de un estado.

palabra wi . De esta forma, se obtiene un nuevo estado (el que aparece en negrita) donde
solo puede ser emitida la palabra w i con una probabilidad lexica igual a 1.

4.3.

Segunda fase del m


odulo de comprensi
on

Una vez segmentada la frase de entrada y traducida a un lenguaje semantico intermedio esta se ha de convertir en un frame, para ello se hace preciso el reorganizar los
contenidos hallados en la frase de entrada y convertir aquellos valores relativos o cualitativos en valores cuantitativos, siguiendo aquellas normas que se describieron en el
apartado 3.3 dedicado a la descripcion de los frames de la tarea. Estas normas convierten
expresiones como por la ma
nana en valores concretos: entre 5.00 y 13.00. Un sistema
basado en reglas sera el encargado de realizar esta transformacion a frame a partir de las
segmentaciones en lenguaje semantico intermedio.
A continuacion se explican algunas de las peculiaridades del traductor a frame.

4.3.1.

Perdida de la secuencialidad

Una de las caractersticas principales del proceso de segmentacion de las frases en


segmentos semanticos es el hecho de tratarse de un proceso secuencial con la entrada.
El traductor a frame canonico rompe esta secuencialidad imponiendo un orden estricto
entre los frames, as como entre los atributos dentro de un mismo frame. Este orden, fijo
e independiente de la segmentacion semantica, permitira al gestor de dialogo manejar los
resultados de comprension de una manera clara y estandar. El orden de los frames es el
siguiente:
(AFIRMACION)
(NEGACION)
(CIERRE)
(HORA-SALIDA)
(HORA-LLEGADA)
(PRECIO)
(ESTACION-ORIGEN)
(ESTACION-DESTINO)
(TIEMPO-RECORRIDO)
(TIPO-TREN)
(SERVICIOS)
(FECHA-SALIDA)

78

Captulo 4. Modulo de comprension


(FECHA-LLEGADA)
()
(CONFIRMACION)

El orden de los atributos dentro de un frame es:


CIUDAD-ORIGEN
CIUDAD-DESTINO
PARA-EN
ESTACION-ORIGEN
ESTACION-DESTINO
FECHA-SALIDA
FECHA-LLEGADA
INTERVALO-FECHA-SALIDA
INTERVALO-FECHA-LLEGADA
HORA-SALIDA
HORA-LLEGADA
INTERVALO-HORA-SALIDA
INTERVALO-HORA-LLEGADA
TIPO-TREN
TIPO-VIAJE
CLASE-BILLETE
N-RELATIVO-ORDEN-S
N-RELATIVO-ORDEN-A
PRECIO
TIEMPO-RECORRIDO
SERVICIOS
TREN-ACTUAL
HORA-ACTUAL
FECHA-ACTUAL
MES-ACTUAL
CIUDAD-ORIGEN-ACTUAL
CIUDAD-DESTINO-ACTUAL

4.3.2.

El frame de vuelta

Los segmentos etiquetados con la unidad semantica <vuelta> representan la demanda


por parte del usuario de informacion correspondiente al regreso. La aparicion de este segmento hace que todos los segmentos posteriores y los frames o atributos derivados de ellos,
en consecuencia, se consideren relativos a la vuelta. En principio no hay especficamente
frames de vuelta simplemente a los frames que representan demanda de informacion del
regreso se les a
nade a su nombre una V para indicar que se trata de un frame de vuelta.
Dentro de una misma intervencion de usuario puede haber juntos frames de ida y
frames de vuelta. Si existen frames de vuelta estos apareceran despues de todos los de ida
y siguiendo el mismo orden indicado anteriormente.
Hay una serie de atributos que son compartidos entre los frames de ida y los de vuelta.
Estos atributos representan, debido a su naturaleza, caractersticas o limitaciones al viaje
independientemente del sentido. Estos atributos son:
TIPO-TREN
CLASE-BILLETE
PRECIO

4.3. Segunda fase del modulo de comprension

79

TIEMPO-RECORRIDO
SERVICIOS

4.3.3.

Unidades sem
anticas no utilizadas en la traducci
on

Existe una serie de unidades semanticas del lenguaje intermedio que, dada su naturaleza de marcadores, no son utilizadas en el proceso de elaboracion de los frames. Estos
segmentos simplemente son ignorados por el traductor. Se trata de segmentos utilizados
como marcadores o que representan explcitamente partes de la frase carentes de informacion relevante o mal reconocidas. Estas unidades son:
nada
<cortesia>
<consulta>
m origen
m destino
m salida
m llegada

4.3.4.

Unidades sem
anticas que generan frames

Otra serie de unidades semanticas del lenguaje intermedio hacen que el traductor
genere un frame. Estas unidades son:
<hora s>
<hora a>
<fecha s>
<fecha a>
<precio>
<estacion origen>
<estacion destino>
<tiempo recorrido>
<para en>
<tipo tren>
<servicios>

Por ejemplo:
Lenguaje sem
antico intermedio:
querra saber :
el precio :

<consulta>
<precio>

(ignorado)
(genera el frame)

Traducci
on a frame:
(PRECIO)

4.3.5.

Unidades sem
anticas que generan atributos

El traductor a frame genera tambien los atributos de los frames basandose en las
unidades semanticas. La relacion entre las unidades semanticas del lenguaje intermedio y

80

Captulo 4. Modulo de comprension

atributos puede ser de distinta cardinalidad:


1 a 1. Una unidad semantica genera un atributo:
Lenguaje sem
antico intermedio:
querra saber : <consulta>
(ignorado)
los horarios : <hora s>
(genera el frame)
a : m destino
(ignorado)
Barcelona : ciudad destino (genera atributo)
Traducci
on a frame:
(HORA-SALIDA)
CIUDAD-DESTINO : Barcelona

muchos a 1. Varias unidades semanticas generan un u


nico atributo:

querra
horarios
a partir de
las cuatro

Lenguaje sem
antico intermedio:
: <consulta>
(ignorado)
: <hora s>
(genera el frame)
: intervalo hora s (genera atributo)
: hora s
(genera atributo)
Traducci
on a frame:

(HORA-SALIDA)
INTERVALO-HORA-SALIDA: >= 16.00

muchos a muchos. Varias unidades semanticas generan varios atributos. Normalmente se produce cuando una misma unidad afecta a varios atributos:

querra
horarios
a partir de
las cuatro
o las cinco

Lenguaje sem
antico intermedio:
: <consulta>
(ignorado)
: <hora s>
(genera el frame)
: intervalo hora s (genera atributo)
: hora s
(genera atributo)
: hora s
(genera atributo)
Traducci
on a frame:

(HORA-SALIDA)
INTERVALO-HORA-SALIDA: >= 16.00 >=17.00

4.3.6.

Atributos sin frame

Existen algunas intervenciones del usuario en las cuales no se demanda mas informacion, sino que se aportan nuevas restricciones sobre la consulta ya realizada. Se trata
de refinamientos a las consultas formuladas en intervenciones anteriores. Este tipo de intervenciones se caracteriza por la ausencia de unidades semanticas que generen frames y
s por otras unidades que generan atributos.
Cuando una intervencion del usuario solo genera atributos estos se incluyen dentro de
un frame incompleto denotado como () que indica que se trata de una intervencion de
refinamiento, es decir de ampliacion de las restricciones.

4.3. Segunda fase del modulo de comprension

el ocho
de enero
a partir de
las cuatro

Lenguaje sem
antico intermedio:
: dia mes s
(genera atributo)
: mes s
(genera atributo)
: intervalo hora s (genera atributo)
(genera atributo)
: hora s

Traducci
on a frame:
(frame incompleto)
FECHA-SALIDA: 08/01/??
INTERVALO-HORA-SALIDA: >= 16.00 >=17.00
()

81

82

Captulo 4. Modulo de comprension

Captulo 5

Aproximaciones Gramaticales
Como se ha se
nalado en el captulo 2, el formalismo de los N-gramas es el mas empleado en la modelizacion tanto de los modelos de lenguaje para el reconocimiento como para
la comprension. Sin embargo, estos presentan el inconveniente de no reflejar adecuadamente la estructura completa de la frase, lo cual redunda en una deficiente modelizacion
de las relaciones de larga distancia entre terminos. Ademas existen diferentes clases de
errores que se pueden dar al emplear estos formalismos, como son la concordancia entre
sujeto y verbo y ambig
uedades entre terminos etc., y que se pueden evitar utilizando
aproximaciones gramaticales (Derouault y Merialdo, 1986).
En este captulo se propone la utilizacion de tecnicas de inferencia gramatical (Fu y
Booth, 1975), para abordar el problema de la representacion del lenguaje hablado desde
un formalismo gramatical (en concreto gramaticas regulares) que incorpora el aprendizaje
basado en los datos. Desde este punto de vista se pretende aglutinar las principales ventajas de dos aproximaciones clasicas a la modelizacion del lenguaje que se han se
nalado
anteriormente. De forma resumida estas son las siguientes:
Aprendizaje a partir de un conjunto de datos, al igual que los N-gramas.
Flexibilidad, es decir, tolerancia a las construcciones ling
usticas no estrictamente
correctas, pero aceptables, caracterstica de los modelos basados en N-gramas.
Representacion natural de las restricciones del lenguaje, es decir de sus estructura
global, caracterstica de los modelos basados en gramaticas.
Las tecnicas que aqu se presentan se van a aplicar a la construccion del modulo de
comprension del sistema de dialogo BASURDE.

5.1.

Algoritmo ECGI

El algoritmo de inferencia gramatical basado en Analisis Corrector de Errores (ECGI) (Rulot, 1992) es un heurstico que construye una gramatica regular (o el equivalente
automata de estado finitos) de una forma incremental a partir de un conjunto de muestras
positivas, consideradas una detras de otra. Como tal heurstico, incorpora directamente
83

84

Captulo 5. Aproximaciones Gramaticales

cierto conocimiento sobre el dominio de la aplicacion en el proceso de inferencia. En


particular, este proceso incide especialmente en la consecucion de cierta capacidad de
abstraccion para capturar la variabilidad relevante que presentan las subestructuras locales de la muestra de aprendizaje en funcion de sus posiciones en las mismas, sus duraciones
y sus concatenaciones.
El algoritmo de inferencia tiene un mecanismo de construccion que genera gramaticas
regulares que tienen la propiedad de que todas las reglas que tienen un mismo smbolo
no terminal en su parte derecha, tambien tienen el mismo smbolo terminal. Sea G =
(N, V, P, S) la gramatica, entonces:
Si

(B aC) (A bC) a = b

; A, B, C N, a, b V

Inicialmente se construye un automata (o gramatica regular) trivial que solo reconoce


(genera) la primera cadena del conjunto de muestras. A continuacion, para cada nueva
cadena de la muestra que no pertenece al lenguaje reconocido por el automata obtenido
hasta ese momento, se actualiza dicho automata a
nadiendo aquellos estados y transiciones
que sean necesarios para que la nueva cadena sea aceptada por el automata. Con el fin
de determinar dichos estados y transiciones, se incorpora un esquema de correccion de
errores estandar (insercion, sustitucion y borrado) y se utiliza un procedimiento basado
en Programacion Dinamica, similar al algoritmo de Viterbi (Forney, 1973), para encontrar
el mejor alineamiento entre la cadena de entrada y la cadena mas proxima en el lenguaje
reconocido por el automata actual. El resultado de esta fase de analisis sintactico con
correccion de errores se utiliza para modificar el automata aprovechando al maximo la
estructura actual; as pues, solo las transiciones de error (o secuencias de transiciones
de error), conducen a la adicion de nuevos estados y transiciones. Este mecanismo de
construccion incremental es tal que conduce a la obtencion de automatas sin ciclos, en
los que cada estado tiene asignada una etiqueta (terminal). De esta forma, los lenguajes reconocidos por ellos suponen una generalizacion conservadora de la muestra de
aprendizaje.
En la Figura 5.1 se muestra un ejemplo del proceso de construccion de un automata
ECGI. A partir de la primera muestra de aprendizaje R + = {aabb, acbb, aaabb, abb} (Sanchis, 1994). En la Figura 5.1 (a) se representa la gramatica canonica que se genera con la
primera muestra de aprendizaje. En la Figura 5.1 (b) se muestra la gramatica obtenida
con la segunda muestra acbb; los estados y transiciones dibujados con la lneas mas finas
corresponden a la gramatica generada anteriormente; la transicion en lnea discontinua
etiquetada con c es una transicion de error utilizada en la derivacion de correccion de
errores. El procedimiento de construccion no genera esta transicion, sino que que genera
un nuevo camino a
nadiendo un nuevo estado y dos nuevas transiciones (en negrita). De
esta forma, se sigue cumpliendo que cada estado tiene asociado una u
nica etiqueta. La
Figura 5.1 (c) representa la gramatica generada con la tercera muestra aaabb. La transicion de insercion del primer estado, etiquetada con a, representa una transicion de error
utilizada en la mejor derivacion de correccion de errores. El algoritmo no crea esta transicion sino que genera un nuevo camino (en negrita), a
nadiendo un nuevo estado y dos
nueva transiciones. De esta forma se evita el construir un ciclo. La Figura 5.1 representa la
gramatica obtenida con la cuarta muestra abb. La transicion de borrado etiquetada con e
representa la transicion de error utilizada en la mejor derivacion de correccion de errores.

5.1. Algoritmo ECGI

85

(a) Gram
atica inicial obtenida con la muestra aabb

c
(b) Gram
atica obtenida con acbb

(c) Gram
atica obtenida con aaabb

a
a
e

a
(d) Gram
atica obtenida con abb

Figura 5.1: Automata de estados finitos A inferido con el algoritmo ECGI a partir de la
muestra S = {aabb, acbb, aaabb, abb}

El mecanismo de construccion genera un nuevo arco (en negrita). Como puede observarse
al lenguaje inferido pertenecen no solo las muestras de aprendizaje, sino tambien otras
cadenas de similares caractersticas (en este caso solo una cadena, aacbb).

86

Captulo 5. Aproximaciones Gramaticales

5.1.1.

Descripci
on y Propiedades del Algoritmo ECGI

El algoritmo ECGI se describe formalmente en la Figura 5.2 (Sanchis, 1994). El n


ucleo
principal del mismo es un proceso iterativo sobre el conjunto de datos R + constituido por
dos acciones fundamentales:
Analisis: proceso de analisis sintactico con correccion de errores de la cadena. La
0
derivacion obtenida incluye reglas de error y de no error, por lo que cada a i sera, o
un smbolo de la cadena, o bien el smbolo nulo.
Construccion: actualizacion del automata a partir de la informacion obtenida en la
fase anterior.

Algoritmo ECGI
Datos: R+ = {0 , 1 , . . . , m };
Inicializaci
on: Gn = (S, V, Nn , Pn );
N0 = {A0 , A1 , . . . , Am }S = A0 ; F = Am ;
P0 = {A0 a1 A1 , A0 a2 A2 , . . . , Am1 am Am };
Iteraci
on
k = 1 . . . n hacer /* k = a1 , a2 , . . . , aT */

ANALISIS:
/*Obtener una derivaci
on o
ptima con correcci
on de errores de k */
0

d (k |G) (C0 a1 C1 ), (C1 a2 C2 ), . . . , (CT 1 aT CT )

CONSTRUCCION:
subsequencia
0
0
0
0
(Ci1 ai Ci ), (Ci ai+1 Ci+1 ), . . . , (Cj1 aj Cj ), (Cj aj+1 Cj+1 )
de reglas de error (en negrita), comprendidas entre las dos de no error
0
0
(Ci1 ai Ci ), (Cj aj+1 Cj+1 )
0
0
0
Sea w = b1 b2 , . . . , bl la secuencia ai+1 ai+2 , . . . , aj sin smbolos nulos e.
A
nadir:
si w = entonces /* si es cadena vaca */
0
Pk = Pk1 {(Ci aj+1 Cj+1 )} /*A
nadir una transici
on (regla)*/
sino /*A
nadir nuevos estados (no terminales) y transiciones (reglas)*/
0
0
0
Nk = Nk1 {C1 , C2 , . . . , Cl }
0
0
0
0
0
Pk = Pk1 {(Ci b1 C1 ), (C1 b2 C2 ), .., (Cl1 bl Cl ), (Cl bj+1 Cj+1 )
finsi
finpara
finpara
fin ECGI

Figura 5.2: Algoritmo ECGI


Las gramaticas obtenidas por el algoritmo ECGI constituyen descripciones estructurales de la muestra de aprendizaje, generalmente muy adecuadas, y de hecho pueden ser
utilizadas como modelo de lenguaje de las mismas. Ademas, estas gramaticas pueden
ser ampliadas con informacion estadstica. Las propiedades de las gramaticas inferidas

5.1. Algoritmo ECGI

87

con este metodo se estudian en profundidad en (Rulot, 1992). A continuacion citaremos


algunas de las mas relevantes:
Son no deterministas y generalmente ambiguas.
Dadas las caractersticas del metodo de construccion, es obvio que los lenguajes
generados por estas gramaticas contienen a la muestra de aprendizaje R + , caracterstica coherente con la propiedad de consistencia de los metodos constructivos de
inferencia.
Las gramaticas no presentan ciclos, por lo que los lenguajes que se generan son
finitos. Esta propiedad proviene del propio mecanismo de construccion. Observese
que no se generan bucles en los estados, ya que los errores de insercion suponen la
creacion de nuevos estados. Ademas, el modelo de error utilizado hace que la derivacion de correccion de errores corresponda a un camino en la gramatica extendida
que utiliza los estados correspondientes a un solo camino de la gramatica generada
hasta el momento (aunque utilice reglas de error), y por lo tanto, las nuevas reglas
a
nadidas (secuencias de estados y transiciones) comienzan y terminan en estados de
este u
nico camino, lo que impide que se generen bucles. Por otra parte, se observa
que en aplicaciones de Reconocimiento Sintactico de Formas (Rulot, Prieto, y Vidal,
1989), aunque la talla del lenguaje que se obtiene tiende a crecer exponencialmente
con el tama
no del conjunto de entrada, lo que indica que se produce una generalizacion, el n
umero de reglas y no terminales (estados) tiende a mantenerse constante
a partir de un determinado n
umero de muestras. Esto se debe a que la gramatica
consigue capturar la variabilidad de las cadenas de entrada, de modo que cuando
se han utilizado suficiente n
umero de muestras, el extralenguaje generado contiene,
ademas de las cadenas de aprendizaje, un gran n
umero de cadenas de similares caractersticas. Por tanto las nuevas cadenas que se van observando, o ya pertenecen
al lenguaje inferido, o solo requieren de un peque
no n
umero de reglas de error para
ser generadas.
En general, las gramaticas resultantes de la aplicacion de este algoritmo, dependen
del criterio de presentacion de la muestra de aprendizaje; es decir, del orden de
presentacion. No obstante, se observa que los efectos de esta dependencia son menos
significativas si el n
umero de muestras de aprendizaje es suficientemente elevado
(Prieto, 1995).
A la vista de estas propiedades y del metodo constructivo puede destacarse que las
gramaticas obtenidas son capaces de describir las diferentes longitudes de las subestructuras que forman los objetos, as como su variabilidad estructural, caractersticas que
aparecen reflejadas en los extralenguajes que se generan. Tambien se puede observar que
las gramaticas representan la variabilidad estructural de las subestructuras en funcion de
su posicion relativa en la muestra, de forma que aunque aparezca la misma subestructura
repetida en las cadena, estas generan secuencias de estados y transiciones en la posicion en que aparecen, sin utilizar subsecuencias analogas ya existentes pero en posiciones
distintas.
Las gramaticas ECGI pueden ser ampliadas con informacion estadstica referente a las
probabilidades de utilizacion de sus reglas. En concreto, las probabilidades de las reglas

88

Captulo 5. Aproximaciones Gramaticales

de error y de no error pueden ser aproximadas a partir de su frecuencia de utilizacion


durante la fase de analisis del conjunto de muestras de aprendizaje. Ver detalles en (Rulot,
Vidal, y Prieto, 1988), (Rulot, 1992) y (Prieto, 1995).
Las principales dificultades que plantea el aprendizaje de las probabilidades de las
reglas de error, es el gran n
umero de estas que hay que estimar, lo que exigira un n
umero
prohibitivo de muestras. Para evitar estos problemas, se establece una ligadura entre
las reglas de error, de modo que sus probabilidades no dependan de los no terminales
asociados a ellas (es decir, que no dependan de la posicion del error en la cadena), sino solo
del tipo de error (sustitucion, insercion, borrado). Ademas, la probabilidad de insercion
de un smbolo se considera independiente del smbolo que vaya a continuacion. De este
modo, el n
umero de probabilidades a estimar se reduce considerablemente.
Una simplificacion que tambien suele introducirse en el modelo de error consiste en
definir una gramatica expandida solo con errores de sustitucion. Esto facilita la estimacion de las probabilidades, y mejora la complejidad computacional de los algoritmos de
reconocimiento, dado que el n
umero de reglas es menor. A pesar de esta simplificacion,
el uso de los errores de sustitucion como mecanismo de suavizado, no es suficiente para
garantizar una adecuada cobertura del lenguaje y se deben combinar con otras funciones
de distribucion de probabilidad. Un ejemplo se puede encontrar en (Prieto, 1995) donde se
combina, mediante interpolacion lineal, la matriz de errores de sustitucion con la funcion
de distancia lexicografica entre cadenas.

5.1.2.

Aplicaci
on del algoritmo ECGI como modelo de lenguaje para la
comprensi
on de BASURDE

En el apartado anterior se exponan algunas de las razones para proponer el metodo


ECGI como metodo de aprendizaje de modelos de lenguaje para la comprension, la principal es que permite realizar aprendizaje automatico del modelo a partir de un conjunto
de frases representativas del lenguaje, ademas, los modelos inferidos de esta forma representan de forma natural la estructura del lenguaje y permiten el uso de construcciones
ling
usticas no estrictamente correctas.
Ademas de esto, el que la longitud de las frases sea peque
na es beneficioso puesto el
modelo construido con ECGI no contiene ciclos y ello implica que no se puede modelizar
contextos grandes. Para resolver la falta de muestras se ha optado por emplear tecnicas
bien estudiadas como son las tecnicas de suavizado para N-gramas descritas anteriormente
en el apartado 2.3.2. Al final de este captulo se explica como se ha llevado a cabo el
suavizado de los diferentes modelos de comprension de automatas finitos estudiados en
esta tesis.
A la hora de aplicar este metodo para el aprendizaje del modulo de comprension de
BASURDE se ha tenido en cuenta que la gramatica resultante al aplicar el ECGI a una
muestra positiva, depende del orden con el que se presentan las muestras de aprendizaje
(Prieto y Vidal, 1992) y (Prieto, 1995). Por ello se ha empleado como metodo de ordenacion de las muestras el Longest Commun Substring (LCS) descrito en (Cormen, Leiseron,
y Rivest, 1989), que calcula la suma de las tallas de los LCS entre cada una de las cadenas y todas las demas y se ordenan de modo decreciente seg
un este valor. As las cadenas
mas parecidas (mas elementos en com
un) se analizan una a continuacion de la otra.

5.2. Algoritmo para la inferencia de lenguajes k-TTSS

89

Este criterio conduce a modelos mas compactos y que permiten una mayor cobertura del
lenguaje como se demuestra en la tesis de (Prieto, 1995).
Se ha aplicado el ECGI para el aprendizaje del modelo de lenguaje de las secuencias
de etiquetas semanticas (modelo superior), as como a las secuencias de palabras que han
sido etiquetadas con la misma etiqueta semantica (modelo inferior).
A continuacion vamos a mostrar la aplicacion del ECGI sobre un conjunto de muestras de aprendizaje de la etiqueta semantica consulta ordenadas seg
un el criterio LCS,
{me podra decir cu
al es, me gustara saber cu
al es, mire me gustara saber, me podra
confirmar, me podra informar, podra saber}
En la Figura 5.3 se muestran los seis automatas generados a partir de las muestras
de entrenamiento de la etiqueta consulta. Como puede observarse en la Figura 5.3 (c)
en vez de crearse un bucle sobre el estado 0 con la etiqueta mire, se genera un nuevo
camino a
nadiendo un nuevo estado 1 y dos nuevas transiciones, lo que permitira la
generalizacion y que el modelo pueda llegar a reconocer hasta 14 frases, es decir 8 nuevas frases que no pertenecan al lenguaje que son: {mire me podra decir cu
al es, mire
me gustara saber cual es, me gustara saber,mire me podra confirmar, mire me podra
informar, podra confirmar, podra informar, podra decir c
ual es}

5.2.

Algoritmo para la inferencia de lenguajes k-TTSS

Este algoritmo de inferencia infiere lenguajes k-Explorables en sentido estricto con


umbral (k-TTSS) a partir de una muestra. Dado que los lenguajes k-TTSS son una extension de la familia de los lenguajes k-explorables en sentido estricto k-TSS (Garcia y
Vidal, 1990), pasaremos a describir estos primero.

5.2.1.

Lenguajes k-explorables en sentido estricto

La pertenencia de una cadena a un lenguaje k-TSS esta determinada por el conjunto


de segmentos de un tama
no k que pueden aparecer en ella y por los prefijos y sufijos de
longitudes menores que k. El n
umero de ocurrencias de los segmentos o el orden en los
cuales aparezca no es relevante.
Las cadenas de un lenguaje k-TSS L (dado un valor de k >= 1) estan definidas a traves
de tres conjuntos finitos: un conjunto A de prefijos de longitud < k, un conjunto B de
sufijos de longitud < k, y un conjunto C de segmentos de longitud k que no esta permitido
que aparezcan en las cadenas. La pertenencia de una cadena a un lenguaje k-TSS para un
k dado, puede ser determinada explorando la cadena a traves de una ventana deslizante
de longitud k y comprobando si sus prefijos pertenecen a A, sus sufijos a B y tambien si
no contiene ning
un segmento de C.
Aparte de su interes teorico, los lenguajes k-TSS presentan la particularidad de que
su extension estocastica es equivalente a los N-gramas (Segarra, 1993), que como ya se ha
comentado son ampliamente empleados en reconocimiento del habla y en decodificacion
ac
ustico fonetica (Garcia y Vidal, 1990).

90

Captulo 5. Aproximaciones Gramaticales

me

podra

decir

cul

es

(a) Gram
atica inicial obtenida con la muestra me podra decir cu
al es
podra
me

decir

gustara

es

cul

saber

cul
7

(b) Gram
atica obtenida con me gustara saber cu
al es

mire
0

me

podra
2

me

decir

cul
cul

gustara
5

saber

es

(c) Gram
atica obtenida con mire me gustara saber
confirmar
es
mire

podra

me

decir

cul

cul
0

me

gustara
5

saber

(d) Gram
atica obtenida con me podra confirmar

confirmar
informar
mire

podra

me

es
4

me

gustara

cul
7
cul

decir

saber
6

(e) Gram
atica obtenida con me podra informar

5.2. Algoritmo para la inferencia de lenguajes k-TTSS

91

saber
confirmar
8

informar

podra
3
podra
0

mire

1
me

decir

me

es
4

cul
7
cul

gustara
5

saber

(f) Gram
atica obtenida con podra saber

Figura 5.3: Automatas inferidos con el algoritmo ECGI para la unidad semantica
consulta a partir de las muestras {me podra decir cu
al es, me gustara saber cu
al es,
mire me gustara saber, me podra confirmar, me podra informar, podra saber}

5.2.2.

Lenguajes k-explorables en sentido estricto con umbral

Una extension de la familia de los k-TSS son los k-explorables en sentido estricto con
umbral (k,r)-TTSS (Ruiz, Espa
na, y Garca, 1998). Los lenguajes (k,r)-TTSS se describen
de forma similar a los k-TSS. La diferencia es que en los lenguajes (k,r)-TTSS, la frecuencia
de segmentos de longitud k es controlada hasta un lmite r 1 (los lenguajes k-TSS son
una instancia especfica de los lenguajes (k,r)-TTSS, para el caso r = 1). Si una palabra
x pertenece a un lenguaje (k,r)-TTSS para unos valores dados de k y r, cualquier palabra
y puede a su vez pertenecer a L si y solo si cumple los siguientes tres requerimientos:
Que comience y termine por los mismos segmentos de longitud k 1 que x.
Que la frecuencia de cada segmento de longitud menor o igual que k en y sea la
misma que en x si esta frecuencia es menor que r.
Si la frecuencia de un segmento de longitud menor o igual que k en x es mayor o
igual que r entonces la frecuencia de ese segmento en y tambien es mayor o igual
que r.
Se definen los lenguajes k-TTSS mediante dos conjuntos, de prefijos y sufijos de longitud menor que un cierto k y por un conjunto de segmentos restringidos de longitud menor
o igual que k. Cada segmento en el conjunto de segmentos restringidos lleva asociado un
nivel de restriccion menor que un cierto umbral r. Si este nivel es cero el segmento es
prohibido.
El lenguaje definido de esta forma contiene aquellas palabras que comienzan y terminan en los conjuntos indicados y tales que ning
un segmento restringido puede ocurrir
en ellas por encima de su nivel de restriccion. Para cada valor de k, el valor r = 1 se
corresponde con la familia de los lenguajes k-explorables en sentido estricto.

92

Captulo 5. Aproximaciones Gramaticales

5.2.3.

Inferencia de (k,r)-TTSS

En (Ruiz, Espa
na, y Garca, 1998) se presenta un algoritmo de agrupamiento de
estados eficiente capaz de identificar la familia de lenguajes (k,r)-TTSS.
Este algoritmo (k,r)-TTSSI se muestra en la Figura 5.4, donde S es una muestra
de aprendizaje, es el alfabeto sobre el que esta definida la muestra, AF D son las
siglas de automata finito determinista, T k,r (S) representa el conjunto de segmentos de
longitud menor o igual que k cuyo n
umero de ocurrencias en las palabras de la muestra
esta por debajo de un umbral r, P T A son las siglas de arbol aceptor de prefijos, P r(S)
es el conjunto de prefijos del conjunto de cadenas S, f k1 (x) : x S es el conjunto de
segmentos finales de longitud k 1 y es la congruencia definida en la figura. Estos
conceptos aparecen ampliamente explicados en (Ruiz, Espa
na, y Garca, 1998).
Algoritmo (k, r) T T SSI
Entrada:
S , k 1, r 1
Salida:

AFD Ak,r compatible con S(S L(Ak,r )

M
etodo:

Obtener Tk,r (S)


A0 = (Q, , , q0 , F ) el P T A(S)
0

A0 = (Q, , , q0 , F ) con
0

F = {u P r(S) : x S, fk1 (u) = fk1 (x)}


Computar , la relacion de equivalencia en Q = P r(S),
definida como:
u, v P r(S), u v fk1 (u) = fk1 (v)
w k1 (w Tk,r (S) |u|w = |v|w )
0

Ak,r := A0 /
Fin Algoritmo
Figura 5.4: Algoritmo (k,r)-TTSSI para la inferencia de la familia de lenguajes (k,r)-TTSS

En cuanto a su aplicacion al Reconocimiento de Formas, la variacion de los parametros


k y r permite un doble control del grado de generalizacion de la muestra que se obtiene,
lo que resulta interesante a esos efectos. Es facil ver que para cualquier valor de k y r se
cumple:

L(Ak+1,r ) L(Ak,r )
L(Ak,r+1 ) L(Ak,r )

Por otra parte, el algoritmo puede ser implementado de modo que trabaje de manera
incremental, es decir, que si un nuevo dato es considerado, la nueva hipotesis puede
obtenerse solo a partir de este nuevo dato y de la hipotesis en curso.

5.2. Algoritmo para la inferencia de lenguajes k-TTSS

93

Ejemplo de funcionamiento del (k,r)-TTSSI


Sean k = 2, r = 2 y S = {aababa, abaaba}. Por lo tanto, T 2,2 (S) = {aa, bb}, con
vaa 1 y vbb = 0.
La Figura 5.5 muestra el automata A 0 = P T A(S) correspondiente a la muestra S.

a
6

a
1

10

a
11

12

Figura 5.5: Arbol


aceptor de prefijos obtenido con la muestra S = aababa, abaaba
En la siguiente tabla se resumen los valores [f k1 (P r(S)), v] de los estados de A0 para
0
0
formar sucesivamente A0 y A0 / .
Estado

10

11

12

fk1 (P r(S))

|v|aa

|v|bb

0
0

En las Figuras 5.6, 5.7 y 5.8 se muestra los sucesivos pasos para crear A 0 y el automata
0
cociente A0 / , asimismo se construye el automata cociente para la muestra S con el valor
de r = 1.

b
3

a
4

b
5

a
6

a
1

a
8

a
9

b
10

a
11

12

Figura 5.6: Automata A0 obtenido a partir de la muestra anterior

5.2.4.

Aplicaci
on del algoritmo (k,r)-TTSSI como modelo de comprensi
on BASURDE

Los lenguajes (k,r)-TSSI se definen por medio de los conjuntos de los prefijos y sufijos
de longitud < k y por el conjunto de segmentos restringidos de tama
no <= k. Cada
segmento en el conjunto de segmentos restringidos es asociado a un nivel de restriccion,
que es menor que un umbral dado r. El lenguaje definido de esta manera contiene las

94

Captulo 5. Aproximaciones Gramaticales

{3,5,7,10,12}

{4,6,11}

a
1

b
{2,9}

8
0

Figura 5.7: Automata cociente A0 / obtenido a partir de A0

a
a

b
a

Figura 5.8: Automata cociente A0 / obtenido a partir de la muestra S para el valor


r=1

palabras que empiezan y terminan con elementos de los conjuntos antes mencionados de
tal manera que ninguno de los segmentos restringidos aparezcan un n
umero de veces mas
alla del nivel de restriccion. En (Ruiz, Espa
na, y Garca, 1998) se muestra la aplicacion
del algoritmo (k,r)-TSSI para el reconocimiento de dgitos manuscritos y se muestra la
evolucion del proceso de aprendizaje conforme varan r y k.
Para aplicaciones de comprension del lenguaje el alfabeto de la tarea consiste en un
conjunto de palabras, y un elemento de las muestras de entrenamiento consiste en una
frase en lenguaje natural. Para este tipo de tareas, los lenguajes (k,r)-TTSS son de interes
porque son capaces de representar las concatenaciones permitidas de las secuencias de k
palabras, y al mismo tiempo asegurar que la frecuencia de estas secuencias es mayor que
un cierto umbral r.
En la Figura 5.9 se muestra el automata obtenido a partir del conjunto de muestras
positivas de secuencias de palabras {me podra decir cu
al es, me gustara saber cu
al es,
mire me gustara saber, me podra confirmar, me podra informar}, etiquetadas con la
etiqueta semantica consulta.
Como se puede observar en la Figura 5.9 (a) el automata obtenido con los valores de
r = 2 y k = 2 corresponde al arbol aceptor de prefijos, en la Figura 5.9 (b) se muestra
el resultado para los valores de r = 1 y k = 2, este automata es equivalente al automata
que se obtiene utilizando un modelo de bigramas. Este automata en comparacion con
el obtenido con el ECGI permite reconocer una nueva frase que no se encontraba en el
lenguaje: podra saber cu
al es.

5.3. Suavizado de modelos de lenguaje

2
podra

95

cul

decir

confirmar

14

es

informar
15

me

mire
podra

10

gustara

me

11

saber

16

saber

cul

gustara

12

saber

es

13

17

a) Aut
omata obtenido con las muestras de la etiqueta consulta para r = 2 y k = 2
informar
confirmar
11
es

podra
8
podra
0

mire

decir

saber

cul
6
cul

me
4

me

gustara

saber
5

b) Aut
omata obtenido con las muestras de la etiqueta consulta para r = 1 y k = 2

Figura 5.9: Automatas obtenidos a partir de la muestras {me podra decir cu


al es, me
gustara saber cu
al es, mire me gustara saber, me podra confirmar, me podra informar,
podra saber} de la etiqueta semantica consulta para diferentes valores de r y k

5.3.

Suavizado de modelos de lenguaje

Dada una muestra, un algoritmo de inferencia gramatical obtiene un automata de


estados finitos que acepta un lenguaje regular que, no solo contiene la muestra dada, sino
que es una generalizacion de ella. Sin embargo, en muchos casos la generalizacion obtenida
no es suficiente para tener una apropiada cobertura de la tarea. Esto es particularmente
grave en aplicaciones de Modelos de Lenguaje que sistematicamente sufren de una carencia
de datos de entrenamiento. Por ello, especialmente para este tipo de aplicaciones, a la
hora de conseguir una cobertura total de la tarea es necesario generalizar los modelos ya
inferidos. Para ello, los modelos son suavizados empleando tecnicas bien conocidas como
son la interpolacion y el Back-Off (Bahl, Jelinek, y Mercer, 1983) (Katz, 1987) (Ney,
Essen, y Kneser, 1994) (Jelinek, 1997).

96

Captulo 5. Aproximaciones Gramaticales

5.3.1.

Suavizado de aproximaciones gramaticales con el SLMtk

Desafortunadamente, a la hora de aplicar suavizado a tareas de Reconocimiento de


Formas en general (i.e. Modelos de Lenguaje), cualquier tecnica de inferencia gramatical
propuesta en la literatura emplea su propia (ad hoc) tecnica de suavizado. A continuacion se describe una aproximacion usando el Stochastic Language Model toolkit (SLMtk)
(CMU, 1997) para la estimacion de probabilidades y suavizado de los lenguajes regulares
inferidos. En particular se introduce un procedimiento basado en un esquema de reetiquetado de muestras que permite el uso del SLMtk como herramienta de estimacion y
suavizado de los modelos. Esta aproximacion ha sido propuesta en (Segarra et al., 2003).
En esta tesis hemos aplicado este procedimiento a los Modelos de Lenguaje inferidos empleando el Error Correcting Grammatical Inference algorithm (ECGI) (Rulot y Vidal,
1987) y al algoritmo de inferencia para los lenguajes k-explorables en sentido estricto
con umbral (k,r)-TTSSI (Ruiz, Espa
na, y Garca, 1998). Los modelos inferidos a partir
de estas dos tecnicas, y suavizados con el SLMtk, son incorporados al componente de
comprension del sistema de dialogo de BASURDE.

5.3.2.

La estrategia de suavizado

Para poder utilizar el SLMtk y obtener una version probabilstica suavizada del modelo
regular, que ha sido previamente inferida a partir de una muestra, necesitamos una funcion
de reetiquetado que convierta la muestra original en una nueva muestra. El proceso se
muestras a continuacion:
Sea el alfabeto de la tarea, sea S la muestra de entrenamiento, y sea x S
una palabra de la muestra S tal que x = a 1 a2 a|x| donde ai , i = 1, |x|.
Sea A = (Q, , , 1, F ) el automata finito inferido a partir de S a traves de un cierto
algoritmo de inferencia gramatical, tal que S L(A). Sea Q = {1, 2, , |Q|} el conjunto
de estados del automata A.
Debido al hecho de que x L(A), existe al menos un camino que acepta x en
el automata A, empezando en el estado inicial 1 y acabando en un estado final. Sea
1, i1 , i2 , . . . , i|x| la secuencia de estados que corresponden a este camino en A donde
i|x| F .
0

Sea un nuevo alfabeto cuyos smbolos son parejas (a, m) donde a y m Q.


Se define una funcion f : S 0 tal que f (x) = x0 donde x = a1 a2 a|x| S y
x0 = (a1 , i1 )(a2 , i2 ) (a|x| , i|x| ) 0 .
Esto es, la funcion f consiste en una anotacion de cada smbolo a j de la palabra x
con el estado ij con el que transita el automata A cuando analiza el smbolo a j .
Ejemplo:
Sea el alfabeto = {a, b, c}.
Sea la muestra de entrenamiento S = {aabb, acbb, aaabb, abb}.
El automata de estados finitos A inferido a partir de S empleando el algoritmo ECGI
se muestra en la figura 5.10.

5.3. Suavizado de modelos de lenguaje


7

97

c
2

a
1

Figura 5.10: Automata de estados finitos A inferido con el algoritmo ECGI a partir de la
muestra S = {aabb, acbb, aaabb, abb}

En este caso, el resultado de la aplicacion de la funcion f a S es:


f (aabb) = (a, 2)(a, 3)(b, 4)(b, 5)
f (acbb) = (a, 2)(c, 6)(b, 4)(b, 5)
f (aaabb) = (a, 7)(a, 2)(a, 3)(b, 4)(b, 5)
f (abb) = (a, 3)(b, 4)(b, 5)
0

Definimos una muestra anotada S = {f (aabb), f (acbb), f (aaabb), f (abb)}. A partir de


esta nueva muestra, aplicamos el algoritmo de inferencia para los lenguajes 2-TSS (Garcia
0
y Vidal, 1990), obteniendo el automata finito A que se muestra en la figura 5.11.

(a,7)

a,7

(a,2)
a,2

(a,2)
1

(c,6)

c,6

(b,4)

(a,3)

(a,3)

(b,4)

b,4

(b,5)

b,5

a,3

Figura 5.11: Automata de estados finitos A inferido con el algoritmo 2-TSS a partir de
0
la muestra anotada S = {f (aabb), f (acbb), f (aaabb), f (abb)}

Debido al hecho de que cuando el automata A analiza la muestra S todo camino A es


0
visitado, la nueva muestra S se convierte en una codificacion de la funcion de transicion
del automata A. La tabla de transiciones correspondiente a se muestra en la Tabla
5.1.
0

A partir de esta codificacion S el algoritmo de inferencia para los lenguajes 2-TSS es


0
0
0
capaz de inferir el automata A . Ahora, si renombramos el alfabeto del automata A
empleando el primer componente de sus smbolos, esto es, el par (a, m) se convierte en el
smbolo a, obtenemos la tabla de transicion de la Tabla 5.2.
0

Por u
ltimo, si renombramos los estados del automata A empleando el segundo componente del estado, la tabla de transiciones Tabla 5.2 se convierte en la tabla de transiciones
0
Tabla 5.1 y el automata A y A son los mismos.

98

Captulo 5. Aproximaciones Gramaticales


Q/
1
2
3
4
5
6
7

a
{2,3,7}
{3}
{2}

b
{4}
{5}
{4}
-

c
{6}
-

Tabla 5.1: Tabla de transicion del automata A


0

Q /
1
(a,2)
(a,3)
(b,4)
(b,5)
(c,6)
(a,7)

a
{(a,2),(a,3),(a,7)}
{(a,3)}
{(a,2)}

b
{(b,4)}
{(b,5)}
{(b,4)}
-

c
{(c,6)}
-

Tabla 5.2: Tabla de transicion del automata A

Por otro lado, el SLMtk nos permite obtener modelos de lenguaje a partir de la muestra
dada, proporcionandonos modelos estocasticos suavizados.
Por lo tanto, proponemos el siguiente proceso:
1.

Inferimos el automata finito A a partir de la muestra S empleando un cierto algoritmo de inferencia de lenguajes regulares (i.e. el algoritmo ECGI o el algoritmo de
inferencia de lenguajes k-TTSS)

2.

Aplicamos la funcion f a la muestra S para obtener la nueva muestra S , teniendo


en cuenta el automata A.

3.

A partir de la muestra S aplicamos el SLMtk con N =2 para obtener un modelo de


lenguaje 2-TSS suavizado (o bigrama), que acepta el mismo lenguaje que el automata inferido anteriormente A. Este modelo de lenguaje es un modelo estocastico y
suavizado.

En conclusion, obtenemos un modelo de lenguaje suavizado para el lenguaje inferido


a traves de un cierto metodo de IG para lenguajes regulares.

5.3.3.

Aplicaci
on del suavizado en BASURDE

Se han inferido modelos de secuencias de unidades semanticas y modelos de secuencias


de palabras asociadas a cada una de las unidades semanticas empleando el ECGI y el (k,r)TTSSI para el nivel superior y el inferior del modelo de dos niveles a partir de una muestra

5.3. Suavizado de modelos de lenguaje

99

(conjunto de frases de entrenamiento) segmentada y etiquetada en terminos de unidades


semanticas. Una vez inferidos estos modelos se ha procedido a etiquetar las muestras de
entrenamiento, para ello se busca un camino en el automata de estados finitos que acabe
en un estado final y que corresponda a la frase de entrada. El n
umero asociado a cada uno
de los estados del camino se asocia a las palabras (o unidades semanticas) de la frase de
entrenamiento. Posteriormente se emplea el SLMtk para inferir modelos estocasticos de
bigramas suavizados con back-off a partir de la muestra de entrenamiento etiquetada con
el n
umero de los estados, obteniendo as un modelo de lenguaje suavizado para los modelos
inferidos con cada uno de los dos algoritmos de inferencia gramatical antes nombrados.
A estos modelos estocasticos superior e inferior se les aplica la aproximacion de 2 niveles
para obtener el modelo integrado que se empleara en el alineamiento por Viterbi con la
frase de entrada.
El u
nico problema de estos modelos, suavizados para evitar problemas de cobertura,
es su gran tama
no, haciendo costoso el analisis de la frase de entrada al componente de
comprension.

100

Captulo 5. Aproximaciones Gramaticales

Captulo 6

Experimentaci
on
En este captulo se describe la experimentacion que se ha llevado a cabo en esta tesis
en el ambito de la comprension del lenguaje aplicando las siguientes aproximaciones:
modelos de bigramas, modelos de bigramas con etiquetado lexico, modelos inferidos con
el algoritmo ECGI y modelos inferidos con el algoritmo de inferencia de los lenguajes
(k,r)-TTSSI.
En primer lugar se describe el corpus utilizado. A partir del corpus adquirido de
BASURDE se han llevado a cabo dos procesos: un analisis lexico donde se plantea el uso
de lemas en vez de palabras y un analisis conceptual para agrupar el lexico en categoras.
Posteriormente se muestran los resultados y conclusiones obtenidos en la experimentacion
llevada a cabo con dicho corpus tanto con texto como con voz (salida del reconocedor).

6.1.

Corpus

A partir del analisis de los 227 dialogos adquiridos con la tecnica del Mago de Oz que
componen el corpus de BASURDE, se clasificaron los dialogos en base a un criterio de
usabilidad, creando con ello tres grupos denominados: completos, incompletos y eliminados. Se consideraron 12 dialogos para el grupo de eliminados por alguna de las siguientes
razones: encontrarse fuera de la tarea, por un exceso de longitud en los turnos de usuario,
por un exceso de turnos de usuario, o simplemente porque la actuacion del Mago se encuentra fuera de la estrategia establecida, estos dialogos se desecharon por completo. De
los restantes, a 21 de ellos se les elimino alguno de sus turnos por las mismas razones de
antes, sin embargo, el resto de turnos de ese dialogo se considero aprovechable, pasando
a la categora de dialogos incompletos. Quedando pues solo 194 dialogos como dialogos
completos. Los grupos de dialogos completos e incompletos pasaran a formar parte del
corpus de experimentacion de BASURDE, esta distincion entre dialogos completos e incompletos se tendra en cuenta en aquellos experimentos en los que se tenga en cuenta la
secuencia (estructura) de los turnos dentro de un dialogo.
El corpus de experimentacion de comprension de BASURDE consta de 215 dialogos
(completos + incompletos) de los cuales se han eliminado las intervenciones vacas quedando un total de 1.440 turnos de usuario con un total de 14.902 palabras, de ellas hay
637 palabras distintas, la longitud media de los turnos es de 10,5 palabras, el n
umero de
101

102

Captulo 6. Experimentacion

unidades semanticas distintas del lenguaje semantico intermedio es de 53. Para aprovechar mejor el corpus se ha llevado a cabo un procedimiento de validacion cruzada, con lo
que se ha dividido el conjunto experimental en 5 conjuntos diferentes de aproximadamente 290 turnos cada uno, que se han empleado para test, empleando el resto 1.150 para
entrenamiento, dando lugar a 5 diferentes instancias en cada experimento (entrenamiento
y test) de los que se promediaran los resultados obtenidos. En la tabla 6.1 se aprecian
las caractersticas de los conjuntos definidos junto con el calculo de la perplejidad de los
modelos de bigramas de palabras estimados a partir de las muestras de entrenamiento de
cada uno de ellos. Para el calculo de la perplejidad se ha empleado el SLMtk.
Conjuntos de entrenamiento
N
um. total de intervenciones
N
um. palabras distintas
N
um. total de palabras

1
1.150
596
11.962

2
1.153
584
11.794

3
1.155
585
12.098

4
1.152
594
11.786

5
1.150
580
11.968

Conjuntos de test
N
um. total de intervenciones
N
um. palabras distintas
N
um. total de palabras
Perplejidad (modelo de bigramas)

1
290
337
2.940
27,40

2
287
339
3.108
26,95

3
285
340
2.804
23,36

4
288
334
3.116
25,01

5
290
353
2.934
31,12

Tabla 6.1: Caractersticas de los conjuntos de entrenamiento y test


En la Tabla 6.2 se muestra cuales son las caractersticas de los conjuntos de entrenamiento y test en base a las secuencias de unidades semanticas definidas para el corpus
etiquetado de BASURDE.
Conjuntos de entrenamiento
N
um. unidades sem
anticas
N
um. total de unidades sem
anticas

1
52
5.894

2
53
5.859

3
52
5.954

4
51
5.828

5
53
5.881

Conjuntos de test
N
um. total unidades sem
anticas
Perplejidad (modelo de bigramas)

1
1.458
7,79

2
1.502
9,05

3
1.398
7,21

4
1.523
8,13

5
1.470
7,35

Tabla 6.2: Caractersticas de los conjuntos de entrenamiento y test del modelo superior de
secuencias de unidades semanticas y perplejidad para un modelo de bigramas de unidades
semanticas

6.1.1.

Categorizaci
on y lematizaci
on del corpus

En el analisis semantico de las frases de entrada, que el modulo de comprension realiza,


podemos distinguir varias fases (Figura 6.1). Como se puede observar a
nadimos una fase
a las descritas en el captulo 4. En esta fase previa a
nadida, con el fin de incrementar la
capacidad de generalizacion de los modelos, reducir el n
umero de parametros y la talla del
vocabulario, y antes de aplicar metodos de estimacion, se realiza un preproceso automatico
del lexico de las frases de entrada. En este preproceso se realizan dos tipos de analisis, un
analisis conceptual como puede ser la agrupacion de categoras del lexico (p.e. nombres de

6.1. Corpus

103

ciudad, nombres de aeropuerto, etc. . . ) y un analisis lexico, en el que se plantea el uso de


lemas en vez de palabras, o sinonimos relacionados semanticamente. Estos analisis mejoran
la estimacion de los modelos estocasticos, sin embargo, son delicados y completamente
dependientes de la tarea.

Figura 6.1: Esquema de analisis semantico


Dado que el n
umero de instancias de algunos atributos en el corpus de BASURDE
puede ser bastante peque
no, dando lugar a problemas de cobertura y de falta de muestras
a la hora de aprender modelos estocasticos, se ha optado por la reduccion del n
umero de
palabras del lexico empleando lemas y agrupando algunas de las palabras del corpus en
una serie de unidades semanticas definidas para la tarea.
Se procedio a lematizar el corpus cambiando las formas verbales en infinitivos, usando
solo formas singulares, as como, la sustitucion de ciertas palabras poco frecuentes en el
corpus por su sinonimo. A continuacion se muestran algunos ejemplos de estos cambios.
Debido a la compleja conjugacion de los verbos espa
noles frente a otros idiomas
como el ingles, se han sustituido las formas verbales por su infinitivo.
informaran:informar
informaras:informar
informases:informar

Algunas instancias en plural se han pasado a formas en singular.


ellas:ella
ellos:
el

Palabras poco frecuentes pero significativas para la tarea se han convertido a su


sinonimo que aparece mayor n
umero de veces:
en torno a:alrededor de

Al proceso de sustitucion de ciertas palabras del corpus con identico significado semantico por una etiqueta semantica que representa una unidad semantica de la tarea se le
denomina categorizacion. Los conjuntos de palabras susceptibles de ser sustituidos por
las etiquetas semanticas, junto con algunos ejemplos se describen a continuacion:

104

Captulo 6. Experimentacion
Se ha sustituido cualquier instancia del nombre de una ciudad o estacion por la etiqueta semantica nombre ciudad, reduciendo con ello el lexico de BASURDE de 637
a 370 palabras diferentes y tambien los nombres de estacion para aquellas ciudades
con mas de una estacion:
albacete:nombre ciudad
...
barcelona sants:nombre estacion

Das de la semana:
lunes:diasem
...
viernes:diasem

Los n
umeros ordinales:
cinco:numero u
...
treinta:decena
...
novecientas:centena
...

Las fechas se
naladas, como las fiestas y las estaciones del a
no:
nochebuena:nom fiesta
...
primavera:est anyo

Un ejemplo de una de las frases del usuario lematizada y categorizada, se muestra a


continuacion:
Frase original
quera saber los horarios de los trenes de zaragoza a santander el viernes
a partir de las siete de la tarde
Frase categorizada y lematizada
querer saber los horarios de los trenes de nom ciudad a nom ciudad el
diasem a partir de las numero u de la tarde

La enumeracion de todas las instancias que se han sustituido por categoras semanticas,
sinonimos, infinitivos o formas singulares se puede contemplar en el apendice B. En la
Tabla 6.3 se muestra las nuevas caractersticas del corpus de experimentacion una vez
lematizado y categorizado, como se puede apreciar la perplejidad para un modelo de
bigramas disminuye aproximadamente un 31 % con respecto a los conjuntos originales.

6.2. Experimentos con texto

105

Conjuntos de entrenamiento
N
um. palabras distintas
N
um. total de palabras

1
363
11.962

2
358
11.794

3
352
12.098

4
360
11.786

5
356
11.968

Conjuntos de test
N
um. palabras distintas
N
um. total de palabras
Perplejidad (modelo de bigramas)

1
213
2.940
15,02

2
221
3.108
16,12

3
221
2.804
12,67

4
213
3.116
14,78

5
222
2.934
16,10

Tabla 6.3: Caractersticas de los conjuntos de entrenamiento y de test una vez lematizados
y categorizados

6.2.

Experimentos con texto

Con el fin de comparar las diferentes aproximaciones seguidas a lo largo de esta tesis
se especifican cuatro medidas de la adecuacion de los modelos tanto a nivel de lenguaje
intermedio (primera fase del modulo de comprension) como a nivel de frame (segunda
fase del modulo de comprension), estas medidas son una extension sencilla de las medidas
empleadas mas frecuentemente en el ambito del reconocimiento del habla y coinciden con
las medidas de evaluacion propuestas por (Minker, 1999b). Las cuatro medidas se definen
a continuacion:
porcentaje de secuencias semanticas correctas ( %ssc).
%ssc =

num. de secuencias de unidades sem


anticas correctas
100
num. total de secuencias de unidades sem
anticas

porcentaje de unidades semanticas correctas ( %usc).


%usc =

num. inserciones + num. sustituciones + num. borrados


num. sustituciones + num. borrados + num. correctas

100

porcentaje de frames correctos ( %fc); es decir el porcentaje de frames que son


exactamente iguales que el frame de referencia.
%f c =

num. frames correctos


100
num. total de frames

porcentaje de nombres de frame y de atributos correctos, le llamaremos porcentaje


de unidades de frame correctas ( %ufc).
%uf c =

num. inserciones + num. sustituciones + num. borrados


1
num. sustituciones + num. borrados + num. correctos

100

Bigramas
En la Tabla 6.4 se muestran las caractersticas de los modelos de bigramas sin suavizar
(BIG-BIG SinSuavizar) de las secuencias de unidades semanticas A s y para del modelo
final At obtenido a partir de la sustitucion regular de los modelos A vi inferidos para cada

106

Captulo 6. Experimentacion
BIG-BIG SinSuavizar
N
um. categoras
N
um. estados As
N
um. de transiciones As
Factor Ramificaci
on
N
um. estados At
N
um. de transiciones At
Factor Ramificaci
on

1
52
52
662
12,26
1.086
2.957
2,72

2
53
53
643
11,69
1.087
2.921
2,69

3
52
52
667
12,13
1.104
3.003
2,72

4
51
51
656
12,38
1.090
2.935
2,69

5
53
53
678
12,33
1.086
2.924
2,69

Media
52,2
52,2
661
12,15
1.091
2.948
2,7

Tabla 6.4: Caractersticas de los modelos de bigramas sin suavizar indeferidos en los niveles
superior e inferior para cada particion del corpus y la media

unidad semantica vi a partir de los segmentos de palabras u i obtenidos de la muestra de


entrenamiento asociada a dicha unidad semantica.
En la Tabla 6.5 se muestran los resultados obtenidos por la tecnica de dos niveles para
modelos de bigramas sin suavizar. Como se puede observar los resultados son bajos, lo
cual era de esperar, debido a que los modelos son sin suavizar. Estos resultados sirven de
referencia para analizar las mejoras que puede introducir el suavizado.
BIG-BIG SinSuavizar
%ssc
%usc
%fc
%ufc

1
45,86
49,61
56,21
65,19

2
46,34
48,85
54,7
60,95

3
56,84
57,65
63,51
68,61

4
54,51
54,4
66,67
68,67

5
47,9
48,46
57,93
64,61

Media
50,3
51,8
59,8
65,6

Tabla 6.5: Resultados al aplicar modelos de bigramas sin suavizar en los niveles superior
e inferior para cada particion del corpus y la media
A partir de los modelos bigramas y empleando el SLMtoolkit se aplico la tecnica
de suavizado de Back-Off con la funcion de descuento Good Turing (Seccion 2.3.2). Los
resultados al aplicar los modelos de bigramas suavizados se muestran en la Tabla 6.6,
como se puede observar se incrementa en un 17,8 % las ssc, un 35,7 % las usc un 21 % los
fc y un 21,9 % las ufc. Evidentemente han mejorado los resultados. Este aumento ademas
es muy alto, ya que los modelos sin suavizar estan aprendidos con pocas muestras, debido
a que el corpus es peque
no. Se puede observar ademas que los resultados a nivel de frame
correcto ( % fc) y de unidades de frame correctas ( % ufc) mejoran claramente los del
lenguaje intermedio ( % ssc y % usc), ello es debido a que muchos errores del lenguaje
intermedio estan relacionados con segmentos de palabras que no tienen relevancia a la
hora de construir el frame.
Bigramas con etiquetado l
exico
A continuacion se muestran los resultados obtenidos empleando el etiquetador lexico
(Tabla 6.7), aplicando tres aproximaciones: empleando modelos de bigramas de etiquetas
de categoras lexicas POS (BIG-BIG), modelos de bigramas de etiquetas POS lexicalizando las palabras mas frecuentes (BIG-BIG-words) y empleando modelos de bigramas de
etiquetas POS lexicalizando los lemas mas frecuentes (BIG-BIG-lemas). Donde ademas

6.2. Experimentos con texto

107

BIG-BIG Back-Off
%ssc
%usc
%fc
%ufc

1
64,14
87,21
80,69
87,95

2
65,5
86,29
77,7
85,3

3
71,93
89,7
84,21
89,34

4
72,22
87,92
82,64
86,32

5
66,55
86,39
78,97
87,93

Media
68,1
87,5
80,8
87,4

Tabla 6.6: Resultados de aplicar modelos de bigramas suavizados por Back-Off para cada
particion del corpus y la media
de las medidas anteriormente comentadas, se emplean unas nuevas medidas para evaluar
la eficiencia de los modelos provenientes del estudio de los etiquetadores lexicos:
La precision ( %P), esto es, el ratio entre el n
umero de unidades semanticas propuestas correctas y el n
umero de unidades semanticas propuestas.
El recall ( %R), esto es, el ratio entre el n
umero de unidades semanticas propuestas
y el n
umero de unidades semanticas propuestas en la referencia.
El score F=1 =

2P R
P +R ,

que combina las dos medidas anteriores ( %P y %R).

Modelos
BIG-BIG
BIG-BIG-word
BIG-BIG-lema

% ssc
32,3
58,7
59,9

% fc
41,0
67,3
72,5

%P
55,9
78,9
79,6

%R
51,0
79,2
81,0

F=1
53,3
79,0
80,3

Tabla 6.7: Resultados experimentales empleando etiquetas POS


Como se puede observar los resultados para el % ssc y % fc empleando etiquetado
lexico son inferiores a los obtenidos con los modelos de BIG-BIG suavizados. El interes de
esta aproximacion se basa en la mayor capacidad de generalizacion que proporciona las
categoras lexicas, y por tanto el mejor aprovechamiento de las muestras de entrenamiento.
Sin embargo no alcanza los resultados previos. Las razones deben de estar en el exceso de
generalizacion para esta tarea, donde parece mas adecuado la consideracion de categoras
semanticas que las morfologicas.
ECGI
En la Tabla 6.8 se muestran las caractersticas de los modelos inferidos con el algoritmo
ECGI (ECGI-ECGI) para las secuencias de unidades semanticas A s y para del modelo
final At
Los modelos inferidos son suavizados con la tecnica de Back-Off y la funcion de descuento Good Turing tal como se explico en el apartado 5.3 de suavizado de modelos de
lenguaje. En la Tabla 6.9 se muestran los resultados obtenidos.
Como se puede observar en la Tabla 6.9 los resultados son ligeramente inferiores a los
BIG-BIG suavizados, alrededor de entre un 7-8 % para las usc y las ufc y 10-11 % para los
fc y las ssc. Es decir el porcentaje por debajo de los Bigramas es mayor en la segmentacion
y generacion completa de los frames.

108

Captulo 6. Experimentacion
ECGI-ECGI
N
um. categoras
N
um. estados As
N
um. transiciones As
Factor Ramificaci
on
N
um. estados At
N
um. transiciones At
Factor Ramificaci
on

1
52
378
1.407
3,72
15.749
63.202
4,01

2
53
386
1.364
3,53
16.506
66.173
4,01

3
52
411
1.455
3,54
17.588
70.704
4,02

4
51
394
1.406
3,57
16.735
67.294
4,02

5
53
401
1.432
3,57
16.268
65.154
4,01

Media
52,2
394
1.413
3,59
16.569
66.505
4,01

Tabla 6.8: Caractersticas de los modelos inferidos con el algoritmo ECGI para cada
particion del corpus y la media
ECGI-ECGI
%ssc
%usc
%fc
%ufc

1
49,66
78,38
67,93
81,34

2
54,36
77,25
65,85
74,93

3
61,75
83,48
73,68
82,97

4
60,42
80,04
71,53
79,83

5
55,17
79,05
71,03
80,91

Media
56,3
79,6
70,0
80,0

Tabla 6.9: Resultados obtenidos con el algoritmo ECGI para cada particion del corpus y
la media
Se hizo un nuevo experimento en el que se empleo como modelo superior un modelo
de Bigramas, lo cual hace que el n
umero de estados y transiciones del modelo integrado
sea bastante mas peque
no que utilizando un modelo superior inferido con el ECGI (Tabla
6.10). Como se puede observar en la Tabla 6.11 se obtienen mejores resultados empleando
como modelo superior un modelo de Bigramas.
BIG-ECGI
N
um. categoras
N
um. estados As
N
um. transiciones As
Factor Ramificaci
on
N
um. estados At
N
um. transiciones At
Factor Ramificaci
on

1
52
52
662
12,26
1.373
5.744
4,18

2
53
53
643
11,69
1.381
5.730
4,15

3
52
52
667
12,13
1.401
5.857
4,18

4
51
51
656
12,38
1.375
5.737
4,17

5
53
53
678
12,33
1.361
5.677
4,17

Media
52,2
52,2
661
12,15
1.378,2
5.749
4,17

Tabla 6.10: Caractersticas de los modelos empleando un modelo de Bigramas como modelo superior y un modelo inferido con el ECGI como el modelo inferior para cada particion
del corpus y la media
BIG-ECGI
%ssc
%usc
%fc
%ufc

1
65,86
87,74
80
88,1

2
66,55
85,87
76
83

3
71,58
89,63
83,86
89,8

4
72,22
88,24
82,29
87,83

5
63,44
85,37
77,93
88,65

Media
67,9
87,4
80,0
87,5

Tabla 6.11: Resultados obtenidos con el algoritmo ECGI en el modelo inferior y Bigramas
en el modelo superior para cada particion del corpus y la media

6.2. Experimentos con texto

109

Como podemos observar en la Tabla 6.11 aplicando en el modelo superior Bigramas


y en el inferior un modelo inferido con el ECGI se obtienen resultados similares a los
obtenidos con modelos de Bigramas en ambos niveles. Esto significa que, teniendo en
cuenta que el ECGI proporciona una representacion mas estricta de la gramatica, es mas
importante la restriccion a nivel de secuencia de palabras que a nivel de secuencia de
unidades semanticas.

(r,k)-TTSSI
El automata inferido para los valores r = 1 y k = 2 es por completo equivalente al
obtenido al aplicar bigramas. Para comparar con los bigramas, se ha incrementado el
valor del umbral r a 2 manteniendo el valor de k a 2. Los resultados y caractersticas de
los modelos inferidos se muestran a continuacion:
(r=2,k=2)-TTSSI
N
um. categoras
N
um. estados As
N
um. transiciones As
Factor Ramificaci
on
N
um. estados At
N
um. transiciones At
Factor Ramificaci
on

1
52
2.610
2.712
1,04
237.598
353.418
1,49

2
53
2.643
2.731
1,03
233.783
346.923
1,48

3
52
2.707
2.820
1,04
253.598
377.513
1,49

4
51
2.537
2.643
1,04
217.498
323.562
1,49

5
53
2.709
2.809
1,04
229.906
342.460
1,49

Media
52,2
2.641
2.743
1,04
234.477
348.775
1,49

Tabla 6.12: Caractersticas modelos obtenidos con el algoritmo (r=2,k=2)-TTSSI para


cada particion del corpus y la media
Como se puede apreciar en la Tabla 6.12 el factor de ramificacion del modelo de
unidades semanticas es casi uno, eso indica que el automata inferido es muy cercano al
aceptor de prefijos, siendo su capacidad de generalizacion casi nula. Dado que el n
umero
de estados y transiciones es demasiado grande para ser bien estimado a partir de los datos
disponibles se empleo como modelo superior un automata inferido con los valores r = 1 y
k = 2, equivalente a un modelo de bigramas.
Los modelos inferidos con este algoritmo (superior e inferior) son suavizados con la
tecnica de Back-Off y la funcion de descuento Good Turing tal como se explico en la Seccion 5.3 de suavizado de modelos de lenguaje. En la Tabla 6.13 se muestran los resultados
obtenidos.
(r=1,k=2)-TTSSI
(r=2,k=2)-TTSSI
%ssc
%usc
%fc
%ufc

Media

60,7
85,71
77,6
85,6

60,63
83,71
74,6
80,8

67,02
88,09
82,11
88

66,32
85,65
78,1
85,3

61,03
82,83
74,8
85,1

63,1
85,2
77,4
85,0

Tabla 6.13: Resultados obtenidos aplicando el algoritmo (r=1,k=2)-TTSSI para inferir


el modelo superior de la tecnica de 2 niveles y (r=2,k=2)-TTSSI para inferir el modelo
inferior, para cada particion del corpus y la media

110

Captulo 6. Experimentacion

Como se puede apreciar en la Tabla 6.13 los resultados son inferiores a los obtenidos
con modelos de Bigramas suavizados, sobre un 2 % en las ufc y las usc, sobre 3 % en los
fc y de un 5 % en las ssc.

6.3.

Experimentos con voz

Las universidades del Pas Vasco y de Zaragoza han desarrollado reconocedores de


voz para el proyecto BASURDE. Las grabaciones originales del corpus BASURDE han
sido pasadas por estos reconocedores obteniendo un Word Accuracy del 81,1 % y del
84,4 % respectivamente y dos conjuntos de frases reconocidas que se van a emplear como
conjuntos de test en los experimentos. Se ha realizado experimentos empleando estas frases
reconocidas con modelos de bigramas, los resultados para los dos conjuntos reconocidos
(Rec.1), (Rec.2), junto con los resultados utilizando las transcripciones manuales (Texto)
aparecen en las Figuras 6.14, 6.15, 6.16).
BIG-BIG
%ssc
%usc
%fc
%ufc

Texto
68,1
87,5
80,8
87,4

Rec. 1
42,4
71,1
52,5
68,2

Rec. 2
44,3
74,7
56,3
73,8

Tabla 6.14: Resultados de aplicar modelos de bigramas suavizados por Back-Off sobre
pronunciaciones transcritas manualmente y sobre reconocimiento
BIG-ECGI
%ssc
%usc
%fc
%ufc

Texto
67,9
87,4
80,0
87,5

Rec. 1
39,0
70,0
49,5
67,3

Rec. 2
41,6
70,9
53,5
72,9

Tabla 6.15: Resultados de aplicar el modelo BIG-ECGI sobre pronunciaciones transcritas


manualmente y sobre reconocimiento
(r=1,k=2)-TTSSI
(r=2,k=2)-TTSSI
%ssc
%usc
%fc
%ufc

Texto

Rec. 1

Rec. 2

63,1
85,2
77,4
85,0

40,3
70,1
50,8
66,4

42,9
73,7
55,1
72,2

Tabla 6.16: Resultados de aplicar modelos de (r=1,k=2)-TTSSI para el modelos superior y


(r=2,k=2)-TTSSI para el modelo inferior sobre pronunciaciones transcritas manualmente
y sobre reconocimiento
Como se puede apreciar los modelos de Bigramas (BIG-BIG) superan a los modelos
BIG-ECGI y de (r,k)-TTSSI en las frases reconocidas por ambos reconocedores al igual

6.4. Conclusiones

111

que las frases transcritas manualmente. Los resultados son mejores para el reconocedor
de Zaragoza que para el de la universidad del Pas Vasco, cosa que era de esperar pues
este u
ltimo tiene un valor mas bajo de Word Accuracy.
Se debe destacar la dificultad de obtener buenos porcentajes de reconocimiento en
frames completos ( % fc). Este problema queda paliado por el hecho de que los porcentajes
de acierto a nivel de tipo de frame y atributo ( % ufc) es bastante bueno 70 % -75 % . Es
de esperar que con informacion a
nadida, tal como valores de confianza de reconocimiento
suministrados por el reconocedor y valores de confianza asociados a la identificacion del
frame y de los atributos de este suministrados por el modulo de comprension, el gestor
de dialogo sea capaz de diferenciar aquellas partes de la informacion suministrada que no
han sido bien entendidas o reconocidas por el sistema y le permita generar subdialogos
clarificadores en los que se confirme aquellas informaciones con un bajo nivel de confianza.

6.4.

Conclusiones

En este captulo de experimentos hemos visto que las tecnicas propuestas proporcionan resultados razonables al problema de comprension del habla en el marco de un
sistema de dialogo. Pese a la escasez de muestras de entrenamiento, los modelos estocasticos son capaces de calcular las relaciones entre las unidades que componen el habla, tanto
a nivel lexico-sintactico, como semantico. Pese al esfuerzo en obtener modelos mas ricos
estructuralmente, como los proporcionados por el ECGI o los (r,k)-TTSSI, la aproximacion basada en bigramas es la que mejor resultados da. Podemos apuntar como posibles
explicaciones, que para este tipo de tarea no es necesaria una exhaustiva representacion
de la estructura, y que las tecnicas conocidas de suavizado son mas adecuadas para los
modelos de bigramas, siendo el metodo de suavizado una de las claves para que funcionen
este tipo de modelos estocasticos.
Esperamos que los resultados obtenidos puedan mejorar con el uso de otras aproximaciones gramaticales como el MGGI, metodologa de inferencia gramatical basada en
el reetiquetado de muestras, para la generacion de modelos estocasticos de uno y dos
niveles para la primera fase del modelo de comprension propuesto. En esta aproximacion,
a partir del corpus, se busca un etiquetado de las muestras ad-hoc capaz de mejorar los
resultados. Cabe esperar que el uso de medidas de confianza tanto las proporcionadas por
el reconocedor como las extraidas de la primera fase del modulo de comprension (Garca
et al., 2003b) mejoren las prestaciones del sistema de dialogo en global. Por otra parte,
hay que profundizar en el estudio del etiquetado y los ficheros empleados para categorizar
y lematizar, de los cuales se esta empleando una version basica.

112

Captulo 6. Experimentacion

Captulo 7

Aplicaci
on del sistema de
comprensi
on al corpus ARISE
En este captulo se eval
ua la tecnica de 2 niveles aplicada al componente de comprension de un sistema de dialogo desarrollado por el grupo de investigacion frances Traitement
du Langage Parle (TLP) del Laboratoire dInformatique pour la Mecanique et les Sciences
de lIngenieur (LIMSI) dentro del proyecto ARISE 1 .
El proyecto europeo ARISE (Automatic Railway Information Systems for Europe)
(Lamel et al., 2000) tiene el proposito de desarrollar un servicio de informacion telefonica
para la red de ferrocarriles en varios pases Europeos. En colaboracion con la compa
na
VECSYS y la SNCF (Ferrocarriles de Francia), se ha desarrollado un prototipo de servicio
telefonico capaz de proveer informacion sobre horarios, reservas, precios e informacion
sobre los descuentos y servicios ofrecidos para la mayor parte de las conexiones entre
ciudades de Francia.
Este sistema de dialogo se basa en el desarrollado anteriormente para el proyecto
RAILTEL dentro del programa Multi-Lingual Action Plan (MLAP) (Bennacef et al.,
1996) (Lamel et al., 1997) y el proyecto ESPRIT MASK (Gauvain et al., 1997). La arquitectura del sistema es modular y los programas han sido desarrollados para ejecutarse
sobre una estacion de trabajo UNIX equipada de una interfaz telefonica. Comparando
con su predecesor RAILTEL los principales avances que ofrece este sistema son: el control
del dialogo, el uso de medidas de confianza y la inclusion de un modo opcional de deletreo
para los nombres de ciudades/estaciones, ademas de permitir interrupciones al sistema
como una forma de interaccion mas natural entre el usuario y la maquina.

7.1.

Descripci
on del sistema

Existen seis modulos en el sistema de dialogo (Figura 7.1) (Lamel et al., 2000). Un
reconocedor de habla continua independiente del locutor, que en tiempo real, transforma
1

Este trabajo fue desarrollado durante una estancia de investigaci


on del autor de esta tesis a finales
del a
no 2001 y principios del 2002 de cinco meses, financiada por la Universidad Politecnica de Valencia,
en este centro de investigaci
on sito en Orsay cerca de Pars, dirigida por los doctores Hel`ene Maynard y
Fabrice Lef`evre y supervisada por el lider del grupo de investigaci
on Jean-Luc Gauvain

113

114

Captulo 7. Aplicacion del sistema de comprension al corpus ARISE

la se
nal vocal en la secuencia de palabras mas probable. El vocabulario de reconocimiento contiene 1.800 palabras, incluyendo 500 nombres de estaciones. La independencia del
locutor se lleva a cabo empleando modelos ac
usticos que han sido entrenados a partir de
locuciones de un gran n
umero de hablantes representativos, cubriendo un amplio rango de
acentos y calidades vocales. El reconocedor emplea modelos ocultos de Markov HMM continuos, con una mezcla de distribuciones guassianas para los modelos ac
usticos y modelos
de N-gramas suavizados con Back-Off para los modelos de lenguaje. Para los modelos
ac
usticos se emplearon modelos telefonicos independientes del contexto para la variacion
alofonica observada en los diferentes entornos contextuales.
Acoustic
Models

Language
Models

Speech
Recognizer

most
probable
word
sequence

Knowledge
Sources

Understanding
Model

Literal
Understanding

LU
semantic
frame

Dialog
Manager

DBMS
CU
semantic
frame

SQL Query
Database
Access

DB Info

constrained dialog

vocal response

Speech
Synthesizer

text

Response
Generator

Rules

Unit
Dictionary

Figura 7.1: Modulos del sistema de dialogo ARISE

El reconocedor asocia un valor de confianza a cada una de las hipotesis sobre una
palabra pronunciada. Si este valor esta por debajo de un lmite obtenido empricamente,
la hipotesis es marcada como incierta. La deteccion de estas palabras inciertas permite
al controlador de dialogo llevar a cabo subdialogos clarificadores. En la actual implementacion la salida del reconocedor de voz es la mejor secuencia de palabras junto con sus
correspondientes valores de confianza, sin embargo, el reconocedor ha sido implementado
para ser capaz de suministrar un grafo de palabras.
La cadena de texto proveniente del reconocedor es pasada al componente de comprension de lenguaje natural. Este componente primero realiza una Comprensi
on Literal de la
salida del reconocedor, y despues reinterpreta la consulta en el contexto del dialogo que
se esta llevando a cabo. En la Comprensi
on Literal se aplica una representacion de caseframes para determinar el significado de la frase y construir una adecuada representacion
semantica. Se emplea la tecnica de deteccion de palabras clave para elegir una estructura
de frame adecuada para la frase sin tener que llevar a cabo un analisis sintactico completo.
La mayor parte del trabajo en el dise
no de este componente consiste en definir cuales son
los conceptos significativos para la tarea y las palabras clave adecuadas. Los conceptos
que aparecen en la tarea ARISE tienen que ver con los horarios de los trenes, conexiones,
precios y reservas (incluyendo descuentos y otras restricciones).

7.2. Comprension del lenguaje en ARISE


Secuencia de
palabras

Voz
Reconocimiento

115
Secuencia de
conceptos

Comprensin
literal

Normalizacin
de los valores

CVR

Figura 7.2: Esquema de Comprension ARISE

Tras la Comprensi
on Literal se lleva a cabo la comprension contextual que consiste
en reinterpretar la pronunciacion en el contexto del dialogo actual, teniendo en cuenta
el sentido com
un y el conocimiento de la tarea. Los frames que resultan de la Comprensi
on Literal son reinterpretados empleando valores establecidos en reglas predefinidas y
los valores cualitativos son transformados en valores cuantitativos a esta fase se le llama
Normalizaci
on de los Valores (Figura 7.2). Los frames semanticos son ademas completados empleando la historia del dialogo para poder tener en cuenta la informacion dada
previamente por el usuario, as como las cuestiones que el sistema plantea.
El controlador del dialogo interroga al usuario para completar la informacion de los
frames, cuando esta es suficiente para hacer una consulta, genera una peticion en un
lenguaje similar al SQL al sistema de gestion de bases de datos. Para poder realizar una
consulta son necesarias al menos cuatro informaciones: la estacion de salida, la estacion
de llegada, la fecha y la hora aproximada del viaje. El controlador del dialogo vela por
evitar contradicciones, bien volviendo a anteriores estados del dialogo, o bien interrogando
al usuario para pedir una aclaracion. El sistema de gestion de la base de datos (DBMS)
emplea una base de datos de informacion de la SNCF denominada Riho.
El componente de generacion de respuesta convierte el frame semantico generado por
el controlador de dialogo en una frase en lenguaje natural, que es reproducida por el
sintetizador de voz a traves de la concatenacion de unidades de voz, variables en tama
no,
almacenadas en forma de diccionario.
La capacidad de este sistema de ser interrumpido por el usuario (barge-in capability) se considera importante a la hora de conseguir un interfaz mas natural. Al a
nadir
esta capacidad algunos modulos deben ser modificados. En primer lugar, la grabacion y
reconocimiento de voz deben estar activas en todo momento, incluido cuando se esta sintetizando una respuesta. Si se detecta voz entrante, la sntesis se para, aunque existen
ciertas situaciones en que el barge-in se deshabilita para asegurar que el usuario escuche
la respuesta.

7.2.

Comprensi
on del lenguaje en ARISE

En la primera fase del componente de comprension del sistema de dialogo (Figura


7.2) se han llevado a cabo dos aproximaciones con exito, una basada en reglas (Lamel
et al., 2000) y otra basada en una aproximacion estocastica (Minker, 1998) (Minker,
1999b) (Bonneau-Maynard y Lef`evre, 2001) utilizando modelos ocultos de Markov, ambas
emplean como formalismo la representacion semantica de los caseframes (Fillmore, 1968).
La segunda fase de normalizacion de los valores asociados a los conceptos (Figura
7.2) se lleva a cabo de forma automatica por sustitucion por los valores prefijados en el

116

Captulo 7. Aplicacion del sistema de comprension al corpus ARISE

diccionario de conceptos.

7.2.1.

Representaci
on sem
antica en el dominio del ARISE

El componente de comprension del sistema ARISE emplea una representacion especfica denominada concepto/valor (CVR) (Bonneau-Maynard y Devillers, 2000), donde un
total de 64 conceptos, representativos de la tarea, han sido extrados de un diccionario
de conceptos, y para cada concepto la lista de valores que le podran ser asociados. Un
ejemplo de representacion CVR aparece al final de la Tabla 7.1. Los valores son n
umeros,
nombres propios o clases semanticas que agrupan unidades lexicas sinonimas para esta
tarea. Por ejemplo para el concepto range-dep (intervalo temporal), las expresiones
dans la matinee, le matin o avant midi estan normalizadas en un forma u
nica
matin.
Una informacion modal (afirmativa o negativa) es asignada a cada par concepto/valor
convirtiendo esta representacion en un triplete. La Tabla 7.1 ilustra el uso de la informacion modal. La secuencia cest pas Croisic (no es Croisic) esta representada en CVR
con el concepto place que tiene asignado un modo negativo (-/place:Croisic). Por
u
ltimo, un concepto null es asociado a aquellas palabras dentro de la pronunciacion
que no contienen informacion semantica (p.e. et en la Tabla 7.1).
Para la aproximacion estocastica, el conjunto inicial de conceptos es ampliado con 40
marcadores modales (p.e. -/m:mode para la palabra pas en la Tabla 7.1). As pues, se
definieron para la version estocastica un total de 170 etiquetas (conceptos con informacion
modal, marcadores de modo y la etiqueta null en su modo positivo y negativo).
Entrada
Usuario

dans la matinee

et

Frase Reconocida

dans la matinee

Secuencia
Conceptos

(+/range-dep)

Valores
Normalizados

matin

CVR

(+/range-dep)
(-/place)
(+/place)

cest

pas

Croisic

cest

Roissy

et

pas

Croisic

Roissy

(+/null)

(-/m:mode)

(-/place)

(+/place)

Croisic

Roissy

matin
Croisic
Roissy

Tabla 7.1: Ejemplo de decodificacion semantica para la version estocastica del ARISE

7.2.2.

Comprensi
on del lenguaje basada en reglas en el ARISE

En el actual componente de comprension del ARISE se realiza un analisis de caseframes


basado en reglas para determinar el significado de la consulta. Se emplean palabras clave
para seleccionar la estructura del caso apropiada. Los marcadores de caso se emplean
para proporcionar restricciones sintacticas. En de Paris a
` Marseille, por ejemplo, la
preposicion de designa Paris como ciudad de salida y `
a designa marseille como

7.2. Comprension del lenguaje en ARISE

117

ciudad de llegada. Pre- y Post- marcadores del caso, que no tienen porque aparecer cerca
del caso, proporcionan el contexto del caso. Se realiza un analisis basado en palabras
clave, para determinar en un primer momento el caseframe y entonces se construye un
frame semantico del significado de la sentencia instanciando sus atributos.
Para evaluar la representacion semantica obtenida frente a la transcrita manualmente
se emplea una herramienta de evaluacion en terminos de inserciones, sustituciones y borrados. La evaluacion se lleva a cabo en todo el triplete CVR tanto del modo como del
nombre de concepto semantico as como del valor asignado al concepto (Bonneau-Maynard
y Devillers, 2000).

7.2.3.

Adaptaci
on de la anotaci
on sem
antica

La anotacion del corpus en el sistema ARISE esta basada en conceptos esto es, solo las
palabras que tienen informacion semantica relevante son anotadas con su correspondiente
etiqueta. Algunas palabras (preposiciones, afijos,. . . ) que son capaces de determinar el
concepto son tambien anotadas. A estas u
ltimas se les denomina marcadores markers
(Fillmore, 1968), y son anotados manualmente con el prefijo p: y el nombre del concepto
al que determina. Las demas palabras en la frase son consideradas como no significativas
y son etiquetadas con la palabra null, como se muestra en la Tabla 7.2.
je
voudrais
aller
a
`
Paris

(+/null)
(+/null)
(+/null)
(+/p:place-to)
(+/place-to)

Tabla 7.2: Ejemplo de anotacion semantica basada en conceptos


La aproximacion de decodificacion semantica de 2 niveles que se propone en esta tesis, trata de encontrar la estructura sintactica de las palabras asociadas a cada concepto
semantico de la ocurrencia, segmentando y etiquetando todas las palabras de la frase de
entrada. Para aprovechar esta caracterstica y mejorar los resultados de esta aproximacion,
la anotacion del corpus ARISE fue modificada enriqueciendo la anotacion de los conceptos
con las palabras adyacentes dentro de la ocurrencia. Para incorporar las palabras adyacentes (solo aquellas etiquetadas con null) dentro del concepto semantico y estimar
si estas son u
tiles para determinarlo, se implementa un algoritmo que automaticamente
incorpora una secuencia maxima de palabras alrededor de cada concepto anotado (este
maximo esta delimitado por el n
umero de palabras adyacentes etiquetadas como null),
y podadas de izquierda a derecha buscando las secuencias de palabras adyacentes significativas para cada concepto en la pronunciacion. En la parte izquierda se incorporan al
concepto todas las palabras consecutivas anotadas como null para despues podarlas.
En la parte derecha solo se considera una u
nica palabra, debido a una experiencia previa
realizada por el grupo TLP del LIMSI que indica que longitudes mas largas son in
utiles. Antes de aplicar esta tecnica los marcadores manuales p: son reetiquetados con
la etiqueta null para posteriormente proceder a la incorporacion de palabras por la
izquierda de la frase. En la Tabla 7.3 se muestra un ejemplo de esta transformacion del
corpus.

118

Captulo 7. Aplicacion del sistema de comprension al corpus ARISE


Secuencia de Palabras
je
voudrais
aller
a
`
Paris

Anotaci
on Original
(+/null)
(+/null)
(+/null)
(+/p:place-to)
(+/place-to)

Sin Marcadores
(+/null)
(+/null)
(+/null)
(+/null)
(+/place-to)

Palabras Adyacentes
(+/place-to)
(+/place-to)
(+/place-to)
(+/place-to)
(+/place-to)

Tabla 7.3: Ejemplo de la anotacion de conceptos con palabras adyacentes


Las palabras consecutivas asociadas a un mismo concepto se agrupan en un u
nico
segmento (ui , vi ):
u1 =je voudrais aller a
` Paris

v1 =(+/place-to)

El algoritmo que incorpora las palabras adyacentes a los conceptos tiene dos partes
que se describen a continuacion:
1.

Extracci
on de la secuencia m
axima de palabras: En esta parte extraemos la
secuencia mas larga de palabras adyacentes al conjunto de palabras asociadas con
un concepto en la frase a partir del corpus de entrenamiento. En la parte derecha
solo se considera una palabra. Solo las palabras adyacentes anotadas con el concepto
null pueden ser concatenadas. Sea (u, v) = (u 1 , v1 ) . . . (un , vn ) el conjunto de pares
asociados a la frase w donde v es la secuencia de conceptos pertenecientes a V y
u es la secuencia de segmentos de palabras en w. En la Figura 7.3 se muestra el
algoritmo seguido para la implementacion de la extraccion de la secuencia maxima
de palabras.

Para cada frase w en el corpus de entrenamiento


Para cada (ui , vi ) de la frase w, ui = wi1 . . . wi|ui |
Si vi+1 =null entonces
mover la primera palabra de ui+1 al final de ui
Si |ui+1 | = 0 entonces
borrar (ui+1 , vi+1 ) de (u, v)
FinSi
FinSi
Si vi1 =null entonces
mover ui1 al principio de ui
borrar (ui1 , vi1 ) de (u, v)
FinSi
FinPara
FinPara

Figura 7.3: Algoritmo para la extraccion de la secuencia maxima de palabras


2.

Fase de Poda: En esta etapa solo se guardan aquellas secuencias de palabras asociadas a los conceptos mas significativas de las que se extrajeron en la primera parte
del algoritmo. Previamente a la ejecucion de esta segunda fase del algoritmo se ordenan las secuencias de palabras asociadas a cada concepto por longitud decreciente.

7.2. Comprension del lenguaje en ARISE

119

Sea ui =wi1 , wi2 , ...wi|ui | wik W la secuencia de palabras asociada al concepto


vi V , y cutoff la funcion que compara el n
umero de ocurrencias de una secuencia de palabras asociada a un concepto particular con un n
umero predeterminado
(funcion de la longitud de la secuencia), si el n
umero de ocurrencias es menor que
el esperado la funcion devuelve true y borra la primera palabra por la izquierda de
la secuencia para volver a mirar el n
umero de ocurrencias de esta nueva secuencia,
cada palabra borrada crea un nuevo segmento etiquetado con null, hasta que la
funcion cutoff sea cierta o el segmento u i no contenga ya palabras. Cada palabra
borrada crea un nuevo segmento etiquetado con null. Si el segmento u i se queda
sin palabras, se elimina vi de el conjunto de parea (u, v) asociado a la frase. En la
Figura 7.4 se muestra el algoritmo para llevar a cabo esta fase de poda.

Para cada vi V en el corpus de entrenamiento


Para cada ui ordenado por longitud decreciente asociado a v i en el
corpus de entrenamiento
Mientras cutoff(ui)=true entonces
borrar la primera palabra de ui
crear un nuevo segmento con esta palabra etiquetado a null
EndMientras
EndPara
Si |ui | = 0 entonces
borrar vi de (u, v)
EndSi
EndPara

Figura 7.4: Algoritmo de la fase de poda

Esta tecnica permite encontrar de forma automatica el contexto de palabras para cada
concepto anotado en el corpus de entrenamiento sin la necesidad de supervision de una
persona experta.

7.2.4.

Normalizaci
on

Las secuencias de palabras anotadas semanticamente de la sentencia reconocida deben


ser traducidas dentro del sistema de dialogo a su correspondiente frame, los valores en el
frame deben ser normalizados de acuerdo con la lista de valores para los conceptos del
CVR. Un ejemplo de normalizacion del sistema ARISE se muestra en la Tabla 7.4, los
marcadores de concepto desaparecen.
Valor etiquetado
(+/range-dep) dans la matinee
Valor etiquetado normalizado
(+/range-dep)
matin

Tabla 7.4: Ejemplo de la normalizacion de valores

120

Captulo 7. Aplicacion del sistema de comprension al corpus ARISE

La expansion de la anotacion de los conceptos en el corpus de entrenamiento con


las palabras adyacentes hace que el programa que realiza la normalizacion de valores en
ARISE no pueda emplearse (vease 7.5 donde la expansion de la anotacion ha incluido
el verbo partir dentro del concepto range-dep, el programa de normalizacion da un
error (Error!) pues no espera encontrar ning
un verbo en este concepto). As pues, para
poder emplear este programa de normalizacion, se hace necesaria la extraccion de aquellas
palabras que fueron anteriormente introducidas y que causan errores en el programa de
normalizacion, por ello se desarrollo un programa que automaticamente extrae esas palabras. Este programa funciona extrayendo sistematicamente de la anotacion del concepto
las palabras de un diccionario para ese concepto, creado a partir del vocabulario obtenido
en la fase de extraccion del n
umero optimo de palabras adyacentes relacionadas con el
concepto. Esta tecnica nos permitira hacer uso del programa que implementa las reglas
de normalizacion que se definieron en el ARISE (Tabla 7.6).
Valores con Palabras Adyacentes
(+/range-dep) partir dans la matinee
Valores normalizados
(+/range-dep)

Error!

Tabla 7.5: Ejemplo de la anotacion con Palabras Adyacentes en la normalizacion de valores


para el Frame sin extraccion de palabras

Valores con Palabras Adyacentes


(+/range-dep)

partir dans la matinee

Busqueda en el vocabulario de palabras adyacentes del valor


(+/m:range-dep)
partir
(+/range-dep)
dans la matinee
Nuevo valor obtenido para el valor
(+/range-dep)
Valor normalizado
(+/range-dep)

dans la matinee

matin

Tabla 7.6: Ejemplo de la anotacion con Palabras Adyacentes en la normalizacion de valores


para el frame aplicando el programa de extraccion de palabras

7.3.
7.3.1.

Experimentos
Descripci
on del Corpus

El conjunto de entrenamiento contiene 14.582 frases. Estas frases han sido extraidas
del corpus ARISE del LIMSI, el cual contiene sobre 10k dialogos hombre-maquina. Este
corpus ha sido semi-manualmente etiquetado en terminos de conceptos. El n
umero medio

7.3. Experimentos

121

de palabras por pronunciacion es de 5. El n


umero total de conceptos en el corpus de
entrenamiento es de 44.812, con una media de 3 CVR por pronunciacion.
Se ha empleado un corpus de tuning de 440 sentencias para ajustar el metodo de 2
niveles a la tarea ARISE CVR. La evaluacion se realiza con un conjunto de test de 496
pronunciaciones seleccionadas al azar entre el resto del corpus ARISE. Las caracteristicas
del los corpus de entrenamiento, tuning y test se muestran en la Tabla 7.7.
#Utt.
#Words
#Concepts (in CVR)
Word Error Rate

Entrenamiento
14.582
72.380
44812
-

Tun.
400
2.261
708
13,4 %

Test
400
2.261
708
14,3 %

Tabla 7.7: Descripcion de los corpus de entrenamiento, tuning y test. N


umero de pronunciaciones (#Utt.), palabras (#Words) y conceptos CVR (#Concepts) de los conjuntos
de entrenamiento, tuning y test. Se muestra el Word Error Rate de las pronunciaciones
reconocidas para los conjuntos de tuning y de test

7.3.2.

Resultados

Se compara el modelo basado en reglas del LIMSI con dos tecnicas estocasticas diferentes, la primera han sido desarrollada por el grupo TLP del LIMSI (1 nivel) (BonneauMaynard y Lef`evre, 2001) y consiste en una red de secuencias de conceptos semanticos
asociados a cada frase etiquetada del corpus de entrenamiento. Cada estado en la red es
capaz de emitir cualquier palabra que haya sido vista en el corpus de entrenamiento estando todos los estados conectados entre s (HMM ergodicos). La segunda es la tecnica de 2
niveles descrita en el captulo 4. Los resultados de la comparacion se muestran en la Tabla
7.8. La medida que se muestra es el ratio de error de comprension (REC) de la instancia
y su etiqueta CVR correspondiente como se describe en el apartado 7.2.1. Se emplea una
transcripcion manual (Manual) y la salida de un reconocedor de voz (Autom
atica) de las
pronunciaciones tanto para el conjunto de tuning (Tun.) como el conjunto de test (Test).
El reconocedor tiene un Word Accuracy aproximado del 87 %, siendo 2,6 puntos mejor
que el reconocedor del la Universidad de Zaragoza para BASURDE.

Basada en reglas
1 nivel LIMSI
2 niveles

Manual
Tun. Test
2,1
9,2
7,8
9,4
7,8
10,6

Autom
atica
Tun. Test
13,2 19,8
16,6 19,1
17,1 20,4

Tabla 7.8: Ratios de error para comprension ( %REC) para la aproximacion basada en
reglas, el modelo estocastico 1 nivel del LIMSI y el modelo estocastico de 2 niveles para las
transcripciones Manuales y salida del reconocedor (Automatica) tanto para el conjunto
de Tuning como para el de Test
Como se puede observar en la Tabla 7.8 los resultados de la aproximacion de 2 niveles son similares a la de un solo nivel. Para el conjunto de tuning no existe diferencia

122

Captulo 7. Aplicacion del sistema de comprension al corpus ARISE

significativa en la transcripcion manual y solo una peque


na diferencia de 0,5 % aparece
en la transcripcion Automatica. Para el conjunto de test el modelo de 2 niveles parece
ir ligeramente peor, en la transcripcion Manual aparece una diferencia de 1,2 % con el
modelo de un nivel y 1,4 % con el basado en reglas, en la transcripcion Automatica la
diferencia es de un 1,3 % con el modelo de 1 nivel y de 0,6 % con el basado en reglas.
Se llevo a cabo un experimento para estudiar la influencia de las palabras adyacentes
en la anotacion de los conceptos semanticos empleando el modelo de 2 niveles. Se definieron marcadores automaticos, postmarkers (+) hacia la izquierda y premarkers (-) hacia la
derecha con diferentes longitudes. La posibilidad de union de las palabras pre/postmarkers
de un concepto tambien fue considerada. Tambien se estudio la posibilidad, para algunas categoras semanticas (p.e. hour, minute) de etiquetar como una u
nica categora las
secuencias de palabras de salidas (departure-hour) y llegadas (arrival-hour) para un
mismo concepto, creando as un u
nico modelo de lenguaje para las dos categoras implicadas. Los resultados se muestran en la Tabla 7.9. Como se puede observar la mejor
combinacion de las palabras adjacentes es el uso de (+1) (una palabra) en el lado derecho
(right) y tan lejos como sea posible (-) en el lado izquierdo (left), agrupadas en una
secuencia las palabras del lado derecho de cada categora semantica y uniendo las salidas
y llegadas (depart-arriv) para las categoras semanticas elegidas.

left
-0
-1
-2
-2
-3
-2
-2
-
-
-
-

Marcadores Autom
aticos
grouped right depart-arriv
no
+0
no
no
+0
no
no
+0
no
yes
+0
no
yes
+1
no
yes
+1
no
yes
+1
yes
yes
+0
no
yes
+1
no
yes
+0
yes
yes
+1
yes

REC
12,6 %
12,4 %
11,6 %
9,1 %
9,1 %
8,8 %
8,3 %
8,7 %
8,4 %
8,1 %
7,8 %

Tabla 7.9: Comparativa de los ratios de comprension ( %REC) de las diferentes combinaciones de premarkers y postmarkers as como su agrupamiento para el conjunto de
tuning
Se llevaron a cabo otros experimentos con el algoritmo descrito en la seccion 7.2.3 que
trata de encontrar el optimo n
umero de palabras adyacentes en el corpus de entrenamiento
para incorporarlas en el proceso de expansion del etiquetado de las categoras semanticas.
Los resultados se muestran en la Tabla 7.10 para los conjuntos de tuning y test. Las prey post- palabras adyacentes extradas de cada categora semantica y el concepto fueron
procesados por separado (Individual) y agrupados (Agrupado) para determinar cual es la
influencia del programa que extrae las palabras adyacentes antes de aplicar el programas
de normalizacion de los valores. Los resultados para los experimentos individuales son
los mismos mostrados previamente en la Tabla 7.8 para 2 niveles. En todos los casos
para los experimentos existe en el combinado una diferencia significativa con respecto al
individual, que es menor en el test automatico, ello es debido a la influencia del programa

7.4. Conclusiones

123

de extraccion de palabras adyacentes.

Individual
Agrupado

2 niveles con palabras adjacentes


Manual
Autom
atico
Tun.
Test
Tun.
Test
7,8
10,6
17,1
20,4
10,71 12,96 19,05
21,56

Tabla 7.10: Ratios de error para la compresion ( %REC) de la expansion de la anotacion


de los conceptos con el n
umero optimo de palabras adjacentes combinado e individual
para el conjunto de tuning (Tun.) y el de test (Test)

7.4.

Conclusiones

Como se puede observar en los experimentos, la aproximacion de 2 niveles consigue


unos resultados similares a los de otras aproximaciones estocasticas para otro etiquetado
y corpus construyendo un modelo sintactico de las secuencias de palabras asociadas a
cada concepto en el corpus de entrenamiento. El algoritmo del apartado 7.2.3 pretende
mejorar los resultados de la aproximacion de dos niveles, buscando automaticamente las
palabras adyacentes a los conceptos anotados en el corpus de entrenamiento para anotarlas
junto a estos. Esta expansion de la anotacion ayuda a localizar conceptos en la frase de
entrada. Desafortunadamente el proceso posterior de extraccion de las palabras adyacentes
incluidas en el concepto, que es necesario para emplear las reglas de normalizacion para
pasar a frame definidas en ARISE, no da buenos resultados. Por ello se hace necesario el
definir nuevas normas de normalizacion o una tecnica que permita el evaluar la capacidad
de esta nueva anotacion extendida de los conceptos encontrados en el ARISE.

124

Captulo 7. Aplicacion del sistema de comprension al corpus ARISE

Captulo 8

M
odulo de Di
alogo
Este modulo es el encargado de proporcionar un interfaz natural entre el usuario y
el ordenador, debiendo aportar el conocimiento pragmatico del dominio de la tarea para
facilitar la comprension del mensaje, mantener una historia del dialogo para resolver los
problemas de elipsis y anaforas, detectar cuando no es completo el requerimiento del
usuario y activar el generador de respuestas para interaccionar con el usuario pidiendo
nueva informacion o verificando la informacion ya suministrada. A este tipo de estrategia
de dialogo se le conoce con el nombre de iniciativa mixta.
En un sistema de consulta basado en frames, una vez completado el frame semantica
este se convierte en una plantilla capaz de realizar una consulta en un lenguaje estandar de
interrogacion a una base de datos. La informacion obtenida de esta consulta sera analizada
por el controlador de dialogo para comprobar que responde a la pregunta del usuario y
construira una respuesta (no demasiado larga, pues se supone que el sistema es hablado)
en base a una plantilla que enviara al generador de respuestas para que conteste al usuario
del sistema.

8.1.

La estructura del di
alogo

Los desarrolladores de sistemas de lenguaje natural hombre-maquina a menudo coinciden en que uno de los mayores problemas en este campo es encontrar una estructura que
pueda adaptarse a diferentes aplicaciones. En los u
ltimos a
nos se han realizado trabajos
para aprender de forma automatica la estructura del dialogo a partir de muestras de dialogos (corpora obtenidos por tecnicas de Mago de Oz (Fraser y Gilbert, 1991)) etiquetadas
en unidades de dialogo.
Un dialogo se puede ver como un conjunto de intervenciones, donde una intervencion
es uno de los turnos de los participantes del dialogo, cada una de estas intervenciones
se puede descomponer en varios segmentos. Dependiendo de la funcion de cada uno de
estos segmentos se le asocia un acto de dialogo (speech acts (Bennacef, Neel, y BonneauMaynard, 1995) (Allen y Core, 1996)). Un segmento puede ser una frase completa, un
conjunto de estas o un simple conjunto de palabras. Esta segmentacion en actos de dialogo
se emplea en numerosos proyectos de consulta a servicios de informacion como son el
AMICA (Pieraccini, Levin, y Eckert, 1997), el sistema RAILTEL o ARISE de LIMSI
125

126

Captulo 8. Modulo de Dialogo

(Lamel et al., 1997) (Lamel et al., 2000) o BASURDE (Martinez y Casacuberta, 2000).
A partir de las muestras etiquetadas se puede formalizar la estructura del dialogo, bien
mediante un conjunto de reglas como en ocurre en (Bennacef, Neel, y Bonneau-Maynard,
1995) o de forma automatica, empleando aprendizaje a partir de muestras. Estos u
ltimos
modelos de lenguaje para actos de dialogo pueden predecir cual es el siguiente acto de
dialogo mas probable que se va a producir en la conversacion, pudiendo as especializar
la comprension del siguiente turno de dialogo y evitar acciones no deseables por parte del
sistema.

8.2.

La estrategia del di
alogo

En sistemas de consulta hablada se emplea una estrategia de iniciativa mixta, donde


el usuario puede hacer cualquier pregunta en el instante que desee. Para ayudar a la
comprension entre usuario y sistema, este u
ltimo debe ser capaz de preguntar al usuario
sobre cualquier informacion necesaria para completar el acceso de la base de datos. La
relajacion de las restricciones del sistema a la hora de responder a una pregunta permiten
conseguir una herramienta mas natural para el usuario.
A estas normas de actuacion del sistema, se les denomina estrategia del dialogo y
son empleadas para la obtencion de corpora de dialogo que se adapten a una estrategia
predeterminada por los dise
nadores del Mago de Oz como ocurre en proyectos como
BASURDE (Sesma et al., 1999) o MASK (Life y Salter, 1997).

8.3.

La historia del di
alogo

Uno de los problemas a la hora de dise


nar un sistema de consulta hablado es que para
completar una peticion de consulta a la base de datos se pueden necesitar varias intervenciones entre usuario y el sistema. Este u
ltimo demanda al usuario informacion para
completar las consultas, ademas intenta comprobar mediante confirmaciones la informacion que ha ido recibiendo, pudiendo haber en este proceso de comunicacion rectificaciones, incorporacion de nueva informacion, referencias a informacion que ya ha aparecido
(anaforas), etc.
En este proceso la informacion debe ser almacenada y gestionada a lo largo de las
intervenciones. Normalmente un conjunto de reglas determina que restricciones especificadas previamente por el usuario se recogen y cuales deben ser olvidadas y cuando. Para
ello en algunos sistemas como RAILTEL (Lamel et al., 1997) cada restriccion tiene asociada un conjunto de restricciones con las que mantiene una dependencia funcional para
que si es modificada, las otras restricciones asociadas a la primera desaparezcan.

8.4.

El etiquetado de di
alogo

La gestion del dialogo en muchos de estos sistemas se basa en las reglas obtenidas
del conocimiento sobre el comportamiento general de los dialogos y de la observacion de

8.4. El etiquetado de dialogo

127

algunos dialogos de entrenamiento. Sin embargo, en a


nos recientes la aproximacion por
modelizacion estocastica a los sistemas de dialogo ha ganado interes (Levin, Pieraccini, y
Eckert, 2000) (Stolcke et al., 2000).
A pesar de que las caractersticas especficas de la estructura y las estrategias del
dialogo parecen hacer difcil el uso solo de los modelos estocasticos, pueden ser u
tiles
en alguna parte de la gestion del dialogo. Para obtener modelos estocasticos (N-gramas,
HMM), estos se deben estimar a partir de un conjunto de dialogos anotados, para ello se
definen un conjunto de etiquetas del acto de dialogo. Los modelos aprendidos se pueden
utilizar para clasificar los actos del dialogo que se asocian a cada turno del usuario, para
dar una prediccion del acto del dialogo del usuario esperado y generar los turnos del
sistema.
Un paso importante en el desarrollo de modelos estocasticos es la definicion del conjunto de etiquetas para anotar dialogos (Allen y Core, 1996) (Klein, 1999). Para definir
un buen conjunto de etiquetas se ha de considerar su n
umero (el n
umero debe ser lo bastante grande para demostrar las diversas intenciones de los turnos y para obtener buenas
estimaciones de los modelos estocasticos). Tambien se tiene que considerar que el sistema
de etiquetas debe ser lo bastante general para poder ser utilizado en cualquier tarea y
ademas ser lo bastante exacto para ocuparse de una tarea especfica.
En el proyecto BASURDE se propone un conjunto de etiquetas de actos de dialogo
dividida en tres diferentes niveles (Martinez et al., 2002). Una descripcion detallada de
estas etiquetas y como se ha llevado a cabo el etiquetado, se muestra en el Apendice C.

8.4.1.

El etiquetado a tres niveles

La definicion de los actos de dialogo permite la representacion de los sucesivos estados


del dialogo. Las etiquetas escogidas deben ser lo suficientemente especficas para mostrar
las diferentes intenciones de los turnos y cubrir todas las situaciones y deben ser lo suficientemente generales para adaptarse a diferentes tareas. Si el n
umero de etiquetas es
demasiado grande, los modelos pueden ser mal estimados debido a la falta de muestras y
a la dispersion de las muestras de entrenamiento. Por otro lado, si se define un conjunto
peque
no de etiquetas, solo se conseguira modelar propositos generales. La principal ventaja del modelo de etiquetado propuesto es la division en tres niveles basada en la idea
presentada por (Fukada et al., 1998).
El primer nivel llamado acto de dialogo, es generico para cualquier tarea. El segundo
y tercero, llamados respectivamente frames y cases, son especficos de la tarea con la que
se trabaja y nos proporciona una representacion semantica (Fillmore, 1968) y el nexo
de union con el modulo de comprension. Con esta estructura, el etiquetado es a la vez
generico para ser aplicado a otras tareas y especfico para cubrir todas las situaciones
posibles en el dialogo.
Una etiqueta es asociada a un segmento. Un segmento es una unidad basica de conocimiento dentro de un turno (un segmento tiene en si mismo informacion significativa a
nivel de dialogo). As pues, un turno contiene uno o mas segmentos y cada etiqueta da el
significado del segmento al que esta asociado.
A continuacion se muestra un ejemplo de etiquetado a tres niveles de un turno de

128

Captulo 8. Modulo de Dialogo

dialogo de usuario. En el primer nivel, se etiqueta esta intervencion como una Pregunta
al sistema, en el segundo nivel se muestra que el objetivo de la consulta es obtener la
Hora salida, como tercer nivel aparece aquellas restricciones a la consulta como son el
Destino la Hora salida u intervalo de hora en que se desea partir y por u
ltimo el Origen.
El etiquetado de un segmento tanto en el segundo como en el tercer nivel es susceptible de
contener mas de una etiqueta en el mismo nivel, para luego poder agrupar segmentos con
igual etiquetado se decidio ordenar dentro de un mismo nivel las etiquetas alfabeticamente
y no en el orden de aparicion de la instancia de esa etiqueta en el segmento.
querra saber horarios de trenes de zaragoza a ciudad real para el pr
oximo viernes
por la tarde o s
abado por la ma
nana .
(U:Pregunta:Hora salida:Destino,Dia,Hora salida,Origen)

8.5.

Sistemas de di
alogo dirigidos por la sem
antica

En el desarrollo de los sistemas de dialogo, tienen que ser consideradas diferentes


fuentes de conocimiento. Las caractersticas especficas de cada fuente de conocimiento
crea la necesidad de emplear diferentes tipos de modelos y arquitecturas. Es ampliamente
aceptado el hecho de que los modelos estocasticos son una buena representacion para
algunas de estas fuentes de conocimiento. Algunos trabajos se han realizado en esta lnea
para representar la semantica de las sentencias y la estructura del dialogo (Pieraccini,
Levin, y Eckert, 1997) (Baggia et al., 1999) (Lamel et al., 2000) (Martinez y Casacuberta,
2000) (Segarra et al., 2001).
Presentamos una aproximacion en la que la estructura de dialogo se representa por
una red estocastica de actos de dialogo. Una ventaja de este tipo de red es que puede ser
aprendida a partir de muestras anotadas. Ademas de ello, nos proporciona una prediccion
del siguiente acto de dialogo esperado del usuario as como alguna informacion sobre los
posibles actos de dialogo que pueden ser generados por el sistema. La identificacion del
acto de dialogo es dada a partir de la representacion semantica de la sentencia. Esta
interpretacion semantica, no solo proporciona el correspondiente acto de dialogo, sino
ademas nos facilita la informacion dada sobre las restricciones de la consulta, como son:
Fecha, Ciudad origen, etc. . .
Para poder facilitar la informacion solicitada por el usuario, el sistema tiene que
manejar los valores proporcionados por el usuario durante la conversacion (historia del
dialogo). Esto se realiza por medio de un registro de valores actuales que es actualizado
despues de cada turno de usuario y que se emplea para generar las consultas a la base de
datos y tambien para participar en la generacion de turnos de dialogo del sistema.

8.5.1.

El modelo de di
alogo

El modelo de dialogo que se propone (Sanchis et al., 2001) es una red estocastica
que se aprende a partir de un conjunto de dialogos etiquetados obtenidos en el caso
de BASURDE a traves de la tecnica del Mago de Oz. Una muestra de dialogo es una
concatenacion de actos de dialogo que representan la traduccion de una pronunciacion del

8.5. Sistemas de dialogo dirigidos por la semantica

129

usuario en una sentencia de un lenguaje de actos de dialogo.


Una decision importante en este punto es la definicion del conjunto de actos de dialogo
asociado a la aplicacion. Si establecemos un n
umero bajo de actos de dialogo independientes de la tarea, podemos esperar una buena modelizacion de la estructura del dialogo y
una facil identificacion de los actos de dialogo generados por el usuario; con ello se puede
ademas cambiar de aplicacion sin tener que realizar demasiados cambios en el modelo de
dialogo. Sin embargo se requiere mas informacion sobre el contenido de las frases para
conseguir que el sistema genere su turno de dialogo.
Si incrementamos el n
umero de actos de dialogo de forma que el significado especfico
de cada acto de dialogo aumente, la variabilidad de las decisiones (o acciones) asociadas a
cada estado de la red se reducen. En otras palabras, un acto de dialogo tiene una intencion
especfica, pero se necesita una gran cantidad de dialogos etiquetados para aprender el
modelo. Por ejemplo, si el acto es Pregunta la cantidad de tipos de preguntas que pueden
realizarse es muy grande, pero si el acto es Pregunta:Hora salida la pregunta se restringe
a la hora de salida.
Como antes se comentaba el primer nivel de la etiqueta de cada acto de dialogo
muestra la intencion de la frase en el dialogo. Las etiquetas que se definen para este primer
nivel son genericas para cualquier tarea. El segundo nivel esta ligado a la representacion
semantica de la frase y es especfica para la tarea. En el modelo de dialogo propuesto en
esta aproximacion solo los dos primeros niveles estan presentes.
Las siguientes etiquetas se definieron para el primer nivel:
on, Rechazo, PreApertura, Cierre, No definida, No entendido, Espera, Afirmaci
gunta, Confirmaci
on, Respuesta.
Las etiquetas para el segundo nivel son:
Hora salida, Vuelta, Hora salida vuelta, Hora llegada, Hora llagada vuelta, Precio, Ciudad origen, Ciudad destino, Tiempo recorrido, Para en, Fecha salida,
Fecha llegada, Tipo tren, Servicios.

Por ejemplo, un turno de dialogo puede ser etiquetado como:


me puede decir el horario de los trenes a valencia el pr
oximo lunes ?
(U:Pregunta: Hora salida)

La red estocastica que representa el modelo de dialogo se obtiene a partir del conjunto
de dialogos de entrenamiento etiquetados en terminos de secuencias de actos de dialogo.
Un ejemplo de esta red para un solo nivel se muestra en la Figura 8.1.
Los actos de dialogo se emplean para:
Predecir el acto de dialogo siguiente del usuario; ayudando a los procesos de reconocimiento y comprension.

130

M:Cierre

U:Pregunta

M:Apertura
M:Pregunta
M:Pregunta

U:Cierre

U:Indefinida

10

U:Apertura

U:Pregunta

U:Indefinida

U:No_entendido

U:Indefinida

M:Pregunta

U:Pregunta

U:Pregunta
U:Pregunta

U:No_entendido

U:Indefinida
6
U:Respuesta

M:Confirmacion

17

U:Respuesta
M:Confirmacion

M:Apertura

U:Indefinida

M:No_entendido

M:Cierre

18

M:Indefinida

M:Pregunta

M:Confirmacion

5
U:Indefinida

M:Cierre

U:Pregunta

U:Indefinida
14
U:Respuesta

M:Confirmacion
M:No_entendido

U:Indefinida

M:Espera

U:Respuesta

U:Respuesta

M:Pregunta

U:Indefinida

9
3

U:Negacion
M:Confirmacion

U:Pregunta

U:Negacion

U:Respuesta

U:Respuesta

M:Respuesta
U:No_entendido
M:Respuesta

U:Indefinida
M:Pregunta
M:Confirmacion
U:Negacion

M:Espera

M:No_entendido

M:Espera
M:Respuesta

M:Confirmacion

M:Espera

U:Cierre

M:Confirmacion

U:Indefinida
8

M:Espera

U:Negacion

U:Negacion

15

U:Afirmacion
M:Pregunta

U:Negacion

U:No_entendido

M:No_entendido

U:Afirmacion

U:Pregunta
16

U:Afirmacion

U:Confirmacion

M:Respuesta

U:Pregunta

M:No_entendido
M:Espera

M:No_entendido
M:Nueva_consulta
U:Respuesta

M:Respuesta

M:Pregunta

M:Respuesta

M:Nueva_consulta

U:Confirmacion

M:Respuesta
1

M:Confirmacion

U:Pregunta

M:Respuesta

7
11

U:Negacion
U:Pregunta

U:Confirmacion

M:Respuesta

U:Confirmacion
M:Nueva_consulta

0
M:Nueva_consulta
M:No_entendido
U:Afirmacion
M:Respuesta
M:Nueva_consulta

12
U:Afirmacion

M:Pregunta
U:Pregunta

13
M:Nueva_consulta
M:Pregunta
M:Nueva_consulta

U:Indefinida
M:Respuesta

U:Pregunta
M:Nueva_consulta
U:Confirmacion

U:Afirmacion

M:Nueva_consulta

U:Cierre

U:Cierre
U:Pregunta

U:Cierre

Captulo 8. Modulo de Dialogo

Figura 8.1: Red obtenida a partir del primer nivel de etiquetado de dialogo

M:Pregunta

8.5. Sistemas de dialogo dirigidos por la semantica

131

Para decidir cual es la siguiente accion del sistema. Como el n


umero de muestras
no es suficiente para aprender un modelo preciso, esta decision se dirige a traves de
la comprension.
La descripcion de como trabaja el controlador de dialogo se explica a continuacion.
Tiene dos componentes principales: la red de dialogo y el registro de valores actuales.
La entrada de este modulo la proporciona el modulo de comprension. Esta entrada es
un Frame, la cual es una representacion semantica de la informacion obtenida del turno
de usuario. Se puede extraer el correspondiente acto de dialogo y las restricciones sobre
la consulta dadas por el usuario. El controlador de dialogo emplea esta informacion de
dos formas: determina cual es la siguiente transicion en el modelo de dialogo y actualiza
el registro de valores actuales a partir de las restricciones de la consulta. La salida del
controlador de dialogo, que es una representacion del frame, se enva al generador de
salida y al sintetizador de voz. La Figura 8.2 muestra el funcionamiento del controlador
de dialogo.
U:Apertura:Nil

M:Nueva_pregunta:Nil
M:Respuesta:Hora_Salida
M:Cierre:Nil

M:Apertura:Nil
U:Cierre:Nil
Respuesta BD

U:Pregunta:Hora _salida

Consulta a la BD

(HORASALIDA)

GENERADOR DE
RESPUESTAS

CIUDAD_ORIGEN:Valencia
CIUDAD_DESTINO:Barcelona
FECHA_SALIDA: 23/06/2001

...

Registro de Valores Actuales

Base de Datos (BD)

Figura 8.2: Esquema de funcionamiento del controlador de dialogo


La dinamica de este proceso se muestra en el algoritmo para el controlador de dialogo
de la Figura 8.3, donde el controlador de dialogo acepta el frame obtenido a partir del
turno del usuario. En primer lugar modifica el registro de valores actuales si es necesario.
Si existe suficiente informacion para realizar una consulta a la base de datos, se hace, se
genera un frame de respuesta, y se transita en la red de dialogo. Por otra parte el registro de
valores actuales se emplea para determinar que transiciones de la red de dialogo deben ser
podadas, que seran, aquellas que no son compatibles con la informacion actualizada. Esta
situacion se da porque el modelo se aprende a partir de un n
umero limitado de muestras
y ademas el modelo es un bigrama que solo tiene historia de la etiqueta anterior, por ello,
restricciones dadas en los turnos anteriores, no se pueden tener en cuenta.
Por ejemplo, una de las transiciones de la red podra llevar a preguntar al usuario
sobre la ciudad de salida y que esta informacion hubiera sido ya dada en un turno previo.
En este caso las transiciones deben ser prohibidas. Una vez el conjunto de transiciones
permitidas es determinado, una de ellas es elegida y se genera el correspondiente frame.
El proceso finaliza cuando se encuentra una etiqueta de Cierre.

132

Captulo 8. Modulo de Dialogo

/*Inicializaci
on*/
Hacer Estado=Apertura
Iniciar(Registro de Valores Actuales) /*Iniciar(RVA)*/
Repetir
Sentencia=obtener sentencia del turno de usuario
Frame=extraer significado(Sentencia)
Estado=Transici
on a(Estado,Frame)
RVA=Actualizar(Frame)
/* acciones del controlador */
si Consulta completa(RVA)
entonces
Enviar Consulta Base de Datos
Estado=Elegir transici
on
sino
seleccionar las transiciones permitidas por el RVA
Estado=Elegir una de las transiciones seleccionadas
Generar el frame de de salida
hasta Estado=Cierre

Figura 8.3: Algoritmo del controlador de dialogo

8.5.2.

Experimentos

A partir de los conjuntos de entrenamiento del corpus de experimentacion de BASURDE anotados utilizando solamente los dos primeros niveles del etiquetado de dialogo
se aprendio un modelo de bigramas como modelo de dialogo, este modelo consta de 158
estados de los que 57 corresponde a etiquetas de turnos de sistema y 101 a etiquetas de
turnos de usuario, el n
umero de transiciones en el modelo es de 666 transiciones eso hace
un factor de ramificacion de 4,22. A partir de este modelo suavizado con Back-off se
intento predecir cual es el siguiente acto de dialogo del usuario de los conjuntos de test
obteniendo una media de acierto del 87 % en la identificacion del siguiente acto de dialogo
de usuario.

8.6.

Modelos de comprensi
on especficos de Di
alogo

En esta seccion se presenta una aproximacion a la estimacion del componente de


comprension del sistema de dialogo BASURDE, teniendo en cuenta el estado del dialogo
en que nos encontramos dentro del dialogo con el fin de mejorar el comportamiento de la
comprension (Sanchis et al., 2002) (Garca et al., 2003a).
En el sistema de dialogo BASURDE, la representacion de la estructura de dialogo
se realiza por medio de una red estocastica de actos de dialogo. Una de las ventajas
de esta estructura es que es capaz de dar una prediccion de cual va a ser el siguiente
acto de dialogo de usuario esperado. Esta informacion se puede emplear en el proceso
de comprension, en particular, se pueden emplear diferentes modelos de comprension en
funcion del tipo de acto de dialogo anterior del sistema (Xu y Rudnicky, 2000a) (Hacioglu

8.6. Modelos de comprension especficos de Dialogo

133

y Ward, 2001).
Nos centraremos en el primer nivel de etiquetado de dialogo, que corresponde al comportamiento del dialogo independiente de la tarea. Este primer nivel presenta las siguientes
etiquetas de dialogo: Apertura, Cierre, Indefinida, Espera, Nueva consulta, No entendido,
Afirmaci
on, Confirmaci
on, Pregunta y Respuesta. Un ejemplo de anotacion a un nivel se
muestra en la Figura 8.4.
S1:
U1:
S2:
U2:

Bienvenido al sistema automatico de informacion de trenes regionales y de largo recorrido, que desea? (S:Apertura)
Puede decirme a que hora salen los trenes de Valencia a Barcelona?
(U:Pregunta)
De Valencia a Barcelona,(S:Confirmation) que dia quiere salir?
(S:Confirmaci
on S:Pregunta)
El proximo jueves (U:Respuesta)
Figura 8.4: Ejemplo de etiquetado de dialogo a un nivel

8.6.1.

Modelizaci
on especfica de la comprensi
on

Para conseguir modelos especficos se han clasificado las muestras en funcion del estado
del dialogo. Se dividieron las muestras de entrenamiento del usuario en 10 subconjuntos.
Cada subconjunto es asociado con el primer nivel de etiquetas de dialogo, y contiene el
turno de usuario que sigue a esta etiqueta. Por ejemplo, el conjunto Apertura contiene
todos los turnos de usuario que se han pronunciado despues de haber generado el sistema
el acto de dialogoApertura. Como ya se ha comentado en la introduccion, pensamos que
esta clasificacion de las muestras permite una mejor modelizacion de los turnos de usuario.
Posteriormente despues de analizados los subconjuntos obtenidos se comprobo que solo
cuatro de los subconjuntos, los que corresponden a las etiquetas Apertura, Confirmaci
on,
umero de muestras suficiente para llevar a
Nueva Consulta y Pregunta, contienen un n
cabo una estimacion aceptable del modelo estocastico.
La modelizacion especializada solo se ha aplicado en el nivel superior de la tecnica de 2
niveles. Justificamos esta eleccion en el hecho de que este nivel representa la semantica de
la entrada, mientras que el nivel inferior representa solo la instanciacion de esta semantica
en terminos de secuencias de palabras. Gracias a esta eleccion, para inferir los modelos
de palabras de cada unidad semantica hemos aprovechado todas las muestras de dicha
unidad en el corpus de entrenamiento.
En el proceso de decodificacion, el controlador de dialogo selecciona el modelo especfico adecuado (Figura 8.5), es decir, el que viene predeterminado por el u
ltimo acto
de dialogo generado por el sistema.

8.6.2.

Experimentaci
on y Conclusiones

Para estudiar la conveniencia de los modelos especficos de dialogo, se realizo una


experimentacion sobre el corpus de BASURDE, comparando los resultados obtenidos con

134

Captulo 8. Modulo de Dialogo

Figura 8.5: Seleccion de los modelos especficos

aquellos que fueron obtenidos empleando un modelo de lenguaje general. A partir de esta
comparacion se presentan una serie de conclusiones.
Para cada subconjunto de muestras correspondiente a cada una de las cuatro etiquetas de dialogo escogidas Apertura, Confirmacion, Nueva consulta y Pregunta se crea un
conjunto de entrenamiento del 75 % y uno de test del 25 %. El primer conjunto se emplea
en el aprendizaje del modelo especfico de esa etiqueta y el segundo se empleara como
test, tanto para el modelo especfico como para el modelo general. El modelo general se
aprende a partir de todo el conjunto de muestras que no es de test. Notese que el conjunto
de aprendizaje para el modelo general es mucho mayor que el de los modelos especficos.
En particular hay etiquetas para las cuales el conjunto de aprendizaje para el modelo
general, supera el 90 % de las muestras.
Sobre los conjuntos de test definidos anteriormente se han hecho tres experimentos de
comprension: uno con la transcripcion manual de las pronunciaciones del usuario (Texto),
y otros dos con la salida de dos reconocedores diferentes. El primero (Rec. 1) con un Word
Accuracy del 81,1 % y el segundo (Rec. 2) con un Word Accuracy del 84,8 %.
Para estos experimentos se han utilizado las cuatro medidas de comprension a nivel
de lenguaje intermedio y frame ya definidas en el captulo de dicado a la experimentacion
porcentaje de secuencias semanticas correcta ( %ssc), porcentaje de unidades semanticas
correctas ( %usc), porcentaje de frames correctos ( %fc) y porcentaje de unidades correctas
del frame ( %ufc)
Los resultados ( %ssc, %usc, %fc y %ufc) obtenidos empleando modelos especficos (esp.)
y general (gen.) aparecen en la Tabla 8.1
Aunque el porcentaje de turnos completamente comprendidos ( %fc) no es muy alto,
en algunos conjuntos, el porcentaje de atributos y tipo de frame identificados ( %ufc)
s que es suficientemente bueno, incluso cuando las frases son la salida del reconocedor.
Esto permite que en sucesivos turnos de dialogo, el sistema pueda completar informaciones
sobre atributos y corregir errores.
En cuanto al comportamiento de los modelos especficos, se puede observar que es mejor en los conjuntos Apertura y Confirmaci
on, que corresponden a tipos de intervenciones
con estructuras mas similares. En los otros casos no se consiguen mejoras, pero hay que

8.6. Modelos de comprension especficos de Dialogo

135

%ssc
%usc
%fc
%ufc

Apertura
Texto
Rec. 1
esp. gen. esp. gen.
50,9 50,2 22,4 22,9
89,6 88,7 73,8 73,3
76,7 71,2 39,5 36,1
91,6 89,4 72,2 67,8

Rec. 2
esp. gen.
23,4 21,5
77,8 76,2
32,7 30,3
73,9 72,5

%ssc
%usc
%fc
%ufc

Confirmacion
Texto
Rec. 1
esp. gen. esp. gen.
80,8 77,7 61,2 58,8
89,7 88,7
71
70,8
91,4 87,1 67,1 64,3
95,1 94,2 75,2 73,9

Rec. 2
esp. gen.
61,2 58,8
74,9 75,9
73,3 69,8
81,9 82,3

%cssu
%csu
%fc
%ufc

Nueva
Texto
esp. gen.
68,3 68,8
86,6 87,4
76,9 78,3
83,5 84,8

consulta
Rec. 1
esp. gen.
40,5 39,6
70,7 70,5
50,7 50,6
64,9 65,7

Rec. 2
esp. gen.
43,9 44,2
73
73,7
55,3 56,2
70,8 72,1

%ssc
%usc
%fc
%ufc

Pregunta
Texto
Rec. 1
esp. gen. esp. gen.
73,3 77,1 51,4 52,4
82,6 87,1 67,5 70,2
77,1 88,6 59,1 60,9
87,1 92,8 70,1 72,2

Rec. 2
esp. gen.
54,3 53,3
67,2 69,3
62,9 61,9
77,6 78,8

Tabla 8.1: Resultados de los experimentos sobre modelos especficos y generales para las
etiquetas Apertura, Confirmaci
on, Nueva consulta y Pregunta.
tener en cuenta que el conjunto de muestras de aprendizaje es muy peque
no para los modelos especficos. Es de esperar que con una futura ampliacion del corpus, se obtenga una
mejora de resultados para estas clases y para otras clases que no han sido consideradas en
estos experimentos. Ademas el uso de tecnicas de interpolacion puede servir para sacar
mayor partido de ambos tipos de modelos (especficos y general).

136

Captulo 8. Modulo de Dialogo

Captulo 9

Conclusiones y Trabajos Futuros


En este trabajo se ha desarrollado un sistema capaz de abordar de forma automatica
a partir de muestras la tarea de comprension de un sistema de dialogo hablado para un
entorno semantico restringido. El sistema representa distintos niveles de conocimiento
del lenguaje considerados como modelos de estados finitos que se aprenden de forma
automatica a partir de corpora anotados con informacion semantica.
Para ello se han empleado metodos estocasticos, aprendizaje automatico a partir de
datos y tecnicas de inferencia gramatical. Estos modelos emplean la tecnica de 2 niveles
para representar la informacion de las secuencias de unidades semanticas establecidas en el
corpus, as como la informacion de las secuencias de palabras asociadas a cada una de esta
unidades semanticas, permitiendo una segmentacion y etiquetado secuencial de la frase
completa de entrada. Un sistema de reglas convierte este lenguaje semantico intermedio
en un frame semantico, que es la representacion semantica elegida para esta tarea.
Se han inferido modelos de bigramas suavizados con tecnica estandar como es el Back
off para ambos niveles, empleando el SLM toolkit. Tambien se han inferido modelos
empleando el algoritmo ECGI y el algoritmo (r,k)-TTSSI empleando la tecnica de reetiquetado de muestras para suavizar estos modelos. Estos modelos han sido evaluados y
contrastados experimentalmente sobre el corpus de BASURDE, tanto la version transcrita manualmente como la version correspondiente a la salida de dos reconocedores de
voz de las universidades del Pas Vasco y de Zaragoza. Se ha constatado que los modelos
de bigramas, a
un siendo mas peque
nos en tama
no y teniendo en cuenta que solo modelan el contexto de la palabra anterior, dan buenos resultados, e incluso mejores que las
aproximaciones gramaticales.
Tambien se han inferido modelos de bigramas a dos niveles para la tarea de consulta de
horarios y precios de trenes ARISE obteniendo resultados similares al modelo estocastico
de un nivel implementado por el LIMSI con modelos ergodicos de Markov. Ademas se
ha estudiado la manera de enriquecer automaticamente la anotacion del corpus ARISE
a
nadiendo en la segmentacion de la frase las palabras adjacentes a los conceptos encontrados. Para ello se crea un algoritmo que automaticamente selecciona las palabras. Los
resultados obtenidos a
nadiendo el contexto muestran que es interesante ampliar la anotacion de los conceptos, aunque posteriormente un programa debe extraer las palabras
a
nadidas a la hora de emplear el programa de normalizacion de los valores del ARISE que

137

138

Captulo 9. Conclusiones y Trabajos Futuros

convierte los conceptos encontrados en un frame con valores normalizados.


Por u
ltimo se ha estudiado la posibilidad de crear un controlador de dialogo dirigido
por la semantica, donde un modelo de secuencias de actos de dialogo dirige el dialogo y es
capaz de predecir cual es el siguiente estado de dialogo del sistema o del usuario. Gracias
a esta prediccion se pueden emplear modelos especficos de comprension en funcion del
estado del dialogo en que se encuentre el sistema.
Los trabajos futuros que se derivan de este trabajo y que actualmente se estan investigando se centran en varias direcciones:
- el uso de otras aproximaciones gramaticales, como por ejemplo el MGGI, metodologa de inferencia gramatical basada en el reetiquetado de muestras, para crear
modelos de uno y dos niveles para la primera fase del modelo de comprension con el
fin de mejorar las prestaciones del modulo de comprension, los experimentos preliminares muestran que es difcil mejorar las prestaciones del modulo de comprension
partiendo de un corpus tan reducido,
- se intenta suministrar al controlador del dialogo el mayor n
umero de informaciones
posibles para que pueda tomar decisiones, tal es el caso de las medidas de confianza,
tanto de la fase de reconocimiento de la voz como las obtenidas de las probabilidades de transicion de los modelos estocasticos de la primera fase del modelo de
comprension. Ello permitira al controlador de dialogo conocer aquellas partes de la
frase de entrada que tiene un bajo nivel de confianza en el reconocedor o en la fase
de comprension, pudiendo as iniciar un dialogo clarificador con el fin de confirmar
estas informaciones,
- dentro de un nuevo proyecto CICYT denominado DIHANA, que es la continuacion
de BASURDE, se va a llevar a cabo una adquisicion de nuevos dialogos con lo que
se ampliara el corpus disponible sobre la tarea; ello nos permitira la creacion de
unos nuevos modelos mejor estimados, tanto en los modelos generales a dos niveles,
como en los modelos especficos de dialogo, que esperamos contribuyan a mejorar
las prestaciones del sistema de comprension.

Ap
endice A

L
exico de la tarea
Este documento contiene el lexico generado para la tarea del proyecto, que contiene
1.799 formas (Arranz et al., 2000). Previo a su desarrollo, se ha llevado a cabo un estudio detallado del vocabulario utilizado en los dos corpora tambien desarrollados para
el proyecto: el persona-persona (Bonafonte y Mayol, 1999) y el persona-maquina creado
mediante la tecnica del Mago de Oz (Sesma et al., 1999). El lexico se ha generado con las
entradas seleccionadas de estos corpora junto con todas aquellas que se ha considerado
morfologica o semanticamente pertinente a
nadir. Los criterios de seleccion y ampliacion
se han establecido en funcion del tipo de entrada lexica de la siguiente manera:
Lista de categoras abiertas, excluyendo verbos: estas han sido organizadas en relacion a la funcion semantica del vocabulario, tal y como se muestra a continuacion:
- Nombres propios (de ciudades y estaciones): esta lista contiene todos los nombres propios relevantes para la tarea que se han extrado de los corpora y de
la pagina web de Renfe (i.e., largo recorrido).
- Fechas e intervalos de fecha.
- Horas e intervalos de hora (tambien compartido con tiempo de recorrido).
- Tipo de da.
- Tipo de tren: este listado tambien ha sido ampliado con nombres de trenes
extrados de la web de Renfe.
- Tipo de viaje.
- Clase de billete.
- N
umero relativo de orden (diferente de los numerales cardinales que forman
parte de la lista de categoras cerradas).
- Precio.
- Tiempo de recorrido.
- Servicios.
- Otras entradas de la tarea: vocabulario relacionado con la tarea, pero que no
se ci
ne a ninguna de las clases anteriores.
139

140

Apendice A. Lexico de la tarea


- Generales: vocabulario de caracter general que se acepta para permitir al usuario una cierta flexibilidad de expresion durante los dialogos.
- Locuciones: expresiones unidas como unidades locutivas dado su caracter semantico de conjunto. Asimismo, el tratar estos elementos como bloques u
nicos facilita
su tarea de reconocimiento y tratamiento.
Lista de categoras cerradas: contiene el siguiente conjunto de clases:
- Cardinales.
- Ordinales.
- Preposiciones y contracciones.
- Conjunciones.
- Pronombres interrogativos.
- Pronombres indefinidos.
- Pronombres personales.
- Pronombres demostrativos.
- Adverbios.
- Determinantes.
Lista de verbos: la seleccion de los verbos para la tarea tambien se ha llevado a cabo
en funcion de aquellos utilizados por los usuarios en los corpora de que disponemos
y a
nadiendose algunos semanticamente relacionados (la Seccion A.3 muestra los 121
verbos seleccionados en sus formas infinitivas). Sin embargo, dado que la generacion
automatica de todas las formas para estos 121 verbos nos proporcionaba una lista de
algo mas de 6.500 formas, se ha efectuado un filtrado de esta en base a los siguientes
criterios:
1.

De estas 6.500 formas se han seleccionado todas aquellas que corresponden a


tiempos o modos verbales pertinentes a la tarea, resultando una lista de 1.459
formas. Los tiempos y modos verbales tratados se presentan en la Seccion A.4.

2.

De estas 1.459 formas se ha efectuado una segunda fase de criba, donde se han
seleccionado manualmente las formas correspondientes a las personas y n
umero
pertinentes para cada verbo, quedandonos as con 854 formas diferentes que
han pasado a formar parte del lexico (Seccion A.5).

3.

A estas 854 formas, se han de a


nadir las correspondientes a formas verbales
compuestas por clticos (pronombres de complemento directo e indirecto), tanto
las 44 extradas de los corpora (Seccion A.6) como las 46 que se han generado
para cubrir posibles necesidades por parte del usuario (Seccion A.7).

A continuacion se muestran los listados del vocabulario restringido que se ha generado


para el proyecto. Estos listados estan clasificados tal y como se ha explicado. En algunos
casos puede darse que una misma entrada ocurra bajo dos categoras diferentes (ej.:
consulta como sustantivo y verbo), pero estas repeticiones ya han sido eliminadas del
fichero con el lexico completo.

A.1. Listado de Categoras Abiertas (excluyendo verbos)

A.1.

141

Listado de Categoras Abiertas (excluyendo verbos)

Nombres propios (ciudades


y estaciones)
Abando
na
A Coru
Alacant
Alacant Terminal
Albacete
Alc
azar de San Juan
Algeciras
Alicante
Alicante Termino
Almera
Arc de Triomf
Atocha
Austerlitz
Avila
Badajoz
Baeza
Barcelona
Barcelona Arc de Triomf
Barcelona Clot Arag
o
Barcelona Estacio de Franca
Barcelona Passeig de Gracia
Barcelona Placa Catalunya
Barcelona Sant Andreu Arenal
Barcelona Sant Andreu Comtal
Barcelona Sants
Barcelona Termino
Bern
Berna
Bilbao
Bilbao Abando
Bilbo
Bobadilla
Burgos
C
aceres
C
adiz
Campo Grande
Cartagena
Castell
o
Castell
o de la Plana
Castell
on
Castell
on de la Plana
Chamartn
Ciudad Real
Clot Arag
o
C
ordoba
C
ordoba Central
Coru
na
Cuenca
Donostia

Elda Preter
El Ferrol
El Portillo
Estacio de Franca
Ferrol
Figueras
Figueres
Franca
Fribourg
Friburgo
Gasteiz
Geneve
Gerona
Gij
on
Gij
on Jovellanos
Ginebra
Girona
Granada
Guadalajara
Huelva
Huelva Termino
Huesca
Ir
un
Iru
na
Jaen
Jerez de la Frontera
Jovellanos
La Coru
na
Le
on
Lerida
Linares
Linares Baeza
Lisboa
Lisboa Santa Apolonia
Lleida
Logro
no
Lorca
Lorca Sutullena
Lugo
Madrid
Madrid Atocha
Madrid Chamartn
Madrid Ministerios
Madrid Norte
Madrid Principe Pio
Madrid Puerta de Atocha
Madrid Recoletos
M
alaga
Medina del Campo
Merida
Milano
Ministerios

Miranda de Ebro
Monforte de Lemos
Montpellier
Murcia
Murcia del Carmen
Navalmoral de la Mata
O Porto
O Porto Campanha
Orense
Ourense
Oviedo
Palencia
Pamplona
Pars
Pars Austerlitz
Passeig de Gracia
Placa Catalunya
Plaza Catalu
na
Ponferrada
Pontevedra
Portbou
Porto
Porto Campanha
Principe Pio
Puerta de Atocha
Puerto de Santa Mara
Puertollano
Recoletos
Reus
Sahag
un
Salamanca
San Sebasti
an
Santa Justa
Santander
Sant Andreu Arenal
Sant Andreu Comtal
Santiago
Santiago de Compostela
Sants
Segovia
Sevilla
Sevilla Santa Justa
Soria
Tarragona
Termino
Teruel
Toledo
Torino
Tudela de Navarra
Valencia
Valladolid
Valladolid Campo Grande

142

Apendice A. Lexico de la tarea


Vigo
Villena
Vitoria
Zamora
Zaragoza
Zaragoza El Portillo
Zurich
Fechas e intervalos
de fecha
abril
agosto
anteayer
a
no
a
nos
a
no nuevo
ayer
diciembre
domingo
domingos
da
das
enero
febrero
fecha
fechas
fin
fines
fin de semana
fines de semana
hoy
invierno
jueves
julio
junio
lunes
martes
marzo
mayo
mes
meses
miercoles
navidad
navidades
nochebuena
nochevieja
noviembre
octubre
oto
no
primavera
quincena
reyes
semana

semanas
septiembre
s
abado
s
abados
verano
viernes
Horas e intervalos de hora
(+tiempo de recorrido)
cuarto
hora
horas
minuto
minutos
ma
nana
ma
nanas
madrugada
media
medioda
momento
momentos
noche
noches
tarde
tardes

electrotrenes
estrella
euromed
euromeds
expreso
expresos
expres
extremadura
finisterre
galicia
intercities
intercity
miguel de unamuno
nocturno
nocturnos
pablo picasso
po baroja
regional
regional delta
regionales
talgo
talgos
tren hotel
trenes hotel
triana
Tipo de viaje

Tipo de da
festivo
festivos
laborable
laborables
Tipo de tren
alaris
alta velocidad
antonio machado
arco
arcos
ave
aves
catalunya expres
c
omodo
c
omodos
costa brava
covadonga
delta
directo
directos
diurno
diurnos
electrotren

ida
vuelta
Clase de billete
asiento
butaca
cama
camas
gran clase
litera
literas
preferente
sentado
sentada
turista
N
umero relativo de orden (diferente de numerales ordinales)
antepen
ultima
antepen
ultimas
antepen
ultimo
antepen
ultimos
anterior
anteriores

A.1. Listado de Categoras Abiertas (excluyendo verbos)


pen
ultima
pen
ultimas
pen
ultimo
pen
ultimos
posterior
posteriores
siguiente
siguientes
u
ltima
u
ltimas
u
ltimo
u
ltimos

Precio
barata
baratas
barato
baratos
billete
billetes
cara
caras
caro
caros
coste
descuento
descuentos
econ
omico
econ
omicos
importe
precio
precios
pesetas
tarifa
tarifas

Tiempo de recorrido
duraci
on
largo
r
apido
r
apidos
recorrido
tiempo
Servicios
ambiental
autoexpreso
bar
bar m
ovil
cafetera

Otras entradas
de la tarea
almuerzo
almuerzos
cabina
cena
cenas
ciudad
ciudades
comida
comidas
compartimento
compartimentos
consulta
consultas
destino
direcci
on
estaci
on
favor
horario
horarios
informaci
on
llegada
llegadas
maleta
maletas
merienda
meriendas
n
umero
origen
parada
paradas
pregunta
pr
oxima
pr
oximas
pr
oximo
pr
oximos
regreso
salida
salidas
taquilla
taquillas
tipo
tipos
transbordo
transbordos
trayecto
trayectos
tren
trenes
viaje
viajes
va

Generales
acuerdo
adi
os
adulto
adultos
aeropuerto
aj
a
amable
buenas
bueno
buenos
cambio
camino
carnet
carnet de estudiante
carnet joven
caso
cierto
claro
concreto
correcto
cosa
departamento
diferencia
diferente
diferentes
distinta
distintas
distinto
distintos
doble
estudiante
estudiantes
estupendo
exacta
exacto
fallas
frecuencia
gracias
grupo
hola
igual
interesada
intermedia
intermedias
intermedio
intermedios
itinerario
jubilado
jubilados
lento
lentos
localidad

143
localidades
manera
mayor
mayores
mejor
necesario
necesarios
ni
no
ni
nos
nombre
normal
opci
on
opciones
pasajero
pasajeros
pascua
pensionista
perd
on
perfecto
persona
personas
pico
plaza
plazas
posibilidad
posibilidades
posible
posibles
problema
problemas
punto
ramos
reducida
regularidad
relativa
respuesta
retorno
reserva
roco
sanfermines
santo
seguro
se
nor
se
norita
solo
suficiente
suplemento
tarjeta dorada
vacaciones
vale
vaya
verdad
vez

144

Apendice A. Lexico de la tarea


Locuciones
acerca de
adem
as de
a eso de
a medioda
a partir de
a la inversa

A.2.

al cabo de
alrededor de
al reves
antes de
as como
cerca de
ida y vuelta
de acuerdo

de manera que
dentro de
dentro del
en direcci
on a
en medio de
en particular
en principio
en realidad

en torno a
en vez de
es decir
con tal de
m
as o menos
o sea
para que
por ejemplo

por favor
por supuesto
respecto a
siempre que
tal vez

Listado de Categoras Cerradas

Cardinales
cero
uno
dos
tres
cuatro
cinco
seis
siete
ocho
nueve
diez
once
doce
trece
catorce
quince
dieciseis
diecisiete
dieciocho
diecinueve
veinte
veintiuno
veinti
un
veintid
os
veintitres
veinticuatro
veinticinco
veintiseis
veintisiete
veintiocho
veintinueve
treinta
cuarenta
cincuenta
sesenta
setenta
ochenta
noventa

cien
ciento
doscientas
doscientos
trescientas
trescientos
cuatrocientas
cuatrocientos
quinientas
quinientos
seiscientas
seiscientos
setecientas
setecientos
ochocientas
ochocientos
novecientas
novecientos
mil
Ordinales
primera
primeras
primeros
primero
primer
segunda
segundas
segundo
segundos
terceras
tercera
terceros
tercer
tercero
cuarto
cuarta
cuartos
cuartas
quinta
quinto

quintas
quintos

tras
al
del

Conjunciones
aunque
como
cuando
donde
e
ni
o
pero
porque
pues
que
si
sino
u
y
Preposiciones y
contracciones
a
bajo
con
contra
de
desde
durante
en
entre
hacia
hasta
para
por
seg
un
sin
sobre

Pronombres
interrogativos
c
omo
cu
al
cu
ales
cu
ando
cu
anta
cu
antas
cu
anto
cu
antos
d
onde
que
Pronombres
indefinidos
algo
alguien
alguna
algunas
alguno
algunos
nada
nadie
ninguna
ninguno
ningunas
ningunos

ella
nosotros
nosotras
ellos
ellas
me
te
se
le
lo
nos
les
usted
Pronombres
demostrativos
este
esta
estos
estas
ese
esa
esos
esas
aquel
aquella
aquellos
aquellas
esto
eso
aquello
Adverbios

Pronombres
personales
yo
el
ello

acaso
adelante
adem
as
adonde
ad
onde

A.3. Listado de Verbos para la Tarea (formas infinitivas)


ah
ahora
all
a
all
anoche
antes
aparte
aprisa
aqu
as
a
un
bien
casi
cerca
delante
dentro
despues
detr
as
entonces
excepto
fuera
inclusive
incluso
lejos
luego
mal
m
as
medio
menos
mientras
muy
no

A.3.

nunca
pronto
quiz
a
quiz
as
salvo
siempre
s
s
olo
tambien
tampoco
tan
temprano
todava
ya
concretamente
efectivamente
exactamente
excesivamente
preferiblemente
pr
oximamente
relativamente
seguramente
simplemente
solamente
u
nicamente
aproximadamente
directamente
Determinantes
alg
un
ambas

ambos
aquel
aquella
aquellas
aquellos
bastante
bastantes
cada
cualesquiera
cualquier
cualquiera
cuya
cuyas
cuyo
cuyos
demasiada
demasiadas
demasiado
demasiados
dem
as
el
esa
esas
ese
esos
esta
estas
este
estos
la
las
los

145
mi
ma
mas
mo
mos
mis
misma
mismas
mismo
mismos
mucha
muchas
muchsimas
mucho
muchos
ning
un
nuestra
nuestras
nuestro
nuestros
otra
otras
otro
otros
poca
pocas
poco
pocos
sendas
sendos
su
sus

suya
suyas
suyo
suyos
tal
tales
tanta
tantas
tanto
tantos
toda
todas
todo
todos
tu
tus
tuya
tuyas
tuyo
tuyos
un
una
unas
unos
varias
varios
vuestra
vuestras
vuestro
vuestros

Listado de Verbos para la Tarea (formas infinitivas)

acabar
acompa
nar
admitir
adquirir
agradecer
ahorrar
almorzar
aprovechar
apuntar
atender
averiguar
buscar
calcular
cambiar
cenar

circular
coger
comentar
comer
compartir
comprar
concretar
confirmar
conocer
conseguir
consultar
convencer
convenir
costar
creer

dar
deber
decidir
decir
depender
desayunar
desear
disculpar
disponer
dormir
durar
efectuar
elegir
enlazar
entender

equivocar
escuchar
esperar
estar
evitar
existir
facilitar
facturar
faltar
funcionar
gastar
gustar
haber
hablar
hacer

imaginar
incluir
indicar
informar
intentar
interesar
ir
llamar
llegar
llevar
marchar
merendar
meter
mirar
molestar

146

Apendice A. Lexico de la tarea


necesitar
obtener
oir
pagar
parar
parecer
partir
pasar
pedir
pensar

A.4.

perder
perdonar
permitir
poder
preferir
preguntar
preocupar
quedar
querer
realizar

recoger
recordar
reducir
referir
regresar
repetir
reservar
residir
saber
sacar

salir
seguir
sentar
sentir
ser
suponer
tardar
tener
tomar
trabajar

valer
venir
ver
viajar
vivir
volver

Listado de Modos y Tiempos Verbales Seleccionados


acabar
acompa
nar
admitir
adquirir
agradecer
ahorrar
almorzar
aprovechar
apuntar
atender
averiguar
buscar
calcular
cambiar (+clit)
cenar
circular
coger (+clit)
comentar
comer
compartir
comprar (+clit)
concretar
confirmar (+clit)
conocer
conseguir
consultar (+clit)
convencer (+clit)
convenir (+clit)
costar (+clit)
creer
dar (+clit)
deber
decidir
decir (+clit)
depender

Inf, Pres-Ind, PP
Inf, PP (+fem)
Inf, Pres-Ind
Inf, Pres-Ind, Cond
Inf, PP (+fem)
Inf
Inf
Inf
Inf, Pres-Ind, PP
Inf, Pres-Ind
Inf
Inf
Inf, Pres-Ind
Inf, Pres-Ind, Pres-Sub, Imp
Inf
Inf, Pres-Ind, Pres-Sub
Inf, Pres-Ind, Pas-Imp, Fut-Imp, Cond, Imp-Sub, PP, Ger,
Imp
Inf(+clit:selo), Pres-Ind, PP
Inf
Inf, Ger, PP
Inf, Pres-Ind, Cond
Inf, Ger
Inf, Pres-Sub, Imp-Sub
Inf
Inf, Pres-Ind
Inf, Pres-Ind
Inf, Pres-Ind
Inf, Imp-Ind, Cond
Inf, Pres-Ind, Fut-Imp, Cond
Inf, Pres-Ind
Inf, Pres-Ind, Imp-Ind, Pas-Ind, Fut-Imp, Pres-Sub, ImpSub, Imp(+clit:melos), PP
Inf, Pres-Ind, Cond
Inf, Pres-Ind, Fut-Imp, Imp-Sub
Inf(+clit:melo), Pres-Ind, Imp-Ind, Pas-Imp, Fut-Imp,
Pres-Sub, Imp-Sub, Fut-Sub, Imp(+clit), PP, Ger
Inf, Pres-Ind

A.4. Listado de Modos y Tiempos Verbales Seleccionados


desayunar
desear
disculpar
disponer
dormir
durar
efectuar
elegir
enlazar
entender (+clit)
equivocar
escuchar
esperar
estar
evitar
existir
facilitar
facturar
faltar
funcionar
gastar
gustar
haber
hablar
hacer (+clit)
imaginar
incluir
indicar
informar (+clit)
intentar
interesar (+clit)
ir (+clit)
llamar
llegar
llevar
marchar
merendar
meter
mirar
molestar
necesitar
obtener
oir (+clit)
pagar (+clit)
parar
parecer
partir
pasar
pedir
pensar

Inf
Inf, Pres-Ind, Cond
Inf, Imp
Inf, Pres-Ind
Inf, PP (+fem)
Inf, Pres-Ind
Inf, Pres-Ind
Inf, Pres-Ind, Imp-Sub
Inf
Inf, Pres-Ind, PP
Inf, PP
Inf, Pres-Ind, Imp
Inf, Imp
Inf, Pres-Ind, Imp-Ind, Cond, Pres-Sub
Inf, Ger
Inf, Pres-Ind
Inf
Inf
Inf, Pres-Ind
Inf, Pres-Ind
Inf, Fut-Imp, Cond
Inf, Cond
Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond, Pres-Sub, Imp-Sub,
PP, Aux
Inf, Pres-Ind, Ger, Imp
Inf, Pres-Ind, Pas-Ind, Fut-Imp, Cond, Pres-Sub, Imp(tb.
+clit), PP, Ger(tb. +clit)
Inf, Pres-Ind
Inf, PP, Ger
Inf
Inf, Imp-Sub
Inf
Inf, Pres-Ind, Imp-Ind, Cond, PP
Inf, Pres-Ind, Imp-Ind, Pas-Ind, Fut-Imp, Cond, Pres-Sub,
Imp-Sub, PP
Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond, PP, Ger
Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond, Pres-Sub, PP
Inf, Pres-Ind, Imp-Ind, Pres-Sub, Imp-Sub
Inf, Pres-Sub
Inf
Inf
Inf, Imp, PP
Inf, Pres-Sub (s
olo: moleste/molesten)
Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond
Inf
Inf, Pres-Ind, Imp (oye/oiga/oigame)
Inf, Cond
Inf, Pres-Ind, Pres-Sub, Cond, Imp-Sub
Inf, Pres-Ind, PP
Inf, Pres-Ind, Pres-Sub
Inf, Pres-Ind, Fut-Imp, Pres-Sub, PP, Ger
Inf, Pres-Ind, Imp-Ind, PP, Ger
Inf, Pres-Ind, Fut-Imp

147

148

Apendice A. Lexico de la tarea


perder
perdonar (+clit)
permitir
poder
preferir
preguntar (+clit)
preocupar
quedar (+clit)
querer
realizar (+clit)
recoger (+clit)
recordar
reducir
referir
regresar
repetir (+clit)
reservar (+clit)
residir
saber (+clit)
sacar
salir
seguir
sentar
sentir
ser
suponer
tardar
tener
tomar
trabajar
valer
venir
ver
viajar
vivir
volver

Inf, Pres-Ind, Fut-Imp


Inf, Imp
Inf, Pres-Ind, Pres-Sub, PP
Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond, Pres-Sub, Imp-Sub,
PP
Inf, Pres-Ind, Cond
Inf, PP
Inf, Pres-Ind, Cond, Pres-Sub
Inf
Inf, Pres-Ind, Imp-Ind, Cond, Imp-Sub
Inf, Pres-Ind
Inf
Inf, Pres-Ind
Inf, PP
Inf, Pres-Ind, Imp-Ind
Inf, Pres-Ind, Ger
Inf, Pres-Ind, Imp
Inf, Imp
Inf, Pres-Ind
Inf, Pres-Ind, Cond
Inf, Pres-Ind
Inf, Pres-Ind, Imp-Ind, Cond, Pres-Sub, Imp-Sub, Ger
Inf
Inf, PP
Inf, Pres-Ind
Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond, Pres-Sub, Imp-Sub,
Ger, PP
Inf, Pres-Ind
Inf, Pres-Ind, Cond
Inf, Pres-Ind, Imp-Ind, Fut-Imp, Cond, Pres-Sub, Imp-Sub
Inf, Pres-Ind, Imp-Sub
Inf, Pres-Ind
Inf, Pres-Ind, Fut-Imp, Cond
Inf, Pres-Ind, Pres-Sub
Inf, Pres-Ind, Fut-Imp, PP
Inf, Pres-Ind
Inf, Pres-Ind
Inf, Pres-Ind, Fut-Imp, Cond, Pres-Sub, Ger

donde:
Inf:
Pres-Ind:
Imp-Ind:
Pas-Ind:
Fut-Imp:
Cond:
Pres-Sub:
Imp-Sub:
Fut-Sub:
Imp:
PP:
PP (+fem)

Infinitivo
Presente de Indicativo
Preterito Imperfecto de Indicativo
Preterito Indefinido de Indicativo
Futuro Imperfecto de Indicativo
Condicional
Presente de Subjuntivo
Preterito Imperfecto de Subjuntivo
Futuro Imperfecto de Subjuntivo
Imperativo
Participio
Participio en forma femenina

A.5. Listado de Formas Verbales del Lexico


Ger:
Aux:
+clit:

A.5.

149

Gerundio
Auxiliar (para las formas de haber como auxiliar)
Forma con cltico(s)

Listado de Formas Verbales del L


exico

acabar
acompa
nar
admitir
adquirir
agradecer
ahorrar
almorzar
aprovechar
apuntar
atender
averiguar
buscar
calcular
cambiar
cenar
circular
coger
comentar
comer
compartir
comprar
concretar
confirmar
conocer
conseguir
consultar
convencer
convenir
costar
creer
dar
deber
decidir
decir
depender
desayunar
desear
disculpar
disponer
dormir
durar
efectuar
elegir

enlazar
entender
equivocar
escuchar
esperar
estar
evitar
existir
facilitar
facturar
faltar
funcionar
gastar
gustar
haber
hablar
hacer
imaginar
incluir
indicar
informar
intentar
interesar
ir
llamar
llegar
llevar
marchar
merendar
meter
mirar
molestar
necesitar
obtener
oir
pagar
parar
parecer
partir
pasar
pedir
pensar
perder

perdonar
permitir
poder
preferir
preguntar
preocupar
quedar
querer
realizar
recoger
recordar
reducir
referir
regresar
repetir
reservar
residir
saber
sacar
salir
seguir
sentar
sentir
ser
suponer
tardar
tener
tomar
trabajar
valer
venir
ver
viajar
vivir
volver
acaba
acabado
acabamos
acaban
acabas
acabo
acompa
nada
acompa
nado

admite
admiten
admits
adquiero
adquirimos
adquirira
adquiriramos
agradecida
agradecido
apunta
apuntado
apuntamos
apunto
atendemos
atendeis
atiende
atienden
atiendes
atiendo
calcula
calculamos
calculan
calculas
calculo
cambia
cambiad
cambiamos
cambian
cambias
cambie
cambien
cambies
cambio
cambi
ais
circula
circulan
circule
circulen
coge
cogemos
cogen
cogeremos
cogere

cogera
cogeramos
cogido
cogiendo
cogiera
cogieran
cogiese
cogiesen
cogimos
cogieramos
cogiesemos
cogi
o
cog
coja
cojamos
cojo
comenta
comentado
comentamos
comentan
comento
compartida
compartido
compartiendo
compra
compramos
compran
comprara
compraramos
compro
concretando
confirmara
confirmarais
confirmaran
confirmaras
confirmase
confirmaseis
confirmasen
confirmases
confirme
confirmemos
confirmen
confirm
aramos

150

Apendice A. Lexico de la tarea


confirm
asemos
conseguimos
consigo
consigue
consiguen
consulta
consultamos
consultan
consulto
convence
convencemos
convendra
convena
convenan
costar
a
costar
an
costara
20
costaran
cuesta
cuestan
cree
creemos
crees
creo
da
daba
daban
dad
dado
dais
dan
daremos
dar
a
dar
an
das
den
des
diera
dieran
dieron
diese
diesen
dio
de
debe
debera
deberan
debo
decide
deciden
decidiera
decidiese
decidimos

decidiremos
decidir
a
decidire
decidieramos
decidiesemos
decido
decid
decimos
deca
decas
di
dice
dices
dicho
diciendo
diga
digamos
digan
digas
digo
dijera
dijeras
dijeres
dijeron
dijese
dijeses
dijiste
dijo
dijeramos
dijesemos
dir
an
dire
depende
dependemos
dependo
deseamos
deseara
desearamos
deseo
disculpa
disculpe
dispone
disponemos
disponen
dispones
dispongo
disponeis
dormida
dormido
dura
duran
efectuamos
efect
uo
elegimos

eligiera
eligiese
eligieramos
eligiesemos
elijamos
elijo
entendemos
entendido
entiende
entiendo
equivocada
equivocado
escucha
escuche
escucho
espera
espere
estaba
estamos
estara
estaramos
estemos
estoy
est
a
est
abamos
est
an
este
evitando
existe
existen
falta
faltan
funciona
funcionan
gastaremos
gastare
gastara
gastaramos
gustara
he
has
ha
hemos
habeis
han
haba
habas
habamos
habais
haban
habre
habr
as
habr
a
habremos

habreis
habr
an
habra
habramos
habrais
habran
hubiera
hubiese
hubieras
hubieses
hubieramos
hubiesemos
hubierais
hubieseis
hubieran
hubiesen
haya
hayas
hayamos
hay
ais
hayan
habido
habla
hablaba
hablado
hablando
hable
hablemos
hablo
hace
haced
hacemos
hacen
haciendo
haga
hagamos
hagan
hagas
hago
haremos
har
a
har
an
har
as
hare
hara
haramos
haran
haras
haz
hecha
hecho
hice
hicieron
hicimos

hizo
iba
iban
ido
iremos
ir
a
ir
an
ire
ira
iramos
iran
va
vamos
van
vaya
vayamos
vayan
voy
bamos
fui
fue
fuimos
fueron
fuera
fueran
fuese
fuesen
fueramos
fuesemos
imagino
incluida
incluido
incluyendo
informara
informaran
informaras
informase
informasen
informases
interesa
interesaba
interesaban
interesada
interesado
interesan
interesara
interesaran
llamaba
llamada
llamado
llamando
llamaremos
llamare
llamara

A.5. Listado de Formas Verbales del Lexico


llamaramos
llamo
llam
abamos
llega
llegaba
llegaban
llegada
llegado
llegamos
llegan
llegaremos
llegar
a
llegar
an
llegare
llegara
llegaramos
llegaran
llego
llegue
lleguemos
lleguen
lleg
abamos
lleva
llevaba
llevamos
llevan
llevara
llevaran
llevase
llevasen
lleve
llevemos
lleven
llevo
llev
aramos
llev
asemos
marche
marchemos
marchen
mira
mirado
mire
moleste
molesten
necesita
necesitaba
necesitaban
necesitamos
necesitan
necesitaremos
necesitar
a
necesitar
an
necesitara
necesitaramos

necesitaran
necesito
necesit
abamos
oigo
oye
oiga
pagara
pagaramos
pagaran
para
paramos
paran
parara
pararan
parara
pararamos
pararan
parase
parasen
pare
paremos
paren
paro
par
aramos
par
asemos
parece
parecido
parta
partamos
partan
parte
parten
partimos
parto
pasa
pasado
pasamos
pasan
pasando
pasaremos
pasar
a
pasare
pase
pasemos
paso
pedido
pedimos
peda
pedamos
pidiendo
pido
pensamos
pensaremos
pensare

pienso
perdemos
perderemos
perdere
pierdo
perdona
perdone
permita
permitan
permite
permiten
permitido
permit
ais
permits
podemos
podido
podremos
podr
a
podr
an
podr
as
podre
podreis
podra
podrais
podramos
podran
podras
podeis
poda
podamos
podan
podas
pudiera
pudierais
pudieran
pudieras
pudiese
pudieseis
pudiesen
pudieses
pudieramos
pudiesemos
pueda
puede
pueden
puedes
puedo
preferimos
preferira
preferiramos
prefiero
preguntado
preocupa
preocupan

151
preocupara
preocuparan
preocupe
preocupes
preocupo
queremos
querra
querramos
quera
queramos
quiere
quieren
quiero
quisiera
quisieran
quisiese
quisiesen
quisieramos
quisiesemos
realiza
realizamos
realizan
realizo
recordamos
recuerda
recuerdan
recuerdo
reducida
reducido
referimos
refera
referamos
referan
refiere
refieren
refiero
regresa
regresamos
regresan
regresando
regreso
repita
repite
repites
reserva
reserve
residimos
resido
sabe
sabemos
saben
sabes
sabra
sabramos

sabras
se
saca
sacamos
sacan
sacas
saco
saldra
saldramos
saldran
sale
salen
salga
salgamos
salgan
salgo
saliendo
saliera
salieran
saliese
saliesen
salimos
salieramos
saliesemos
sala
salan
sentada
sentadas
sentado
sentados
sentimos
siento
sea
seamos
sean
seremos
ser
a
ser
an
sere
sera
seramos
seran
seras
se
ais
sido
siendo
somos
son
soy
era
eran
es
eramos
supone

152

Apendice A. Lexico de la tarea


suponemos
supongo
tarda
tardamos
tardan
tardara
tardaramos
tardaran
tardo
tendremos
tendr
a
tendr
an
tendre
tendra
tendramos
tendras
tenemos
tenga
tengo
teneis

A.6.

toman
tomara
tomaran
tomase
tomasen
tomo
tom
aramos
tom
asemos
trabaja
trabajamos
trabajan
trabajo
valdr
a
valdr
an
valdra
valdran
vale
valen
valido
venga

vengamos
vengan
vengas
vengo
venimos
viene
vienen
vemos
veo
veremos
ver
a
ver
an
ver
as
vere
visto
viaja
viajamos
viajan
viajo
viajare

viajaremos
vive
viven
vivimos
vivo
volvamos
volvemos
volveremos
volver
a
volver
an
volvere
volvera
volveramos
volveran
volviendo
vuelva
vuelvan
vuelve
vuelven
vuelvo

Formas Verbales con Clticos Extradas de los Corpora

cambiarlo
cogerlo
comentarle
comprarlo
confirmarlo
confirmarme
darme
decirle
decirlo
decirme
decrmelo

A.7.

tena
tenais
tenamos
tenan
tenas
tiene
tienen
tienes
tuviera
tuvierais
tuvieran
tuvieras
tuviese
tuvieseis
tuviesen
tuvieses
tuvieramos
tuviesemos
toma
tomamos

deme
dime
d
amelos
dgame
entenderle
hacerla
hacerlas
hacerle
hacerlo
hacerme
hacerte

haciendolo
h
agame
informarle
informarme
informarse
interesarme
irme
marcharme
oigame
pagarlas
perd
oname

preguntarle
preguntarte
quedarme
realizarlo
recogerlas
recogerme
repetirme
reservarlo
reservarme
reserveme
saberlo

Formas Verbales con Clticos A


nadidas

c
ambialo
c
ambielo
c
ambiamelo
c
ambiemelo
cambiarlos
cambi
armelo
cambi
armelos
c
ogeme
cogerlos
c
ojame
comprarlos
confirmarlos

confirm
armelo
confirm
armelos
confirmarnos
consultarle
costarme
costarnos
dame
danos
darnos
d
amelo
d
armelo
d
armelos

demelo
demelos
denos
disc
ulpeme
disc
ulpenos
esc
uchame
esc
ucheme
hazme
irnos
irse
marcharnos
oirle

pagarlo
pagarlos
pagarla
perd
oneme
quedarnos
repetrmelo
reptamelo
repteme
reptame
reservarlos

Ap
endice B

Reducci
on del L
exico de Basurde
A continuacion se muestra en contenido de los dos ficheros de diccionario que se han
empleado en los experimentos de comprension del proyecto BASURDE.

B.1.

Fichero de lemas y sin


onimos

En la siguiente lista se muestra la conversion a lemas realizada en la tarea BASURDE,


donde se ha transformado las formas verbales a infinitivos y ademas palabras con el mismo
significado y poca cantidad de muestras se han tranformado en una u
nica forma (la palabra
mas frecuente) para poder ser mejor modelizadas.
acaba:acabar
acabado:acabar
acuerdo:recordar
admite:admitir
amigos:amigo
apunto:apuntar
baratos:barato
billetes:billete
butacas:butaca
caros:caro
capitales:capital
ciudades:ciudad
cogiendo:coger
cog:coger
comentado:comentar
compartida:compartir
comunicaciones:comunicaci
on
concretamente:concreto
concretas:concreto
confortables:confortable
costara:costar
creo:creer
cubran:cubrir
cuesta:costar
cu
ales:cu
al

dado:dar
dan:dar
darme:dar
decimos:decir
decirle:decir
decirme:decir
deis:dar
deja:dejar
descuentos:descuento
deseara:desear
deseo:desear
dicho:decir
diferentes:diferente
diga:decir
digas:decir
dijera:decir
dijerais:decir
dijeras:decir
directos:directo
disculpe:disculpar
dispone:disponer
dispongo:disponer
distinta:distinto
dura:durar
dgame:decir

153

efectivamente:efectivo
elijo:elegir
ellas:ella
ellos:el
en torno a:alrededor de
entendido:entender
equivocado:equivocar
era:ser
es:ser
estaba:estar
estamos:estar
estara:estar
est
a:estar
exactamente:exacto
excesivamente:excesivo
existe:existir
fuese:ser
fuera:ser
fui:ir
funciona:funcionar
gustara:gustar
ha:haber
hablando:hablar
habra:haber
haba:haber

154

Apendice B. Reduccion del Lexico de Basurde


hace:hacer
hacen:hacer
hacerlo:hacer
haga:hacer
has:haber
hay:haber
haya:haber
he:haber
hecho:hacer
hice:hacer
hubiera:haber
ibais:ir
importa:importar
incluyendo:incluir
informaras:informar
informarme:informar
informases:informar
interesa:interesar
interesada:interesar
interesado:interesar
interesarme:interesar
interesara:interesar
interesaran:interesar
irme:ir
ira:ir
literas:litera
llamaba:llamar
llega:llegar
llegaba:llegar
llegado:llegar
llegan:llegar
llegare:llegar
llegue:llegar
lleguen:llegar
lleva:llevar
lleve:llevar
localidades:localidad
los:el
mira:mirar
mire:mirar
muchsimas:muchas
mos:mo
necesitaba:necesitar
necesitara:necesitar
necesito:necesitar
ning
un:ninguno
ninguna:ninguno
opciones:opci
on
otras:otra
otros:otro
paradas:parada
paramos:parar
parecido:parecer
pasajeros:pasajero

pasamos:pasar
pasan:pasar
pasando:pasar
pase:pasar
peda:pedir
perdone:perdonar
permita:permitir
permite:permitir
personas:persona
plazas:plaza
podr
a:poder
podra:poder
podramos:poder
podras:poder
poda:poder
posee:poseer
posibilidades:posibilidad
posibiliten:posibilitar
posibles:posible
precios:precio
preferiblemente:preferir
preferira:preferir
prefiero:preferir
prontamente:pronto
pudiera:poder
pueda:poder
puedan:poder
puede:poder
pueden:poder
puedes:poder
puedo:poder
quedado:quedar
quedarme:quedar
querra:querer
quera:querer
quieren:querer
quiero:querer
quisiera:querer
realiza:realizar
realizan:realizar
realizarlo:realizar
recordado:recordar
recuerdo:recordar
regionales:regional
regresa:regresar
regreso:regresar
relativa:relativo
relativamente:relativo
repetirme:repetir
repita:repetir
resido:residir
reserveme:reservar
sabe:saber
saldra:salir

sale:salir
salen:salir
salga:salir
salgan:salir
salgo:salir
saliendo:salir
saliera:salir
sal:salir
sala:salir
sali
o:salir
se:saber
sea:ser
sean:ser
seguramente:seguro
sentados:sentado
separado:separar
ser
a:ser
sera:ser
sido:ser
siendo:ser
simplemente:simple
solamente:s
olo
somos:ser
son:ser
supongo:suponer
sus:su
talgos:talgo
tarda:tardar
tarifas:tarifa
tendre:tener
tendra:tener
tenemos:tener
tengo:tener
teniendo:tener
teneis:tener
tena:tener
tiene:tener
tienen:tener
tienes:tener
toma:tomar
u
nicamente:
unico
va:ir
valencianos:valenciano
vamos:ir
van:ir
vayan:ir
vendr
an:venir
ver
a:ver
viajare:viajar
viajes:viaje
viene:venir
vienen:venir
vivo:vivir
volvere:volver

B.2. Fichero de Categoras


volviendo:volver
voy:ir
vuelva:volver
vuelvan:volver
vuelve:volver
vuelvo:volver
s
abados:s
abado
domingos:domingo
noches:noche
arcos:arco
aves:ave

B.2.

155
coches:coche
c
omodos:c
omodo
durmiendo:dormir
motoexpresos:motoexpreso
peri
odicos:peri
odico
revistas:revista
debe:deber
deberan:deber
tendr
a:tener

deltas:delta
electrotrenes:electrotren
estrellas:estrella
euromeds:euromed
expreso:expres
expresos:expres
intercitys:intercity
festivos:festivo
laborables:laborable
coches cama:coche cama
camas:cama

Fichero de Categoras

En este fichero se han agrupado, por razones de cobertura, aquellas palabras que
pertenecen a una determinada categora semantica, sustituyendo sus ocurrencias por una
secuencia de caracteres que no pertenezca al vocabulario de la tarea.
lunes:diasem
jueves:diasem
domingo:diasem

enero:nom mes
abril:nom mes
julio:nom mes
octubre:nom mes

cero:numero u
dos:numero u
cinco:numero u
ocho:numero u
once:numero u
catorce:numero u
diecisiete:numero u
veinte:numero u
veintid
os:numero u
veinticinco:numero u
veintiocho:numero u
cuarenta:decenas
setenta:decenas
ciento:centenas
trescientas:centenas
seiscientas:centenas
novecientas:centenas

da semana
martes:diasem
viernes:diasem

miercoles:diasem
s
abado:diasem

nombre de mes
febrero:nom mes
mayo:nom mes
agosto:nom mes
noviembre:nom mes

n
umeros ordinales
una:numero u
tres:numero u
seis:numero u
nueve:numero u
doce:numero u
quince:numero u
dieciocho:numero u
veintiuna:numero u
veintitres:numero u
veintiseis:numero u
veintinueve:numero u
cincuenta:decenas
ochenta:decenas
cien:centenas
cuatrocientas:centenas
setecientas:centenas
novecientos:centenas

marzo:nom mes
junio:nom mes
septiembre:nom mes
diciembre:nom mes

uno:numero u
cuatro:numero u
siete:numero u
diez:numero u
trece:numero u
dieciseis:numero u
diecinueve:numero u
veintiuno:numero u
veinticuatro:numero u
veintisiete:numero u
treinta:decenas
sesenta:decenas
noventa:decenas
doscientas:centenas
quinientas:centenas
ochocientas:centenas
mil:miles

156

Apendice B. Reduccion del Lexico de Basurde

fiestas
semana santa:nom fiestas
fallas:nom fiestas
navidad:nom fiestas
nochebuena:nom fiestas
a
nonuevo:nom fiestas
pursima:nom fiestas
constituci
on:nom fiestas

las 4 estaciones
primavera:est anyo
verano:est anyo
oto
no:est anyo
invierno:est anyo

ciudades
a coru
na:nom ciudad
la coru
na:nom ciudad
coru
na:nom ciudad
albacete:nom ciudad
alicante:nom ciudad
almera:nom ciudad
arcos de jal
on:nom ciudad
asturias:nom ciudad
badajoz:nom ciudad
barcelona:nom ciudad
benicarl
o:nom ciudad
benic
assim:nom ciudad
bilbao:nom ciudad
las borges blanques:nom ciudad
les borges blanques:nom ciudad
borges blanques:nom ciudad
burgos:nom ciudad
calatayud:nom ciudad
cambrils:nom ciudad
cartagena:nom ciudad
castell
o de la plana:nom ciudad
castell
on:nom ciudad
cercedilla:nom ciudad
ciudad real:nom ciudad
coru
na:nom ciudad
cuenca:nom ciudad
c
aceres:nom ciudad
c
adiz:nom ciudad
c
ordoba:nom ciudad
espa
na:nom ciudad
flas
a:nom ciudad
gerona:nom ciudad
gij
on:nom ciudad
girona:nom ciudad
granada:nom ciudad
guadalajara:nom ciudad
huesca:nom ciudad
ir
un:nom ciudad
jaca:nom ciudad
la coru
na:nom ciudad
la tour de querol:nom ciudad
las borges blanques:nom ciudad
le
on:nom ciudad
llanes:nom ciudad
lleida:nom ciudad
logro
no:nom ciudad
loja:nom ciudad
lora del ro:nom ciudad
lorca:nom ciudad
lugo:nom ciudad
lerida:nom ciudad
madrid:nom ciudad
miranda de ebro:nom ciudad
moj
acar:nom ciudad
monz
on:nom ciudad
monz
on ro cinca:nom ciudad
murcia:nom ciudad
m
alaga:nom ciudad
nuria:nom ciudad
orense:nom ciudad
oviedo:nom ciudad
palencia:nom ciudad
pamplona:nom ciudad
pars:nom ciudad
pobla de segur:nom ciudad
pontevedra:nom ciudad
reus:nom ciudad
ribes:nom ciudad
ribes de freser:nom ciudad
sabadell:nom ciudad

B.2. Fichero de Categoras


salamanca:nom ciudad
san sebasti
an:nom ciudad
santander:nom ciudad
santiago de compostela:nom ciudad
sitges:nom ciudad
tarragona:nom ciudad
toledo:nom ciudad
valladolid:nom ciudad
vigo:nom ciudad
vinaroz:nom ciudad
zamora:nom ciudad
a
lora:nom ciudad

157
salou:nom ciudad
san vicente de calders:nom ciudad
santiago:nom ciudad
sevilla:nom ciudad
soria:nom ciudad
teruel:nom ciudad
valencia:nom ciudad
valls:nom ciudad
vilanova y la geltr
u:nom ciudad
vitoria:nom ciudad
zaragoza:nom ciudad

nombre de estaci
on
barcelona sants:nom estacion
benicarl
o pe
nscola:nom estacion
bilbao abando:nom estacion
ciudad real central:nom estacion
c
ordoba central:nom estacion
madrid atocha:nom estacion
madrid chamartn:nom estacion murcia del carmen:nom estacion
m
alaga termino:nom estacion
plaza catalu
na:nom estacion
port aventura:nom estacion
sants:nom estacion
sevilla santa justa:nom estacion zaragoza el portillo:nom estacion

158

Apendice B. Reduccion del Lexico de Basurde

Ap
endice C

Normas de etiquetado de los


di
alogos del proyecto Basurde
C.1.

Introducci
on

El objetivo del presente apartado es mostrar el etiquetado adoptado para etiquetar


los dialogos del proyecto BASURDE. Un dialogo se compone de un conjunto de turnos
de interaccion entre el usuario y la maquina o Mago de Oz (WOZ) que la simula. Cada
turno de dialogo se compone asimismo de varios segmentos, cada uno de los cuales tiene
una finalidad especfica. El objetivo del etiquetado es dar un identificador o etiqueta
para cada uno de estos segmentos que represente esa finalidad y todos los atributos del
dominio implicados en el segmento. La finalidad vendra expresada por un primer nivel de
etiquetado; el deposito de atributos (frame que esta en proceso de cumplimentacion) por
un segundo nivel; los atributos aportados (cases) por un tercer nivel.
Este etiquetado se puede usar para diversas tareas: generacion de dialogos, determinacion de la estrategia del dialogo por metodos inductivos, estudio de nuevos paradigmas
de dialogo, etc.

C.2.

Primer nivel

El primer nivel es reducido y simple y denota la mision principal del segmento de


dialogo. Las subdividiremos en dos conjuntos, Metadialogo e Informativas:
- Metadi
alogo: todas aquellas cuyo contenido semantica es nulo o tan escaso que no
tienen una finalidad informativa completa. Se subdividen en:
- Apertura: segmentos que indican los saludos del comienzo del dialogo; en el
caso de segmentos semejantes en medio del dialogo, que se dan generalmente
por parte del WOZ o la maquina, seran segmentos de Nueva-consulta. En todos
los casos, segundo y tercer nivel a Nil. Cierre: segmentos que indican las frases
de fin del dialogo; se restringe a que sean turnos completos y siempre con
segundo y tercer nivel a Nil.
159

160

Apendice C. Normas de etiquetado de los dialogos del proyecto Basurde


- Indefinida: segmento con palabras de relleno o funciones faticas; nunca interrumpiran segmentos con otro etiquetado de primer nivel (es decir, las palabras
de relleno y vacilaciones que haya en medio de otro segmento con otra intencionalidad, se quedan incluidas dentro del etiquetado de ese segmento, y no
se etiquetan como Indefinida); preferentemente, debera etiquetar turnos completos, aunque se puede usar en segmentos parciales cuando se vea inviable
cualquier otro tipo de etiquetado. Segundo y tercer nivel siempre a Nil.
- No-entendido: segmento que indica una falta de comprension del turno previo o una solicitud de repeticion de los datos aportados en ese turno previo.
Generalmente, se referira solo el turno previo, aunque quizas podra extenderse
a turnos mas anteriores. Siempre tiene segundo y tercer nivel a Nil.
- Espera: segmento que indica la peticion de tiempo extra para poder responder;
generalmente corresponde al sistema o WOZ mientras hace la consulta a la base
de datos. Segundo y tercer nivel a Nil.
- Nueva-consulta: segmento muy habitual en el WOZ tras dar una informacion; suele asociarse a preguntas del tipo Desea algo mas?. o Desea mas
informacion?. Segundo y tercer nivel a Nil.
- Afirmacion: segmento que denota la afirmacion de un dato previo (generalmente, sigue a una etiqueta Confirmacion dada por el WOZ); se particulariza
en segundo y tercer nivel de esta manera:
Si no se especifica mas que la afirmacion, se etiqueta el segundo nivel con
la frame que se esta confirmando, y el tercer nivel queda a Nil.
Si ademas de la afirmacion se repite el dato dado por el WOZ, el segundo
nivel se etiqueta con la frame que se confirma y el tercero se etiqueta con
el case que se da.
El u
nico s que se incorpora al segmento posterior (si es que existe este
segmento) es aquel que va tras una Nueva-consulta del WOZ. Si no hay
segmento posterior, queda etiquetado con segundo y tercer nivel a Nil. La
afirmacion que se suele dar tras un Nueva-consulta siempre se incorpora
al segmento posterior.
- Negaci
on: segmento que niega la validez de un dato previo, generalmente dado
por el WOZ en una etiqueta Confimacion; posteriormente, vendra una etiqueta
Respuesta para dar el dato valido, pero esta negacion se separara siempre de
esta respuesta. El segundo nivel incluira la frame sobre la,que se esta negando
si se conoce con seguridad (en otro caso, se deja a Nil). El tercer nivel queda
a Nil.
- Informativas: todas aquellas que poseen contenido semantica. Se subdividen en:
- Pregunta: todas aquellas interrogaciones (o equivalentes) que preguntan por
algo no dado previamente; como heurstica para el sistema/WOZ, entre el tercer
nivel no debe estar includa ninguna etiqueta que este en segundo nivel, pues
en este caso suele ser Confirmacion. Para el usuario este heurstica no suele ser
valido debido a que pregunta por datos mas exactos (p.ej.: cuando pregunta
por una hora de salida pero dando un intervalo de hora de salida como por la
tarde), o por la validacion de una hipotesis.

C.3. Segundo nivel

161

- Confirmacion: todas las interrogaciones (o equivalentes) que buscan confirmar un dato previo o ya obtenido por el sistema (incluye datos por defecto);
el heurstica a seguir es que en tercer nivel se dice algo que tambien se incluye
en el segundo nivel. Para el caso de usuario, es cuando confirma un dato dado
explcitamente por el sistema/WOZ en turnos previos.
- Respuesta: cualquier respuesta a una pregunta previa que no sea Afirmacion
o Negacion; preferentemente, cubrira turnos completos (sobre todo en el caso
del WOZ). Una respuesta clasica del WOZ suele incluir el n
umero de trenes que
cumplen las condiciones; estas respuestas se incluyen en el frame Hora-salida.

C.3.

Segundo nivel

Este segundo nivel indica la frame que, se esta buscando rellenar para dar la respuesta.
La lista de frames definidas en el modulo de comprension son:
Nil
Hora-salida
Hora-salida-v (para el viaje de vuelta)
Hora-llegada
Hora-llegada-v (para el viaje de vuelta)
Precio
Origen
Destino
Tiempo-recorrido
Para-en
Dia-salida
Dia-llegada
Tipo-tren
Tipo-viaje
Servicio
Por defecto, se supone que las preguntas del usuario estan enfocadas a obtener una
hora de salida (frame Hora-salida). Es posible que esta lista quede ampliada en un futuro
a medida que se encuentren situaciones no abordables.

162

Apendice C. Normas de etiquetado de los dialogos del proyecto Basurde

C.4.

Tercer nivel

El tercer nivel indica los datos que se aportan dentro de segmento; por tanto, indica
los cases que se estan rellenando o se han rellenado en el frame en curso. Los cases, luego
etiquetas de tercer nivel, son:
Nil
Origen
Estacion-origen
Destino
Estacion-destino
Dia
Hora-salida
Hora llegada
Precio (incluyendo terminos como barato, caro, economico, . . . )
Parada-en
Tipo-tren (Talgo, lntercity, Expreso, . . . )
Tipo-viaje (ida, ida y vuelta, vuelta)
Tipo-dia (laborable, festivo . . . )
Numero-relativo-orden (primero, segundo, tercero, u
ltimo, . . . )
Tiempo-recorrido (incluyendo terminos como rapido, lento, . . . )
Numero-trenes
Servicio (primera clase, segunda clase, camas, literas, bar, autoexpreso, . . . )
Esta lista tambien es susceptible de ampliacion a medida que se encuentren situaciones
no encontradas en los dialogos tratados hasta ahora.
A continuacion se muestra un ejemplo de uno de los dialogos anotado con el etiquetado
a tres niveles. Los turnos de usuario aparecen con una U may
uscula delante y los del
mago con una M. La primera lnea que empieza con un # especifica la fecha de
etiquetado, las iniciales del etiquetador y la version del etiquetador empleado.
#Thu Mar 16 20:57:51 2000PAAVersion 5
M0: bienvenido al sistema autom
atico de informaci
on de trenes regionales y de largo recorrido
. que desea ?
bienvenido al sistema autom
atico de informaci
on de trenes regionales y de largo recorrido .
que desea ?
(M:Apertura:Nil:Nil) pal:1-18

C.4. Tercer nivel

163

U0: querra saber horarios de trenes de Zaragoza a Ciudad Real para el pr


oximo viernes por
la tarde o s
abado por la ma
nana .
querra saber horarios de trenes de Zaragoza a Ciudad Real para el pr
oximo viernes por la
tarde o s
abado por la ma
nana .
(U:Pregunta:Hora salida:Destino,Dia,Hora salida,Origen) pal:1-25
M1: lo siento , pero creo que no le he entendido bien . de Zaragoza a Ciudad Real . el viernes
veintinueve de octubre . que m
as ha dicho , por favor ?
lo siento , pero creo que no le he entendido bien .
(M:No entendido:Nil:Nil) pal:1-12
de Zaragoza a Ciudad Real . el viernes veintinueve de octubre .
(M:Confirmacion:Destino,Dia salida,Origen:Destino,Dia,Origen) pal:13-23
que m
as ha dicho , por favor ?
(M:No entendido:Nil:Nil) pal:24-32
U1: s
abado treinta de octubre .
s
abado treinta de octubre .
(U:Respuesta:Dia salida:Dia) pal:1-6
M2: le consulto horarios de Zaragoza a Ciudad Real , el s
abado treinta de octubre . un
momento , por favor .
le consulto horarios de Zaragoza a Ciudad Real , el s
abado treinta de octubre .
(M:Confirmacion:Hora salida:Destino,Dia,Origen) pal:1-14
un momento , por favor .
(M:Espera:Nil:Nil) pal:15-20
U2:
M3: ese da hay seis trenes . el primero sale a las ocho horas de la ma
nana , y el u
ltimo a
las diecisiete horas y treinta minutos . algo m
as ?
ese da hay seis trenes . el primero sale a las ocho horas de la ma
nana , y el u
ltimo a las
diecisiete horas y treinta minutos .
(M:Respuesta:Hora salida:Dia,Hora salida,Numero relativo orden,
Numero trenes) pal:1-28
algo m
as ?
(M:Nueva consulta:Nil:Nil) pal:29-32
U3: hora de llegada del tren de las ocho de la ma
nana .
hora de llegada del tren de las ocho de la ma
nana .
(U:Pregunta:Hora llegada:Hora salida) pal:1-13
M4: ese tren sale a las ocho horas de la ma
nana , y llega a las trece horas y treinta y cuatro
minutos . desea algo m
as ?
ese tren sale a las ocho horas de la ma
nana , y llega a las trece horas y treinta y cuatro
minutos .
(M:Respuesta:Hora llegada:Hora llegada,Hora salida) pal:1-23
desea algo m
as ?
(M:Nueva consulta:Nil:Nil) pal:24-28
U4: s . el siguiente tren , a que hora llega ?
s . el siguiente tren , a que hora llega ?
(U:Pregunta:Hora llegada:Numero relativo orden) pal:1-13
M5: un momento por favor .
un momento por favor .
(M:Espera:Nil:Nil) pal:1-5
U5:

164

Apendice C. Normas de etiquetado de los dialogos del proyecto Basurde

M6: el siguiente sale a las diez horas de la ma


nana , y llega a las dieciseis horas y diecinueve
minutos . desea algo m
as ?
el siguiente sale a las diez horas de la ma
nana , y llega a las dieciseis horas y diecinueve
minutos .
(M:Respuesta:Hora llegada:Hora llegada,Hora salida) pal:1-21
desea algo m
as ?
(M:Nueva consulta:Nil:Nil) pal:22-26
U6: nada m
as gracias .
nada m
as gracias .
(U:Cierre:Nil:Nil) pal:1-5
M7: gracias por utilizar este servicio .
gracias por utilizar este servicio .
(M:Cierre:Nil:Nil) pal:1-6

Ap
endice D

Descripci
on de los escenarios de la
tarea
Para cada tipo de escenario se han definido 10 objetivos concretos (que se numeran
del 0 al 9) y para cada uno de estos se han establecido 5 variantes (numeradas del 1 al
5). De este modo se obtiene un total de 150 escenarios distintos. A cada escenario se le
asigna un codigo en funcion del tipo, el objetivo y la variante, seg
un el siguiente patron:
X.n.m
donde:
X indica el tipo de escenario: A, B o C (vease el apartado 3).
n indica el objetivo del escenario (del 0 al 9).
m indica la variante (del 1 al 5).
El codigo de los escenarios tipo D es:
D.i
donde i es el n
umero de orden (o codigo) asignado al informante.
Es importante mencionar aqu que las variantes 1 y 5 se han destinado a los informantes
de Zaragoza y las variantes 2, 3 y 4 a los informantes de Barcelona. Esta circunstancia ha
sido tenido en cuenta a la hora de formular los escenarios. A continuacion se muestran la
variante 1 y 5 (en esta u
ltima se debe escoger alguno de los valores) de los 10 objetivos
practicados para los tipos A, B y C.

165

166

D.1.

Apendice D. Descripcion de los escenarios de la tarea

Escenarios tipo A

Objetivo 0
C
odigo: A.0.1
Objetivo: Horarios de los trenes hacia destino el pr
oximo viernes por la tarde o s
abado por la
ma
nana.
Situaci
on: Unos parientes suyos celebran las bodas de plata en Ciudad Real el pr
oximo s
abado
por la noche. Prefiere viajar en tren el s
abado por la ma
nana. Si as no llega a tiempo, tendr
a que
salir el viernes por la tarde.

C
odigo: A.0.5
Objetivo: Horarios de los trenes hacia destino el pr
oximo viernes por la tarde o s
abado por la
ma
nana.
Situaci
on: El pr
oximo fin de semana le apetece visitar a unos amigos que viven a unos 300 Kms de
distancia. Escoja la estaci
on de tren m
as pr
oxima a donde ellos viven y su da de salida (viernes
o s
abado) e inf
ormese.

Objetivo 1
C
odigo: A.1.1
Objetivo: Horario de trenes a destino.
Situaci
on: Unos amigos suyos que viven en Lleida acaban de tener un hijo y le gustara hacer una
escapada en tren para visitarles y conocer al recien nacido.

C
odigo: A.1.5
Objetivo: Horario de trenes a destino.
Situaci
on: En estos u
ltimos a
nos, son muchas las ciudades del pas que est
an renov
andose y
mejorando su aspecto. Usted y unos amigos han decido aprovechar este verano para ir a visitar
una de estas ciudades. Escoja una ciudad, capital de provincia, e inf
ormese para organizar su
viaje.

Objetivo 2
C
odigo: A.2.1
Objetivo: Horario de los trenes a destino el fin de semana.
Situaci
on: Usted tiene unos amigos en Alicante que constantemente le invitan a pasar un fin de
semana en su casa de la playa y por fin ha aceptado. Le han comentado que el medio de transporte
m
as confortable es el tren.

D.1. Escenarios tipo A

167

C
odigo: A.2.5
Objetivo: Horario de los trenes a destino el fin de semana.
Situaci
on: Con la llegada de la primavera, son muchas las ciudades del pas que organizan festivales
al aire libre. Usted est
a muy interesado en asistir a una de estas ciudades un fin de semana. Escoja
un fin de semana concreto y una ciudad (capital de provincia o de similar importancia).

Objetivo 3
C
odigo: A.3.1
Objetivo: Horario de los trenes a destino en una fecha determinada.
Situaci
on: Usted quiere ir a los San Fermines el da 7 de julio. Quiere estar en Pamplona el da
anterior para poder asistir al primer encierro.

C
odigo: A.3.5
Objetivo: Horario de los trenes a destino en una fecha determinada.
Situaci
on: Usted puede coger 4 das de fiesta y ha decidido aprovecharlos para hacer una corta
escapada al Pas Vasco. Escoja una capital de provincia vasca y unas fechas.

Objetivo 4
C
odigo: A.4.1
Objetivo: Horario y tipo de los trenes a destino en una fecha determinada por la ma
nana.
Situaci
on: Su jefe acaba de llamar proponiendole que asista a una reuni
on de trabajo en la que
se discutir
an temas relacionados con un proyecto en el que usted est
a trabajando en su empresa.
La reuni
on tendr
a lugar en Monz
on el da 15 de junio por la ma
nana. Deber
a partir el mismo
da 15 por la ma
nana porque la noche anterior tiene una cena familiar. Desea elegir el tren m
as
confortable posible.

C
odigo: A.4.5
Objetivo: Horario y tipo de los trenes a destino en una fecha determinada por la ma
nana.
Situaci
on: El 15 de junio de cada a
no se encuentra con unos amigos que viven en diferentes ciudades
que conoci
o en un viaje a Marruecos. Cada a
no realizan una comida en una ciudad (capital de
provincia o de importancia similar y de marcado interes cultural) diferente. Este a
no usted decide
la ciudad. Escoja una ciudad e inf
ormese de como podr
a usted llegar en tren hasta ella. Tenga en
cuenta el tipo de tren.

Objetivo 5
C
odigo: A.5.1
Objetivo: Horarios de un tipo concreto de tren entre origen y destino.

168

Apendice D. Descripcion de los escenarios de la tarea

Situaci
on: Su empresa est
a colaborando en un proyecto en C
ordoba con una empresa de Madrid.
Ha surgido un problema de u
ltima hora y su jefe le ha insinuado que lo m
as conveniente sera que,
en compa
na de alguien de la empresa de Madrid, se desplazara hasta C
ordoba. Sabe que es una
buena oportunidad para quedar bien con el jefe, pero como tiene mucho trabajo intentar
a perder el
menor tiempo posible en el viaje. Se acercar
a en coche a Madrid, pero el trayecto Madrid-C
ordoba
lo piensa hacer en el Ave.

C
odigo: A.5.5
Objetivo: Horarios de un tipo concreto de tren entre origen y destino. 15
Situaci
on: Tiene una semana de vacaciones y quisiera visitar dos ciudades de las muchas que
no conoce. Para aprovechar la semana, quiere que esten a una distancia relativamente corta en
tren. Escoja esas dos ciudades(capitales de provincia o de importancia similar), e inf
ormese de la
conexi
on entre ellas en tren. Desea evitar los trenes de cercanas cuando haga el viaje.

Objetivo 6
C
odigo: A.6.1
Objetivo: Horario de los trenes de origen a destino el pr
oximo da concreto de la semana.
Situaci
on: Usted reside en San Sebasti
an y tiene unos amigos que van a ir a Bilbao a visitar el
museo Guggenhein el pr
oximo fin de semana. Usted estuvo en el museo recientemente, pero estos
das hay una exposici
on temporal de su escultor favorito. El problema es que sus amigos salen el
viernes y usted el viernes trabaja hasta tarde. Deber
a salir el s
abado.

C
odigo: A.6.5
Objetivo: Horario de los trenes de origen a destino el pr
oximo da concreto de la semana.
Situaci
on: La pr
oxima semana empiezan sus vacaciones. Deber
a acercarse en coche hasta la ciudad
A donde viven los amigos con los cuales piensa ir de viaje en tren hasta la ciudad costera B. Escoja
que da de la semana pr
oxima quiere viajar, elija las ciudades A y B (capitales de provincia o de
importancia similar) e inf
ormese.

Objetivo 7
C
odigo: A.7.1
Objetivo: Horarios de un tipo concreto de tren entre origen y destino en una fecha determinada.
Situaci
on: Quiere asistir a un festival de m
usica medieval que se celebra durante los das 1, 2 y 3
de julio en la ciudad de Cuenca. Usted reside en Guadalajara y desea tomar un r
apido el propio
1 de julio.

C
odigo: A.7.5
Objetivo: Horarios de un tipo concreto de tren entre origen y destino en una fecha determinada.
Situaci
on: Est
a preparando sus vacaciones y ha pensado que este a
no le toca conocer Andaluca.
Escoja una ciudad de la costa para establecer su residencia y elija una ciudad interior para visitar

D.2. Escenarios tipo B

169

un da concreto de sus vacaciones en un tren que sea r


apido. Ambas ciudades han de ser capital
de provincia o de importancia similar.

Objetivo 8
C
odigo: A.8.1
Objetivo: Horarios de un tipo concreto de tren a destino.
Situaci
on: Usted hace muchos a
nos que intenta asistir a la Fiesta de Abril de Sevilla pero diversos
motivos se lo impiden. Este a
no ha decidido visitar Sevilla aunque no sea en abril, pero al menos
quiere viajar en el Ave.

C
odigo: A.8.5
Objetivo: Horarios de un tipo concreto de tren a destino.
Situaci
on: Escoja un tipo de tren (Intercity, Talgo, Euromed, R
apido) y una ciudad de la costa
mediterr
anea para pasar un fin de semana.

Objetivo 9
C
odigo: A.9.1
Objetivo: Horario de trenes de origen a destino.
Situaci
on: Usted reside en Valladolid y quiere ir este verano a Bilbao a visitar el museo Guggenhein.

C
odigo: A.9.5
Objetivo: Horario de trenes de origen a destino.
Situaci
on: Usted tiene 4 das de fiesta y desea aprovecharlos para ver a dos amigos del colegio
que viven en dos ciudades diferentes, aunque no muy alejadas. Escoja las fechas y las ciudades
(capitales de provincia o de importancia similar) e inf
ormese.

D.2.

Escenarios tipo B

Objetivo 0

C
odigo: B.0.1
Objetivo: Horarios y precio desde origen a destino en una fecha determinada.
Situaci
on: Usted reside en Guadalajara y durante sus vacaciones del a
no pasado en Lanjar
on
entabl
o amistad con una familia de C
aceres. Ha decidido ir a visitarles estas vacaciones y pasar
unos das en esa ciudad que desconoce. Prefiere llevarse a toda su familia en tren. Su idea es
desplazarse a primeros de agosto. Para precisar el da se informar
a de la oferta de trenes. El precio
del viaje le ser
au
til para empezar a presupuestar sus vacaciones.

170

Apendice D. Descripcion de los escenarios de la tarea

C
odigo: B.0.5
Objetivo: Horarios y precio desde origen a destino en una fecha determinada.
Situaci
on: Desea pasar una semana de vacaciones en una capital de provincia gallega. El viaje de
ida lo hace en coche con unos amigos, pero la vuelta la ha de hacer por su cuenta. Elija la ciudad
que le gustara visitar y el da que preferira volver.

Objetivo 1
C
odigo: B.1.1
Objetivo: Precio de un tipo concreto de tren para un horario determinado.
Situaci
on: Usted es un gran aficionado a la m
usica cl
asica y ha conseguido entradas para una
o
pera en el Liceo de Barcelona el S
abado 26 de junio. La o
pera empieza a las 22.30 y quiere ir a
Barcelona en un tren r
apido.

C
odigo: B.1.5
Objetivo: Precio de un tipo concreto de tren para un horario determinado.
Situaci
on: Imagnese que es un medico y que debe acudir a la presentaci
on de un producto de una
on
compa
na farmaceutica. La sede de la compa
na est
a en CIUDAD DESTINO y la presentaci
es el DIA, a la HORA. Escoja la CIUDAD DESTINO entre capitales de provincia o ciudades de
importancia similar, y el DIA y la HORA de la presentaci
on. Elija el tipo de tren en el que le
gustara realizar el viaje. Compruebe que el precio no sea excesivamente caro.

Objetivo 2
C
odigo: B.2.1
Objetivo: El horario y el precio de un tipo concreto de tren.
Situaci
on: Suponga que en un par de meses realizar
a una estancia de 9 meses en Madrid por
motivos de trabajo. Ha planeado acudir previamente a Madrid para hablar sobre las condiciones
de trabajo y ha concertado su visita el pr
oximo lunes a las 12:30 de la ma
nana. Ha decidido viajar
en el Talgo, si no es excesivamente caro, y as comprobar por usted mismo si es tan buen tren
como dicen.

C
odigo: B.2.5
Objetivo: El horario y el precio de un tipo concreto de tren.
Situaci
on: Acaban de comunicarle que su hermana, que vive en una capital de provincia del sur de
Espa
na, ha tenido un hijo. Desea ir a verla ma
nana mismo, pero, como no sabe conducir, ir
a en
tren. Quiere ir en un tren r
apido pero barato.

D.2. Escenarios tipo B

171

Objetivo 3
C
odigo: B.3.1
Objetivo: Horario y precio de trenes de una ciudad origen a una ciudad destino en una determinada
fecha.
Situaci
on: Usted reside en Soria y unos buenos amigos suyos, que est
an viviendo en Benicassim, le
han ofrecido la posibilidad de pasar con ellos unos das durante las pr
oximas vacaciones de verano.
Sus vacaciones empiezan el da 31 de julio y le apetece salir cuanto antes, siempre y cuando el
viaje no sea excesivamente caro. Como sus amigos le recoger
an en la estaci
on, no debera llegar a
Benicassim ni muy pronto ni muy tarde.

C
odigo: B.3.5
Objetivo: Horario y precio de trenes de una ciudad origen a una ciudad destino en una determinada
fecha.
Situaci
on: Por razones de trabajo su pareja y usted se encuentran durante una temporada en
ciudades muy alejadas, una del sur y otra del norte de Espa
na. Elija la ciudad en la que usted se
encuentra destinado entre capitales de provincia o ciudades de importancia similar. Resulta que el
pr
oximo martes es el aniversario de cuando se conocieron y deciden encontrarse en Madrid para
festejarlo. Le interesa estar en Madrid lo antes posible, pero no muy temprano, siempre que no le
cueste excesivamente caro.

Objetivo 4
C
odigo: B.4.1
Objetivo: Precio de trenes a una ciudad dada en una determinada fecha.
Situaci
on: Este verano se va de vacaciones a la India. El vuelo sale desde Barcelona a las 12 de
la ma
nana del da 3 de agosto. Usted quiere estar en el aeropuerto unas 2 horas antes de las 12 y
preferira no tener que hacer noche en Barcelona, aunque tenga que madrugar.

C
odigo: B.4.5
Objetivo: Precio de trenes a una ciudad dada en una determinada fecha.
Situaci
on: Escoja una capital de provincia del Pas Vasco donde supondremos que tiene una oferta
de trabajo. Decida un da para ir a visitar la empresa e inf
ormese de la disponibilidad de trenes
desde Zaragoza a la ciudad vasca y del precio del billete.

Objetivo 5
C
odigo: B.5.1
Objetivo: Horarios y precio de un tipo concreto de tren desde una ciudad origen a una ciudad
destino para un da determinado (viaje de ida y vuelta).
Situaci
on: Usted vive en Sevilla y viaja con frecuencia a Madrid por motivos laborales. Sabe que
hay un nuevo tren (ha visto anuncios en la tele, pero no recuerda el nombre) que es bastante

172

Apendice D. Descripcion de los escenarios de la tarea

r
apido y c
omodo. De hecho quiere conocer la forma m
as r
apida de realizar este tipo de viaje y ver
las posibilidades de ir y volver en el mismo da (siempre das laborables).

C
odigo: B.5.5
Objetivo: Horarios y precio de un tipo concreto de tren desde una ciudad origen a una ciudad
destino para un da determinado (viaje de ida y vuelta).
Situaci
on: Usted vive en CIUDAD ORIGEN y tiene una reuni
on que le exige estar en CIUDAD DESTINO (elija la ciudad destino a una distancia no superior a 200 km de su ciudad de
residencia) el DIA (elija da). La reuni
on comenzar
a a primera HORA de la tarde (elija la hora)
y no durar
a mucho (m
aximo 2 horas). Desea regresar en el da.

Objetivo 6
C
odigo: B.6.1
Objetivo: Horarios, precios y tipo de tren a destino el pr
oximo fin de semana.
Situaci
on: Usted tiene una boda el pr
oximo s
abado en La Coru
na a las 12 del medioda y el
lunes a las ocho debe estar de vuelta en el trabajo. No quiere viajar el mismo s
abado y por tanto
quiere tomar alg
un tren el viernes por la tarde, teniendo en cuenta que sale del trabajo a las tres.
Desconoce que trenes hay ni de que tipo son. Adem
as, el precio del viaje es un dato necesario para
tomar la decisi
on.

C
odigo: B.6.5
Objetivo: Horarios, precios y tipo de tren a destino el pr
oximo fin de semana.
Situaci
on: Escoja una ciudad con estaci
on de tren y a una distancia razonable teniendo en cuenta
que quiere pasar en ella el pr
oximo fin de semana con su pareja. Inf
ormese de la disponibilidad de
trenes para organizar su viaje de forma que aproveche al m
aximo el fin de semana. Como no le
gusta viajar de cualquier manera, tambien quiere conocer los tipos de tren y por cuanto le sale el
viaje.

Objetivo 7
C
odigo: B.7.1
Objetivo: Horarios y precios a destino desde origen en un intervalo de tiempo dado. 22
Situaci
on: Usted se encuentra por razones de trabajo en Madrid y tiene por fin unos das para
visitar Cuenca, la famosa ciudad encantada. En las pr
oximas semanas dispondr
a de un fin de
semana largo (jueves a domingo) y quiere aprovecharlos al m
aximo, sin importarle madrugar. No
sabe si los horarios de tren le permitir
an realizar esa visita y desconoce el coste del viaje.

C
odigo: B.7.5
Objetivo: Horarios y precios a destino desde origen en un intervalo de tiempo dado.

D.2. Escenarios tipo B

173

Situaci
on: Suponga que reside en una ciudad de la costa catalana. Escoja otra ciudad de la costa
mediterr
anea andaluza donde deseara llevar a su familia la primera semana del pr
oximo mes, pues
ha conseguido unos das de permiso. Quiere olvidarse del coche y por tanto viajar
an en tren.

Objetivo 8
C
odigo: B.8.1
Objetivo: Confirmar el horario y averiguar el tipo de tren y el precio entre origen y destino un da
determinado de la semana.
Situaci
on: Usted reside en Vigo y tendr
a que viajar con frecuencia a Madrid por motivos laborales.
Son visitas de un da y prefiere llegar descansado en el tren a pegarse el madrug
on para coger el
primer avi
on. Le interesa confirmar si hay alg
un tren nocturno (salida sobre las 10 de la noche)
los domingos e informarse del tipo de tren (lleva camas o literas) y el precio del billete.

C
odigo: B.8.5
Objetivo: Confirmar el horario y averiguar el tipo de tren y el precio entre origen y destino un da
determinado de la semana.
Situaci
on: Escoja dos ciudades que usted sepa que tengan conexi
on nocturna en tren. Decida cual
de ellas es la ciudad origen y suponga una cierta hora de salida del tren nocturno. Intente confirmar
que efectivamente hay alg
un tren nocturno a esa hora o similar para esta noche y averig
ue que
tipo de tren hace ese trayecto y cuanto cuesta el billete.

Objetivo 9
C
odigo: B.9.1
Objetivo: Horarios, precio y tipo de tren de origen a destino.
Situaci
on: Usted se presenta a unas oposiciones que convoca el ayuntamiento de Ciudad Real. La
idea es ir a Madrid en avi
on y desde all en tren. Las oposiciones empiezan el martes 6 de julio
a las 18.00 horas y pueden acabar el miercoles al medioda o el jueves al medioda (depende de
cuantos candidatos se presenten finalmente). Quiere saber los horarios y tipos de los diferentes
trenes, con el precio del billete en primera, siempre teniendo en cuenta que hay que combinar con
el avi
on en Madrid.

C
odigo: B.9.5
Objetivo: Horarios, precio y tipo de tren de origen a destino.
Situaci
on: Usted es representante de una f
abrica de calzado y se ha desplazado en coche por motivos
laborales a una ciudad de Castilla - La Mancha (a elegir). Tena previsto seguir viaje profesional
hacia otra ciudad de Castilla - Le
on (a elegir). Su coche ha sufrido una avera y deber
a permanecer
en un taller de la primera ciudad dos das. Por tanto, su plan es ahora ir en tren desde la ciudad
de Castilla - La Mancha a la ciudad de Castilla - Le
on. Necesita conocer los horarios y tipos de
trenes disponibles para reorganizar toda su ruta y el precio del billete para su planificaci
on de
gastos.

174

D.3.

Apendice D. Descripcion de los escenarios de la tarea

Escenarios tipo C

Objetivo 0

C
odigo: C.0.1
Objetivo: Precios y horarios de ida y vuelta para una ciudad concreta en unas fechas determinadas.
Situaci
on: Tiene una reuni
on de negocios en Palencia el pr
oximo miercoles a las 11 de la ma
nana.
Es muy posible que la reuni
on se alargue hasta bien entrada la tarde. Como no le gustara tener
que pernoctar en Palencia, quiere saber si podra viajar en litera o coche-cama.

C
odigo: C.0.5
Objetivo: Precios y horarios de ida y vuelta para una ciudad concreta en unas fechas determinadas.
Situaci
on: Trabaja en la sucursal de una importante empresa cuya sede central est
a situada en
una ciudad diferente (escoja una entre capitales de provincia) a la de su residencia. El pr
oximo
jueves tiene una importante reuni
on en la sede central, reuni
on que previsiblemente durar
a todo
el da. Preferira viajar c
omodamente en coche cama.

Objetivo 1
C
odigo: C.1.1
Objetivo: Precios y horarios de ida y vuelta entre dos ciudades dadas, para unas fechas determinadas y en un tipo concreto de tren.
Situaci
on: Un amigo suyo que vive en Castell
on ha tenido un accidente y usted, que se encuentra
casualmente en Barcelona, quiere ir a visitarlo. Puede coger un tren el viernes por la tarde y volver
el domingo por la noche. Le gustara hacer un viaje c
omodo y r
apido, por eso intentar
a coger el
Euromed o alg
un otro tren r
apido (como el Talgo).

C
odigo: C.1.5
Objetivo: Precios y horarios de ida y vuelta entre dos ciudades dadas, para unas fechas determinadas y en un tipo concreto de tren.
Situaci
on: Usted va a hacer un viaje de dos semanas a una ciudad A (capital de provincia) y desea
visitar un museo que se encuentra en otra capital de provincia B durante el fin de semana. Con
antelaci
on al viaje a la ciudad A, usted llama al servicio de informaci
on para averiguar los horarios
de trenes entre las ciudades A y B que circulan el s
abado. Desea viajar en un tren r
apido.

Objetivo 2
C
odigo: C.2.1
Objetivo: Precios y horarios de ida y vuelta para ir a una ciudad dada a pasar un fin de semana.
Situaci
on: Tiene que visitar a un amigo enfermo en Santander el fin de semana. Le gustara salir el
viernes por la tarde despues del trabajo y poder regresar el domingo por la noche. No le importa

D.3. Escenarios tipo C

175

viajar de noche, pero no quiere ni coche-cama ni litera. En la vuelta, el tren tiene que llegar antes
de las 12 de la noche del domingo, ya que el lunes temprano tiene una importante reuni
on en el
trabajo a la que le gustara acudir descansado.

C
odigo: C.2.5
Objetivo: Precios y horarios de ida y vuelta para ir a una ciudad dada a pasar un fin de semana.
Situaci
on: Piense en una actividad que practica con unos amigos que viven en una ciudad (escoja
una entre capitales de provincia o de importancia similar) distinta de su ciudad de residencia. Ha
quedado que el fin de semana visitar
a a sus amigos para practicar esa actividad en com
un. Desea
viajar en un tren r
apido pero que no sea muy caro.

Objetivo 3
C
odigo: C.3.1
Objetivo: Horarios y precios de los trenes (ida y vuelta) entre dos ciudades concretas para un da
determinado.
Situaci
on: Unos amigos americanos, que se encontrar
an en Madrid el pr
oximo jueves en tr
ansito
para pasar las vacaciones en Grecia, han decidido hacer una escapada para verle y de paso visitar
a la Pilarica. Le han pedido que les organice el viaje sabiendo que llegar
an a Madrid a las 8 de la
ma
nana y salen para Atenas a las 9 de la noche. Sus amigos son muy mirados con el dinero.

C
odigo: C.3.5
Objetivo: Horarios y precios de los trenes (ida y vuelta) entre dos ciudades concretas para un da
determinado.
Situaci
on: Escoja una ciudad origen (en la que le gustara estar de vacaciones) y una ciudad destino
tales que, por su proximidad o por que existan trenes r
apidos entre ellas, sea posible organizar un
viaje de ida y vuelta el mismo da para realizar una actividad de 4 o
5 horas en la ciudad destino.
Escoja un da y pida informaci
on para preparar el viaje.

Objetivo 4
C
odigo: C.4.1
Objetivo: Horarios y precios de trenes a una ciudad concreta sabiendo el da de ida y el da de
vuelta.
Situaci
on: Por ser las fiestas locales tiene 3 das de vacaciones. Est
a pensando en ir con su familia
a Barcelona para visitar el Aquarium, el zoo, el puerto y alguna otra cosa. Quiere salir de viaje el
da 16 de junio y volver el 19.

C
odigo: C.4.5
Objetivo: Horarios y precios de trenes a una ciudad concreta sabiendo el da de ida y el da de
vuelta.

176

Apendice D. Descripcion de los escenarios de la tarea

Situaci
on: Usted dispone de varios das de vacaciones y desea visitar alguna ciudad de Espa
na.
Escoja la ciudad que va a visitar (entre capitales de provincia o de importancia similar) y unas
fechas concretas de ida y vuelta dentro del presente o del pr
oximo mes.

Objetivo 5
C
odigo: C.5.1
Objetivo: Precios y horarios de ida y vuelta a Valencia para pasar unos das por Fallas.
Situaci
on: Quiere hacer una visita a Valencia durante las Fallas. Como esta semana tiene turno
de trabajo por la ma
nana y ha pedido fiesta el jueves, saldra el miercoles 17 despues de comer
para regresar el domingo a u
ltima hora. No le importara viajar de noche en coche-cama siempre
que no le salga demasiado caro

C
odigo: C.5.5
Objetivo: Precios y horarios de ida y vuelta a Valencia para pasar unos das por Fallas.
Situaci
on: Por Fallas, quiere hacer un viaje de ida y vuelta a Valencia. Prefiere viajar de noche ya
que resulta m
as tranquilo. Deseara que el viaje no fuera muy caro. Elija las fechas para el viaje,
pero suponga que tiene cierta flexibilidad en los das de salida y de vuelta.

Objetivo 6
C
odigo: C.6.1
Objetivo: Horarios y precios de un viaje de fin de semana a una ciudad determinada.
Situaci
on: Usted tiene la familia en Jaca. Ha decidido que este fin de semana ir
a a verlos, ya que
este viernes por la tarde no trabaja. Puede salir a partir de las 5 de la tarde y quiere llegar lo antes
posible. No le importa el que el precio del billete sea caro. Quisiera volver el domingo a partir de
las 5 de la tarde.

C
odigo: C.6.5
Objetivo: Horarios y precios de un viaje de fin de semana a una ciudad determinada.
Situaci
on: Usted tiene la familia en una ciudad (esc
ojala entre capitales de provincia o ciudades
de importancia similar) distinta de la ciudad en la que reside. Ha decidido que este fin de semana
va a ir a verlos, ya que este viernes por la tarde no trabaja.

Objetivo 7
C
odigo: C.7.1
Objetivo: Horarios y precio para un viaje a Madrid, haciendo la ida y la vuelta el mismo da.
Situaci
on: Usted vive en Sevilla y tiene que ir a una reuni
on en la sede central de su empresa que
est
a en Madrid. La reuni
on es el jueves de la semana pr
oxima. Por razones de trabajo tiene que ir
y volver el mismo da. La reuni
on est
a convocada a las 10 de la ma
nana y se espera que termine

D.3. Escenarios tipo C

177

hacia las 5 de la tarde. Debe ser muy puntual en la llegada. Le sede de la empresa est
a cerca (a
unos 15 minutos) de la estaci
on de Atocha. Le interesa, si lo horarios lo permiten, ir en AVE,
primera clase.

C
odigo: C.7.5
Objetivo: Horarios y precios haciendo la ida y la vuelta el mismo da.
Situaci
on: Escoja una ciudad como su lugar de residencia. Tiene que hacer un viaje de ida y vuelta
el mismo da a Madrid o Barcelona por motivos de trabajo o particulares. Escoja el da que quiere
ir (o los das que podra ir) y las horas aproximadas de salida y llegada que le permitan realizar
sus actividades en la ciudad correspondiente. Busque siempre trenes r
apidos como el AVE, Talgo
o Intercity.

Objetivo 8
C
odigo: C.8.1
Objetivo: Horarios y precios de un viaje de ida y vuelta a una ciudad determinada en la que ha
de estar a primera hora de la ma
nana.
Situaci
on: Usted tiene que estar ma
nana a primera hora en Madrid. Est
a muy ocupado y le
interesara salir lo m
as tarde posible esta misma noche. La vuelta desde Madrid la quiere hacer
ma
nana por la noche a u
ltima hora.

C
odigo: C.8.5
Objetivo: Horarios y precios de un viaje de ida y vuelta a una ciudad determinada en la que ha
de estar a primera hora de la ma
nana.
Situaci
on: Escoja una ciudad como lugar de residencia. Quiere hacer un viaje a otra ciudad para
estar en ella un da determinado (escoja el da) antes de las 8 de la ma
nana. Escoja un da para
volver, bien el mismo da de llegada, el siguiente o dos das despues.

Objetivo 9
C
odigo: C.9.1
Objetivo: Precios, horarios y tipo de tren de ida y vuelta a una ciudad concreta para unas fechas
determinadas.
Situaci
on: Usted prepara un viaje para a Valladolid durante el puente del Pilar. Le gustara salir
el viernes da 8 a medio da y regresar el da 12. Preferira viajar de da y que no le saliera muy
caro. Le interesara saber el tipo de tren en el que puede viajar, ya que al ser el viaje muy largo
puede resultar cansado.

C
odigo: C.9.5
Objetivo: Precios, horarios y tipo de tren de ida y vuelta a una ciudad concreta para unas fechas
determinadas.

178

Apendice D. Descripcion de los escenarios de la tarea

Situaci
on: Elija una ciudad espa
nola (capital de provincia o de una importancia similar) en la que
desea pasar un periodo vacacional. Le interesa planificar el viaje y, adem
as de horarios y precios,
quiere informarse del tipo de tren que m
as le conviene.

Bibliografa
Abney, S., R. Berwick, y C. Tenny. 1991. Parsing by Chunks. Kluwer Academic Publishers, Dordrecht.
Allen, J. y M. Core. 1996. Dialog act markup in several layers. Informe tecnico, University
of Rochester, Department of Computer Science, December.
Allen, J., G. Ferguson, B.W. Miller, E.K. Ringger, y T.S. Zollo, 2000. Handbook of Natural
Language Processing, paginas 347376. Marcel Dekker, New York, July.
Allen, J. F., L. K. Schubert, G. Ferguson, P. Heeman, C.H. Hwang, T. Kato, M. Light,
N. G. Martin, B.W. Miller, M. Poesio, y D.R. Traum. 1995. The TRAINS Project: A
case study in building a conversational planning agent. Journal of Experimental and
Theoretical AI (JETAI), 7:748.
Allen, J.F. 1995. Natural Language Understanding. Computer Science. 2nd ed.
Angluin, D. 1982. Inference of Reversible Languages. Journal of the ACM, 29:741765.
Arranz, V., N. Castell, Monserrat Civit, y A. Sesma. 2000. Lexico de la Tarea. Informe
tecnico, proyecto BASURDE, Noviembre.
Aubert, X. y H. Ney. 1995. Large Vocabulary Continuous Speech Recognition Using
Word Graphs. En Proc. ICASSP 95, paginas 4952, Detroit, MI, May.
Baggia, P., A. Kelner, E. Perennou, C. Popovici, J. Strum, y F. Wessel. 1999. Language
Modeling and Spoken Dialogue Systems the ARISE experience. En Proc. Eurospeech
99, paginas 17671770, Budapest, Hungary, September.
Bahl, L.R., F. Jelinek, y R.L. Mercer. 1983. A Maximum Likelihood Approach to Continuous Speech Recognition. IEEE Transactions on Pattern Analysis and Machine
Intelligence, PAMI-5(2):179190, March.
Baker, J. 1979. Trainable Grammars for Speech Recognition. Speech Communication
Papers for the 97th Meeting of the Acoustical Society of America, paginas 547550.
Bengio, Y., R. Ducharme, P. Vincent, y C. Jauvin. 2003. A neural probabilistic language
model. En Journal of Machine Learning Research, paginas 11371155.
Bennacef, S., H. Bonneau-Maynard, J.L. Gauvain, L.F. Lamel, y W. Minker. 1994. A
Spoken Language System For Information Retreival. En Proceedings of ICSLP, paginas 12711274.
179

180

Bibliografa

Bennacef, S., F. Neel, y H. Bonneau-Maynard. 1995. An oral dialogue model based on


speech acts categorization. ESCA Workshop of Spoken Dialog System.
Bennacef, S., L. Devillers, S. Rosset, y L. Lamel. 1996. Dialog in the RailTel TelephoneBased System. En Proceedings of ICSLP, paginas 550553, Philadelphia, Octubre.
Bonafonte, A., P. Aibar, N. Castell, E. Lleida, J.B. Mari
no, E. Sanchis, y M.I. Torres.
2000. Desarrollo de un sistema de dialogo oral en dominios restringidos. En Teresa
Lopez Soto ISBN:84-95118-58-0, editor, I Jornadas en Tecnologa del Habla, Sevilla
(Spain).
Bonafonte, A. y N. Mayol. 1999. Documentacion del corpus infotren - persona. Informe
tecnico, Proyecto BASURDE, Speech Processing Group, Universitat Polit`ecnica de
Catalunya, Junio.
Bonanfonte, A. 2003. La Conversion de Texto en Habla en los Sistemas de Dialogo.
En Joaquim LListerri, editor, Curso de Industrias de la Lengua, Soria, 21-25 Julio.
Fundacion Duques de Soria.
Bonneau-Maynard, H. y L. Devillers. 2000. A framework for evaluating contextual understanding. En icslp, Beijing, October.
Bonneau-Maynard, H. y F. Lef`evre. 2001. Investigating Stochastic Speech Understanding.
En IEEE Automatic Speech Recognition and Understanding Workshop, Madonna di
Campiglio, December.
Bordel, G. 1993. Modelizacion del Lenguaje: Una vision general desde el analisis de
los lenguajes k-explorables en sentido estricto(n-gramas). Departamento de Sistemas
Inform
aticos y Computaci
on, Internal Report DSIC-II/40/93.
Bordel, G. 1994. Back-off Smoothing in a Syntactic approach to Language Modeling.
ICSLP, paginas 851854.
Brants, T. 1999. Cascade Markov Models. En Proc. of the EACL99, Bergen, Norway.
Bresan, J. y R. Kaplan, 1982. Lexical-Functional Grammar: A formal System for Grammatical Representation, paginas 173281. The MIT Press.
Bresnan, Joan. 2001. Lexical-Functional Syntax. Blackwell, Oxford.
Brown, Peter F., Vincent J. Della Pietra, Peter V. deSouza, Jenifer C. Lai, y Robert L.
Mercer. 1992. Class-Based n-gram Models of Natural Language. Computational
Linguistics, 18(4):467479, Diciembre.
Bruce, B. 1975. Case Systems for Natural Language. Artificial Intelligence, 6.
Burton, R. 1976. Semantic Grammar. An Engineering Technique for Constructing Natural Understanding Systems. Informe tecnico, BNN, Cambridge, Massachusetts.
Carrillo, V., V. J. Daz, y M. A. Alonso. 2002. Algoritmos de analisis para gramaticas
de insercion de arboles. Procesamiento del Lenguaje Natural, 29:8996.

Bibliografa

181

Castro, M. J. y Federico Prat. 2003. New Directions in Connectionist Language Modeling.

En Alvarez
eds. Mira, editor, Proceedings of the 7th International Work-conference
on Artificial and Natural Neural Networks IWANN 2003, paginas 598605. SpringerVerlag. LNCS Vol. 2686.
Castro, M. J. y E. Sanchis. 2002. A Simple Connectionist Approach to Language Understanding in a Dialogue System. En Advances in Artificial Intelligence IBERAMIA
2002, volumen 2527 de LNAI. Springer-Verlag, paginas 664673. 8th Ibero-American
Conference on AI, Seville, Spain, 1215, 2002. Proceedings.

Cheng, Y., P. Fortier, y Y.Normandin.


1994. A System Integrating Connexionist and
Symbolic Approaches for spoken languaje understanding. En Proc. of ICSLP.
Chomsky, N. 1965. Aspects of the Theory of Syntax. MIT Press.
Clarkson, P. y R. Rosenfeld. 1997. Statistical Language Modeling Using the CMUCambridge Toolkit. En Proc. Eurospeech 97, paginas 27072710, Rhodes, Greece,
Septiembre.
CMU. 1997. The CMU Statistical Language Modeling (SLMtk) Toolkit.
http://www.speech.cs.cmu.edu/SLM info.html.
Cormen, T., Ch. Leiseron, y R. Rivest. 1989. Introduction to algorithms. MIT Press.
Cottrell, Garrison W. y Steven L. Small. 1983. A Connectionist Scheme for Modelling
Word Sense Disambiguation. Cognition and Brain Theory, 61(1):89120.
Deligne, S. y F. Bimbot. 1995. Language modeling by variable length sequences: theoretical formulation and evaluation of multigram. En Proceedings of the International
Conference on Acoustincs, Speech and Signal Processing ICASSP, paginas 169172.
Deligne, S. y Y. Sagisaka. 2000. Statistical language modeling with a class-based nmultigram. Computer Speech and Language, 14.
Derouault, A. M. y B. Merialdo. 1986. Natural Language Modeling for Phoneme-to-Text
Transcription. IEEE Transactions on Pattern Analysis and Machine Intelligence,
8(6):742749, Noviembre.
Daz-Verdejo, J., A. M. Peinado, A. J. Rubio, E. Segarra, N. Prieto, y F. Casacuberta.
1998. ALBAYZIN; a task-oriented Spanish speech corpus. En Proceedings First Int.
Conf. on Language Resources & Evaluation, volumen 2, paginas 497501, Granada,
Spain.
Epstein, M., K. Papineni, S. Roukos, T. Ward, y S.D. Prieta. 1996. Statistical Natual
Language Understanding using Hidden Clumpings. En Proc. of ICASSP.
E.Sanchis, N.Prieto, y J.Bernat. 1996. A decoupled bottom-up continuous speech understanding system directed by semantics. En Proceedings of the International Workshop
Speech and Computer, paginas 1215, San Petersburgo, Rusia.
Essen, U. y H. Ney. 1991. Statistical Language Modellling using a Cache Memory. En
Proceedings of QUALICO.

182

Bibliografa

Feldman, J y D. Bullard. 1982. Connectionist models and their properties. Cognitive


Science.
Fillmore, C.J. 1968. The Case for Case. En E. Bach y R. Harms, editores, Universals in
Linguistic Theory, paginas 190, New York. Holt, Rinehart, and Winston.
Forney, Jr. G. D. 1973. The Viterbi Algorithm. En Proc. IEEE, paginas 268278.
Fraser, N. y G. Gilbert. 1991. Simulating speech systems. Computer Speech & Language,
5:8199.
Fu, K. y T. Booth. 1975. Grammatical Inference: Introduction and survey: Parts I and
II. IEEE Trasactions on Systems, Man and Cybernetics, paginas 5:303309,409423.
Fukada, T., D. Koll, A. Waibel, y K. Tanigani. 1998. Probabilistic dialogue act extraction
for concept based multilingual translation systems. En 5th. International Conference
in Spoken Language Processing, volumen 6, paginas 27712774.
Garca, F., L. Hurtado, E. Sanchis, y E. Segarra. 2003a. Modelos especficos de comprension en un sistema de dialogo. Procesamiento del Lenguaje Natural, 31:99106.
Garca, F., L.F. Hurtado, E. Sanchis, y E. Segarra. 2003b. The incorporation of confidence
measures to language understanding. En Pavel Mautner Vaclav Matousek, editor,
Proceedings of the Sixth Conference on Text Speech and Dialogue (TSD), LNAI 2807,
paginas 165172. Springer, September.
Garca, P., E. Vidal, y F. Casacuberta. 1987. Local Lenguajes, the sucessor Method, and
a step towards qa General methodology for the inference of regular Grammars. IEEE
Transactions on Pattern Analysis and Machine Inteligence, PAMI, 9(6):841845.
Garcia, Pedro y Enrique Vidal. 1990. Inference of k-Testable Languages in the Strict Sense and Application to Syntactic Pattern Recognition. IEEE Transactions on Pattern
Analysis and Machine Intelligence, PAMI-12(9):920925, Septiembre.
Gauvain, J.L., S.K. Bennacef, L. Devillers, L.F. Lamel, y S. Rosset. 1997. Spoken Language Component of the MASK Kiosk. En K. Varghese y S. Pfleger, editores, Human
Comfort and Security of Information Systems. Springer, paginas 93103.
Gazdar, G., E. Klein, G. K. Pullum, y I. A. Sag. 1985. Generalized Phrase Structure
Grammar. Oxford, Blackwell.
Geutner, P., M. Denecke, U. Meier, M. Westphal, y A. Waibel. 1998. Conversational
Speech Systems for On-Board Car Navigation and Assistance. En Proceedings of the
ICSLP, Adelaide, Australia.
Giachin, Egidio y Scott McGlashan, 1997. Corpus-Based Methods in Language and Speech
Processing, captulo Spoken Language Dialogue Systems, paginas 69 117. Kluwer
Academic Publishers, Dordrecht.
Goddeau, D., E. Brill, J. Glass, C. Pao, M. Phillips, J. Polifroni, S. Seneff, y
V. Zue. 1994. Galaxy: A Human-Language Interface to On-line Travel Information. En Proc. ICSLP 94, paginas 707710, Yokohama, Japan, Septiembre. URL
http://www.sls.lcs.mit.edu/ps/SLSps/icslp94/galaxy.ps.

Bibliografa

183

Good, I.J. 1953. The Polulation Frecuencies of Species and the Estimation of Population
Parameters. Biometrika, 40.
Gorin, A. L., G. Riccardi, y J. H. Wright. 1997. How may I help you? Speech Communication, 23(1/2):113127.
Grishman, R. 1986. Computational Linguistics. Cambridge University Press.
Hacioglu, K y W. Ward. 2001. Dialog-Context Dependent Language Modeling Combining
N-grams and Stochastic Context-Free Grammars. En Proc. of ICASSP.
Hayes, P., A. Hauptman, y J. Carbonell. 1986. Parsing Spoken Language, a Semantic
Caseframe Approach. COLING.
Hernando, J., J. Padrell, y Rodrguez H. 2002. Sistema de Informacion Metereologica
Automatica por Telefono ATTEMPS. Procesamiento del Lenguaje Natural, 29:311
312, septiembre.
Hopcroft, J. y J. Ullman. 1979. Introduction to Automata Theory, Languages, and Computation. Addison-Wesley, N. Reading, MA.
Jelinek, F. 1986. Self-organized Language Modeling for Speech Recognition. Informe
tecnico, IBM Europe Institute, Advances in Speech Processing, July.
Jelinek, F. 1991. Up from Trigrams!: The Struggle for Improved Language Model. En
Proc. Eurospeech 91, paginas 10371041, Genova, Italy, Septiembre.
Jelinek, F. 1997. Statistical Methods for Speech Recognition. The MIT Press, Cambridge,
Massachusetts.
Jelinek, F., J.D. Lafferty, y R.L. Mercer. 1992. Basic methods of probabilistic context free
grammars. En P. Laface y R. De Mori, editores, Speech Recognition and Understanding. Recent Advances, Trends and Applications. Springer Verlag, paginas 345360.
Jelinek, F. y R.L. Mercer. 1985. Probability Distribution Estimation from Sparse Data.
Technical disclosure bulletin, IBM.
Joshi, A. K. y Y. Schabes. 1992. Tree-Adjoining Grammar and lexicalized grammars. En
Maurice Nivat y Andreas Podelski, editores, Tree automata and languages. Elsevier
Science, paginas 409431.
Kaplan, R. y J. Bresnan. 1982. Lexical-functional grammar. En Joan Bresnan, editor, The mental representation of grammatical relations. MIT Press, Cambridge, MA,
pagina **.
Katz, S.M. 1987. Estimation of Probabilities from Sparse Data for the Language model
Component of a Speech Recognizer. IEEE Transactions on Acoustics, Speech and
Signal Processing, 35(3):400401, Marzo.
Kay, M., J.M. Gawron, y P. Norvig. 1994. Verbmobil: A Translation System For FaceTo-Face Dialog. CSLI Publications, Stanford.

184

Bibliografa

Kay, Martin. 1984. Functional Unification Grammar: A formalism for machine translation. En Proceedings of the Tenth International Conference on Computational Linguistics (COLING-84) and the 22nd Annual Meeting of the ACL, paginas 7578, Stanford
University, Stanford, CA, Julio 2-6,.
Khudanpur, S. y J. Wu. 2000. Maximum Entropy Techniques for Exploiting Syntactic,
Semantic and Collocational Dependencies in Language Modeling. Computer Speech
and Language, 14:355372.
Klein, M. 1999. Standardisation efforts on the level of dialogue acts in the mate project.
En Proceedings of the ACL Workshop: Towars Standards and Tools for Discourse
Tagging, paginas 3541, University of Maryland, May.
Kneser, R. y H. Ney. 1993. Improved clustering techniques for class-based statistical
language modeling. En Proc. of EUROSPEECH93, paginas 779782, Berln.
Kuhn, R. y R. De Mori. 1990. A Cache-Based Language Model for Speech Recognition.
IEEE Transactions on Pattern Analysis and Machine Intelligence PAMI, 12:570583.
Kuhn, R. y R. De Mori. 1993. Learning speech semantics with keyword classification
trees. En Proc of ICASSP.
Lamel, L., S. Rosset, J.L. Gauvain, S. Bennacef, M. Garnier-Rizet, y B. Prouts. 2000.
The LIMSI ARISE system. Speech Communication, 31:339353.
Lamel, L.F., S.K. Bennacef, S. Rosset, L. Devillers, S. Foukia, J.J. Gangolf, y J.L. Gauvain. 1997. The LIMSI RailTel System: Field trial of a telephone service for Rail
Travel information. spcom, 23:6782, October.
Lari, K. y S. Young. 1991. Application of Stocastic Context-Free Grammars using the
Inside-Outside Algorithm. Computer Speech and Language, 5(237-257).
Lau, R., R. Rosenfeld, y S. Roukos. 1993. Trigger-based Language Models: A Maximum
Entropy Apporach. En Proceedings ICASSP93, paginas II45II48, April.
Lehtinen, G., S. Safra, J.M. Pardo, R. Cordoba, y R. San-Segundo. 2000. IDAS: Interactive Directory Assistance Service. En VOTS-2000 Workshop, Belgium.
Levin, E. y R. Pieraccini. 1995. Concept-Based Spontaneous Speech Understanding
System. En Proc. of EUROSPEECH95, paginas 555558.
Levin, E., R. Pieraccini, y W. Eckert. 2000. A stochastic model of human-machine
interaction for learning dialog strategies. En IEEE transations on speech and Audio
Processing, volumen 8(1), paginas 1123.
Life, A. y I. et al. Salter. 1997. Data Collection for the MASK Kiosk: WOz vs Prototype
System. Eurospeech 97.
Lleida, E. 1999. Corpus Persona-Persona. Informe tecnico, Proyecto BASURDE.
Mari
no, J. B. y J. Hernando. 1999a. Especificacion de las grabaciones mediante Mago de
Oz. Informe tecnico, proyecto BASURDE.

Bibliografa

185

Mari
no, J. B. y Javier Hernando. 1999b. Especificaciones de las grabaciones mediante
Mago de Oz. Informe tecnico, proyecto BASURDE.
Martinez, C. y F. Casacuberta. 2000. A pattern recognition approach to dialog labelling
using finite-state transducers. En In Proc. of V Iberoamerican Symposium on Pattern
Recognition, paginas 669677.
Martinez, C., E. Sanchis, F. Garca, y P. Aibar. 2002. A labeling proposal to annotate
dialogues. En Proc. of third International Conference on Language Resources and
Evaluation (LREC)), paginas 15771582, 21-30 May.
eel, y J. Mariani. 1990. An Oral Task Oriented Dialog for
Matrouf, A., J.L. Gauvain, F.N
Air-traffic Controller Training. SPIEs Technical Symposium on Optical Engineering
and Photonics in Aerospace Sensing, Applications of Artificial Intelligence, VIII.
McTear, M.F. 1998. Modelling spoken dialogues with state transition diagrams: experiences with the CSLU toolkit. En Proc. 5th International Conference on Spoken
Language Processing, paginas 12231226, Sydney, Australia, December.
McTear, M.F. 1999. ESCA/SOCRATES Workshop on Method and Tool Innovations for
Speech Science Education. En Proc. 5th International Conference on Spoken Language
Processing, paginas 113116, London, UK, April.
Miikkulainen, R. 1993. Subsymbolic Natural Language Processing: An Integrated Model
of Scripts, Lexicon, and Memory. MIT Press, Cambridge, MA.
Miller, S., D. Stallard, D. Bobrow, y R. Schwartz. 1996. A fully statistical approach to
natural language interfaces. En Proc. of the 34 Annual meeting of the ACL, paginas
5561.
Minker, W. 1998. Stocastic versus Rule-based Speech Understanding for Information
Retreival. Speech Communication, 25(4):223227, September.
Minker, W. 1999a. Stocastically-Based Semantic Analysis. Kluwer Academic Publishers,
Boston.
Minker, W. 1999b. Stocastically-Based Semantic Analysis for ARISE - Automatic Railway Information Systems for Europe. Grammars.
Moisa, L. y E. Giachin. 1995. Automatic Clustering of Words for Probabilistic Language
Models. En Proceedings of EUROSPEECH95, volumen 2, paginas 12491253.
Nakamura, M. y K. Shikano. 1989. A study of English word category prediction based
on neural networks. En Proceedings of the ICASSP, Glasgow, Scotland, May.
Ney, H., U. Essen, y R. Kneser. 1994. On Structuring Probabilistic Dependencies in
Stochastic Language Modelling. Computer Speech and Language, 8:138.
Ney, H. y K. Kneser. 1991. On smoothing techniques for bigram-based natural language
modelling. En International Conference on Acustics, Speech ans Signal Processing
ICASSP-91, paginas 825828, Toronto.

186

Bibliografa

Ney, H., S. Ortmanns, y I. Lindam. 1997. Extensions to the Word Graph Method for
Large Vocabulary Continuous Speech Recognition. En Proc. ICASSP 97, paginas
17911794, Munich, Germany, Abril.
Nyberg, E., T. Mitamura, P. Placeway, M. Duggan, y N. Hataoka. 2002. DialogXML:
Extending VoiceXML for Dynamic Dialog Management. En Proc. Human Language
Workshop.
Oeder, M. y H.A. Aust. 1994. Prototipe of an automatic inquiry system. En Proc. of
ICSLP, paginas 703706.
Oncina. 1991. Aprendizaje de lenguajes regulares y funciones subsecuenciales. Ph.D.
tesis, Departamento de Sistemas Informaticos y Computacion. Universidad Politecnica
de Valencia.
Pallet, D.S., J.G. Fiscus, W.M. Fisher, J.S. Garofolo, B.S. Lund, A. Martin, y M.A. Przybocki. 1995. The 1994 Benchmark Tests for the ARPA Spoken Language Program.
En Proceedings of ARPA Workshop on Spoken Language Technology.
Peckham, J. 1993. A new generation of spoken dialogue systems: results and lessons from
the SUNDIAL project. En Proceedings of the 3rd European Conference on Speech
Communication and Technology, paginas 3340.
Peckman, J. 1991. Speech understanding and dialogue over the telephone: an overview
of progress in the sundial project. En Proceedings of the 2nd European Conference on
Speech Communication and Technology, paginas 146972.
Pieraccini, R., E. Levin, y W. Eckert. 1997. AMICA: The AT&T Mixed Initiative Conversational Architecture. En Proc. Eurospeech 97, paginas 18751878, Rhodes, Greece,
Septiembre.
Pla, F., A. Molina, y N. Prieto. 2000a. An Integrated Statistical Model for Tagging and
Chunking Unrestricted Text. Lecture Notes in Computer Science, 1902:1520.
Pla, F., A. Molina, y N. Prieto. 2000b. Improving Chunking by Means of LexicalContextual Information in Statistical Language Models. En Claire Cardie Walter
Daelemans Claire Nedellec, y Erik Tjong Kim Sang, editores, Proceedings of the Fourth
Conference on Computational Natural Language Learning and of the Second Learning
Language in Logic Workshop, Lisbon, 2000, paginas 148150, Somerset, New Jersey.
Association for Computational Linguistics.
Pla, F., A. Molina, y N. Prieto. 2000c. Tagging and Chunking with Bigrams. En Proc.
of the COLING-2000, Saabr
ucken, Germany, August.
Pollard, Carl y Ivan Sag. 1994. Head-Driven Phrase Structure Grammar. University of
Chicago Press, Chicago. Draft distributed at the Third European Summer School in
Language, Logic and Information, Saarbr
ucken, 1991.
Prieto, N. 1995. Aprendizaje de modelos sem
anticos para sistemas de comprensi
on del
habla. Ph.D. tesis, Universidad Politecnica de Valencia.

Bibliografa

187

Prieto, N., E Sanchis, y L. Palmero. 1994. Continuous Speech Understanding based


on automatic learning of acoustic and semantic models. International Conference on
Speech and Language Processing, ICSLP94 (Yokohama, Japan) Proc., paginas 2175
2178.
Prieto, N. y E. Vidal. 1992. Learning Language Models through the ECGI Method.
Speech Communication, 11:299309.
Perez-Pi
nar-Li
nares, L., C. Garca-Mateo, S. Pardo-Ros, y V. Darriba-Bilbao. 2002. Integracion automatica de fuentes de conocimiento ling
ustico en el desarrollo de sistemas
de dialogo. Procesamiento del Lenguaje Natural, 29:191203, septiembre.
Rabiner, Lawrence R. y Biing-Hwang Juang. 1993. Fundamentals of Speech Recognition.
Prentice Hall, Englewood Cliffs, New Jersey.
Rabiner, L.R. 1989. A tutorial on hidden markov models and selected applications in
speech recognition. IEEE Trans. on Acoustics Speech and Signal Processing, 77:257
286.
Rodrguez-Li
nares, L., C. Garca-Mateo, S. Pardo-Ros, y V. Darriba-Bilbao. 2002. Un
Sistema de Dialogo para la Consulta de Correo Electronico en Lenguaje Natural.
Procesamiento del Lenguaje Natural, 29:181188, Septiembre.
Rosenfeld, R. 1996. A Maximum Entropy Approach to Adaptive Statistical Language
Modeling. Computer, Speech and Language, 10:187228. Carnegie Mellon Tech. Rep.
CMU-CS-94-138.
Rubio, A. J., P. Garcia, A. de-la Torre, J. C. Segura, J. Diaz-Verdejo, M. C. Benitez,
V. Sanchez, A. M. Peinado, J. M. Lopez-Soler, y J. L. Perez-Cordoba. 1997. STACC:
An Automatic Service for Information Access Using Continuous Speech Recognition
Through Telephone Line. En Proceedings of Eurospeech97, paginas 17791782, Rhodes, Greece, September.
Rudnicky, A., E. Thayer, P. Constantinides, C. Tchou, R. Shern, K. Lenzo, W. Xu, y
A. Oh. 1999. Creating natural dialogs in the Carnegie Mellon Communicator system.
En Proceedings of Eurospeech, volumen 4, paginas 15311534.
Ruiz, J. 1998. Familias de Lenguajes Explorables: Inferencia Inductiva y Carecterizaci
on Algebraica. Ph.D. tesis, Departamento de Sistemas Informaticos y Computacion,
Universidad Politecnica de Valencia.
Ruiz, J., S. Espa
na, y P. Garca. 1998. Locally Threshold Testable Languages in Strict
Sense: Application to the Inference Problem. En Vasant Honavar y Giora Slutzki,
editores, Proceedings of the 4th International Colloquium on Grammatical Inference
(ICGI-98), volumen 1433 de LNAI, paginas 150161, Berlin, July. Springer.
Rulot, H. 1992. ECGI: un algoritmo de inferencia gramatical mediante correci
on de
errores. Ph.D. tesis, Universidad de Valencia.
Rulot, H., N. Prieto, y E. Vidal. 1989. Learning accurate finite-state strutural models of
words through the ECGI algorithm. En Proceedings of international Conference on
Acoustics, Speech and Signal Processing.

188

Bibliografa

Rulot, H. y E. Vidal. 1987. Modelling (sub)string-Length-Based Constraint throught a


Grammatical inference method. En Devijver y Kittler, editores, Pattern Recognition:
Theory and Applicatons, paginas 451459. Springer-Verlag.
Rulot, H., E. Vidal, y N. Prieto. 1988. Extension estocastica del algoritmo ECGI y
su aplicacion al reconocimiento de diccionarios difciles. En Simposium Nacional de
Reconocimiento de Formas y An
alisis de Im
agenes, paginas 385392.
San-Segundo, R., J. M. Montero, J. M. Guitierrez, A. Gallardo, J. D. Romeral, y J.M.
Pardo. 2001. A Telephone-Based Railway Information System for Spanish: Development of a Methodology for Spoken Dialogue Design. En Proceedings of the 2nd
SIGdial Workshop on Discourse and Dialogue, paginas 140148, Aalborg, Denmark,
1-2 September.
Sanchez, J.A. 1999. Estimaci
on de gram
aticas incontextuales probabilsticas y su aplicaci
on en modelizaci
on del lenguaje. Ph.D. tesis, Universidad Politecnica de Valencia.
Director: Dr. J.M. Bened.
Sanchis, E. 1994. Modelizaci
on ac
ustica de unidades sublexicas mediante tecnicas de
inferencia gramatical basadas en el an
alisis sint
actico corrector de errores. Ph.D.
tesis, Universidad Politecnica de Valencia.
Sanchis, E. y M. J. Castro. 2002. Dialogue Act Connectionist Detection in a Spoken Dialogue System. En Soft Computing Systems. Design, Management and Applications,
volumen 87 de Frontiers in Artificial Intelligence and Applications. IOS Press, paginas
644651. ISSN: 0922-6389.
Sanchis, E., I. Galiano, F. Garca, y A. Cano. 2001. A hybrid approach to the development of dialogue system directed by semantics. En Jan Van, editor, Proceedings
of 2nd SIGdialThe Workshop on Discourse and Dialogue, paginas 149152, Aalborg,
Denmark.
Sanchis, E., F. Garca, I. Galiano, y E. Segarra. 2002. Applying Dialogue Constraints
to the Understanding Process in a Dialogue System. En Petr Sojka Ivan Kopecek, y
Karel Pala, editores, Proceedings of the Fifth International Conference on Text, Speech
and DialogueTSD 2002, Lecture Notes in Artificial Intelligence LNCS/LNAI 2448,
paginas 389395, Brno, Czech Republic, September. Springer-Verlag.
Schwartz, R., S. Miller, D. Stallard, y J. Makhoul. 1996. Language understanding using
hidden understanding models. En Proc. of ICSLP, paginas 9971000.
Segarra, E. 1993. Una aproximaci
on inductiva a la comprensi
on del discurso continuo.
Ph.D. tesis, Universidad Politecnica de Valencia.
Segarra, E., V. Arranz, N. Castell, I. Galiano, F. Garca, A. Molina, y E. Sanchis. 2000.
Representacion Semantica de la Tarea. Informe tecnico, proyecto BASURDE.
Segarra, E. y L. Hurtado. 1997. Construction of Language Models using Morfic Generator
Grammatical Inference MGGI Methodology. En Proc. of EUROSPEECH, paginas
26952698.

Bibliografa

189

Segarra, E., E. Sanchis, I. Galiano, F. Garca, y L.F. Hurtado. 2001. Extracting semantic information through automatic learning. En Proc. of IX Spanish Symposium on
Pattern Recognition and Image Analysis (AERFAI), paginas 177182.
Segarra, E., E. Sanchis, M. Galiano, y F. Garcia L. Hurtado. 2002. Extracting Semantic Information Through Automatic Learning Techniques. International Journal of
Pattern Recognition and Artificial Intelligence IJPRAI, 16(3):301307.
Segarra, E., E. Sanchis, F. Garcia, L. Hurtado, y I. Galiano. 2003. Achieving full coverage of automatically learnt finite-state language models. En Workshop on Finite-State
Methods in Natural Language Processing. 10th Conference of the European Chapter
of the Association for Computational Linguistics (EACL2003), paginas 135142, Budapest, Hungary, April.
Seneff, S. 1992. TINA: A natural language system for spoken languaje applications.
Computational Linguistics, 18(1):6186, March.
Sesma, A., J.B. Mari
no, I. Esquerra, y J. Padrell. 1999. Estrategia del Mago de Oz.
Informe tecnico, proyecto BASURDE.
Small, S., G. Cottrell, y L. Shastri. 1982. Toward Connectionist Parsing. En David Waltz,
editor, Proceedings of the National Conference on Artificial Intelligence, paginas 247
250, Pittsburgh, PA, Aug. AAAI Press.
Soong, F. y E. Huang. 1991. A tree-treliss based fast search for finding the n best sentence
hypoteses in continuous speech recognition. En Proceedings of ICASSP91, paginas
537540.
Stolcke, A., N. Corraco, R. Bates, P. Taylor, C. VanEssDykema, K. Ries, E. Shriberg,
D. Jurafsky, y R. Martin. 2000. Dialogue act modeling for automatic tagging and
recognition of conversational speech. Computational Linguistics, 26(3):134.
Vilar, D., M. J. Castro, y E. Sanchis. 2002. Comparacion de metodos de deteccion
de actos de dialogo. En Antonio Rubio Ayuso, editor, Actas de las II Jornadas en
Tecnologas del Habla, Granada (Espa
na), Diciembre.
Vilar, D., M. J. Castro, y E. Sanchis. 2003. Connectionist classification and specific
stochastic models in the understanding process of a dialogue system. En Eurospeech,
Ginebra, Swiss, september. Aceptado, pendiente publicacion.
Ward, W. 1994. Extracting information in spontaneous speech. En Proc. of the ICLSP,
paginas 8386.
Xu, W y A. Rudnicky. 2000a. Language Modeling for Dialog System. En Proceedings
of the 6th International Conference in Spoken Language Processing ICSLP, paginas
Paper B106, Beijing, China.
Xu, Wei y Alexander I. Rudnicky. 2000b. Task-Based Dialog Management Using an
Agenda. En Candace Sidner et al., editor, ANLP/NAACL Workshop on Conversational Systems, paginas 4247, Somerset, New Jersey. Association for Computational
Linguistics, Association for Computational Linguistics.

190

Bibliografa

Zue, V., S. Seneff, J. Glass, J. Polifroni, C. Pao, T.J. Hazen, y L. Hetherington. 2000.
JUPITER: A telephone-based conversational interface for weather information. IEEE
Trans. on Speech and Audio Processing, 8(1), January.

Das könnte Ihnen auch gefallen