Beruflich Dokumente
Kultur Dokumente
IX Congreso Internacional sobre Innovacin y Desarrollo Tecnolgico, 23 al 25 de noviembre de 2011, Cuernavaca Morelos, Mxico.
Sistema informtico para la traduccin de trminos de nhuatl al espaol con informacin semntica
G. Corts-Mendozaa, C. Martnez-Gila, A. Zempoalteca-Preza, V. Soancatl-Aguilarb, R. M. Ortega-Mendozac
Resumen: El nhuatl es la lengua indgena ms hablada en Mxico con alrededor de 1.5 millones de hablantes. Es y ha sido valiosa por su importancia histrica, lingstica, literaria y nacionalista, por lo cual con su estudio y anlisis buscamos: preservarlo y difundirlo; extraer informacin importante de documentos en nhuatl; e interactuar y conocer la cultura de las comunidades indgenas que an lo conservan. Este artculo presenta el desarrollo de un sistema informtico que permite la traduccin de trminos o palabras de nhuatl-espaol y viceversa; considerando la adicin de informacin semntica de las categoras gramaticales que pueden ser: sustantivo, adjetivo, pronombre, preposicin, conjuncin, artculo, adverbio, verbo o interjeccin. La entrada al sistema puede ser una palabra en espaol y la salida es su correspondiente palabra traducida al nhuatl, o una palabra en nhuatl y la salida una palabra o frase en espaol debido a que es una lengua aglutinante. Actualmente se cuenta con una base de datos de 9,765 trminos para la traduccin de palabra-palabra y 3,288 entradas para la traduccin de palabra-frase. Esta herramienta lingstica es utilizada en la formacin de un Corpus de palabras y frases, mismo que ser la base para la implementacin de futuros recursos lingsticos. Keywords: Corpus, nhuatl, traduccin, sistema informtico. Abstract: Nahuatl is the most widely spoken indigenous language in Mexico with about 1.5 million speakers. It is and has been valued for its historical, linguistic, literary and nationalist, so with his study and analysis we seek to: preserve and disseminate it; extract important information from documents in Nahuatl, and
________________________________________________________ a Universidad de la Caada, Carretera Teotitln - San Antonio Nanahuatipn Km 1.7 s/n. Paraje Titlacuatitla. Teotitln de Flores Magn, Oax. Mxico. C.P. 68540. {li01010006, Alejandro, cmartinez}@naxoloxa.unca.edu.mx b Universidad del Istmo. Campus Ixtepec. Carr. Chihuitan Ixtepec S/N Ixtepec, Oax., Mxico C.P. 70110. venus@bianni.unistmo.edu.mx. c Instituto Tecnolgico Superior del Oriente del Estado de Hidalgo. Carr. Apan-Tepeapulco, K.m. 3.5, Col. Las Peitas, Apan Hidalgo. mortega@itesa.edu.mx. * Agradecimiento: PROMEP, No. de oficio PROMEP/103.5/09/4053.
interact and learn about the culture of indigenous communities still preserve it. This article presents the development of an informatics system that allows the translation of terms or words of Nahuatl-Spanish and vice versa; considering the addition of semantic information of grammatical categories that can be: noun, adjective, pronoun, preposition, conjunction, article, adverb, verb or interjection. The input to the system may be a Spanish word and the output corresponding to a translated Nahuatl word, or as input a word in Nahuatl and for as output a word or phrase in Spanish because it is an agglutinative language. Currently has a database of 9.765 terms to translate word-word and 3.288 entries for the translation of word-phrase. This linguistic tool is used in the formation of a Corpus of words and phrases, which will be the basis for future implementation of linguistic resources. Keywords: Corpus, Nahuatl, translation, informatics system.
Introduccin
En mayo de 2009, un equipo de investigacin de la Universidad de la Caada, Oaxaca, observamos la necesidad de trabajar con el procesamiento de la lengua nhuatl con el proyecto Descubrimiento automtico de informacin semntica en documentos escritos en la lengua indgena nhuatl apoyo del Programa de mejoramiento del profesorado (PROMEP). Con dicho proyecto se busca preservar y difundir el idioma nhuatl, con la extraccin de informacin importante contenida en los documentos en esa lengua, misma que permita interactuar y conocer la cultura de las comunidades indgenas del pasado y aquellas que en la actualidad lo conservan. Debido a existe informacin en nhuatl, pero muy poca digitalizada, se inicio con la formacin de Corpus de documentos y otro de trminos nhuatl-espaol, en donde se requiri automatizar la bsqueda de trminos y frases en nhuatl con su equivalente en espaol y viceversa.
1 526
CIINDET 2011
IX Congreso Internacional sobre Innovacin y Desarrollo Tecnolgico, 23 al 25 de noviembre de 2011, Cuernavaca Morelos, Mxico
Haciendo uso de herramientas software y tcnicas para automatizar el tratamiento de palabras y trminos, se obtuvieron los requerimientos que permitieron modelar un sistema de software mediante diagramas UML. El uso de las computadoras hace factible la modificacin relativamente fcil y poco costosa de diccionarios que se hayan almacenados en memoria [3]; de esta forma el sistema desarrollado permitir su actualizacin peridica e incremento en el Corpus, as como tener acceso rpido a la traduccin de trminos y frases. El Corpus [6] servir de base para la implementacin de futuros recursos lingsticos [2,4] tales como un lematizador, etiquetador de partes de la oracin, identificacin de entidades nombradas entre otros. Actualmente se cuenta con una base de datos de 9,765 trminos para la traduccin de palabra-palabra y 3,288 entradas para la traduccin de palabra-frase. La primera versin del sistema se obtuvo en julio de 2010, y a partir de marzo de 2011 se cuenta con la segunda versin que implementa una interfaz ms minimalista, as como mejoraras en la agregacin y modificacin de palabras y en las bsquedas. En este artculo se presenta el desarrollo de la aplicacin de software que permite la traduccin de palabras y frases del espaol al nhuatl y viceversa, de igual forma se proveen algunos diagramas en los que se baso el modelado del sistema de software, y las diferencias entre la primera y la segunda versin del sistema.
resultados de aquellas palabras o frases que contengan los caracteres exactos que se requieren buscar.
Del mismo modo el usuario puede elegir entre realizar una bsqueda de palabras o de frases; la diferencia entre ambas radica en que una palabra es un conjunto atmico de caracteres y las frases son formadas por dos o ms palabras. La salida de una bsqueda puede resultar en una frase debido a que el nhuatl es una lengua aglutinante. As por ejemplo, en la bsqueda de la palabra nhuatl nauatlatoltika tendra como salida la frase: en lengua nhuatl y la palabra tlajtoli dara como resultado lengua. Otra funcionalidad que se provee, es la de elegir la lengua en la que se desean realizar las bsquedas, de permitiendo buscar en lengua nhuatl o en espaol. La actividad de agregar palabra, proporciona un medio para incrementar la base de datos y en consecuencia incrementar el Corpus (figura 2). La estructura de la tupla (1) muestra los campos que los usuarios deben introducir. T = {raz,categora_gramatical,espaol,nhuatl} (1)
El sistema proporciona tambin la funcionalidad de borrar o modificar palabras (Figuras 3-4), debido a que 2 526
CIINDET 2011
IX Congreso Internacional sobre Innovacin y Desarrollo Tecnolgico, 23 al 25 de noviembre de 2011, Cuernavaca Morelos, Mxico
es posible que los usuarios requieran agregar trminos tanto a las palabras en espaol como a las palabras en nhuatl ya que pueden tener ms de una equivalencia en ambas lenguas de acuerdo a las variantes [2], por ejemplo, la palabra en espaol casa equivale a kali y chantli.
b) Figura 6. Interfaz principal que provee el motor de bsqueda a) versin 1, b) versin 2 Figura 5. Arquitectura del sistema.
3 526
CIINDET 2011
IX Congreso Internacional sobre Innovacin y Desarrollo Tecnolgico, 23 al 25 de noviembre de 2011, Cuernavaca Morelos, Mxico
La interfaz que provee el motor de bsqueda (Figura 6) realiza una bsqueda aproximada por defecto, sin embargo el usuario puede optar por realizar una bsqueda exacta, segn el caso de uso de la figura 1. De igual forma el usuario puede elegir la realizacin de una bsqueda por en lengua nhuatl o en espaol e indicar si dicha bsqueda ha de realizarse como frase o como palabra.
menos pasos para realizarse (figuras 6b y 7b); a la vez que la interfaz para agregar palabras se opt por permanecerla visible el tiempo que el usuario as lo requiera permitindole ocultarla cuando as lo desee, debido a que en jornadas largas de agregacin de palabras se presentaba tedioso el uso de ventanas en la primera versin del sistema. As mismo, se dividi el corpus en palabras y frases, debido a que en la primera versin se encontraban juntas las categoras mencionadas. En la Tabla 1 se muestran las diferencias entre la versin 1 y la versin 2 del sistema, detallando las tareas que el usuario realiza de acuerdo a la funcionalidad.
Tabla 1. Diferencias entre la primera y segunda versin del sistema respecto a las tareas del usuario
Versin 2
Insercin
a)
Eliminacin
Actualizacin
Escribir la palabra y El motor de hacer clic en el bsqueda se activa botn buscar. al escribir la palabra. Clic en el botn Abrir el panel de agregar, rellenar los insercin y rellenar campos y clic en los campos, clic en aceptar (para cada aceptar (visible en insercin). tanto se requiera) Elegir la opcin en Clic en eliminar, un Men realizar una desplegable sobre la bsqueda de la palabra con su palabra a eliminar y identificador y confirmar la confirmar la eliminacin. eliminacin. Buscar la palabra a Elegir la opcin en eliminar mediante un Men su identificador y desplegable sobre la palabra, realizar las realizar la actualizacin. actualizaciones y confirmar la accin.
Como resultado de la aplicacin de pruebas al sistema, se obtuvo la segunda versin en donde las interfaces para agregar palabras, modificar y eliminar, presentan
4 526
CIINDET 2011
IX Congreso Internacional sobre Innovacin y Desarrollo Tecnolgico, 23 al 25 de noviembre de 2011, Cuernavaca Morelos, Mxico
nhuatl, como herramienta de apoyo para incrementar el Corpus de palabras y frases. La ltima actualizacin de la base de datos hasta este momento est conformada por 9,765 trminos para la traduccin de palabrapalabra y 3,288 entradas para la traduccin de palabrafrase. Posterior a la formacin del Corpus, ser necesario darle un trato en forma de texto plano, debido a que en se pretenden implementar recursos lingsticos como un lematizador, etiquetador de partes de la oracin, identificacin de entidades nombradas entre otros, en donde ser necesarios verificar la correspondencia de las palabras y frases del Corpus con documentos digitalizados en lengua nhuatl. El sistema sigue en desarrollo, y se sigue trabajando en la clasificacin de las palabras respecto a la informacin semntica de su categora gramatical y la raz de procedencia, por ejemplo la palabra cinocuilin= gusano de maz cuyas races son cintli = maz y ocuilin = gusano.
estancias profesionales en el Centro de Investigacin en Matemticas A.C. Guanajuato, Gto 2009, en el rea de computacin evolutiva, con el desarrollo de proyectos en algoritmos genticos. Experiencia en el desarrollo de software para el control de acceso de personal en Nueva Agroindustrias del Norte S.A. de C.V. 2010. Ha sido becado por el Foro Consultivo Cientfico y Tecnolgico en el programa Veranos por la Innovacin en la Empresa 2010. Dra. Carmen C. Martnez Gil Recibi el grado de doctora en Ciencias de la Computacin en el Instituto Nacional de Astrofsica, ptica y Electrnica en 2008. Sus reas de inters son: Procesamiento de Lenguaje Natural, Aprendizaje Automtico y Anlisis de Imgenes. Cuenta con diversas publicaciones en revistas, libros y congresos nacionales e internacionales. Ha dirigido varios proyectos de titulacin a nivel superior. Y pertenece al Sistema Nacional de Investigadores del CONACyT. Ha trabajado como Profesora-Investigadora en el Instituto Tecnolgico Superior de Atlixco, la Universidad de la Sierra Jurez y actualmente en la Universidad de la Caada. Alejandro Zempoalteca Prez Recibi el grado de Licenciado en filosofa de la Universidad Autnoma de Tlaxcala. Cuenta con diversas publicaciones en congresos nacionales e internacionales. Y actualmente trabaja como profesorInvestigador en la Universidad de la Caada Venustiano Soancatl Aguilar Recibi el grado de maestro en Ciencias de la Computacin en el Instituto Nacional de Astrofsica, ptica y Electrnica en 2007. Sus reas de inters son: Aprendizaje Automtico y Anlisis de Imgenes. Cuenta con diversas publicaciones en revistas, libros y congresos nacionales e internacionales. Ha dirigido proyectos de investigacin y actualmente trabaja como Profesor-Investigador en la Universidad del Istmo. Rosa Mara Ortega Mendoza Recibi el grado de maestra en Ciencias de la Computacin en el Instituto Nacional de Astrofsica, ptica y Electrnica en 2007. Sus reas de inters son: Procesamiento de Lenguaje Natural y Aprendizaje Automtico. Cuenta con diversas publicaciones en
Referencias
[1] [2] Andrews, J. R., Introduction to Classical Nahuatl. USA: University of Oklahoma Press, 2003. Gellerstam, M., Lexical resources and their application. Proceedings of the 1st Trans-European Language Resources Infrastructure (TELRI) Seminar on anguage Resources for Language Technology. Tihany, Hungary. pp 57-64, 1995. Gnther H. & Omeaca C., Los diccionarios del espaol en el siglo XXI, Espaa: Universidad de Salamanca, 2004. Ortega-Mendoza R. M. Descubrimiento Automtico de Hipnimos a partir de Texto no Estructurado. Tesis de MAESTRA. Instituto Nacional de Astrofsica, ptica y Electrnica. Dic. 2007. Simon, R. 2001. Dictionary of Nahuatl or Mexican language. [Paris 1885] Reprint: Mxico. Sinclair, J., Corpus, concordance, collocation. Oxford: Oxford University Press, 1991. Universidad Nacional Autnoma de Mxico [UNAM], Estudios de cultura nhuatl, vol. 35-36, 2004.
[3] [4]
5 526
CIINDET 2011
IX Congreso Internacional sobre Innovacin y Desarrollo Tecnolgico, 23 al 25 de noviembre de 2011, Cuernavaca Morelos, Mxico
revistas, libros y congresos nacionales e internacionales. Obtuvo el primer lugar en la categora de tesis de maestra en el Certamen Nacional a la mejor Tesis de Maestra y Doctorado sobre Inteligencia Artificial en 2008, convocado por la Sociedad Mexicana de Inteligencia Artificial. Ha trabajado como Profesora-Investigadora en la Universidad de la Caada y actualmente en el Instituto Tecnolgico Superior del Oriente del Estado de Hidalgo.
6 526