Sie sind auf Seite 1von 6

CIINDET 2011

IX Congreso Internacional sobre Innovacin y Desarrollo Tecnolgico, 23 al 25 de noviembre de 2011, Cuernavaca Morelos, Mxico.

Sistema informtico para la traduccin de trminos de nhuatl al espaol con informacin semntica
G. Corts-Mendozaa, C. Martnez-Gila, A. Zempoalteca-Preza, V. Soancatl-Aguilarb, R. M. Ortega-Mendozac

Resumen: El nhuatl es la lengua indgena ms hablada en Mxico con alrededor de 1.5 millones de hablantes. Es y ha sido valiosa por su importancia histrica, lingstica, literaria y nacionalista, por lo cual con su estudio y anlisis buscamos: preservarlo y difundirlo; extraer informacin importante de documentos en nhuatl; e interactuar y conocer la cultura de las comunidades indgenas que an lo conservan. Este artculo presenta el desarrollo de un sistema informtico que permite la traduccin de trminos o palabras de nhuatl-espaol y viceversa; considerando la adicin de informacin semntica de las categoras gramaticales que pueden ser: sustantivo, adjetivo, pronombre, preposicin, conjuncin, artculo, adverbio, verbo o interjeccin. La entrada al sistema puede ser una palabra en espaol y la salida es su correspondiente palabra traducida al nhuatl, o una palabra en nhuatl y la salida una palabra o frase en espaol debido a que es una lengua aglutinante. Actualmente se cuenta con una base de datos de 9,765 trminos para la traduccin de palabra-palabra y 3,288 entradas para la traduccin de palabra-frase. Esta herramienta lingstica es utilizada en la formacin de un Corpus de palabras y frases, mismo que ser la base para la implementacin de futuros recursos lingsticos. Keywords: Corpus, nhuatl, traduccin, sistema informtico. Abstract: Nahuatl is the most widely spoken indigenous language in Mexico with about 1.5 million speakers. It is and has been valued for its historical, linguistic, literary and nationalist, so with his study and analysis we seek to: preserve and disseminate it; extract important information from documents in Nahuatl, and
________________________________________________________ a Universidad de la Caada, Carretera Teotitln - San Antonio Nanahuatipn Km 1.7 s/n. Paraje Titlacuatitla. Teotitln de Flores Magn, Oax. Mxico. C.P. 68540. {li01010006, Alejandro, cmartinez}@naxoloxa.unca.edu.mx b Universidad del Istmo. Campus Ixtepec. Carr. Chihuitan Ixtepec S/N Ixtepec, Oax., Mxico C.P. 70110. venus@bianni.unistmo.edu.mx. c Instituto Tecnolgico Superior del Oriente del Estado de Hidalgo. Carr. Apan-Tepeapulco, K.m. 3.5, Col. Las Peitas, Apan Hidalgo. mortega@itesa.edu.mx. * Agradecimiento: PROMEP, No. de oficio PROMEP/103.5/09/4053.

interact and learn about the culture of indigenous communities still preserve it. This article presents the development of an informatics system that allows the translation of terms or words of Nahuatl-Spanish and vice versa; considering the addition of semantic information of grammatical categories that can be: noun, adjective, pronoun, preposition, conjunction, article, adverb, verb or interjection. The input to the system may be a Spanish word and the output corresponding to a translated Nahuatl word, or as input a word in Nahuatl and for as output a word or phrase in Spanish because it is an agglutinative language. Currently has a database of 9.765 terms to translate word-word and 3.288 entries for the translation of word-phrase. This linguistic tool is used in the formation of a Corpus of words and phrases, which will be the basis for future implementation of linguistic resources. Keywords: Corpus, Nahuatl, translation, informatics system.

Introduccin
En mayo de 2009, un equipo de investigacin de la Universidad de la Caada, Oaxaca, observamos la necesidad de trabajar con el procesamiento de la lengua nhuatl con el proyecto Descubrimiento automtico de informacin semntica en documentos escritos en la lengua indgena nhuatl apoyo del Programa de mejoramiento del profesorado (PROMEP). Con dicho proyecto se busca preservar y difundir el idioma nhuatl, con la extraccin de informacin importante contenida en los documentos en esa lengua, misma que permita interactuar y conocer la cultura de las comunidades indgenas del pasado y aquellas que en la actualidad lo conservan. Debido a existe informacin en nhuatl, pero muy poca digitalizada, se inicio con la formacin de Corpus de documentos y otro de trminos nhuatl-espaol, en donde se requiri automatizar la bsqueda de trminos y frases en nhuatl con su equivalente en espaol y viceversa.

1 526

CIINDET 2011
IX Congreso Internacional sobre Innovacin y Desarrollo Tecnolgico, 23 al 25 de noviembre de 2011, Cuernavaca Morelos, Mxico

Haciendo uso de herramientas software y tcnicas para automatizar el tratamiento de palabras y trminos, se obtuvieron los requerimientos que permitieron modelar un sistema de software mediante diagramas UML. El uso de las computadoras hace factible la modificacin relativamente fcil y poco costosa de diccionarios que se hayan almacenados en memoria [3]; de esta forma el sistema desarrollado permitir su actualizacin peridica e incremento en el Corpus, as como tener acceso rpido a la traduccin de trminos y frases. El Corpus [6] servir de base para la implementacin de futuros recursos lingsticos [2,4] tales como un lematizador, etiquetador de partes de la oracin, identificacin de entidades nombradas entre otros. Actualmente se cuenta con una base de datos de 9,765 trminos para la traduccin de palabra-palabra y 3,288 entradas para la traduccin de palabra-frase. La primera versin del sistema se obtuvo en julio de 2010, y a partir de marzo de 2011 se cuenta con la segunda versin que implementa una interfaz ms minimalista, as como mejoraras en la agregacin y modificacin de palabras y en las bsquedas. En este artculo se presenta el desarrollo de la aplicacin de software que permite la traduccin de palabras y frases del espaol al nhuatl y viceversa, de igual forma se proveen algunos diagramas en los que se baso el modelado del sistema de software, y las diferencias entre la primera y la segunda versin del sistema.

resultados de aquellas palabras o frases que contengan los caracteres exactos que se requieren buscar.

Figura 1. Caso de uso buscar palabra.

Figura 2. Caso de uso agregar palabra.

Requerimientos del sistema


Se identific la necesidad de automatizar la bsqueda de las de palabras y frases con su homologo en nhuatl y viceversa, en la generacin del Corpus, as mismo, se consider que la base de datos se actualizara constantemente. De esta forma, se puede resumir que las tareas que los usuarios pueden realizar en la aplicacin son: la bsqueda, actualizacin en insercin de palabras y frases; requerimientos que se modelan en los diagramas de casos de uso de las figuras 1-4. Una de las actividades que se realiza con mayor frecuencia es la de buscar palabra (Figura 1); el sistema permite elegir entre realizar una bsqueda aproximada, en cuyos resultados de una bsqueda se encuentre la cadena requerida o que esta se encuentre como complemento de la palabras o frases del resultado; y bsqueda exacta, donde se mostraran los

Del mismo modo el usuario puede elegir entre realizar una bsqueda de palabras o de frases; la diferencia entre ambas radica en que una palabra es un conjunto atmico de caracteres y las frases son formadas por dos o ms palabras. La salida de una bsqueda puede resultar en una frase debido a que el nhuatl es una lengua aglutinante. As por ejemplo, en la bsqueda de la palabra nhuatl nauatlatoltika tendra como salida la frase: en lengua nhuatl y la palabra tlajtoli dara como resultado lengua. Otra funcionalidad que se provee, es la de elegir la lengua en la que se desean realizar las bsquedas, de permitiendo buscar en lengua nhuatl o en espaol. La actividad de agregar palabra, proporciona un medio para incrementar la base de datos y en consecuencia incrementar el Corpus (figura 2). La estructura de la tupla (1) muestra los campos que los usuarios deben introducir. T = {raz,categora_gramatical,espaol,nhuatl} (1)

El sistema proporciona tambin la funcionalidad de borrar o modificar palabras (Figuras 3-4), debido a que 2 526

CIINDET 2011
IX Congreso Internacional sobre Innovacin y Desarrollo Tecnolgico, 23 al 25 de noviembre de 2011, Cuernavaca Morelos, Mxico

es posible que los usuarios requieran agregar trminos tanto a las palabras en espaol como a las palabras en nhuatl ya que pueden tener ms de una equivalencia en ambas lenguas de acuerdo a las variantes [2], por ejemplo, la palabra en espaol casa equivale a kali y chantli.

Implementacin y pruebas del sistema


Es en esta fase realiz la especificacin de la implementacin. El sistema se desarroll en el lenguaje C#, debido al fcil manejo de los eventos y a su orientacin a objetos, as mismo, con base en la arquitectura, se diseo la base de datos, misma que se implement en MS-Access 2000 debido a que este manejador de base de datos no depende de un servidor para su funcionamiento. Con base en los diagramas de casos de uso que se muestran en la figura 1 y 2, se obtuvieron las interfaces para la primera versin del sistema, mismas que se pueden ver en las figuras 6 y 7 respectivamente.

Figura 3. Caso de uso modificar palabra.

Figura 4. Caso de uso borrar palabra.

Diseo del sistema


El diseo del sistema consisti en una arquitectura de tres capas: interfaz, lgica de la aplicacin y almacenamiento (figura 5).
a)

b) Figura 6. Interfaz principal que provee el motor de bsqueda a) versin 1, b) versin 2 Figura 5. Arquitectura del sistema.

3 526

CIINDET 2011
IX Congreso Internacional sobre Innovacin y Desarrollo Tecnolgico, 23 al 25 de noviembre de 2011, Cuernavaca Morelos, Mxico

La interfaz que provee el motor de bsqueda (Figura 6) realiza una bsqueda aproximada por defecto, sin embargo el usuario puede optar por realizar una bsqueda exacta, segn el caso de uso de la figura 1. De igual forma el usuario puede elegir la realizacin de una bsqueda por en lengua nhuatl o en espaol e indicar si dicha bsqueda ha de realizarse como frase o como palabra.

menos pasos para realizarse (figuras 6b y 7b); a la vez que la interfaz para agregar palabras se opt por permanecerla visible el tiempo que el usuario as lo requiera permitindole ocultarla cuando as lo desee, debido a que en jornadas largas de agregacin de palabras se presentaba tedioso el uso de ventanas en la primera versin del sistema. As mismo, se dividi el corpus en palabras y frases, debido a que en la primera versin se encontraban juntas las categoras mencionadas. En la Tabla 1 se muestran las diferencias entre la versin 1 y la versin 2 del sistema, detallando las tareas que el usuario realiza de acuerdo a la funcionalidad.
Tabla 1. Diferencias entre la primera y segunda versin del sistema respecto a las tareas del usuario

Funcionalidad Versin1 Bsqueda

Versin 2

Insercin
a)

Eliminacin

Actualizacin

Escribir la palabra y El motor de hacer clic en el bsqueda se activa botn buscar. al escribir la palabra. Clic en el botn Abrir el panel de agregar, rellenar los insercin y rellenar campos y clic en los campos, clic en aceptar (para cada aceptar (visible en insercin). tanto se requiera) Elegir la opcin en Clic en eliminar, un Men realizar una desplegable sobre la bsqueda de la palabra con su palabra a eliminar y identificador y confirmar la confirmar la eliminacin. eliminacin. Buscar la palabra a Elegir la opcin en eliminar mediante un Men su identificador y desplegable sobre la palabra, realizar las realizar la actualizacin. actualizaciones y confirmar la accin.

b) Figura 7. Interfaz agregar palabras a) versin 1, b) versin 2.

Conclusiones y trabajo futuro


Actualmente el sistema es utilizado por el equipo de investigacin la Universidad de la Caada en el proyecto Descubrimiento automtico de informacin semntica en documentos escritos en la lengua indgena

Como resultado de la aplicacin de pruebas al sistema, se obtuvo la segunda versin en donde las interfaces para agregar palabras, modificar y eliminar, presentan

4 526

CIINDET 2011
IX Congreso Internacional sobre Innovacin y Desarrollo Tecnolgico, 23 al 25 de noviembre de 2011, Cuernavaca Morelos, Mxico

nhuatl, como herramienta de apoyo para incrementar el Corpus de palabras y frases. La ltima actualizacin de la base de datos hasta este momento est conformada por 9,765 trminos para la traduccin de palabrapalabra y 3,288 entradas para la traduccin de palabrafrase. Posterior a la formacin del Corpus, ser necesario darle un trato en forma de texto plano, debido a que en se pretenden implementar recursos lingsticos como un lematizador, etiquetador de partes de la oracin, identificacin de entidades nombradas entre otros, en donde ser necesarios verificar la correspondencia de las palabras y frases del Corpus con documentos digitalizados en lengua nhuatl. El sistema sigue en desarrollo, y se sigue trabajando en la clasificacin de las palabras respecto a la informacin semntica de su categora gramatical y la raz de procedencia, por ejemplo la palabra cinocuilin= gusano de maz cuyas races son cintli = maz y ocuilin = gusano.

estancias profesionales en el Centro de Investigacin en Matemticas A.C. Guanajuato, Gto 2009, en el rea de computacin evolutiva, con el desarrollo de proyectos en algoritmos genticos. Experiencia en el desarrollo de software para el control de acceso de personal en Nueva Agroindustrias del Norte S.A. de C.V. 2010. Ha sido becado por el Foro Consultivo Cientfico y Tecnolgico en el programa Veranos por la Innovacin en la Empresa 2010. Dra. Carmen C. Martnez Gil Recibi el grado de doctora en Ciencias de la Computacin en el Instituto Nacional de Astrofsica, ptica y Electrnica en 2008. Sus reas de inters son: Procesamiento de Lenguaje Natural, Aprendizaje Automtico y Anlisis de Imgenes. Cuenta con diversas publicaciones en revistas, libros y congresos nacionales e internacionales. Ha dirigido varios proyectos de titulacin a nivel superior. Y pertenece al Sistema Nacional de Investigadores del CONACyT. Ha trabajado como Profesora-Investigadora en el Instituto Tecnolgico Superior de Atlixco, la Universidad de la Sierra Jurez y actualmente en la Universidad de la Caada. Alejandro Zempoalteca Prez Recibi el grado de Licenciado en filosofa de la Universidad Autnoma de Tlaxcala. Cuenta con diversas publicaciones en congresos nacionales e internacionales. Y actualmente trabaja como profesorInvestigador en la Universidad de la Caada Venustiano Soancatl Aguilar Recibi el grado de maestro en Ciencias de la Computacin en el Instituto Nacional de Astrofsica, ptica y Electrnica en 2007. Sus reas de inters son: Aprendizaje Automtico y Anlisis de Imgenes. Cuenta con diversas publicaciones en revistas, libros y congresos nacionales e internacionales. Ha dirigido proyectos de investigacin y actualmente trabaja como Profesor-Investigador en la Universidad del Istmo. Rosa Mara Ortega Mendoza Recibi el grado de maestra en Ciencias de la Computacin en el Instituto Nacional de Astrofsica, ptica y Electrnica en 2007. Sus reas de inters son: Procesamiento de Lenguaje Natural y Aprendizaje Automtico. Cuenta con diversas publicaciones en

Referencias
[1] [2] Andrews, J. R., Introduction to Classical Nahuatl. USA: University of Oklahoma Press, 2003. Gellerstam, M., Lexical resources and their application. Proceedings of the 1st Trans-European Language Resources Infrastructure (TELRI) Seminar on anguage Resources for Language Technology. Tihany, Hungary. pp 57-64, 1995. Gnther H. & Omeaca C., Los diccionarios del espaol en el siglo XXI, Espaa: Universidad de Salamanca, 2004. Ortega-Mendoza R. M. Descubrimiento Automtico de Hipnimos a partir de Texto no Estructurado. Tesis de MAESTRA. Instituto Nacional de Astrofsica, ptica y Electrnica. Dic. 2007. Simon, R. 2001. Dictionary of Nahuatl or Mexican language. [Paris 1885] Reprint: Mxico. Sinclair, J., Corpus, concordance, collocation. Oxford: Oxford University Press, 1991. Universidad Nacional Autnoma de Mxico [UNAM], Estudios de cultura nhuatl, vol. 35-36, 2004.

[3] [4]

[5] [6] [7]

Currculo corto de los autores


Gerardo Corts Mendoza Estudiante del dcimo semestre de la Licenciatura en Informtica de la Universidad de la Caada, Oaxaca 2011. Fue miembro del Consejo Universitario de la Universidad de la Caada de 2008 a 2010. Realiz

5 526

CIINDET 2011
IX Congreso Internacional sobre Innovacin y Desarrollo Tecnolgico, 23 al 25 de noviembre de 2011, Cuernavaca Morelos, Mxico

revistas, libros y congresos nacionales e internacionales. Obtuvo el primer lugar en la categora de tesis de maestra en el Certamen Nacional a la mejor Tesis de Maestra y Doctorado sobre Inteligencia Artificial en 2008, convocado por la Sociedad Mexicana de Inteligencia Artificial. Ha trabajado como Profesora-Investigadora en la Universidad de la Caada y actualmente en el Instituto Tecnolgico Superior del Oriente del Estado de Hidalgo.

6 526

Das könnte Ihnen auch gefallen