Sie sind auf Seite 1von 46

Pg. 1 INDICE I. EL PROBLEMA 03 1.1. Anlisis de la situacin problemtica .. 03 1.2. Definicin del problema . 04 1.3.

. planteamiento del problema .. 05 1.4. Justificacin del problema .. 06 II. OBJETIVOS . 08 2.1. Objetivo general . 08 2.2. Objetivos especficos . 08 III. MARCO REFENCIAL . 09 3.1. Marco terico 09 3.2. Marco conceptual 28 IV. HIPTESIS Y VARIABLES 30 4.1. Hiptesis general 30 4.2. Hiptesis especficas . 30 4.3. Anlisis de variables e indicadores . 30 V. DISEO DE LA INVESTIGACIN 31 5.1. Tipo y nivel de investigacin . 31 5.2. Diseo de la Investigacin 31 5.3. Matriz de consistencia 36 5.4. Diseo de prueba de hiptesis 37 5.5. Poblacin y muestra 38 5.6. Diseo de recopilacin de informacin 38 VI. PRESUPUESTO Y FINANCIAMIENTO. 39 6.1. Prepuesto bsico 40 6.2. Cronograma 40 VII. ESTRUCTURA BSICA DEL INFORME .. 41 VIII. BIBLIOGRAFIA CONSULTADA. 42

Pg. 2 INDICE DE FIGURAS FIGURA 01: RELACIN ENTRE LOS DIFERENTES PARADIGMAS DE TRADUCCIN AUTOMTICA BASADA EN REGLAS .17 FIGURA 02: PROCESO DE INGENIERIA INVERSA PARA EL SISTEMA DE CDIGO ABIERTO OPENTRAD APERTIUM . 31 FIGURA 03: ARQUITECTURA GENERAL DEL PROTOTIPO POR
TRANSFERENCIA 32

FIGURA 04: ARQUITECTURA DE TRANSFERENCIA DEL IDIOMA ESPAOL A LA LENGUA AYMARA 33

Pg. 3

PROYECTO DE TESIS TRADUCTOR AUTOMATICO DEL IDIOMA ESPAOL A LA LENGUA AYMARA BASADO EN EL SISTEMA DE CODIGO ABIERTO OPENTRAD APERTIUM I. EL PROBLEMA 1.1. Anlisis de la situacin problemtica En este mundo, de mltiples culturas, idiomas, y globalizado, los traductores automticos como aplicacin del procesamiento de lenguaje natural ha aportado significativamente en la interaccin de culturas en esta macro sociedad permitiendo al hombre interrelacionarse con sus semejantes, mediante la traduccin de textos o habla de un lenguaje natural a otro un claro ejemplo es google, con su traductor automtico para diferentes idiomas. Sin embargo resalta los aportes de estas tecnologas para lenguas nativas como el aymara y el quechua en nuestro pas han sido pocos, no existiendo ningn traductor automtico para estas lenguas y se tiene como consecuencia en nuestro medio la incomprensin de culturas y conocimientos relegados que podran aportar al desarrollo de nuestro pas. Asimismo en la Constitucin Poltica del Estado Peruano menciona que toda persona tiene derecho a usar su propio idioma, y son idiomas oficiales el castellano y tambin lo son el quechua y el aymara en las zonas donde predominen [PRES93 Art. 2 enciso 19 y Art. 48]. El problema una vez ms resalta porque no hay herramientas tecnolgicas como traductores automticos que conlleven esta mocin y que apoyen a la interaccin entre los individuos de diferentes idiomas y lenguas.

Pg. 4 Tambin se sabe que el Per es un pas pluricultural, porque en el espacio social y geogrfico conviven diversas culturas, entonces se habla de interculturalidad, que es la relacin entre varias culturas. Para ello, una vez ms se ve que los aportes cientfico tecnolgicos, no han trascendido en su magnitud para apoyar este intercambio intercultural en comunidades de habla aymara, que requieren insertarse a la modernidad o a los cambios tecnolgicos, adems considerando que dos culturas diferentes tienen idiomas distintos cabe sealar que la interculturalidad empieza su accin en comprender y traducir sus idiomas, vindose la necesidad lgida que invoca la urgencia de desarrollo e implementacin de herramientas como los traductores automticos para estas lenguas de la regin andina. Los actuales aymaras se denominan a s mismos: la nacionalidad qulla. Se estima que los hablantes son 2,227,642 personas [ETHN04], quienes viven principalmente en Bolivia, Chile y Per, en Per sobre todo en el altiplano del Titicaca. Quienes realizan estudios e investigaciones con respecto a esta cultura se encuentra con limitaciones en cuanto al acceso a la informacin, por lo que un traductor automtico ser una puerta abierta en traduccin a otros idiomas. 1.2. Definicin del problema La inexistencia de un traductor automtico para la lengua aymara es un problema de desarrollo e implementacin tecnolgica, como tal es una aplicacin del Procesamiento de la Lengua Natural y esta es una subdisciplina de la Inteligencia Artificial, los traductores automticos tambin son considerados como una rama de la Lingstica Computacional, la misma que investiga el uso de software para traducir textos de un lenguaje natural a otro. Por otro lado, a pesar de que la mayor parte de la produccin de software se hace como software privativo, tambin el desarrollo de software en cdigo abierto (open source o software libre), las cuales estn

Pg. 5 alcanzando su importancia actualmente, evidentemente se ve como un smbolo de esta lnea al Sistema Operativo Linux, bajo est denominacin Cdigo Abierto, de la misma forma existe el software OpenTrad Apertium software de traduccin automtica basado en cdigo abierto, teniendo este software no hay algn proyecto interesado en la reutilizacin del cdigo para solucionar un traductor automtico por lo cual motivo de investigacin. En este mundo globalizado es muy importante el intercambio y la comunicacin entre varias culturas por lo que se hace necesario implementar un traductor automtico para coadyuvar el desarrollo continuo de la cultura Aymara y por ende la insercin en la comunidad de Internet. Adems, la demanda de traduccin de textos tcnicos (como manuales de electrodomsticos o documentos administrativos) crece muy rpidamente. Se trata de textos que deben ser traducidos en un intervalo breve de tiempo, a bajo coste, y donde la riqueza literaria no prevalece. En este contexto es donde la traduccin automtica es necesario implementar para lenguas nativas como el aymara. 1.3. Planteamiento del Problema Dada la gran explosin de informacin que vive la sociedad del siglo XX, la traduccin automtica es una aplicacin que ayudar a superar la barrera del idioma, permitiendo traducir textos del idioma espaol a la lengua aymara, el aporte que se lograr es relevante por que conllevar a la comunicacin entre individuos de diferentes culturas. El traductor automtico antes de su implantacin ser evaluada por los mtodos de evaluacin de traduccin automtica de esta manera se medir la eficiencia del traductor automtico. Por tanto: Ser eficiente la calidad del traductor automtico del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium?

Pg. 6

1.4. Justificacin de la Investigacin El aporte fundamental de este proyecto es la de complementar la comunicacin entre varias, como resultado final el traductor automtico beneficiar a los estudiantes, profesionales e investigadores de la lengua aymara, quienes tendrn la posibilidad de traducir informacin en esta lengua. Asimismo la investigacin busca la reivindicacin de esta lengua que cumple un papel trascendental como vehculo de expresin y pensamiento. Por otro lado la situacin problemtica actual de las lenguas andinas como el aymara se ha desarrollado ms en su forma oral que escrita y ms an notndose la inexistencia de herramientas para el apoyo en lecto escritura de esta lengua, por lo que el aporte del traductor automtico coadyuvar en el desarrollo del conocimiento de la lingstica andina. Adems la cultura aymara esta cobrando cada vez mayor importancia por los investigadores en sus diferentes reas, pero frente a esta importancia existe una brecha, la lengua, entre la cultura y los investigadores, razones que hacen que se limite los trabajos de investigacin en este campo, como alternativa para romper esta brecha se propone contribuir con un traductor automtico para impulsar el conocimiento de la cultura aymara. La sociedad moderna ha desarrollado la idea que las lenguas como el quechua y el aymara pertenecen al pasado, los jvenes en las ciudades no quieren hablar el aymara no valoran por que les parece anticuado, poco utilizable, al navegar en los sitios web confirman su pensamiento porque no hay herramientas en Internet que se identifiquen con la lengua aymara, con la implantacin de un traductor automtico se impulsar el aprendizaje de esta lengua y por ende el crecimiento del conocimiento.

Pg. 7 La Ley de Educacin en su Artculo 20, establece que la Educacin Intercultural se debe ofrecer en todo el sistema educativo nacional [PRES04 Art. 20]. Sin embargo no existen herramientas atractivas orientadas a Internet para conllevar esa direccionalidad del Ministerio de Educacin. Finalmente, el aymara hablante no encuentra textos o bibliografa en su lengua en las bibliotecas locales mucho menos en las bibliotecas nacionales y/o internacionales, de modo que se siente limitado para desarrollar conocimiento en su lengua y cultura, situaciones que le llevan a contar con una herramienta como traductores automticos. Actualmente no hay investigaciones con la idea de contribuir con un traductor automtico del idioma espaol a la lengua aymara, es evidente que en los sitios Web se ofrecen traductores de palabras ms no de frases. 1.5. Antecedentes de la investigacin Los primeros sistemas de traduccin automtica contaban con un diccionario bilingue para transferir las palabras de origen a la lengua destino, y con un conjunto de reglas sintcticas para reordenar la cadena de salida. Expertos traductores, lingistas etc. invertan grandes esfuerzos en disear reglas que mejoraran la calidad de las traducciones. La mayora de sistemas de TA estn organizados en torno a la denominada arquitectura de transferencia: el texto en la lengua origen (LO) es analizado y transformado en una representacin abstracta (anlisis) que es convertida (transferencia) en una representacin similar pero en la lengua meta LM, y finalmente, el texto de la LM es generado a partir de esta ltima representacin (generacin) [ALIC06]. Actualmente existen numeras implementaciones de traduccin

automtica los mas conocidos:

Pg. 8 Systran S.A. http://www.systran.co.uk BabelFish (Systran) http://babelfish.altavista.com Google Language Tools http://translate.google.com PROMT http://www.online-translator.com/ AutomaticTrans http://www.automatictrans.es SDL International Free Translation http://www.freetranslation.com interNOSTRUM http://www.internostrum.com/ En el mundo de software libre existe el sistema de cdigo abierto Opentrad Apertium de traduccin automtica de transferencia sintctica superficial, desarrollado por Grup Transducens, Universitat dAlacant para las lenguas del estado espaol. Apertium traduce actualmente entre los pares espaolgallego y espalcatalan. En el mbito nacional y regional no existen investigaciones con respecto a traductores automticos de textos del idioma espaol a la lengua aymara. Por otr lado la lengua aymara mas hablada en Bolivia que Per, an no existen investigaciones similares para implementar la herramienta como el traductor autmatico para la lengua aymara. II. OBJETIVOS 2.1. Objetivos general Medir la calidad de traduccin automtica del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium. 2.2. Objetivos especficos Obtener el diseo y la especificacin del traductor automtico Opentrad Aperitum mediante ingeniera inversa. Implementar el traductor automtico del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium.

Pg. 9 Implementar los diccionarios morfolgicos del idioma espaol y de la lengua aymara Implementar las reglas de transferencia para la traduccin de idioma espaol a la lengua aymara Validar mediante mtricas de software el traductor automtico del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium . Evaluar la eficiencia del traductor automtico del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium con las mtricas de evaluacin de traductores automticos. III. MARCO REFERENCIAL 3.1. Marco terico 3.1.1. Idioma Espaol El idioma espaol o el castellano es la segunda lengua ms hablada del mundo por el nmero de hablantes tras el chino mandarn [ETHN96]. Es uno de los seis idiomas oficiales de acuerdo la Organizacin de las Naciones Unidas, se habla como primera y segunda lengua entre 450 y 500 millones de personas a nivel mundial. Por otro lado, el idioma espaol es el segundo idioma ms estudiado en el mundo tras el ingls de acuerdo al Instituto Cervantes (dedicada a la promocin y enseanza de la lengua espaola) [DIAR07]. Gramtica del idioma Espaol Conjunto finito de reglas que especifican el idioma espaol basado en la idea de estructura de la frase donde las cadenas estn compuestas de subcadenas llamadas frases, las cuales pueden pertenecer a distintas categoras como frase nominal (FN) frase verbal (FV), considerando que el idioma espaol es una lengua flexiva de tipo fusional, es decir, en las oraciones se usa preferentemente la flexin para indicar las relaciones entre sus

Pg. 10 elementos. En el idioma espaol como en otros idiomas los lingistas se afanan en descubrir propiedades del lenguaje por medio de un proceso de investigacin cientfica y entonces codificar sus descubrimientos en una gramtica [SUSE04 p. 899]. La gramtica generativa fundada por el investigador

estadounidense Noam Chomsky intenta establecer las reglas que permiten a los hablantes generar todas las oraciones gramaticales de una lengua [MICR07 clave: gramtica de la lengua espaola]. Oracin o frase (gramtica espaola) Es la unidad lingstica mnima, dotada de significacin, que no pertenece a otra unidad lingstica superior, con sentido completo, autonoma sintctica y figura tonal propia. La oracin como unidad estructural est constituida por dos sintagmas fundamentales: sintagma nominal y sintagma verbal, que son los constituyentes inmediatos de la oracin y corresponden a las funciones de sujeto y predicado [MICR07 clave: oracin]. Desde el punto de vista semntico, el sujeto es un sintagma nominal que realiza la accin verbal, del cual se afirma, niega, pregunta, exclama, duda o se desea algo; el predicado es un sintagma verbal con el que se afirma, niega, se pregunta algo del sintagma nominal. Sujeto es la persona u objeto del que se dice algo, y predicado es un sintagma verbal que expresa todo lo que se dice del sujeto gramatical; esta relacin gramatical establecida entre sujeto y predicado da lugar a las oraciones bimembres: Luis trabaja. Sujeto y predicado son las funciones sintcticas bsicas de la oracin. En oposicin se dan las oraciones unimembres, que pueden ser enunciados con sentido completo, aunque sin alguno de los dos elementos organizadores bsicos de la oracin, es decir, sin el sintagma nominal o sin el sintagma verbal, o, a veces, el ncleo de

Pg. 11 ambos: Buenas tardes; !Socorro!; y las oraciones impersonales, aquellas que carecen de sujeto gramatical: Llueve; Hay mucha gente; Es primavera . Categoras Lxicas Categoras lxicas, palabras que desempean una determinada funcin en la oracin, de acuerdo con los criterios establecidos por la sintaxis clsica (vase Gramtica). De acuerdo con ello hay nueve categoras, que se denominan: nombre, pronombre, adjetivo, artculo, verbo, adverbio, preposicin, conjuncin e interjeccin Composicin La composicin consiste en la suma de lexemas. Para componer palabras en espaol se recurre a ocho procedimientos: Sustantivo + preposicin + sustantivo: agua de borrajas. Sustantivo + adjetivo: arma blanca, aguardiente, aguamarina. Adjetivo + sustantivo: mala pata, media naranja, ricohombre. Sustantivo + sustantivo: cartn piedra, coche cama, varapalo. Verbo + complemento: buscavidas, chupatintas, correcalles. Verbo + verbo: duermevela, ganapierde, picapica, tejemaneje, vaivn. Sustantivo + i + adjetivo: alicado, boquiabierto, cabizbajo, pelicano. Adjetivo + adjetivo: agridulce, anchicorto, grecorromano, todopoderoso. Adverbio + adjetivo: bien hablado, bienaventurado, malcontento.

3.1.2. Lengua aymara y su gramtica Es una lengua andina hablada por dos millones y medio de personas aproximadamente, recibe su nombre de la nacin colla y es co-oficial con el castellano en Per y Bolivia. La lengua aymara se extiende en Per en los departamentos de Puno, Moquegua,

Pg. 12 Tacna, Arequipa (migrantes) Lima (Yauyos, Tupe, Cachuy); en Bolivia en los departamentos de Oruro, La Paz, Potos, Cochabamba, Chuquisaca, Beni, Pando, Santa Cruz, y Tarija; en Chile se habla en las regiones de Tarapac y Antofagasta; en Argentina (migrantes en Jujuy, Salta) [UANC03]. Los aymaras se asocian a s mismos como la civilizacin centrada en Tiwanaku, territorio que fue fundado aproximadamente en 200 adC. El cronista espaol Pedro Cieza de Len (escritor de crnicas de los Incas, 1540) refiri que cuando los espaoles llegaron, todos los habitantes de los alrededores del lago Titicaca hablaban la lengua Aymara, pero esta era solo una lengua hablada ya que no tena alfabeto. El 1603 en la ciudad de Juli, se estableci una imprenta donde fueron publicados los trabajos de Ludovico Bertonio. Estos libros son todava la ms importante fuente de informacin de la lengua Aymara. Bertonio fue el primero en proponer un alfabeto Aymara basado en el alfabeto espaol de la poca. Sin embargo, debido a las variaciones de la pronunciacin, este era imperfecto y a travs del tiempo ms de 30 diferentes alfabetos fueron propuestos para la lengua Aymara. Los ochos ms importantes alfabetos fueron: Bertonio en 1612; Middendorf en 1891; Cala, literatura Aymara y comisin de alfabetizacin en 1968; Ebbing en 1965; Maryknoll en 1975; Yapita en 1968; IGR (Ivan Guzmn de Rojas en 1984). Despus de muchas propuestas y encuentros, el Decreto Supremo de Bolivia 22227-DS de mayo 9 de 1984 y la Resolucin Ministerial Peruana 1218 -R.M de noviembre 18 de 1958, aprob por ley el alfabeto Aymara, conocido como el alfabeto unificado.

Pg. 13 Gramtica de la lengua aymara El Aymara lengua aglutinante expresa conceptos y relaciones gramaticales mediante la adicin de sufijos a los temas radicales y siempre y cuando a cada sufijo corresponda unvocamente un significado y viceversa. La lengua aymara al ser aglutinante pertenece al subtipo especfico llamado sufijante; dicho apelativo significa que a muchos morfemas races se aaden sufijos para formar palabras cada vez ms extensas. En estas lenguas no hay prefijos, de modo que la expansin de una palabra implica crecimiento hacia la derecha mediante la adicin de sufijos, razn por la cual se puede afirmar que el aymara es una lengua de morfologa derechista. Tomando como unidad de anlisis una oracin simple y declarativa (es decir, ni interrogativa ni imperativa), el aymara presenta un orden favorito de los elementos constitutivos mayores de aquella en virtud del cual el sujeto (S) va delante, siguindole el objeto (O) y luego cerrando el enunciado el verbo (V) entonces se trata de orden SOV, sin embargo son perfectamente posibles otras desviaciones a partir de ella tales como OSV, OVS, SVO, VOS y VSO, pero esto atendiendo a factores pragmticos que dependen de la intencionalidad del hablante y de su afn por impactar mejor a su oyente [CERR87 p. 146]. La frase es una construccin sintctica menor que la oracin, constituida por un ncleo o cabeza con o sin modificaciones. Tomando dos de las categoras mayores bsicas del aymara Nombre y Verbo en torno a las cuales se nuclean otras categoras menores, se puede distinguir fundamentalmente dos tipos de frases: frase nominal (FN) y frase verbal (FV), donde los ncleos son respectivamente, un nombre y un verbo.

Pg. 14 3.1.3. Morfologa Lingstica Es la rama de la lingstica que estudia la estructura interna de las palabras para delimitar, definir y clasificar sus unidades, las clases de palabras a las que da lugar (morfologa flexiva) y la formacin de nuevas palabras (morfologa lxica) [WIKI07 clave: Morfologa Lingstica]. La morfologa explica la estructura interna de las palabras mientras que la sintaxis describe cmo las palabras se combinan para formar sintagmas, oraciones y frases. Morfema Llamado tambin formante o monema por otros autores, se define como la unidad mnima significativa de la primera articulacin o divisin del signo lingstico: la palabra. As pues, una palabra est constituida generalmente por dos clases de morfemas: los lexemas y los gramemas ( morfemas gramaticales). Lexemas (Morfemas Lxicos) En todas las lenguas con independencia de procedimientos morfolgicos que posea, podemos identificar en una palabra un morfo bsico una secuencia de fonemas bsicas que define el campo semntico y en ocasiones hasta el significado referencial de la palabra o expresin. Esta unidad bsica sobre la que se aaden otros morfemas se llama lexema o raz. Ejm. nias lexema: ni utilizar lexema: util Gramemas (Morfemas gramaticales) Los morfemas gramaticales son las unidades que constituyen la parte variable de la palabra y son las responsables expresar relaciones gramaticales y que no alteran el significado referencial bsico de una palabra. Usualmente no son autnomos y su aparicin no es facultativa sino que est sujeta a restricciones

Pg. 15 gramaticales. Estos morfemas expresan relaciones o accidentes gramaticales como: Nmero gramatical, Gnero gramatical, Caso gramatical y Tiempo verbal. Tipos de morfemas gramaticales derivativos Sufijos: Van despus del radical o lexema y antes de los morfemas dependientes gramaticales. Pueden cambiar la categora gramatical de la palabra o el gnero de los sustantivos y son tnicos, es decir, cargan con el acento de la palabra. repetible sufijo: -able, transforma un verbo en adjetivo tranquilamente sufijo: -mente, transforma un adjetivo en adverbio casn sufijo: -on, transforma el gnero del sustantivo casa. Prefijos: Preceden al radical o lexema. Son tonos y poseen significado. Si cargan con acento son en realidad prefijoides o prefijos cercanos a los lexemas. infranqueable prefijo: in-, significado de negacin o privacin monosilbico prefijoide: mono-, significado de nico o uno solo infijos o interfijos: Se colocan entre los prefijos y sufijos para evitar la cacofona entre dos sonidos y las homonimias. Son tonos y no poseen significado. Muchos de ellos funcionaron tambin como sufijos pero quedaron sin significado perceptible 3.1.4. Procesamiento de lenguaje natural (PLN) Es una rama de la Inteligencia Artificial, que se ocupa de la formulacin e investigacin de mecanismos eficaces computacionalmente para la comunicacin entre personas o entre personas y mquinas por medio de programas que ejecuten o simulen la comunicacin. Los modelos aplicados se enfocan no slo a la comprensin del lenguaje, sino a aspectos generales cognitivos humanos y a la organizacin de la memoria. El lenguaje natural sirve como medio para estudiar estos fenmenos.

Pg. 16 Las aplicaciones de Procesamiento de Lenguaje natural son: Sntesis del discurso, Anlisis del lenguaje, Comprensin del lenguaje, Reconocimiento del habla, Sntesis de voz, Generacin de lenguajes naturales, Traduccin automtica, Recuperacin de la informacin, Dictado Automtico [NILS04 p. 344]. Teniendo mltiples aplicaciones el Procesamiento del Lenguaje Natural contempla elementos como: Anlisis morfolgico, anlisis sintctico, anlisis semntico y anlisis pragmtico. 3.1.5. Lingstica Computacional La lingstica computacional es un campo multidisciplinar de la lingstica y la informtica que utiliza la informtica para estudiar y tratar el lenguaje humano. Para lograrlo, intenta modelar de forma lgica el lenguaje natural desde un punto de vista computacional. Dicho modelado no se centra en ninguna de las reas de la lingstica en particular, sino que es un campo interdisciplinaria, en el que participan lingistas, informticos especializados en inteligencia artificial, psiclogos cognoscitivos y expertos en lgica, entre otros. Algunas de las reas de estudio de la lingstica computacional son: Corpus lingstico asistido por ordenador, Diseo de analizadores sintcticos (en ingls: parser), para lenguajes naturales, Diseo de etiquetadores o lematizadores (en ingls: tagger), tales como el POS-tagger, Definicin de lgicas especializadas que sirvan como fuente para el Procesamiento de Lenguajes Naturales, y Traduccin automtica. 3.1.6. Traduccin automtica Es una aplicacin de Procesamiento de Lenguaje Natural, tambin considerada como rea de la lingstica computacional que investiga el uso de software para traducir texto o habla de un lenguaje natural a otro. El traductor automtico debe analizar el texto original, interrelacionar con la situacin referida y como

Pg. 17 resultado debe encontrar el texto correspondiente en el lenguaje destino [RUSE04 p. 965]. El diseo de un sistema de TA combina elementos de diversas disciplinas, especialmente la lexicografa, la lingstica, la lingstica computacional (la parte que se encarga de la implementacin de las descripciones lingsticas en algoritmos) y la Inteligencia Artificial (la parte de sta que se encarga de la Representacin del Conocimiento). El papel que juega el diccionario en un sistema de TA depende del tipo de motor de traduccin que el sistema posea. Lo usual, de hecho, es que la estructura interna de los diccionarios est condicionada por el motor de traduccin que se pretenda emplear. Una clasificacin ya clsica de los sistemas de TA establece tres grandes grupos, en la figura 01 se muestra tpicamente tres enfoques principales: los enfoques directos, los de interlingua y los de transferencia (normalmente sintctica y en contados casos tambin semntica). Esta pirmide se basa en las diferencias de "longitudes relativas" de los tres componentes de la traduccin: anlisis, transferencia y sntesis o generacin [MORE00].

Pg. 18 FIGURA 01
RELACIN ENTRE LOS DIFERENTES PARADIGMAS DE TRADUCCIN AUTOMTICA

Fuente: MORE00: Enfoques tradicionales a la Traduccin Automtica

3.1.7. Traduccin automtica por transferencia En la traduccin automtica basado en el modelo de transferencia, tambin llamados de conocimiento lingstico. La idea principal en este modelo es que para conseguir es indispensable tener informacin tanto de la lengua de origen como de la lengua meta. Tambin es comn la necesidad de una representacin intermedia que capture el "significado" de la oracin del texto de origen para generar una oracin en el texto meta que sea equivalente en significado. La principal caracterstica de los sistemas de transferencia es la existencia de un mdulo adicional de transferencia que proyecta representaciones intermedias del texto origen sobre representaciones intermedias del texto meta. ste mdulo de transferencia puede trabajar en distintos niveles de anlisis lingstico, por lo que se pueden distinguir tres tipos de transferencia [MORED00 item 3.3.2].

Pg. 19 Tipos de Transferencia: a) Transferencia sintctica.- Las operaciones que se realizan sobre las cadenas de caracteres son transformaciones de rbol a rbol que "transfieren" las estructuras sintcticas de LO a las estructuras sntcticas de LM. Este tipo de transferencia utiliza representaciones intermedias en forma de "rboles" sintcticos, sin prestar atencin a las relaciones funcionales subyacentes. Hoy en da est generalmente admitido que la inclusin de tales relaciones es indispensable para un correcto anlisis del texto origen. b) Transferencia semntica.Donde se construye una

representacin semntica que es dependiente de LO. Esta representacin puede consistir en una serie de estructuras argumentales o algn otro formalismo de representacin del significado. En estos sistemas la transferencia se realiza principalmente sobre traduccin de predicados, una representacin lgica derivada bsicamente de la estructura sintctica de la oracin. La transferencia lxica (esto es, la traduccin) requiere una transferencia estructural previa cuando la estructura heredada de la lengua de origen es diferente a la de la lengua meta . c) Transferencia mixta.- En donde las relaciones de transferencia se construyen con informacin sintctica, funcional, semntica y algunas veces incluso pragmtica. Puesto que el sistema utiliza mltiples niveles de informacin, el sistema puede codificar las equivalencias de traduccin en el nivel ms apropiado para las lenguas en cuestin. Por ejemplo, la traduccin de una oracin pasiva a un lengua que tiene voz pasiva puede ser ejecutada ms efectivamente en el nivel gramtico-funcional en vez de en el nivel de predicado-argumentos, de tal forma que la estructura gramatical queda preservada. .

Pg. 20 3.1.8. Ingeniera de Software Rama de la ingeniera que aplica los principios de la ciencia de la computacin para todos los aspectos de la produccin de software desde las etapas iniciales de la especificacin del sistema hasta el mantenimiento de ste despus de que se utiliza [SOMM02 p. 07]. La ingeniera de software comprende un proceso, mtodos, tcnicas de gestin y herramientas de produccin de software. El proceso de ingeniera de software se define como "un conjunto de etapas parcialmente ordenadas con la intencin de lograr la obtencin de un producto de software de calidad". El proceso de desarrollo de software "es aquel en que las necesidades del usuario son traducidas en requerimientos de software, estos requerimientos transformados en diseo y el diseo implementado en cdigo, el cdigo es probado, documentado y certificado para su uso operativo". Modelos de desarrollo del proceso de software Tambin llamado paradigmas de desarrollo en los cuales se destacan a stos por ser los ms utilizados y los ms completos: Modelo en cascada (ciclo de vida clsico) Modelo en espiral Modelo de prototipos Mtodo en V Desarrollo por etapas

Modelo de construccin de prototipos Se inicia con la definicin de los objetivos globales para el software, luego se identifican los requisitos conocidos y las reas del esquema en donde es necesaria ms definicin. Entonces se plantea con rapidez una iteracin de construccin de prototipos y se presenta el modelado (en forma de un diseo rpido).

Pg. 21 El diseo rpido se centra en una representacin de aquellos aspectos del software que sern visibles para el usuario (por ejemplo, la configuracin de la interfaz con el usuario y el formato de los despliegues de salida). El diseo rpido conduce a la construccin de un prototipo, el cual es evaluado por el usuario para una retroalimentacin; gracias a sta se refinan los requisitos del software que se desarrollar. La iteracin ocurre cuando el prototipo se ajusta para satisfacer las necesidades del usuario. Esto permite que al mismo tiempo el desarrollador entienda mejor lo que se debe hacer y el usuario vea resultados a corto plazo [PRES02 p. 21]. Medicin y mtricas de ingeniera de software La medicin del software se refiere a derivar un valor numrico para algn atributo de un producto de software o un proceso del software. Comprando estos valores entre ellos y con los estndares aplicados en la organizacin, es posible sacar conclusiones de la calidad del software o de los procesos del software [SOMM02 p. 548]. Siendo una mtrica una medida que se aplica a todos los aspectos de calidad de software, los cuales deben ser medidos desde diferentes puntos de vista como el anlisis, construccin, funcional, documentacin, mtodos, proceso, usuario, entre otros. Las mediciones de ingeniera de software pueden ser: Medidas Directas que mide el costo, y el esfuerzo aplicado, las lneas de cdigo producidas, velocidad de ejecucin, el tamao de memoria y los defectos observados en un determinado periodo de tiempo; y Medidas Indirectas que mide la funcionalidad, calidad, complejidad, eficiencia, fiabilidad, facilidad de mantenimiento, etc. Factores de calidad de software ISO 9126 El estndar ISO 9126 ha sido desarrollado en un intento de identificar los atributos clave de calidad para el software. El estndar identifica seis atributos de calidad [PRESS02 p. 326]:

Pg. 22

i) Funcionalidad.- Grado en que el software satisface las necesidades idoneidad, seguridad. ii) Confiabilidad.- Cantidad de tiempo que el software est disponible para su uso. Est referido por los siguientes subatributos: madurez, tolerancia a fallos y facilidad de recuperacin. iii) Usabilidad.- Grado en que el software es fcil de usar. Viene reflejado por los siguientes subatributos: facilidad de comprensin, facilidad de aprendizaje y operatividad. iv) Eficiencia.- Grado en que el software hade ptimo el uso de los recursos del sistema. Est indicado por los siguientes subatributos: tiempo de uso y recursos utilizados. v) Facilidad de Mantenimiento.- La facilidad en una modificacin puede ser realizada. facilidad Est de indicada anlisis, por los de siguientes cambio, subatributos: facilidad indicadas correccin, por los siguientes subatributos: y interoperatividad, conformidad

estabilidad y facilidad de prueba. vi) Portabilidad.- La facilidad en que el software puede ser llevado de un entorno a otro. Est referido por los siguientes suabatributos: facilidad de instalacin. Facilidad de ajuste, facilidad de adaptacin al cambio. 3.1.9. Ingeniera inversa Es el proceso de analizar el software con el objetivo de recuperar su diseo y especificacin. El programa mismo no cambia por el proceso de ingeniera inversa. Por lo regular, el cdigo fuente del software es la entrada al proceso de ingeniera inversa [SOMM02].

Pg. 23

La ingeniera inversa se utiliza durante el proceso de reingeniera para recuperar el diseo del programa, la ingeniera inversa no siempre necesita seguirse de la reingeniera, aplicaciones de la ingeniera inversa: i) Se puede aplicar al diseo y a la especificacin de un sistema existente por lo que stos pueden servir como entrada a la especificacin programa. ii) De forma alternativa se puede aplicar al diseo y a la especificacin para que sirvan como ayuda al mantenimiento del programa. Con esta informacin adiciona, no es necesario aplicar la reingeniera al cdigo del sistema. 3.1.10. Mtricas de evaluacin de traductores automticos Permite comprobar la calidad de traductores automticos, dependiendo de la finalidad a la que esta dirigida la traduccin, ser necesario un nivel de calidad distinto. Los mtodos objetivos de traductores automticos, no es necesaria la valoracin de la traduccin por un ser humano tales como: WER (word error rate), PER (position-independent word error rate), mejora de WER para que sea independiente de la posicin de las palabras dentro de la frase, mWER (multi-reference word error rate), BLEU mide la precisin de los ngramas (unigramas, bigramas, trigramas y cuatrigramas) con respecto a un conjunto de traducciones de referencia y NIST [WIKI07 clave: Mtodos de evaluacin para la traduccin automtica] En los mtodos subjetivos, los humanos intervienen en la valoracin de la traduccin los mtodos son: SSER (subjective sentence error rate), un humano califica la traduccin de una frase de 0 a 1. Una calificacin de 0 se le da una traduccin perfecta, mientras que una de 1 se corresponde una traduccin sintctica y de requerimiento para la sustitucin del

Pg. 24 semnticamente incorrecta. IER (information item error rate) las frases de prueba se dividen en items. Un humano examina si la informacin de cada uno de los items se encuentra presente en la traduccin. De esta manera se puede comprobar si siendo la traduccin de la frase incorrecta, existen partes de sta que en cambio s son correctas. 3.1.11. Sistema de cdigo abierto OpenTrad Apertium Es una plataforma de cdigo abierto para el desarrollo de sistemas de traduccin automtica desarrollado por Grup Transducens Departament de Llenguatges i Sistemes Informtics Universitat dAlacant, E-03071 Alacant. Se trata de un sistema de traduccin automtica de transferencia sintctica superficial y est pensado inicialmente para la traduccin entre pares de lenguas relacionadas, aunque algunos de sus componentes se han utilizado tambin en la arquitectura de transferencia sintctica profunda (Opentrad Matxin) que se ha desarrollado en el mismo proyecto para el par espaoleuskera. 3.1.12. Mquina de estados finitos Un autmata finito o mquina de estado finito es un modelo matemtico de un sistema que recibe una cadena constituida por smbolos de un alfabeto y determina si esa cadena pertenece al lenguaje que el autmata reconoce. Las mquinas de estado finito son una herramienta reactiva, muy til para especificar aspectos de relacionados con tiempo real, dominios reactivos o autnomos, computacin protocolos, circuitos, arquitecturas software, etc. El modelo de FSM (Finite State Machine) es un modelo que posee sintaxis y semntica formales y que sirve para representar aspectos dinmicos que no se expresan en otros diagramas. Los nodos representan los posibles estados de aquello que se desea modelar. Las etiquetas representan eventos que provocan un cambio. Las aristas determinan de qu manera cada

Pg. 25 estado, dado un evento, deriva en otro estado [BRE03 p. 32]. Un autmata finito (AF) puede ser descrito como una 5-tupla

(S ,

T , s, A) donde:

S un conjunto de estados; es un conjunto de entradas T es la funcin de transicin s S es el estado inicial A S es un conjunto de estados de aceptacin o finales. 3.1.13. Lenguajes Formales En matemticas, lgica, y ciencias de la computacin, un lenguaje formal es un conjunto de palabras (cadenas de caracteres) de longitud finita formadas a partir de un alfabeto (conjunto de caracteres) finito. El nombre lenguaje se justifica porque las estructuras que con este se forman tienen reglas de buena formacin (gramtica) e interpretacin semntica (significado) en una forma muy similar a los lenguajes hablados [WIKI07 clave Lenguajes formales]. Un lenguaje L es regular si y slo si cumple al menos una de las condiciones siguientes [BRE03 p. 80]: L es finito L es unin o la concatenacin deotros lenguajes regulares R1 y R2, L=R1 U R2 L=R1R2 respectivamente L es la cerradura de Kleene de algn lenguaje regular, L = R*

Lenguajes regulares Un lenguaje regular es un tipo de lenguaje formal que satisface las propiedades se puede ser reconocido por: un autmata finito determinista un autmata finito no determinista un autmata finito alterno

Pg. 26 una mquina de Turing de solo lectura Es generado por una gramtica regular

Gramtica Una gramtica formal es objeto o modelo matemtico que permite especificar un lenguaje o lengua, es decir, es el conjunto de reglas capaces de generar todas las posibilidades combinatorias de ese lenguaje, ya sea ste un lenguaje formal o un lenguaje natural [BRE03 p. 97]: La expresin gramtica formal tiene dos sentidos: Gramtica de un lenguaje formal. Descripcin formal de parte de la gramtica de un lenguaje natural. Una gramtica para estructura de expresiones G es una 4-ada (V,S,vo, ) Donde: V es {S U N} un conjunto finito (alfabeto de smbolos no terminales llamadas variables) N es V-S es el conjunto de smbolos no terminales S es un subconjunto de V (alfabeto de smbolos terminales llamadas constantes) debe cumplir que V S = Vo V es el smbolo inicial o axioma de la gramtica es una relacin finita en V* (conjunto de reglas de produccin de la gramtica) La idea es que S es el conjunto de todas las palabras permitidas en el lenguaje, y V consta de S adems de algunos otros smbolos. El elemento vo de V es un punto de partida para las sustituciones. Por ltimo, la relacin sobre V* especifica los reemplazos permisibles, en el sentido de que, si w w se puede reemplazar w con w son los lados izquierdo y derecho de la produccin respectivamente se llama produccin de G.

Pg. 27

3.1.14. Transductores de estados finitos Un transductor de estados finitos, o transductor finito, es un autmata finito (o mquina de estados finitos) con dos cintas, una de entrada y otra de salida. Un transductor tambin puede no producir ninguna salida para una cadena de entrada, y en este caso se dice que el transductor rechaza la entrada. En general, un transductor establece una relacin entre dos lenguajes formales, la clase de relaciones computadas por un transductor de estados finitos se conoce como una clase de relaciones racionales [WIKI07 clave: Transductores de estados finitos]. Los transductores de estados finitos se utilizan normalmente en anlisis morfolgico y en la investigacin y aplicaciones de procesamiento del lenguaje natural. Formalmente un transductor de estados finitos T es una tupla (Q, , , I, F, ) tal que:

Q es un conjunto finito, el conjunto de estados; es un conjunto finito, llamado el alfabeto de entrada; es un conjunto finito, llamado el alfabeto de salida; I es un subconjunto de Q, el conjunto de estados iniciales; F es un subconjunto de Q, el conjunto de estados finales; y (donde es la cadena vaca) es la funcin de transicin.

Se puede ver (Q, ) como un grafo dirigido etiquetado, conocido como el grafo de transicin de T: el conjunto de vrtices es Q, y indica que hay una arista etiquetada que va del vrtice q al vrtice r. Tamben se dice que a es la etiqueta de entrada y b la etiqueta de salida de esa arista.

Pg. 28 Esta definicin de traductor de estados finitos tambin se conoce como traductor de letras (Roche and Schabes 1997); hay otras definiciones posible, pero todas se pueden generar partiendo de sta. Se define la funcin de transicin extendida * como el conjunto ms pequeo tal que:

; \forall whenever . ;y and entonces

La relacin de transicin extendida es, esencialmente, clasula transitiva reflexiva del grafo de transicin que ha sido aumentada para tener en cuenta las etiquetas de las aristas. Los elementos de
*

se conocen como caminos. Las etiquetas de la aristas de un

camino se obtienen concatenando las etiquetas de las aristas de las transiciones que se han generado en orden. El comportamiento del transductor T es la relacin racional [T] definida como sigue: x[T]y si y solo si existe y tal que

. Esto significa que T transduce una cadena en una cadena si existe un camino desde un estado

inicial hasta un estado final con entrada x y salida y. 3.2. Marco conceptual 3.2.1. Texto de la lengua original Bloques de texto escritos en el idioma espaol que requieren la traduccin a la lengua aymara.

Pg. 29 3.2.2. Anlisis morfolgico Consiste en identificar los elementos del texto y clasificarlos en funcin de lo que son: nombres, verbos, adjetivos, etc. Adems, tambin deben reconocerse abreviaturas y otras expresiones o palabras compuestas. 3.2.3. Categorizacin lxica Algunas de las palabras que aparecen en un texto pueden tener ms de un significado, causando as ambigedad a la hora de hacer su anlisis. La categorizacin lxica analiza el contexto, es decir, los elementos vecinos al actual, y escoge el significado que mejor encaja. 3.2.4. Transferencia lxica La transferencia lxica es equivalente a lo que comnmente se conoce como traduccin por diccionario. A partir de la forma lxica de la palabra original, se trata de derivar su equivalente en el nuevo idioma. 3.2.5. Transferencia estructural Una transferencia estructural analiza el texto desde un punto de vista ms amplio. En vez de centrarse en palabras, amplia su objetivo a fragmentos mayores. De esta manera se pueden encontrar expresiones que puedan requerir un tratamiento especial (p.ej. refranes, dichos, etc.). 3.2.6. Generador morfolgico En el momento en que ya se ha realizado el anlisis, el generador morfolgico es el encargado de asociar cada elemento identificado en fases anteriores con su equivalente en la lengua objetivo, procurando que la interpretacin sea lo ms fiel posible. 3.2.7. Texto de la lengua meta Bloques de texto traducidos del idioma espaol a la lengua aymara.

Pg. 30

3.2.8. Cdigo Abierto (open source) Es el trmino con el que se conoce al software distribuido y desarrollado libremente. Fue utilizado por primera vez en 1998 por algunos usuarios de la comunidad del software libre, tratando de usarlo como reemplazo al ambiguo nombre original en ingls del software libre (free software). IV. HIPOTESIS Y VARIABLES 4.1. Hiptesis general La calidad de traduccin automtica del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium es buena. 4.2. Hiptesis especficas El traductor automtico del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium cumple los estndares de las mtricas de ingeniera de software. La eficiencia del traductor automtico del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium es buena.

4.3. Anlisis de variables e indicadores


VARIABLES Independiente: 1. Sistema de cdigo Abierto OpenTrad Apertium INDICADORES 1.1. Mtricas de Ingeniera de Software 1.1.1. Funcionalidad 1.1.2. Confiabilidad 1.1.3. Usabilidad 1.1.4. Facilidad de Mantenimiento 1.2. Mtricas de evaluacin de eficiencia del traductores automticos 2.2.1. Calidad de TA 2.2.2. Precisin del TA 2.2.3. Errores de traduccin INDICES 1.1.1. Grado de satisfaccin de necesidad 1.1.2. Cantidad de Tiempo que el software est disponible. 1.1.3. Grado en que el software es fcil de usar. 1.1.4. Grado de facilidad con que una modificacin puede ser realizada 1.2.1. Nivel de Calidad de traduccin 1.2.2. Grado de precisin de traduccin 1.2.3. Nivel de errores y sustituciones

Pg. 31
Dependiente: 2. Traductor automtico de textos del idioma espaol a la lengua aymara 2.1. Mtricas de Ingeniera de Software 2.1.1. Funcionalidad 2.1.2. Confiabilidad 2.1.3. Usabilidad 2.1.4. Facilidad de Mantenimiento 2.2. Mtricas de evaluacin de eficiencia del traductores automticos 2.2.1. Calidad de TA 2.2.2. Precisin del TA 2.2.3. Errores de traduccin

2.1.1. Grado de satisfaccin de necesidad 2.1.2. Cantidad de Tiempo que el software est disponible. 2.1.3. Grado en que el software es fcil de usar. 2.1.4. Grado de facilidad con que una modificacin puede ser realizada

2.2.1. Nivel de Calidad de traduccin 2.2.2. Grado de precisin de traduccin 2.2.3. Nivel de errores y sustituciones 3. Interviniente 3.1. Edad del grupo de personas 3.1.1. Personas que tienen 10 a 18 Edad del grupo de que evaluarn el traductor aos de edad personas que automtico 3.1.2. Personas que tienen 19 a 50 evaluarn el aos de edad traductor 3.1.3. Personas que tienen 51 a ms automtico aos de edad

V.

DISEO DE LA INVESTIGACION 5.1. Tipo y nivel de investigacin rea de Investigacin: Ciencias de la Computacin Tipo de Investigacin: Investigacin Aplicada o tecnolgica Nivel de investigacin: Experimental Campo de investigacin: Procesamiento de Lenguaje Natural Tema de Investigacin: Traductor automtico 5.2. Diseo de la investigacin 5.2.1. Etapa de anlisis de cdigo fuente por ingeniera inversa El mtodo ingeniera inversa permitir analizar el cdigo fuente del Sistema de cdigo abierto OpenTrad Apertium de transferencia sintctica superficial, mediante el mtodo se obtendr el diseo del sistema y sus especificaciones para luego generar la documentacin respectiva.

Pg. 32
FIGURA 02 PROCESO DE INGENIERIA INVERSA PARA EL SISTEMA DE CDIGO ABIERTO OPENTRAD APERTIUM
Diagrama de estructura de programas Generacin de documentos Diagrama de estructura de datos Matrices de rastreabilidad

SISTEMA OPENTRAD APERTIUM

Anlisis automatizado

Anotacin manual

Almacn de informacin del sistema

Fuente: [SOM02] Proceso de ingeniera inversa 5.2.2. Etapa de Ingeniera de traduccin automtica por transferencia La implementacin del traductor automtico seguir a la arquitectura de transferencia, que traducir automticamente sintagmas nominales del idioma espaol a la aymara, la cual se realizar en tres fases: anlisis, transferencia y generacin. FIGURA 03
ARQUITECTURA GENERAL DEL PROTOTIPO POR TRANSFERENCIA
GENERACIN DE LA LENGUA META (LM)

ANLISIS DE LA LENGUA ORIGINAL (LO)

TRANSFERENCIA

Fuente: [DIAZSA] figura 2. El nivel de transferencia ser lxico y sintctico: Transferencia lxica: Permitir la bsqueda del trmino equivalente en la lengua meta la cual se realiza a partir de informacin contenida en el diccionario.

Pg. 33 Transferencia sintctica: El anlisis de la oracin de la lengua origen se transformar en la generacin equivalente para la oracin de la lengua meta. FIGURA 04
ARQUITECTURA DE TRANSFERENCIA DEL IDIOMA ESPAOL A LA LENGUA AYMARA

Fuente: Arquitectura de transferencia [DIAZSA]. 5.2.3. Etapa de Implementacin de diccionarios y reglas gramaticales Implementacin de diccionarios Las entras de diccionarios se realizacin mediante archivos XML: 1. Entradas en el diccionario monolinge espaol: para que el traductor pueda analizar (entender) la palabra cuando la encuentre en un texto, y la pueda generar al traducir esta palabra al espaol.

Pg. 34 2. Entradas en el diccionario bilinge: para que el sistema pueda traducir esta palabra del idioma espaol a la lengua aymara. 3. Entradas en el diccionario monolinge de Aymara: para que el traductor pueda analizar (entender) la palabra cuando lo encuentre en un texto, y la pueda generar al traducir esta palabra a la lengua aymara. Implementacin de reglas gramaticales El mdulo de transferencia estructural (generado a partir del fichero de reglas de transferencia estructural) llamar, durante el procesamiento, al mdulo de transferencia lxica (generado a partir del diccionario bilingue) para determinar los equivalentes en lengua de meta de las formas lxicas. Las reglas de transferencia se implementaran en archivos XML. Las reglas tendrn un patrn y una accin. El patrn indicar que secuencias de formas lxicas tienen que ser detectadas y procesadas. La accin describir las verificaciones y transformaciones que deben realizarse en ellas. 5.2.4. Mtodo de evaluacin de software traductor automtico La implementacin del sistema de traductor automtico del idioma espaol a la lengua aymara, se basar al modelo de ingeniera de software modelo de construccin de prototipos, una vez implementacin el sistema traductor automtico se evaluar la calidad con mtricas de ingeniera de software los siguientes parmetros: funcionalidad, confiabilidad, usabilidad y facilidad de mantenimiento. 5.2.5. Mtodo de evaluacin de la eficiencia del traductor automtico Para evaluacin de la eficiencia del traductor automtico de textos del idioma espaol a la lengua aymara se utilizar las mtricas de evaluacin de traductores automticos:

Pg. 35

WER (word error rate),

Donde: BLEU S es el nmero de sustituciones, B es el nmero de borrados, I es el nmero de inserciones, N es el nmero de palabras que tiene la frase de referencia. mide la precisin de los ngramas (unigramas, bigramas,

trigramas y cuatrigramas)

Pg. 36 5.3. Matriz de consistencia


Problemas Problema Principal: La inexistencia de un traductor automtico del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium Problema Especfico Nro. 1: Per un pas pluricultural que no cuenta con herramientas como traductores automticos para interrelacionar culturas. Objetivos Objetivo Principal Medir la calidad de traduccin automtica del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium Hiptesis Hiptesis Principal La calidad de traduccin automtica del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium es buena. Hiptesis especfica Nro. 1 El traductor traductor automtico del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium cumple los estndares de las mtricas de ingeniera de software. Varia-bles Independiente: Indicadores 1.1. Mtricas de Ingeniera de Software 1.1.1. Funcionalidad 1.1.2. Confiabilidad 1.1.3. Usabilidad 1.1.4. Facilidad de Mantenimiento 1.2. Mtricas de evaluacin de eficiencia del traductores automticos 2.2.1. Calidad de TA 2.2.2. Precisin del TA 2.2.3. Errores de traduccin ndices 1.1.1. Grado de satisfaccin de necesidad 1.1.2. Cantidad de Tiempo que el software est disponible. 1.1.3. Grado en que el software es fcil de usar. 1.1.4. Grado de facilidad con que una modificacin puede ser realizada 1.2.1. Nivel de Calidad traduccin 1.2.2. Grado de precisin de traduccin 1.2.3. Nivel de errores sustituciones Mtodo -Poblacin: personas que leen y hablan la lengua aymara de los pases Per y Bolivia - Muestra: n = 50 personas

1. Sistema de cdigo Abierto OpenTrad Apertium

Objetivos Especficos 1. Obtener el diseo y la especificacin del traductor automtico Opentrad Aperitum mediante ingeniera inversa. 2. Implementar el traductor automtico del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium. 3. Implementar los diccionarios morfolgicos del idioma espaol y de la lengua aymara 4. Implementar las reglas de transferencia para la traduccin de idioma espaol a la lengua aymara 5. Validar mediante mtricas de software el traductor automtico del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium . 6. Evaluar la eficiencia del traductor automtico del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium con las mtricas de evaluacin de traductores automticos

de - Tipo de Investigacin: Investigacin Tecnolgica / y Experimental - Estrategia: 1) Recoleccin de bibliografa especializada y planificacin del proyecto. 2) Ingeniera Inversa

Problema Especfico Nro. 2: Dos millones y medio de personas ayamara hablantes que no tienen acceso a la informacin en su propia lengua.

Hiptesis especfica Nro. 2 La eficiencia del traductor automtico del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium es buena.

Dependiente 2.1. Mtricas de Ingeniera de Software 2. traductor 2.1.1. Funcionalidad automtico 2.1.2. Confiabilidad del idioma 2.1.3. Usabilidad espaol a la 2.1.4. Facilidad de lengua Mantenimiento aymara basado en el sistema de 2.2. Mtricas de evaluacin de eficiencia del cdigo abierto traductores automticos 2.2.1. Calidad de TA Opentrad Apertium 2.2.2. Precisin del TA 2.2.3. Errores de traduccin

2.1.1. Grado de satisfaccin de necesidad 2.1.2. Cantidad de Tiempo que el software est disponible. 2.1.3. Grado en que el software es fcil de usar. 2.1.4. Grado de facilidad con que una modificacin puede ser realizada 2.2.1. Nivel de Calidad traduccin 2.2.2. Grado de precisin de traduccin 2.2.3. Nivel de errores sustituciones

de 3) Ingeniera de traduccin automtica por transferencia y sintctica

Interviniente 3.1. Edad del grupo de 3. Edad de personas que evaluarn la personas el traductor automtico que evaluarn el traductor automtico

3.1.1. Personas que tienen 10 a 3) Implementacin de diccionarios y 18 aos de edad 3.1.2. Personas que tienen 19 a reglas de gramaticales 50 aos de edad 3.1.3. Personas que tienen 51 a 5) Evaluacin del ms aos de edad traductor
automtico.

Pg. 37 5.4. Diseo de prueba de hiptesis Para mtricas de ingeniera de software y mtricas de evaluacin de traductores automticos se usar la prueba de hiptesis para la media Primera prueba: para mtricas de ingeniera de software Ho (Hiptesis nula): El traductor automtico no es de calidad por que no cumple las mtricas de ingeniera de software H1 (Hiptesis alterna): El traductor automtico es de calidad por que cumple las mtricas de ingeniera de software. Segunda prueba: para mtricas de evaluacin de traductores automticos Ho (Hiptesis nula): La calidad de traduccin de textos del idioma espaol a la lengua aymara no es buena. H1 (Hiptesis alterna): La calidad de traduccin de textos del idioma espaol a la lengua aymara es buena. Procedimiento: a) Planteamiento de hiptesis Ho (hiptesis nula) : = o H1 (hiptesis alterna): > o b) Estadstico de prueba: Se usar la distribucin normal (Z) c) Nivel de significancia, alfa: 5% (margen de error 5%) d) Regla de decisin Dibujo Si Zc > Z entonces se rechazar Ho e) Calcular Zc

Zc =

/ n 1

f) Conclusin e interpretacin

Pg. 38 5.5. Poblacin y muestra POBLACION: La poblacin ser representada por las personas que leen y hablan la lengua aymara de los pases Per y Bolivia, quienes comprenden textos adems su gramtica, as como su escritura y su lectura de esta lengua. MUESTRA: Para efectos de la evaluacin traductor automtico del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium, Arkin-Colton se tomar una muestra por el mtodo de Fishercon 90% de nivel de criterio 2 sigma para P=Q=50%

confianza (2, Z=2), como la poblacin es mayor que 100 000 entonces la muestra sera 100 personas que representa a Per y Bolivia, por lo que se tomar 50 personas del Pas Peruano especficamente regin Puno por la cercana y alcance al grupo de personas. n = 50 personas 5.6. Diseo de recopilacin de informacin Recopilacin de informacin con respecto a la estructura gramatical del idioma espaol y de la lengua aymara mediante bibliografa. Fichas de observacin de mtricas de ingeniera de software Fichas de observacin de mtricas de evaluacin de traductor automtico Ficha de entrevistas de apreciacin del traductor automtico

Pg. 39 VI. PRESUPUESTO Y FINANCIAMIENTO 6.1. Presupuesto bsico


D E S C R I P C I ON

UND.

CAN PRECIO T UNIT.

TOTAL S./

MATERIAL DE ESCRITORIO Papel Bond 80 g Cds Simples Flder Manila T /A4 Cuaderno cuadriculado 100 h T/A4 Archivador de palanca lomo ancho T /oficio Unidad de Almacenamiento (2 Gigas) BIENES DE CONSUMO Toner para impresora ML-225 1N Sansumg VITICOS Y ASIGNACIONES Viticos a nivel Nacional PASAJES Abancay-Puno-Cusco- Abancay SERVICIOS Compra de Dominio (Anual) www.aymaramarka.com Proveedor de Dominios Alquiler de Hosting (Anual) 1000 Megas PHP, SSL, MySql, proveedor de servicios de Internet

Millar Unid. Unid. Unid. Unid. Gigas

02 10 25 02 01 01

25.20 0.80 0.15 2.80 2.92 92.50

50.40 8.00 3.75 5.60 2.92 92.50

Unid.

01

460.00

460.00

Das persona

02 01 01 01

223.5 170.00 30.00

447.00 170.00 30.00

2000.0 2000.00

Servicio de Posicionamiento en Internet (Indexadores, Directorios, Buscadores) proveedor de servicios de Internet Elaboracin de material de Material de Recopilacin Servicio de: - Diseo de encuestas - Impresin de encuestas Ejecucin de encuestas Servicio de Internet Unid. Impresin de materiales de investigacin Unid. Bibliografa IMPREVISTOS Movilidad local y otros Costo Total Unid.

01 01

450.00 400.00

450.00 400.00

4 300 10

150.00 1.00 50.00

600.00 300.00 500.00 150.00

S/.

5,670.17

Pg. 40 6.2. Financiamiento El presupuesto bsico calculado se presenta en su forma estimada para la realizacin de la investigacin el cual asciende a S/. 5670.17 (Cinco mil seiscientos setenta nuevos soles con 17/100 cntimos) la cual ser autofinanciado por el investigador.
VII. CRONOGRAMA
N 1 2 3 4 5 6 7 8 Actividades Elaboracin y aprobacin del Proyecto Diseo de ingeniera de traduccin por transferencia sintctica traductor automtico del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium Implementacin de diccionarios y reglas gramaticales Evaluacin del traductor automtico del idioma espaol a la lengua aymara basado en el sistema de cdigo abierto Opentrad Apertium Implementacin en el sitio web del traductor automtico Test de comprensin de textos del idioma espaol en la lengua aymara Informe y publicacin Diciembre 1 X 2 X X X X X X X X X X X X X X X X X X 3 4 1 Enero 2 3 4 1 Febrero 2 3 4 1 Marzo 2 3 4

Pg. 41

VIII. ESTRUCTURA TENTATIVA DEL INFORME FINAL I. INTRODUCCIN II. EL PROBLEMA 2.1. Anlisis de la situacin problemtica 2.2. Definicin del problema 2.3. Planteamiento del problema 2.4. Justificacin III. OBJETIVOS 3.1. Objetivo general 3.2. Objetivos especficos IV. MARCO REFENCIAL 4.1. Marco terico 4.2. Marco conceptual V. HIPTESIS Y VARIABLES 5.1. Hiptesis general 5.2. Hiptesis especficas 5.3. Anlisis de variables e indicadores VI. DISEO DE LA INVESTIGACIN 6.1. Diseo de la investigacin 6.2. Matriz de consistencia 6.3. Diseo de prueba de hiptesis 6.4. Poblacin y muestra 6.5. Mtodos de discusin VII. RESULTADOS Y DISCUSIN VIII. CONCLUSIONES IX. SUGERENCIAS X. BIBLIOGRAFIA CONSULTADA XI. ANEXOS

Pg. 42

IX.

BIBLIOGRAFIA CONSULTADA [ALVA81] ALVARADO, MAITE y otros. Teora y prctica de un taller de escritura. Madrid, Altalena 1981.

[RICH94] Elaine RICH y Kevin Knight. Inteligencia Artificial. Segunda Edicin. Espaa. McGraw-Hill/Interamericana S.A. 1994. [ESPE94] Elvira, ESPEJO AYKA. Jichha n Parlt' (Ahora les voy a Narrar). Bolivia Ediciones ILCA, 1994. [LAYME] Felix, LAYME PAIRUMANI. Diccionario Biling: Aymara Castellano. Tercera Edicin. Bolivia Consejo Educativo Aymara (CEA) 2004.

[GATT01] GATTI MURIEL, Carlos. Elementos de Gramtica Espaola. Segunda Edicin. Lima Universidad del Pacfico. 2001. [MEND91] Jos MENDOZA, Donato GOMEZ etc. Yaticha (Diccionario Especializado Aymara). Bolivia 1991. Arunaka

[KOLM97] KOLMAN, BUSBY y ROSS. Estructuras de Matemticas Discretas para la Computacin, Prentice Hall, 1997. [SOMM02] Lan, SOMMERVILLE. Ingeniera de Software. Sexta Edicin. Mxico Pearson Educacin. 2002. [LOUD04] Louden, K. C. Construccion de Compiladores Principios y Practica. Thomson. 2004. [THER93] Lucy, THERINA BRIGGS. El Idioma Aymara: Variantes Regionales y Sociales. La Paz, Bolivia Ediciones ILCA. 1993. [PRES03] Presidente de la Repblica del Per. Ley General de Educacin 28044. Lima 2003. [PRES93] Presidente del Congreso Constituyente Democrtico del Per. Constitucin Poltica del Per. Lima 1993. [GRON99] Marcelo, GRONDIN N. Mtodo de Aymara: Qullajaqin Arupa. La Paz, Cochabamba (Bolivia), Editorial Los Amigos del Libro. 1999. [MEDI03] [NILS04] [ALVA06] MEDINA G., Antonia. Lexicografa espaola. Barcelona Editorial Ariel. 2003. Nilsson NILS. Inteligencia Artificial. Madrid. McGraw Madrid. Hill/Interamericana S.A. 2004. Octavio, LVAREZ MAURICIO. Mtodo para optar el Ttulo Profesional y los grados de Magster y Doctor. Lima, Grupo Editorial Megabyte S.A.C. 2006.

Pg. 43 [CORP84] CORPUNO. Diccionario Aymara-Castellano. Puno, Experimental Educacin Bilinge Puno-Per. 1984. [BRE03] Ramn BREA. Autmatas y Lenguajes. Mxico. 2003. [CERR87] Rodofo, CERRN PALOMINO. Quechumara Estructuras Paralelas de las lenguas Quechua y Aymara. Per: Puno. 1987. [CERR00] Rodolfo CERRN PALOMINO. Lingstica Aimara. Lima, 2000. [PRES02] Roger S. PRESSMAN. Ingeniera de Software: Un Enfoque Prctico. Quinta Ediccin. Madrid, etc. McGraw Madrid. Hill/Interamericana S.A. 2002. [RUSE04] RUSELL, Stuart y NORVIG Meter. Inteligencia Artificial un enfoque moderno. Segunda Edicin. Madrid. Pearson Educacin S.A. 2004. [PRAT98] T. PRATT y V. ZELKOWITZ. Lenguajes de Programacin Diseo e Implementacin. Prentice-Hall Hispanoamericana S.A. 1998. [SOMM02] SOMMERFILLE, IAN. Ingeniera de Software. Sexta Edicin, Mxico, Pearson Educacin de Mxico S.A. 2002. [UANC03] UANCV (Universidad Andina Nstor Cceres Velsquez). Morfologa Contrastiva Quechua/Aymara/Castellano. Escuela de Postgrado de la, Segunda Especializacin en Educacin Bilinge Intercultural. Per: Juliaca. 2003. BIBLIOGRAFA CONSULTA EN DOCUMENTOS ELECTRNICOS [ETHN96] Ethnologue Languages of the World. Questions about the languages. Cuntas lenguas se hablan en el mundo. [en lnea]. 13va edicin, Barbara F. Grimes. 1996. [citado 25 noviembre 2007]. http://www.lenguasdelmundo.com/ Disponible en Internet: lenguas_preguntas_eng.php#pregunta6. ISBN-13 978-1-55671159-6. [ETHN05] Ethnologue Languages of the World. Ethnologue language name index. [en lnea]. Editor Gordon, Raymond, Dallas. 2005. [citado 01 diciembre 2007]. Disponible en Internet: http://www.ethnologue.com/show_language.asp?code=ayr [MICR07] [DIAR07] Microsoft Corporation. Enciclopedia Encarta 2008. [CD, DVD]. 2007. [citado 01 diciembre 2007]. Disponible en CD y DVD. Diario el Pas. Seccin Cultura. El espaol es el segundo idioma que ms se estudia en el mundo, segn el Instituto Cervantes. 26/04/2007. [en lnea]. [citado 24 de octubre de 2007]. Disponible en Internet: http://www.elpais.com/articulo/cultura/espanol/ segundo/idioma/estudia/mundo/Instituto/Cervantes/elpepucul/20070 426elpepucul_8/Tes Proyecto

Pg. 44 [WIKI07] Wikimedia Foundation Inc. Wikepedia Enciclopedia Libre. [en lnea]. [citado 01 diciembre 2007]. Disponible en Internet: http://es.wikipedia.org/wiki/portada

[MORE00] Antonio MORENO ORTIZ. Estudios de Lingstica Espaola: Diseo e Implementacin de un Lexicn Computacional para Lexicografa y Traduccin Automtica. [en lnea]. Facultad de Filosofa y Letras Universidad de Mlaga. Volumen 9 2000. [citado 17 octubre 2007]. Disponible en Internet: http://elies.rediris.es/elies9/index.htm . ISSN: 1139-8736 [TRANSD] Mikel L. Forcada, Boyan Ivanov Bonev y otros. Documentacin del sistema de cdigo abierto Opentrad Apertium de traduccin automtica de transferencia sintctica superficial. [en linea]. Grup Transducens Departament de Llenguatges i Sistemes Informtics Universitat dAlacant, E-03071 Alacant. [citado: 10 noviembre 2007]. Disponible en Internet: http://xixona.dlsi.ua.es/~fran/apertium1-docses.pdf [DIAZSA] Daz de Ilarraza, A. Mayor and K. Sarasola. Reutilizazin de recursos lingsticos en la construccin de un sistema de TA inglseuskara. [en lnea]. IXA Group http://ixa.si.ehu.es Informatika Fakultatea (Computer Science Faculty) University of the Basque Country DONOSTIA (Basque Country - Spain). [citado 14 noviembre 2007]. Disponible en Internet: http://www.iai.unisb.de/iaien/iaiwp/p5/index.html. Correo: jibmamaa@si.ehu.es Alicia Garrido-Alenda y Mikel L. Forcada. MorphTrans: un lenguaje y un compilador para especificar y generar mdulos de transferencia morfolgica para sistemas de traduccin automtica interNOSTRUM [en lnea]. Departament de Llenguatges i Sistemes Informatics. Universitat d'Alacant. [citado 24 de noviembre 2007]. Disponible en Internet: http://www.internostrum.com.

[ALIC06]

UNIVERSIDAD ANDINA NESTOR CCERES VELSQUEZ ESCUELA DE POSTGRADO


MAESTRIA EN INGENIERIA DE SISTEMAS

TRADUCTOR AUTOMATICO DEL IDIOMA ESPAOL A LA LENGUA AYMARA BASADO EN EL SISTEMA DE CODIGO ABIERTO OPENTRAD APERTIUM

Presentado por: Ing. Hugo David Calderon Vilca

PARA OPTAR EL GRADO DE MAGISTER EN INGENIERA DE SISTEMAS

JULIACA PERU 2007

UNIVERSIDAD ANDINA NESTOR CCERES VELSQUEZ ESCUELA DE POSTGRADO MAESTRIA EN INGENIERIA DE SISTEMAS

TRADUCTOR AUTOMATICO DEL IDIOMA ESPAOL A LA LENGUA AYMARA BASADO EN EL SISTEMA DE CODIGO ABIERTO OPENTRAD APERTIUM.

PROYECTO DE TESIS
Para optar el grado de: MAGISTER EN INGENIERIA DE SISTEMAS Mencin: Ingeniera del Software Presentado por: Ing. Hugo David Calderon Vilca APROBADA POR

PRESIDENTE DE JURADO

:________________________________ Mcs. Rodolfo Arpasi Chura

MIEMBRO DEL JURADO

:________________________________ Msc. Huberth Lazo Rojas

MIEMBRO DEL JURADO

:________________________________ Msc. Juan Benites Noriega

ASESOR DE TESIS

:________________________________ M.Cs. Daniel Yucra Sotomayor

Das könnte Ihnen auch gefallen