Lingüística de Corpus

Cognoms Viviani Curs 2010-2011
Nom Pietro
Data mxima de lliurament: 15 de juny Lliurament per email a: amarti@ub.edu No teniu limitacions despai. Cenyiu-vos a respondre el que us demano. Questionari lingstica de corpus
1) Quina de les lectures del curs tha semblat ms interessant (tha aportat
coneixements ms interessants)? a. Per qu? b. Quins aspectes destacaries? c. Quina incidncia t aquesta lectura en la Lingstica de Corpus? i en la Lingstica? 2) Qu pot aportar la Lingstica de corpus als estudis del llenguatge? 3) Quins avantatges presenta la VIKIPEDIA com a corpus respecte de la WEB. 4) Pros i contres de ls de corpus anotats i de corpus no anotats. La lectura que me ha interesado ms a sido la de Joan Bybee titulada Language, Usage and Cognition. Porque l propone un modelo de lenguaje basado sobre el uso y la cognicin que se construye sobre: chumking, almacenamiento, analogas y categorizacin y sostiene que el lenguaje es una funcin cognitiva como visin y tacto, adems en su teora la gramtica est basada en la experiencia. Chumking Bybee toma inspiracin de la investigacin de neurociencia que estudia cmo nuestro cerebro procesa la informacin y la va paquetizando en clusters de secuencias altamente frecuentes. Un ejemplo prctico es que cuando se camina no se piensa: ahora voy a dar el prximo paso, sino se domina la actividad. Para analizar el lenguaje desde este punto de vista l retoma el concepto de patrn (chunk) de Abney que surgi en el marco del procesamiento lingstico. Un chunk es una secuencia de elementos de alta frecuencia que constituye una unidad lingstica, o, en otras palabras, las secuencias de unidades que se utilizan juntas y que forman una unidad ms compleja. Estudiando los patrones nos damos cuenta que mucha de la lengua que nosotros utilizamos todos los das est prefabricada y es convencional, esto es claro tambin cuando se aprende una segunda lengua, donde no es suficiente aprender slo lxico y gramtica. Segn la visin cognitivita nuestra adquisicin del lenguaje es reconocer patrones, los seres humanos son grandes conocedores de secuencias y slo en primer lugar el aprendizaje del lenguaje es la asociacin de un sonido a una situacin o a una experiencia, despus es repeticin. La evolucin lingstica en la sociedad de la comunicacin El lenguaje no es un producto inmvil, tanto los significantes como los significados suelen cambiar. Para que haya un cambio lingstico tienen que pasar dos cosas: innovacin y adopcin. En la sociedad moderna de la comunicacin y de la tecnologa los medios de comunicacin influyen mucho en el cambio lingstico. La lingstica de corpus demuestra que los hablantes son muy innovadores porque viven en una sociedad que va hacia la innovacin siempre ms, por ejemplo si se utiliza la Web como corpus se encuentran a menudo palabras relacionadas con las nuevas tendencias y que derivan del ingls que los usuarios de la Web usan muchsimo. Por ejemplo en italiano han entrado en el diccionario los trminos messaggiare, blogger y spam que todos son muy frecuentes en la Web. Otra palabra que probablemente dentro de poco ha entrado es summit, un prstamo del
ingls muy utilizado en el lenguaje periodstico, y se puede observar su frecuencia en un corpus que considere todos los peridicos italianos que estn en Internet. En conclusin la Web y los modernos medios de comunicacin influyen mucho en la evolucin del lenguaje, ahora an ms que la literatura. El cambio semntico Uno de los cambios semnticos ms recurrentes son la metfora y la metonimia que contribuyen a la formacin de expresiones aceptadas, y, a menudo, lexicalizadas en los diccionarios. Hay ejemplos por las dos categoras: cuando se dice la pata del caballo se hace referencia metafrica a una parte animal o en frase he visto tres bellezas se interpreta con he visto tres chicas guapas. Bybee da importancia a la variacin ligstica. Al principio de su disertacin compara la lengua con las dunas del desierto porque las dos tienen una aparente estructura y una regularidad, pero las dos varan. Cada lengua tiene un proceso evolutivo diferente que pasa por pasos, pero al mismo tiempo, se ve que comparando las construcciones de diferentes lenguas se encuentran principios similares de variacin. Por ejemplo de la etnolingstica salen ejemplos sobre la etimologa de grifo en espaol y rubinetto en italiano, las palabras tienen el mismo significado pero diferentes significantes, pero los significados tienen en comn el mismo origen cultural. En Espaa las fuentes solan tener un grifo animal mitolgico, en Italia y Francia un mascarn llamado con el diminutivo de Robin. Lenguas como el italiano, el espaol, el francs, son materiales que lxicamente derivan de otras culturas que existan antes, todas tienen como base la cultura latina. El cambio fontico Hay lenguas en que la fontica se desgasta ms. En cataln se observa la desaparicin de la oclusiva final por ejemplo: Madrid /madr/ Carnet /Carn/. Y en francs pasa un fenmeno lingstico interesante: las palabras no son unidades fnicas fijas. Las palabras no se presentan siempre en la misma forma. Le garon Lhomme Les garons /le/ Les hommes /lez/ le + consonante /l/ le + vocal /l/ les + consonante /le/ les + vocal /lez/
En italiano el acento tiene funcin para distinguir: Ej. ancora /ncora/ ancla ancora /ancra/ an Entonces el cambio lingstico no es slo semntico y cultural, la lengua cambia y se desgasta de manera sistemtica en el nivel fontico tambin, por ejemplo por la ley fontica de Grimm las oclusivas sordas se convierten en fricativas sordas, p>f, lat. pater > ing. father. Por los tanto en general tampoco si se consideran los significantes las palabras son fijas. Accesibilidad e inhibicin de palabras Otro rasgo que hay que considerar en el asunto del cambio lingstico es que la lengua refleja mucho el hombre, si puede hacer algo con el menor esfuerzo lo har. Por ejemplo es mucho ms econmico tener una palabra especializada en una funcin que muchas posibilidades, muchas declinaciones, y por esto las lenguas van hacia la simplificacin. Por ejemplo en latn se deca cnsul-is para decir del cnsul, ahora en las lenguas neolatinas hay una palabra funcional. Por muy comn que sea una palabra como coche las que ms a menudo aparecern en un corpus sern las gramaticales funcionales (de, para, con, a). Adems para el hombre memorizar ser mucho ms fcil, porque tendr menos palabras de memorizar. El cerebro tiene una gran capacidad de memoria (no tanto de procedimiento) y es a travs de la frecuencia y de la repeticin que domina una actividad, o sea somos capaces de hacerla y rehacerla. Esto ha sido observado tambin en experimentos:
todos los estudios sobre la frecuencia y la accesibilidad de palabras en estudiantes que aprenden otro idioma demuestran que existe un priming effect, es decir que si se encuentra una palabra en la L2 por segunda vez en un texto el acceso a la palabra se procesar ms rpidamente. A veces pueden pasar tambin lapsus lingsticos por problemas de accesibilidad, por ejemplo malapropismos como: El papa es inflamable en vez de El papa es infalible. Porque accesibilidad no significa slo hacer la justa eleccin de la palabra que se busca, pero tambin suprimir las palabras que estn relacionada fonticamente a sta que pero no tendran sentido en el discurso. De hecho casos como los homfonos y los homgrafos requieren un tempo de procesamiento ms largo. A travs del estudio de los errores de seleccin que los estudiantes hacen se puede intender mejor como funciona el cerebro. Entonces segn la visin cognitiva las palabras no son aisladas en la memoria, sino estn relacionadas en un Network de significados y significantes. Tambin los estudios de neurociencia demuestran que una neurona no tiene una informacin por si misma sino tiene una informacin si est en un Network de neuronas. El Network de analogas es una caracterstica considerable en lenguaje. Es a travs de la sinonimia y antonimia que hacemos analogas entre significados parecidos y opuestos, y con la polisemia relacionamos un significante relacionados a ms significados. Pero algunos lingistas sostienen que la perfecta sinonimia no existe, sera mejor hablar de sinonimoides en vez de sinnimos, es decir palabras que son intercambiables slo en algunos contextos. Palabras que puedan parecer sinnimos son por ejemplo favorito y preferido que pero no son intercambiables en todos los contextos, slo se puede decir Schumacher es el favorito. De las relaciones semnticas entre sinonimoides se crea esto esquema:
sdo1
sdo4
steB
sdo6
steD
steA
sdo2
sdo3
sdo5
steC
Adems el conocimiento sobre las palabras es enciclopdico: sabemos mucho ms de las palabras de lo que pensamos, no conocemos slo el significado, conocemos tambin informaciones morfo-sintcticas y la categora gramatical. Por ejemplo en Ingls por la palabra kill conocemos estas informaciones: Form: Spelling: K-I-L-L Pronunciation: /kl/ Morphological information (regular verb, etc.)
Lemma: Meaning: to deprive of life Word class: verb Syntactic information (Subject KILL Object) Adems hay palabras como hurfano nos cuenta una historia por si misma: no se puede ser hurfano a 54 aos y parece que ms pequeos somos, ms hurfanos somos, esto es conocimiento que tenemos internalizado. Categorizacin Otro rasgo de la lengua que tenemos es la categorizacin. Segn la perspectiva cognitivista la categorizacin semntica tiene dos niveles: prototype structure of category y basic model categories. Construimos categoras relacionando estos dos niveles: el primero est organizado horizontalmente y en la posicin ms central estn los miembros de la categora ms representativos de sta, es decir los que tienen ms condiciones suficientes y necesarias para pertenecer a la categora; el segundo es el ms alto grado de taxonoma en que podemos recrear una imagen mental y es el nivel de una taxonoma que memorizamos antes cuando somos nios, y tiene un nivel ms alto de hipernimo que es ms abstracto y un nivel ms bajo de hipnimo que es ms especifico. El esquema que sigue expone los niveles de categoras prototpicas y categora bsicas por la palabra dog.
Entonces hasta ahora se han expuesto como se supone que las palabras estn almacenadas en la memoria y como estn relacionadas entre ellas y la importancia de los chunk y de la categorizacin. Bybee parte precisamente por estos aspectos para construir un modelo del lenguaje. La dinamicidad de la gramtica por la repeticin Para Bybee el lenguaje es el resultado de una actividad cognitiva y lo interesante que el aade es que el uso determina la estructura. Por ejemplo: En Cataln Sisplau si us plau Chumking condicional + pronombre + verbo Se ve como de una forma analtica compleja se pasa a un patrn.
Entonces el lenguaje no es slo la combinacin de lxico, una lista de palabras que requiere mucha memoria, y gramtica, las normas que requieren poca memoria, sino un proceso en continua evolucin que est determinado por el uso. Los corpus nos permiten analizar la lengua en uso, y a travs de los corpus se ha podido observar cosas interesantes sobre la estructura, por ejemplo que la longitud de una palabra es inversamente proporcional a su frecuencia. Como se ve en el ejemplo de sisplau la gramtica se basa directamente sobre la experiencia lingstica que depende de la frecuencia del uso ms que de las normas. Entonces en el anlisis no hay datos que se excluyen de la consideracin, tampoco los antinormativos, porque representan performance, o sea el uso efectivo que los usuarios hacen de la lengua de la lengua, ms que la competencia, es decir lo que los usuarios saben efectivamente de la lengua. Otro punto que refuerza la idea que la gramtica se basa sobre la experiencia es que slo en las lenguas muertas la gramtica es esttica. Y, en cambio, en las lenguas modernas las gramticas y los diccionarios son fotografas de la lengua en un determinado instante. La dinamicidad de la gramtica se observa en el anlisis cuantitativo llamado Cultoromics donde se han analizados datos de un corpus construido con el 4% de todos los libros escritos, ms o menos 5 millones. Los resultados muestran que existen ms palabras de las que aparecen en cualquier diccionario, esto es claro porque en los diccionarios ingleses se excluyen los nombres compuestos y los nombre propios, y adems en los diccionarios aparecen lemas y no palabras (por ejemplo no se encontrarn las formas plurales). El 52 % del lxico estudiado consiste en materia obscura, es decir algo no documentado. Adems todos los verbos irregulares ingleses competen con formas regulares de ellos (ej. Strive, Strove, *Strived). En suma tambin la gramtica la plasman los usuarios. Cambio de morfemas gramaticales y lxicos Muchos son los cambios que dependen de la repeticin y la frecuencia y muchas categoras de la lengua o de la gramtica son difciles de distinguir. Cambian continuamente morfemas, categoras especificas y auxiliares. Los morfemas son una forma asociada a un significado y se clasifican en dos tipos: los morfemas lxicos, que suelen cambiar ms, y los morfemas gramaticales donde se supone que no cambien porque la gramtica es ms fija que el lxico. Pero tambin los morfemas gramaticales cambian, por ejemplo go cambia su sentido en funcin de las palabras que le estn cerca, ej. go ahead, go wrong, lets go. Adems hay morfemas gramaticales que perdieron su significado y ahora son slo parte de la fontica de una palabra. Un ejemplo en ingls es la segunda slaba de seldom almost never, que al principio era el dativo plural junto a seld strange, rare y ahora es la parte de una palabra sin sentido. La variacin hace que morfemas lxicos se gramaticalicen, por ejemplo el morfema lxico go se gramaticaliza en la estructura de futuro going to. Otros son los ejemplos de las categoras modales de los auxiliares, por ejemplo en ingls, shall expresa una obligacin o una estructura temporal. En conclusin se nota como las diferencias en trmino de significado estn relacionadas a diferencias en la distribucin. Todos estos procesos muy a menudo son dados por descontados, pero nos dicen algo sobre como el uso del lenguaje afecta el almacenamiento en la memoria y su organizacin. La observacin en los corpus Los corpus nos permiten mirar como cambia la lengua en el tiempo, porque nos dan una gran cantidad de datos lingsticos que nos pueden ayudar a entender los procesos y las direcciones que est tomando una lengua. Los datos pueden provenir de corpus modernos o por documentos de siglos pasados que sean informatizados. Por ejemplo de los datos actuales se ve que el ingls est convirtindose en una lengua analtica, es decir lenguas donde todas las palabras son invariables, como en el chino y el vietnamita en la que hay correspondencia de las palabras a un morfo y a un morfema.
En su ensayo Bybee dice que en la memoria, las formas lingsticas estn representadas en ejemplares, que se construyen de Token of language experience y los corpus nos dan datos sobre los token. Expresiones como si us plau, que estn formadas por 3 tokens, a causa de la frecuencia de uso se convierten en formas ms sintticas formada por 1 token, se reorganiza la experiencia, se pasa de 3 tokens a 1 token. A travs de los corpus podemos observar como las expresiones formadas por ms tokens por la frecuencia de uso se van reduciendo a un nico token y esto de hecho esto en italiano pasa con las palabrotas. En conclusin el ensayo de Bybee nos da un modelo de lengua del punto de vista cognitiva que considera la memorizacin y la categorizacin, y se basa sobre patrones y dependiente de la frecuencia de ocurrencia de estas secuencias, adems es una lengua que cambia continuamente y en varios niveles como el fontico y el semntico, y es la lingstica de corpus que nos permite observar tanto los patrones cuanto el cambio sistemtico de stos, y nos permite hacer hiptesis sobre como cambiarn o se desgastarn formas lingsticas muy frecuente en habla. 2) Frecuencia de elementos lingsticos Fue Harris el primero en proponer una teora lingstica que est relacionada con los corpus. La teora distribucional describe la lengua en trminos de frecuencia de partes relativas a otras partes, es decir que las relaciones entre partes de una lenguas (Ej. morfemas, fonemas) no son arbitrarias, sino que se combinan en una cierta posicin en relacin con otros elementos. En efecto, cuando hablamos en nuestra lengua madre en realidad no pensamos en la gramtica, pero elegimos trminos que regularmente van juntos y hay combinaciones ms frecuentes de otras. Por lo tanto todos los elementos de la lengua pueden ser agrupados en clases que tienen una determinada probabilidad de ocurrir, basada sobre la frecuencia de estar juntas. Son los corpus, que todava no existan cuando Harris elabor su teora, que nos permiten de describir la frecuencia de elementos que se encuentran en una lengua. El mtodo distribucional El mtodo distribucional clasifica las relaciones entre palabras en el contexto en dos clases: sintagmtico, es decir las relaciones en presencia; y paradigmtico, o sea las relaciones en ausencia. El asunto de las relaciones sintagmticas y paradigmticas est conectado a otro, el de lxico y gramtica. Segn Halliday la gramtica y el lxico son el mismo fenmeno que se difunde por una lnea continua pero observada por diferentes ngulos. Porque si se considera la palabra como unidad formada por morfemas, que sean lxicos o gramaticales ya hay una jerarquizacin y una subdivisin interna de la palabra (Ej. Hac-emos) y esto ya es sintaxis, esto pasa tambin por ejemplo en las lenguas polisintticas donde las palabras se unen para formar otras. El mtodo distribucional trabaja pariendo por estas nociones y necesita material sobre que trabajar estudiar la frecuencia de los paradigmas en los sintagmas y los corpus proveen de estos datos. El problema pero es segmentar estos datos, cuando existe regularidad gramatical es ms fcil dividir los morfemas, pero cuando hay formas irregulares como hice, hizo se deben examinarla por si mismas. Adems en el marco del las relaciones paradigmticas y sintagmticas en la lingstica computacional un problema son las llamadas word sense desambiguation es decir los casos que comprenden palabras con ms sentidos. Por estas palabras an no existe un programa que eficientemente pueda decirnos cul es el sentido correcto de un vocablo en un determinado contexto. contexto palabra (con sentidos 1, 2, 3, 4) contexto
Se considere por ejemplo la palabra vela con los significados cilindro de cera y pieza de lona para hacer navegar el barco, esta palabra en un contexto puede generar ambigedades que se reflejaran en la bsqueda en un motor de bsqueda o en el mbito de la traduccin automtica. La importancia de la lingstica de corpus por el estudio del lenguaje En todas las definiciones de corpus se ve que los lingistas estn de acuerdo con el hecho que un corpus es una coleccin de textos. Adems la lingstica de corpus ha desarrollado una tecnologa til para muchas disciplinas, por ejemplo para la ingeniera del lenguaje. Shuly Winter propone una unin de la estadstica con la corpus lingstica y cree que en los departamentos de ingeniera debera existir tambin una disciplina que se llame Natural Language Engeneering. Que se consideren por ejemplo los enormes resultados que se han alcanzado en este campo del momento que ha sido posible la revolucin lingstica orientada hacia los datos. Han sido posibles las mquinas de traduccin como la de Google que nos da un servicio de traduccin automtico entre parejas de 40 lenguas diferentes, cualquier usuario puede traducir del vietnamita al finlands. Esto despus de siglos se ha podido lograr. Asimismo Shuly Wintner afirma que la lingstica como disciplina estaba descaminndose, concentrndose sobre la sintaxis del ingls, y su teora se oscureci, se volvi barroca y cerrada para las otras disciplinas, y con la computacin la lingstica se abre a otros campos. Por ejemplo Ellison y Kirby proponen un mtodo computacional para construir taxonomas. Fueron lingistas como Chomsky que hicieron de la lingstica una asignatura barroca con su teora sobre la autonoma de la sintaxis. En sus ensayos escribe que a ms transformaciones sintcticas (Ej. Una frase en ingls que sea pasiva e interrogativa al mismo tiempo) corresponde una ms difcil comprensin de la frase en cuestin. Pero la dificultad depende de la semntica y l tuvo que cambiar su teora. Adems Chomsky es unos de los lingistas que rechazan los datos de corpus porque estos datos muy a menudo han demostrado que los usuarios de la lengua utilizan formas que no son normativamente correctas. En cambio hay lingistas que inicialmente hacen hiptesis sobre la lengua y la expresan en una gramtica formal, despus el corpus se utiliza para hacer test sobre estas gramticas. Lingistas como Leech dicen que los ordenadores nos han dado nuevas perspectivas para mirar a la lengua y las famosas palabras de Saussure Cest le point de vue qui cre lobject pueden reinterpretarse a la luz de la nueva metodologa que la lingstica de corpus introduce, por lo tanto se puede ahora observar a la lingstica desde otra perspectiva que antes de la era de los ordenadores no era posible. Algunos argumentos sobre la lingstica de corpus que se estn trabajando son, por ejemplo, sobre la representatividad de los corpus. Un corpus es representativo cuando lo que se descubre sobre un corpus puede ser generalizado a un hipottico corpus ms grande. Elena Tonigni Bonelli dice que la lingstica de Corpus es todava una asignatura muy joven porque slo con la llegada de la era de los ordenadores se ha podido acceder y procesar una larga cuantidad de datos. 3) Con la Wikipedia la gente de manera colaborativa est participando en la construccin de conocimiento etiquetado clasificado, entonces est creando una ontologa. El problema de las ontologas es que suelen tener una estructura limitada, de hecho con las ontologas simples a veces pasa que el sentido que se busca no est, pero la Wikipedia es una sper ontologa porque son muchos los usuarios quienes la modifican y la enriquecen. Respecto a la Web como corpus, la Wikipedia trata las informaciones de manera organizada a travs de la categorizacin, en cambio la Web es ms catica. Los aspectos positivos de Wikipedia son que: es un tesauro con hipervnculos es una ontologa trata la polisemia
trata las desambigedades De toda manera la Web es muy importante para analizar el lenguaje humano y nos permite de crear varios corpus, por ejemplo se pueden utilizar todos los peridicos que estn en Internet en una determinada lengua para crear un corpus que analice la lengua slo en el marco del genero periodstico, o se puede crear un corpus que se centre sobre el lenguaje utilizado en el gnero textual chat. Adems en si mismo el motor de bsqueda de Google es un corpus, nos permite, por ejemplo, insertar en la bsqueda una locucin entre comillas y nos da la informacin de frecuencia sobre la ocurrencia de sta en toda la Web, y a travs de la frecuencia se puede comprobar si un chunk es correcto o no en una determinada lengua que se est aprendiendo. Antes los fillogos hacan lingstica slo considerando su propio conocimiento del lenguaje, ahora los lingistas se pueden basar sobre una base emprica. Uno de los aspectos ms importantes que nos permite hacer Wikipedia y no la Web es de tractar las desambigedades, (Ej. Apple 1. empresa 2. manzana). Otra ventaja importante de la Wikipedia es que tiene textos alineados en diferentes lenguas, y esto es una caracterstica importante en la traduccin automtica, adems los textos son de calidad porque los usuarios colaboran corrigiendo eventuales errores de ortografa, y se pueden construir estadsticas sobre ests correcciones. En cambio la Web est lleno de spam. En suma la Wikipedia es un recurso de calidad porque es un corpus multilinge anotado manualmente. Wikipedia nos da una gran cantidad de artculos bien formulados y bien escritos y existe tambin una versin ms simple para personas que no son anglfonas. De toda forma los estudios sobre la Wikipedia como una fuente de corpus multilinges acaban de empezar, nos permiten conectar conceptos entre una lengua y otra y a travs de estas conexiones se pueden generar diccionarios bilinges automticos. Asimismo los hipervnculos de la Wikipedia estn anotados semnticamente, por ejemplo en un artculo ingls sobre el grupo automovilstico Mc Laren que se form en Nueva Zelanda figuran dos hipervnculos por la palabra Kiwi, uno remite a un sentido de Kiwi: sobrenombre para los neozelandeses; y otro que remite a otro sentido de Kiwi: tipo de ave que est representado sobre el logo Mc Laren. Los hipervnculos entre las categoras los configuran los mismos usuarios y capturan las relaciones semnticas entre palabras y si los nombres de los artculos corresponden a un trmino definido manualmente, la conexin entre ellos corresponde a la relacin entre los trminos. As se construyen bloques de tesauros. Por lo tanto Wikipedia tiene el potencial de construir nuevos conceptos y argumentos y puede ser utilizada como una fuente para el mantenimiento de un tesauro. El trabajo que se suele hacer sobre un tesauro es muy intenso y en Wikipedia son muchos los usuarios que lo hacen. En suma con la Wikipedia muchos usuarios estn creando un corpus que comprende conocimiento etiquetado de cualidad, categorizado y con relaciones semnticas y esto es un recurso enorme para la lingstica computacional.
4) Parte de la investigacin de la lingstica de corpus tiene que dirigirse hacia la anotacin. La anotacin es una prueba preparatoria que facilite a otra, por ejemplo la traduccin automtica. Hay dos tipos de Corpus: Corpus-based: son etiquetados y trabajan siempre con esquemas aceptados, muy a menudo con dicotomas como competencia/performance, sistema/ejemplo, lxico/gramtica. Corpus-driven: no son etiquetado, se hace que el corpus se manifieste a travs de estadstica, matemtica y estudio de las probabilidades, los lingistas usan un corpus-driven para validar una afirmacin terica.
Por los dos casos hay que segmentar el corpus. Pero los dos mtodos determinan dos concepciones opuestas: si los lingistas corpus-based con la anotacin manual aslan, estandardizan y reducen la cuestin, los lingistas de Corpus-driven construyen categoras que derivan de los datos. El corpus-based se usa para referirse a una metodologa que se propone de testar las teoras, por ejemplo se demostr a travs de las concordancias que en ingls any se utiliza por sentencias negativas. En otros casos hay dos posibilidades: los lingistas pueden reconstruir una teora o decidir de separar los datos de la teora. En la tradicin neo-Chomskiana la cuestin de los datos observables ha sido excluida drsticamente. Gries pero rechaza que para llegar a una afirmacin sobre un fenmeno lingstico frecuente los lingistas se basen slo sobre 200 ejemplos. Segn Elena Tognini-Bonelli el mtodo Corpus-based produce una simplificacin monodimensional del problema porque si se anota un corpus se empieza a trabajar con un conocimiento que ya ha sido insertado. Segn Leech con esto conocimiento el corpus es enriquecido, l sostiene que en ocasiones es necesario aadir informaciones haciendo un tagging, porque hay casos que seran ambiguos si se considera slo la forma. Por ejemplos las diferencias entre minuto 60 segundos y minuto pequeo. El ltimo problema que tiene un corpus anotado es que los datos que se manejan al principio tienen que ser reducidos a parmetros sistemticos. Por un lado se requiere la anotacin para tratar los elementos caticos de la lengua y para formalizar parmetros. Por el otro lado la anotacin requiere mucho trabajo manual y algunos ajustes a las categoras tericas, por ejemplo: En qu categora gramatical ira el token 8.30 da la frase el avin partir a las 8.30? Entonces cuando se anota un corpus se encuentran casos difciles, y no se trata slo de etiquetar cada palabra con informaciones gramaticales, muy a menudo anotando se encuentran casos como el vuelo LL327, y en este caso Qu se pone como etiqueta al token LL327? Parece que funcione como adjetivo. Por lo tanto la intuicin del investigador juega un papel muy importante cuando la anotacin est relacionada a la subjetividad del investigador. Se requiere mucha intuicin durante el anlisis de datos que no son siempre obvios. Segn Sincar otro problema de los corpus anotados es que a travs de la anotacin algunas informaciones podran ser no considerada, por ejemplo las del contexto, desde cuando los datos han sido etiquetados los lingistas concentran su trabajo sobre los tags, y no sobre los datos principales (raw dates). De toda manera el problema ms grande de la anotacin es que las categoras gramaticales las proveen los lingistas, y stas son objeto de estudio. Se crea un crculo vicioso que es que el anotador provee la herramienta con los que ya se asume una solucin previa. Gries en cambio trabaja con corpus-driven, intenta elaborar programas que a travs de la estadstica y la matemtica hagan que el corpus se anote automticamente. El problema principal es que no es siempre exacta porque hay algunos datos que necesitan un tagging. En conclusin los dos mtodos tienen pro y contra, a veces el tagging es inevitable para resolver ambigedades, pero en el mismo tiempo da un estructura monoltica a la cuestin y no es siempre preciso y se encuentran muchas dificultades en la categorizacin. El problema principal es que la realidad de la lengua est llena de elementos que las gramticas ni siquiera consideran y los corpus representan la realidad lingstica.

Lingüística de Corpus

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Lingüística de Corpus

Hochgeladen von

Copyright:

Verfügbare Formate

Cognoms Viviani Curs 2010-2011

Das könnte Ihnen auch gefallen