0 Bewertungen0% fanden dieses Dokument nützlich (0 Abstimmungen)
278 Ansichten7 Seiten
El algoritmo de Porter permite hacer stemming o lematización para extraer las raíces comunes de palabras relacionadas. Consiste en aplicar reglas iterativas para eliminar sufijos de forma ordenada, considerando factores como la frecuencia de los sufijos y el orden en que ocurren. Para traducirlo al español, se debe identificar los sufijos más comunes y establecer su orden de eliminación.
El algoritmo de Porter permite hacer stemming o lematización para extraer las raíces comunes de palabras relacionadas. Consiste en aplicar reglas iterativas para eliminar sufijos de forma ordenada, considerando factores como la frecuencia de los sufijos y el orden en que ocurren. Para traducirlo al español, se debe identificar los sufijos más comunes y establecer su orden de eliminación.
El algoritmo de Porter permite hacer stemming o lematización para extraer las raíces comunes de palabras relacionadas. Consiste en aplicar reglas iterativas para eliminar sufijos de forma ordenada, considerando factores como la frecuencia de los sufijos y el orden en que ocurren. Para traducirlo al español, se debe identificar los sufijos más comunes y establecer su orden de eliminación.
stemming, esto es extraer los sufijos y prefijos comunes de palabras literalmente diferentes pero con una raz comn que pueden ser consideradas como un slo trmino Al aplicar stemming(lematizacin), se asegura que la forma de las palabras no penalice la frecuencia de estas. Los algoritmos de lematizacin para quienes hablamos espaol, ms conocidos son: Lovins (1968), Porter (1980) y Paice (1990). Todos eliminan "los finales" de las palabras en forma iterativa, y requieren de una serie de pasos para llegar a la raz, pero no requieren "a priori" conocer todas las posibles terminaciones. Originalmente todos fueron hechos para el ingls, y se diferencian en la eficiencia del cdigo y la eleccin de sufijos que identifican e eliminan.
Algoritmo de Porter
La raz de la lematizacin es un concepto distinto del de la lingstica (origen de las palabras) y no aporta al objetivo que persigue la lematizacin. No hay razn terica para que los algoritmos de lematizacin no puedan quitar tambin los prefijos (in, ante, anti, etc.), pero la mayor parte de los mtodos de stemmer slo quitan sufijos Algoritmo de Porter
El lematizador hace pasar la palabra por varios conjuntos de reglas, cada conjunto formado por "n" reglas y cada regla est constituida por:
1. un identificador de la regla 2. un sufijo a identificar 3. el texto por el que se reemplaza el sufijo 4. el tamao del sufijo 5. el tamao del texto de reemplazo 6. el tamao mnimo que debe tener la raz resultante luego de aplicar la regla (para no procesar palabras demasiado pequeas). 7. Una funcin de validacin (verifica si se debe aplicar la funcin una vez encontrado el sufijo)
Algoritmo de Porter
Para traducir el algoritmo de Porter al espaol, se debe:
1. Ubicar los sufijos que ocurren frecuentemente en espaol. 2. Identificar los sufijos que ocurren juntos. 3. Establecer el orden en que ocurren Algoritmo de Porter
Para la seleccin de los grupos y orden de procesamiento, se deben tener en cuenta:
1. Dos sufijos que ocurren juntos no pueden pertenecer al mismo conjunto. 2. Las reglas que quiten sufijos ms al final de cada palabra deben ser procesados en un paso anterior a los que quitan otros. 3. Si un sufijo aparece siempre que ocurra otro, este sufijo es condicional a la aparicin del anterior.
Algoritmo de Porter
Para depurar el algoritmo hay que considerar 3 pasos:
1. Las palabras terminadas en "r", conceptualmente similares, suelen quedar con distinta raz, como en los verbos. Por ejemplo, caminar y caminando. Primero se debe eliminar "ndo". Por lo que la eliminacin de las "r" es uno de los ltimos pasos.
2. Similarmente, las palabras que terminan con vocales, por ejemplo, las palabras terminacin y terminal y/o termin, se dejan para el final.
3. En ltimo trmino, se aplica una tercer regla que elimina los tildes de la raz resultante. Por ejemplo, en dilogo y dialog