Beruflich Dokumente
Kultur Dokumente
18-06-2018
1. Introducción
A lo largo de esta y otras asignaturas del máster hemos visto como las tareas de agrupación o
clustering son tareas que han ido recibiendo cada vez un mayor interés en los últimos tiempos
por parte de la comunidad científica debido, en parte, al gran campo de aplicación que
presentan. La correcta agrupación de elementos juega un papel muy importante en campos
tales como la minería de datos o de la minería de textos, donde el objetivo es agrupar bloques
de palabras o frases que están altamente relacionadas. En relación con esto en la sexta
actividad de esta asignatura ya hemos trabajado con el clustering de textos, esto es, hemos
estudiado y aplicado diversos algoritmos de clustering con el objetivo de agrupar los
elementos objeto de estudio (en este caso, los términos) en grupos claramente diferenciados
haciendo que aquellos términos más similares tiendan a formar un mismo grupo.
Una vez realizados los grupos o clusteres de términos cabe preguntarse cuál es el siguiente
paso a tomar o que hacer con los grupos construídos mediante el algoritmo empleado. En los
últimos años el campo del etiquetado automático de clusterings ha ido obteniendo una mayor
atención de la comunidad científica debido, en parte, a su potencial. En un mundo cada vez
más digitalizado y donde los volúmenes de información manejada crecen exponencialmente el
diseño de técnicas automáticas que nos permitan agilizar distintos procesos juegan un papel
muy importante. El etiquetado automático de clusteres es objeto aquí de estudio y sobre el
cual realizaremos una revisión somera acerca del mismo mediante la lectura de diferentes
artículos científicos que proponen distintos enfoques para su resolución. El etiquetado
automático tiene por objetivo, y como bien su nombre indica, el etiquetado de cada clúster o
colección de documentos de manera que la etiqueta o etiquetas escogidas sean
representativas del tema sobre el que, a grandes rasgos, el clúster trata. Esta tarea no es trivial
ni sencilla y requiere de un análisis adecuado ya que una mala elección puede derivar en un
etiquetado incorrecto o muy generalista que no realice una representación del grupo
adecuada traduciéndose en que sea el usuario el que tenga que inferir el contenido del mismo.
Veremos como para una realización correcta de dicha tarea distintos enfoques han sido
propuestos en la literatura con mayor o menor éxito a lo largo de los últimos años.
Esta memoria se divide como sigue. En primer lugar comenzaremos con la lectura de la
bibliografía base propuesta por el profesorado de la asignatura y que son los artículos
propuestos en [1] y [2] que nos servirán como punto de partida. Tras ello realizamos un
resumen conciso de los puntos más relevantes y de especial interés de cada uno de ellos y
cuales son las principales aportaciones de cada uno. A continuación realizamos una revisión
más actualizada mediante la exploración de literatura complementaria que nos ayude a
obtener una idea más compacta del tema que aquí se trata y que a su vez facilite al lector una
visión más global del etiquetado automático de clusteres mediante artículos adicionales que, a
juicio del alumno, han resultado de relevante interés y han ampliado trabajos ya hechos.
Finalmente concluimos esta práctica con unas breves conclusiones que sintetizan los aspectos
más relevantes del estudio aquí realizado.
2. Lectura de la bibliografía base
En esta parte realizamos una revisión somera de los aspectos más importantes presentados en
los artículos [1] y [2]. Analizamos cada uno de dichos artículos por separado presentando su
idea general y destacando los principales aportes realizados en cada uno.
Los métodos propuestos por Popescu et al para paliar los problemas ya comentados son el
empleo del test Χ 2 de independiencia sobre cada nodo en la jerarquía comenzando por la raíz
para determinar el conjunto de palabras que son igualmente probables de ocurrir en
cualquiera de los hijos del nodo actual. Los términos que cumplan el test son entonces
catalogados como términos generales para todos los sub-árboles del nodo raíz y por tanto son
excluídas. El segundo método propuesto se basa en la selección de términos o palabras que
ocurren con frecuencia en un determinado cluster y que discriminan de manera eficaz el
cluster actual del resto de clusteres. Analizamos ambos métodos en mayor detalle a
continuación.
Como resultado del proceso se obtiene una jerarquía de nodos representativa de la jerarquía
inicial de documentos donde cada uno de los nodos contiene palabras o términos específicos
de ese nodo (representando la colección de documentos) y que no ocurren en el subárbol
generado por dicho nodo. La lista de palabras o términos está compuesta por los términos más
frecuentes del cluster a representar.
𝑝(𝑡𝑒𝑟𝑚 |𝑐𝑙𝑎𝑠𝑒)
𝑝(𝑡𝑒𝑟𝑚|𝑐𝑙𝑎𝑠𝑒) ×
𝑝(𝑡𝑒𝑟𝑚)
La fórmula anterior consiste de dos partes cada una con distinto significado. La primera parte
𝑝(𝑡𝑒𝑟𝑚 |𝑐𝑙𝑎𝑠𝑒)
𝑝(𝑡𝑒𝑟𝑚)
mide la predictibilidad de un término y es similar a otras medidas usadas en el
ámbito de la recuperación de la información tal como la métrica TF-IDF la cual distribuye más
peso a aquellos términos que ocurren con mayor frecuencia en un claster determinado y
menos peso a aquellos términos que ocurren más frecuentemente en el resto. En cuanto al
término 𝑝(𝑡𝑒𝑟𝑚|𝑐𝑙𝑎𝑠𝑒) este mide la frecuencia del término en un cluster dado, donde
𝑝(𝑡𝑒𝑟𝑚) representa la frecuencia del término en una categoría más general o en la colección
completa. Los términos que reciben una mayor predictibilidad son considerados mejores
discriminadores para la distinción de clusteres.
Como contrapunto los autores destacaron que ninguno de sus métodos fue capaz de
proporcionar resultados satisfactorios sobre los nodos internos de la jerarquía y que esto pudo
deberse a las características propias de los documentos de la colección empleada para el
análisis.
Como punto de partida de su algoritmo, Treeratpituk y Callan parten del trabajo de Glover et
al [3], los cuales desarrollan un algoritmo que se basa en la hipótesis de que una palabra o
término que es muy común en un cluster pero relativamente poco frecuente en la colección es
seria candidata a ser un buen descriptor de dicho cluster. Sin embargo Treeratpituk y Callan
observaron grandes limitaciones en la propuesta de Glover lo cual dio pie a un método de
etiquetado más general que resumimos a continuación.
2.2.1. Algoritmo de etiquetado
Los autores asumen que el algoritmo tiene acceso a la colección general de documentos E, que
representa la distribución de palabras en Inglés general. Este conjunto es empleado
principalmente en la selección de etiquetas candidatas como se explica a continuación.
Dado un cluster S y su cluster padre P que incluye todos los documentos en S y todos los
hermanos de S el algoritmo selecciona etiquetas para el cluster S de la siguiente manera:
En general, una etiqueta candidata que ocurre en más documentos del cluster se
presupone como un mejor descriptor que una que raramente aparece. Un buen
descriptor debería aparecer con relativa frecuencia en el cluster padre pero muy
frecuentemente en el cluster actual.
Los pesos se asignan para dar una indicación de cuan importante es una palabra en la
representación del documento. Mientras que 𝑡𝑓(𝑡, 𝑑) representa el número de veces que el
término 𝑡 aparece en el documento 𝑑 𝑖𝑑𝑓(𝑡) representa la frecuencia inversa del documento.
Para el etiquetado de cada cluster se escogen, de entre todos los documentos que lo forman,
los 5 términos con mayores pesos de acuerdo a la fórmula anterior y estos serán los
descriptores de cada cluster.
Por otro lado Bharathi y Asha presentan en [5] el método SVD (Singular Value Descomposition)
para la asignación de etiquetas a clusteres. La fórmula que emplean es la siguiente.
𝐴 = 𝑈∑𝑉 𝑇
Donde
𝐴: Matriz de entrada (m x n)
∑: Valores de escala (n x n)
𝑉: Sentencias x conceptos extraídos (n x n)
3.1. Resumen
Hemos estudiado aquí diferentes propuestas para el etiquetado automático de clusteres
generados mediante diferentes enfoques, una tarea de la minería de textos ya estudiada en
temas previos de esta asignatura. Los dos artículos sugeridos por el profesorado emplean dos
métodos distintos de etiquetado. El primero que hemos visto hace uso del test 𝑋 2 así como de
una métrica basada en la frecuencia y predictibilidad de los términos similar a la medida TF-IDF
que se emplea también en el artículo [4] y con el que guarda estrecha relación. En [2] se
propone el uso de proceso de recolección de estadísticas para el cálculo de una puntuación
Dscore que establece la puntuación más alta de cada término de la colección, resultando
aquellas del top las elegidas en cada cluster como descriptores de los mismos. En [5] los
autores proponen un nuevo mecanismo conocido como el método SVD (Singular Value
Descomposition) para el cálculo de una matriz A de asignación de etiquetas a clusteres. Por
último en el artículo [6] se hace uso de un modelo de regresión denominado SCL donde se
asume que la combinación de las características está basada en una combinación lineal de sus
pesos. A modo resumen se proporciona la siguiente tabla.
Artículo Método propuesto
[1] - Test 𝑋 2
- Frecuencia y predictibilidad (TF-IDF)
[2] - Cálculo de DScore
[4] - Métrica TF-IDF
[5] - Método SVD
[6] - Método SCL
Tabla 1. Resumen de los métodos estudiados para el etiquetado automático de clusteres.
4. Conclusiones
Con esta breve memoria hemos realizado una pequeña introducción al campo del etiquetado
automático de clusteres, un área muy importante hoy en día en una sociedad cada vez más
digitalizada y donde el conocimiento y explotación de la información manejada juegan un
papel tan important. Organizar esta información en grupos claramente diferenciados y
garantizar al usuario un rápido acceso a las partes más interesantes de la misma es un área
muy importante de la minería de textos debido a que proporciona grandes ventajas a aquellos
que hacen uso de la misma.
En este pequeño trabajo hemos comenzado con la lectura obligada de un par de artículos
propuestos por el profesorado de la asignatura realizando un pequeño resumen de cada uno
de ellos donde se recogen las ideas principales de los mismos. Después se ha complementado
el conocimiento adquirido a través de su lectura mediante la revisión de artículos más actuales
que proponen enfoques distintos para realizar la tarea del etiquetado automático, resultando
alguno de ellos muy novedosos e interesantes. Dentro de este apartado se ha presentado un
pequeño resumen de todos los artículos leídos para recoger, de una manera esquematizada,
los principales mecanismos o métodos empleados por cada uno de ellos.
5. Bibliografía
[1] Popescu, A., Ungar, L. “Automatic labeling of document clusters”
[3] Glover, E. Pennock, D., Lawrence, S. and Krovetz, R. “Inferring hierarchical descriptions”.
[4] Fun, T.S., Anthony, P., and On, C.K. “Concepts labeling of document cluster using a
hierarchical agglomerative clustering (HAC) technique”.
[5] Bharathi, K.S., Dr, Asha T., “Automatic labeling of text document clusters using singular
value decomposition”.
[6] Aker, A., et al. “Automatic label generation for news comment clusters”.