Sie sind auf Seite 1von 9

Tarea opcional: Etiquetado de clusters

Descubrimiento de información en textos


UNED

Marcos Belver Fernández

18-06-2018
1. Introducción
A lo largo de esta y otras asignaturas del máster hemos visto como las tareas de agrupación o
clustering son tareas que han ido recibiendo cada vez un mayor interés en los últimos tiempos
por parte de la comunidad científica debido, en parte, al gran campo de aplicación que
presentan. La correcta agrupación de elementos juega un papel muy importante en campos
tales como la minería de datos o de la minería de textos, donde el objetivo es agrupar bloques
de palabras o frases que están altamente relacionadas. En relación con esto en la sexta
actividad de esta asignatura ya hemos trabajado con el clustering de textos, esto es, hemos
estudiado y aplicado diversos algoritmos de clustering con el objetivo de agrupar los
elementos objeto de estudio (en este caso, los términos) en grupos claramente diferenciados
haciendo que aquellos términos más similares tiendan a formar un mismo grupo.

Una vez realizados los grupos o clusteres de términos cabe preguntarse cuál es el siguiente
paso a tomar o que hacer con los grupos construídos mediante el algoritmo empleado. En los
últimos años el campo del etiquetado automático de clusterings ha ido obteniendo una mayor
atención de la comunidad científica debido, en parte, a su potencial. En un mundo cada vez
más digitalizado y donde los volúmenes de información manejada crecen exponencialmente el
diseño de técnicas automáticas que nos permitan agilizar distintos procesos juegan un papel
muy importante. El etiquetado automático de clusteres es objeto aquí de estudio y sobre el
cual realizaremos una revisión somera acerca del mismo mediante la lectura de diferentes
artículos científicos que proponen distintos enfoques para su resolución. El etiquetado
automático tiene por objetivo, y como bien su nombre indica, el etiquetado de cada clúster o
colección de documentos de manera que la etiqueta o etiquetas escogidas sean
representativas del tema sobre el que, a grandes rasgos, el clúster trata. Esta tarea no es trivial
ni sencilla y requiere de un análisis adecuado ya que una mala elección puede derivar en un
etiquetado incorrecto o muy generalista que no realice una representación del grupo
adecuada traduciéndose en que sea el usuario el que tenga que inferir el contenido del mismo.
Veremos como para una realización correcta de dicha tarea distintos enfoques han sido
propuestos en la literatura con mayor o menor éxito a lo largo de los últimos años.

Esta memoria se divide como sigue. En primer lugar comenzaremos con la lectura de la
bibliografía base propuesta por el profesorado de la asignatura y que son los artículos
propuestos en [1] y [2] que nos servirán como punto de partida. Tras ello realizamos un
resumen conciso de los puntos más relevantes y de especial interés de cada uno de ellos y
cuales son las principales aportaciones de cada uno. A continuación realizamos una revisión
más actualizada mediante la exploración de literatura complementaria que nos ayude a
obtener una idea más compacta del tema que aquí se trata y que a su vez facilite al lector una
visión más global del etiquetado automático de clusteres mediante artículos adicionales que, a
juicio del alumno, han resultado de relevante interés y han ampliado trabajos ya hechos.
Finalmente concluimos esta práctica con unas breves conclusiones que sintetizan los aspectos
más relevantes del estudio aquí realizado.
2. Lectura de la bibliografía base
En esta parte realizamos una revisión somera de los aspectos más importantes presentados en
los artículos [1] y [2]. Analizamos cada uno de dichos artículos por separado presentando su
idea general y destacando los principales aportes realizados en cada uno.

2.1. Análisis del artículo [1].


En este artículo de A. Popescu y L. H. Ungar se hace referencia a una serie de problemas que
surgen a la hora de realizar el etiquetado automático de clusteres. Por ejemplo, el paso típico
en la tarea de etiquetado consiste en etiquetar los clusteres con los términos más frecuentes
del mismo una vez eliminadas las stop words del mismo. Este listado de términos frecuentes a
menudo revelan el tema principal del clúster pero lo hacen a un alto nivel, dejando un gran
margen a la intuición del usuario que finalmente, en muchos casos, tiene que terminar
deduciendo el tema principal lo cual plantea una serie de inconvenientes importantes. Por
ejemplo, en una colección de artículos científicos acerca de computación científica algunos
términos como artículo, método, sistema o resultado son muy frecuentes y comunes en
documentos que tratan muchas sub-disciplinas de la computación científica pero que en
realidad no aportan mucha información a alguien que ya conoce que todos esos artículos
tratan acerca de dicho campo. En otros casos el empleo de los términos más predictivos de un
determinado cluster tampoco resultan ser siempre una buena elección ya que pueden existir
alguno de estos que no sean representativos de ningún tema. En el trabajo realizado por
Popescu et al se plantean distintas alternativas que si bien reducen estos problemas no son
capaces de eliminarlos por completo.

Los métodos propuestos por Popescu et al para paliar los problemas ya comentados son el
empleo del test Χ 2 de independiencia sobre cada nodo en la jerarquía comenzando por la raíz
para determinar el conjunto de palabras que son igualmente probables de ocurrir en
cualquiera de los hijos del nodo actual. Los términos que cumplan el test son entonces
catalogados como términos generales para todos los sub-árboles del nodo raíz y por tanto son
excluídas. El segundo método propuesto se basa en la selección de términos o palabras que
ocurren con frecuencia en un determinado cluster y que discriminan de manera eficaz el
cluster actual del resto de clusteres. Analizamos ambos métodos en mayor detalle a
continuación.

2.1.1. Método test 𝑿𝟐


Este test es bastante adecuado para comprobar dependencias sobre los términos disponibles.
La principal idea que persigue el método es usar Χ 2 tests para cada término en cada nodo de
la jerarquía empezando desde la raíz y recursivamente realizar un descenso hacia abajo en la
misma. Si la hipótesis de que una palabra es igualmente probable de aparecer u ocurrir en
todos los nodos hijos del nodo actual entonces dicho término no puede ser descartado y es
marcado como general al subárbol actual, se asigna a la bolsa de términos específicos del nodo
actual y se eliminada de todos los nodos que cuelgan del nodo actual.

Como resultado del proceso se obtiene una jerarquía de nodos representativa de la jerarquía
inicial de documentos donde cada uno de los nodos contiene palabras o términos específicos
de ese nodo (representando la colección de documentos) y que no ocurren en el subárbol
generado por dicho nodo. La lista de palabras o términos está compuesta por los términos más
frecuentes del cluster a representar.

2.1.2. Método de frecuencia y predición de términos


El segundo y último de los métodos propuestos por Popescu et al basa la selección de términos
de etiquetado de clusteres en el producto de la frecuencia local y predicción de cada uno de
ellos. Para el cálculo de la frecuencia y predición se emplea la fórmula propuesta por Yarowsky
que selecciona los términos más importantes.

𝑝(𝑡𝑒𝑟𝑚 |𝑐𝑙𝑎𝑠𝑒)
𝑝(𝑡𝑒𝑟𝑚|𝑐𝑙𝑎𝑠𝑒) ×
𝑝(𝑡𝑒𝑟𝑚)

La fórmula anterior consiste de dos partes cada una con distinto significado. La primera parte
𝑝(𝑡𝑒𝑟𝑚 |𝑐𝑙𝑎𝑠𝑒)
𝑝(𝑡𝑒𝑟𝑚)
mide la predictibilidad de un término y es similar a otras medidas usadas en el
ámbito de la recuperación de la información tal como la métrica TF-IDF la cual distribuye más
peso a aquellos términos que ocurren con mayor frecuencia en un claster determinado y
menos peso a aquellos términos que ocurren más frecuentemente en el resto. En cuanto al
término 𝑝(𝑡𝑒𝑟𝑚|𝑐𝑙𝑎𝑠𝑒) este mide la frecuencia del término en un cluster dado, donde
𝑝(𝑡𝑒𝑟𝑚) representa la frecuencia del término en una categoría más general o en la colección
completa. Los términos que reciben una mayor predictibilidad son considerados mejores
discriminadores para la distinción de clusteres.

Los términos seleccionados mediante la fórmula anterior tienden a ocurrir frecuentemente en


un cluster concreto y ser bastante específico del mismo. Se trata de evitar así el etiquetado de
un cluster mediante términos generalmente frecuentes y que en ocasiones son bastante
abstractos o poco representativos. La combinación de la frecuencia y predictibilidad de
términos suele lograr un buen balance en la selección de términos representativos de un
cluster concreto.

2.1.3. Breve comparativa


Popescu et al llevaron a cabo en su trabajo una breve comparativa entre ambos métodos
arriba descritos. En un experimento realizado sobre resumenes de publicaciones de
investigación en computación científica obtenidos del Cora search service y ya jerarquizados
comprobaron que el método de frecuencia y predicción de términos produjo los mejores
resultados en términos de etiquetado, obteniendo palabras que ocurrían frecuentemente en
los clusteres y que además eran capaces de discriminar satisfactoriamente cada uno de ellos
del resto. En cuanto al método Χ 2 también mostró buenos rendimientos en la identificación de
una colección específica de stop words, términos que son comunes a una colección dada de
documentos pero que no son parte del listado de stop words tradicionales. Este método Χ 2 ,
que observa si la frecuencia de los términos difiere en cualquiera de los nodos hijos de un
nodo determinado, planteó algunos problemas como un rendimiento muy pobre en jerarquías
con un alto nivel de ramificación.

Como contrapunto los autores destacaron que ninguno de sus métodos fue capaz de
proporcionar resultados satisfactorios sobre los nodos internos de la jerarquía y que esto pudo
deberse a las características propias de los documentos de la colección empleada para el
análisis.

2.2. Análisis del artículo [2].


En este artículo de P. Treeratpituk y J. Callan los autores sugieren que si bien existe un
considerable estudio previo en algoritmos de clustering jerárquico y sus aplicaciones en los
campos de recuperación de información (information retrieval) y la minería de datos se ha
prestado poca atención a las tareas de creación de buenos descriptores de los clusteres
generados. Por ello mediante este artículo los autores proponen un algoritmo simple que
automáticamente sea capaz de asignar etiquetas concisas a clusteres jerárquicos otorgando
una descripción comprensible de cada uno.

El algoritmo que Treeratpituk y Callan proponen se basa en la hipótesis de que mediante la


comparación de la distribución de términos de diferentes partes de la jerarquía se debería de
lograr asignar etiquetas apropiadas a cada cluster que forma la misma. De esta manera
persiguen el objetivo de seleccionar etiquetas concisas a cada cluster de una manera similar a
como lo haría una persona de forma manual. Los autores consideran que un buen descriptor o
etiqueta de cluster debería no solo indicar o recoger el concepto o conceptos principales del
mismo, sino que también debería de ser capaz de diferenciar dicho cluster de cada uno de sus
hermanos asi como de su padre. Esto es importante puesto que algunos descriptores,
dependiendo del entorno, pueden ser considerados aceptables o por el contrario inadecuados.
Por ejemplo, supongamos que en un mismo nivel existen tres clusteres que representan redes
neuronales, algoritmos genéticos y métodos bayesianos respectivamente. En algunos
contextos, la etiqueta “Ciencias de la computación” podría ser un descriptor aceptable para el
cluster de redes neuronales, pero en el contexto de la jerarquía presentada no sería una buena
elección ya que no distinguiría adecuadamente el cluster de redes neuronales de sus
hermanos. Por lo tanto cuan bueno es un descriptor depende, muchas veces, del propio
contexto.

Como punto de partida de su algoritmo, Treeratpituk y Callan parten del trabajo de Glover et
al [3], los cuales desarrollan un algoritmo que se basa en la hipótesis de que una palabra o
término que es muy común en un cluster pero relativamente poco frecuente en la colección es
seria candidata a ser un buen descriptor de dicho cluster. Sin embargo Treeratpituk y Callan
observaron grandes limitaciones en la propuesta de Glover lo cual dio pie a un método de
etiquetado más general que resumimos a continuación.
2.2.1. Algoritmo de etiquetado
Los autores asumen que el algoritmo tiene acceso a la colección general de documentos E, que
representa la distribución de palabras en Inglés general. Este conjunto es empleado
principalmente en la selección de etiquetas candidatas como se explica a continuación.

Dado un cluster S y su cluster padre P que incluye todos los documentos en S y todos los
hermanos de S el algoritmo selecciona etiquetas para el cluster S de la siguiente manera:

1) Recolección de estadísticas. Para cada anagrama, bigrama y trigrama p que existen en


el cluster S calcular la frecuencia de documento y la frecuencia de término para el
clúster actual, el cluster padre y el corpus de Inglés general.

2) Selección de etiquetas candidatas. Seleccionar las etiquetas candidatas a partir de los


anagramas, bigramas y trigramas basándose en la frecuencia del documento en el
cluster y en el Inglés general.

En este punto se parte de la hipótesis de que si bien un buen descriptor no


necesariamente tiene que aparecer en la mayoría de los documentos del cluster si que
debería aparecer en al menos un 20% de los mismos. Además este corte se realiza
mediante el análisis de la distribución de palabras en el Inglés, eliminando stop words
y evitando descartar palabras descriptivas.

3) Calcular la putuación descriptiva. Calcular la puntuación descriptiva (Dscore) para


cada etiqueta candidata y ordenar todas las candidatas en base a dicha puntuación.

En general, una etiqueta candidata que ocurre en más documentos del cluster se
presupone como un mejor descriptor que una que raramente aparece. Un buen
descriptor debería aparecer con relativa frecuencia en el cluster padre pero muy
frecuentemente en el cluster actual.

4) Calcular el punto de corte. Decidir cuantas etiquetas candidatas se mostrarán


basándose en las puntuaciones descriptivas. Por defecto el algoritmo emplea 5
etiquetas con la mayor puntuación descriptiva como descriptores del cluster. Este
punto de corte puede ser recalculado en función de los resultados. Por ejemplo, si
existen etiquetas muy descriptivas en el top estas son empleadas como los
descriptores del cluster y se puede estar seguro que la elección será la adecuada. Por
el contrario si todas las etiquetas tienen puntuaciones (Dscore) bajas y similares habrá
menos certeza sobre que etiquetas son mejores para representar el cluster.

En los experimentos llevados a cabo en su trabajo, el algoritmo fue capaz dinámicamente de


decidir cuantas etiquetas seleccionar para representar cada cluster, que resultaron ser un total
de 2.6 etiquetas por cluster de media, un número relativamente bajo. Los resultados
obtenidos por el algoritmo fueron bastante buenos, demostrando que las etiquetas producidas
por el mismo frecuentemente coincidían con las etiquetas escogidas por un humano. En
cuanto al análisis de errores se observó que muchos de estos provenían de clusteres que
contenían un pequeño número de documentos ya que ante estos el algoritmo puede producir
buenas y malas etiquetas de manera indistinguida. Para mejorar el rendimiento en dichos
escenarios los autores sugieren que podría ser necesario incorporar características léxicas tales
como el número de sentidos de las palabras o características posicionales donde los términos
suceden en un documento, por ejemplo en un título o en una oración principal.

3. Una revisión actualizada


Como ya hemos comentado en los últimos años se han venido realizando nuevos estudios
acerca del etiquetado automático de clusteres. En [4] los autores proponen un método
completo para el etiquetado de clusteres. Estos son generados a partir de una estrategia de
jerarquía algomerativa que agrupa los documentos desde las hojas (considerando que
inicialmente cada documento es una entidad individual) hasta la raíz, empleando distintas
métricas para agrupar aquellos que se consideran que deben de pertenecer al mismo cluster.
En cuanto al etiquetado, la parte que aquí más nos interesa, los autores proponen el empleo
de un modelo de vector en que cada documento es representado como un vector 𝑛
dimensional (donde 𝑛 representa el número de términos del documento y tras la eliminación
de las stop words). Para cada uno de estos términos resultantes se calcula la frecuencia de
cada términos respecto al corpus empleando la frecuencia del término (𝑡𝑓 − 𝑖𝑑𝑓) tal y como
se describe a continuación.

𝑡𝑓 − 𝑖𝑑𝑓 = 𝑡𝑓(𝑡, 𝑑) ∙ 𝑖𝑑𝑓(𝑡)

Los pesos se asignan para dar una indicación de cuan importante es una palabra en la
representación del documento. Mientras que 𝑡𝑓(𝑡, 𝑑) representa el número de veces que el
término 𝑡 aparece en el documento 𝑑 𝑖𝑑𝑓(𝑡) representa la frecuencia inversa del documento.
Para el etiquetado de cada cluster se escogen, de entre todos los documentos que lo forman,
los 5 términos con mayores pesos de acuerdo a la fórmula anterior y estos serán los
descriptores de cada cluster.

Por otro lado Bharathi y Asha presentan en [5] el método SVD (Singular Value Descomposition)
para la asignación de etiquetas a clusteres. La fórmula que emplean es la siguiente.

𝐴 = 𝑈∑𝑉 𝑇

Donde

𝐴: Matriz de entrada (m x n)

𝑈: Términos x conceptos extraídos (m x n)

∑: Valores de escala (n x n)
𝑉: Sentencias x conceptos extraídos (n x n)

El proceso de etiquetado se realiza de acuerdo a los siguientes pasos.

1. Agrupar los contenidos de cada cluster en un fichero de texto individual.


2. Pre-procesar cada fichero individual formado en el paso 1 para separar cada sentencia.
3. Crear una matriz M de terminos.
4. Crear una matriz SVD a partir de M para descomponerla en 𝑈, ∑ y 𝑉
5. Seleccionar las 𝐾 sentencias mejores.
6. Devolver la etiqueta de cluster seleccionada.

A su vez, en [6] se propone un método de etiquetado supervisado y conocido como SCL


(Supervised Cluster Labeler). Partiendo de un conjunto completo de artículos manualmente
anotados del medio The Guardian los autores recolectan datos de entrenamiento para
construir un modelo de regresión en aras de extraer etiquetas automáticas para los clusteres.
Con estos datos de entrenamiento se aplica una regresión lineal para entrenar un modelo de
regresión donde la combinación de las características está basada en una combinación lineal
de sus pesos. Cada término tiene asignado una puntuación entre 0 y 1, donde 0 indica que un
término es muy mala elección para ser etiqueta de dicho cluster y donde 1 representa la
máxima puntuación, esto es, el término es una etiqueta excelente. El método propuesto es
evaluado contra la métrica 𝑡𝑓 ∗ 𝑖𝑑𝑓 empleada en [4] empleando para ello una evaluación
manual y automática. En ambos casos se comprobó que el método SCL propuesto supera las
prestaciones del sistema base produciendo muy buenos resultados en el etiquetado de los
clusteres.

3.1. Resumen
Hemos estudiado aquí diferentes propuestas para el etiquetado automático de clusteres
generados mediante diferentes enfoques, una tarea de la minería de textos ya estudiada en
temas previos de esta asignatura. Los dos artículos sugeridos por el profesorado emplean dos
métodos distintos de etiquetado. El primero que hemos visto hace uso del test 𝑋 2 así como de
una métrica basada en la frecuencia y predictibilidad de los términos similar a la medida TF-IDF
que se emplea también en el artículo [4] y con el que guarda estrecha relación. En [2] se
propone el uso de proceso de recolección de estadísticas para el cálculo de una puntuación
Dscore que establece la puntuación más alta de cada término de la colección, resultando
aquellas del top las elegidas en cada cluster como descriptores de los mismos. En [5] los
autores proponen un nuevo mecanismo conocido como el método SVD (Singular Value
Descomposition) para el cálculo de una matriz A de asignación de etiquetas a clusteres. Por
último en el artículo [6] se hace uso de un modelo de regresión denominado SCL donde se
asume que la combinación de las características está basada en una combinación lineal de sus
pesos. A modo resumen se proporciona la siguiente tabla.
Artículo Método propuesto
[1] - Test 𝑋 2
- Frecuencia y predictibilidad (TF-IDF)
[2] - Cálculo de DScore
[4] - Métrica TF-IDF
[5] - Método SVD
[6] - Método SCL
Tabla 1. Resumen de los métodos estudiados para el etiquetado automático de clusteres.

4. Conclusiones
Con esta breve memoria hemos realizado una pequeña introducción al campo del etiquetado
automático de clusteres, un área muy importante hoy en día en una sociedad cada vez más
digitalizada y donde el conocimiento y explotación de la información manejada juegan un
papel tan important. Organizar esta información en grupos claramente diferenciados y
garantizar al usuario un rápido acceso a las partes más interesantes de la misma es un área
muy importante de la minería de textos debido a que proporciona grandes ventajas a aquellos
que hacen uso de la misma.

En este pequeño trabajo hemos comenzado con la lectura obligada de un par de artículos
propuestos por el profesorado de la asignatura realizando un pequeño resumen de cada uno
de ellos donde se recogen las ideas principales de los mismos. Después se ha complementado
el conocimiento adquirido a través de su lectura mediante la revisión de artículos más actuales
que proponen enfoques distintos para realizar la tarea del etiquetado automático, resultando
alguno de ellos muy novedosos e interesantes. Dentro de este apartado se ha presentado un
pequeño resumen de todos los artículos leídos para recoger, de una manera esquematizada,
los principales mecanismos o métodos empleados por cada uno de ellos.

5. Bibliografía
[1] Popescu, A., Ungar, L. “Automatic labeling of document clusters”

[2] Treeratpituk, P. Callan, J. “Automatically labeling hierarchical clusters”

[3] Glover, E. Pennock, D., Lawrence, S. and Krovetz, R. “Inferring hierarchical descriptions”.

[4] Fun, T.S., Anthony, P., and On, C.K. “Concepts labeling of document cluster using a
hierarchical agglomerative clustering (HAC) technique”.

[5] Bharathi, K.S., Dr, Asha T., “Automatic labeling of text document clusters using singular
value decomposition”.

[6] Aker, A., et al. “Automatic label generation for news comment clusters”.

Das könnte Ihnen auch gefallen