Criterio de Evaluación: ● Completitud: todos los miembros
Debido a evaluación del de una clase determinada se rendimiento de un algoritmo de asignan al mismo clúster. agrupamiento no se puede basar únicamente en el número de errores o la Índice Fowlkes-Mallows: si se conocen precisión y la recuperación de un las asignaciones de clase de verdad se algoritmo de clasificación supervisado, lo define como la media geométrica de la esperado es que las métricas de precisión y recuerdo pairwise evaluación no deben tomar en cuenta los ● FP es el número de falso positivo: valores absolutos de las etiquetas del puntos que pertenecen a los clúster, sino definir separaciones de los mismos clústeres en las etiquetas datos similares a un conjunto de clases verdaderas y no en las etiquetas fundamental o satisfaciendo algunas predichas) y suposiciones modo que un miembro ● FN es el número de False puede pertenecera un grupo bajo cierta Negative (es decir, el número de métrica y a otro si esta cambia. pares de puntos que pertenece a los mismos clústeres en las Ajuste de Rango de Índice: dada una etiquetas predichas y no en las clusterización tomada como verdadera, etiquetas verdaderas). este criterio compara la similitud entre la asignación mencionada y comparar que Coeficiente de silueta si no se conocen tanto se parece esta a la asignación las etiquetas de verdad, la evaluación realizada por el algoritmo de clustering, se debe realizarse utilizando el modelo ignoran las permutaciones y se puede mismo donde puntaje de coeficiente de normalizar silueta más alto se relaciona con un Puntajes basados en la información modelo con conglomerados mejor mutua: es una función que mide la definidos. concordancia entre las dos asignaciones al igual que el caso anterior e ignorando Calinski-Harabaz Index las permutaciones. Si no se conocen las etiquetas de verdad, ● Información mutua normalizada esta métrica asigna la puntuación más (NMI) se usa a menudo en la alta de Calinski-Harabaza un modelo con literatur conglomerados mejor definidos, para los ● Información mutua ajustada (AMI). clústeres se da como la relación de la Reciente, se normaliza en contra media de dispersión entre clústeres y la del azar dispersión dentro del clúster.
Homogeneidad, integridad y V-medida: Modo de inicialización:
dado el conocimiento de las asignaciones k-means++: Selecciona un centroide de clase es posible definir alguna métrica aleatoriamente en primera instancia, el intuitiva usando el análisis de entropía siguiente centroide seleccionado se elige condicional con dos objetivos deseables basado en una probabilidad de pesos, se para cualquier asignación de clúster: elige el que este mas largo del centroide ● homogeneidad: cada grupo actual seleccionado. La selección contiene solo miembros de una continúa hasta que se obtengan los sola clase. Tecnológico de Costa Rica Gabriel Sánchez 201218308 Introducción Reconocimiento de Patrones Javier Sancho 2014159997
k-centroides. Incrementa la velocidad de
convergencia.
random: Se eligen k puntos de manera
aleatoria de los datos presentes para obtener los centroides iniciales. Los centroides elegidos aleatoriamente se pueden obtener por medio de semillas o simplemente omitir estas.
PCA-Based: Por medio de la reducción
de dimensiones con ayuda de PCA se disminuye el problema de las distancias euclidianas aumentando la velocidad de computación. Es pasado un vector de n dimensiones de la forma (k Clusters, n Features) y retorna los centroides iniciales.