Sie sind auf Seite 1von 17

TEMA 3.

1 CLUSTERING:
Hard Clustering: Los clusters NO se solapan, un elemento pertenece
a un cluster o a otro.
Soft Clustering: Los clusters se pueden solapar. Por lo tanto tendr
un 40% de conti que pertenezca a un cluster y 60% al otro.(por ej.)
Diferencias entre HARD Y SOFT ASIGMENT:
HARD:
- Se asigna cada muestra a un nico cluster
- Perjudicial para las muestras de las fronteras
- K-means
SOFT:
- Se asigna cada muestra a diferentes clsteres.
- La asignacin depender de la distancia a los vecinos..
- EM.
K-MEANS Hard Clustering
Asigna una muestra a aquel cluster con el centroide mas cercano.
Asigna cada muestra a un nico cluster, esto es PERJUDICIAL en las
muestras de las fronteras.
Estrategia: descenso coordinado
Algoritmo:
1. Inicializar k puntos aleatoriamente(centroides)
2. Asignar cada muestra a un centroide dependiendo de la
distancia.
3. Recalcular centroides: a la media de las muestras asignadas
4. Asignar y recalcular centroides, hasta cuando las
asignaciones no varian.
*Si un centroide en algn momento no tiene puntos, se puede
eliminar.
*K(centroides)<m(num. muestras)
*Aconsejable inicializar centroides en muestras aleatorias.
*Ejecutar k-means muchas veces y escoger la de coste minimo
PROBLEMA: Cuantos cluster escogemos??
1- El mas habitual A manija
2- Ejecutar con diferentes K
Funcion coste optimization objective

EM EXPECTATION-MAXIMIZATION Soft Clustering


-

Alternaivamente se puede asignar una muestra en diferentes


clusters, donde la asignacin depender de la distancia de la
muestra a los clusters.
Una muestra se representa mediante la combinacin lineal
de diferentes modelos(densidades) gausianas.

En los modelos minas cada cluster es un modelo generativo(pe.


gausiana), lo que queremos saber son los parmetros, EM
descubre los parmetros.

Algoritmo: (Repetir hasta la convergencia):


1. Inicializacion aleatoria de un K (numero de gaussianas de la
mixtura)gausian Mixture Model(wk, uk, sumatoria k)
2. EXPECTATION Calcula las probabilidades que cada muestra
pertenezca a cada gausiana(responsabilidad).
3. MaximizacionRecalcula los parmetros de la
GMM(w,u,sumatoria) a partir de la responsabilidad de cada
gausiana.
DETECCION DE ANOMALIAS:
Detectar si una nueva muestra es anmala
1. DISTRIBUCIONES GAUSIANAS:
Algoritmo:
1. Escoger xi(parmetros caracteristicas) que puedan ser
indicativo de ejemplos anmalos.
2. Calcular parmetros u1,.un, fi al cuadrado,..

3. Dado un nuevo ejemplo, Calcular p(x), es anmalo si


p(x)<E

Valor de E Cross- validation


2. GAUSSIANAS MULTIVARIADAS: Dado un conjunto de muestras:
x1,x2xm
Algoritmo:
1. Calcular parmetros de cada modelo Gaussiano.

2. Dada nueva muestra, calcular la probablidad de que


pertenezca a un modulo.

3. avisar de anomala :si p(x)<E

TEMA 3.2: SISTEMAS RECOMENDADORES


Machine learning: aprender modelos de usuarios a partir de sus
preferencias
OBJETIVO: Marketing de tems de inters en usuarios basado en:
- Sus preferencias, obtenidas explicita o implcitamente.
- Las preferencias de otros usuarios
- Atributos del usuario o el producto.

CONTENT-BASED:
- Recomendaciones automticas a partir de las valoraciones de
los usuarios de otros productos
- Cabe definir atributos para los productos
- No requiere informacin de otros usuarios
Ventajas:
- Porductos recomendados similares a los mas preferidos por el
usuario en el pasado.
- Preferencias de usuarios = caractersticas del producto
- Uso de palabras clave para representar contenido

Limitaciones:
- No todo contenido puede ser descrito con caractersticas
- No se tiene en cuenta el entorno social del usuario.
- Problema con usuarios sin historial o con millones de compras.
- No tiene en cuenta la similitud producto

COLLABORATIVE FILTERING:
- Recomendar productos a los usuarios con caractersticas
similares.
- No hace falta definir atributos para los productos
- Calulo de vecinos mas cercanos

Ventajas:
Los productos recomendados son los de aquellos usuarios con
votaciones similares.
Preferencias de usuario = votaciones producto
A mas usuarios, mas votaciones = mejores resultados.

Limitaciones
Usuarios diferentes votan en escalas diferentes.
Problemas con usuarios y productos nuevos.
Encontrar usuarios/grupos similares es complicado

PROBLEMA: este algoritmo si un usuario no ha votado ninguna peli


nos presenta teta=0 y las votaciones sern O
SOLUCION: MEAN NORMALIZATION

TEMA 41. REDES NEURONALES ARTIFICIALES


BACK PROPAGATION

COEFICIENTE DE APRENDIZAJE n:
Fijo: para evitar que oscile mucho 0.05<n<0.25
Variable: Disminuye a medida que disminuye el error
COEFICIENTE MOMENTUM u
Termino proporcional al cambio en el valor de los pesos desde la
ultima iteracin: la red evoluciona teniendo en cuenta el gradiente
anterior y actual.

TEMA 4.2 RADIAL BASIS FUNCTION . REDES NEURONALES NO


SUPERVISADAS

RADIAL BASIS algoritmo:

pregunta de examen

TEMA 4.4 COMPUTACION EVOLUTIVA

DILEMA DEL PRISIONER. PROBLEMA DEL VIAJERO


NO SE DONDE VAAAAAAAA:

Das könnte Ihnen auch gefallen