Tema 3

TEMA 3.
1 CLUSTERING:
Hard Clustering: Los clusters NO se solapan, un elemento pertenece
a un cluster o a otro.
Soft Clustering: Los clusters se pueden solapar. Por lo tanto tendr
un 40% de conti que pertenezca a un cluster y 60% al otro.(por ej.)
Diferencias entre HARD Y SOFT ASIGMENT:
HARD:
- Se asigna cada muestra a un nico cluster
- Perjudicial para las muestras de las fronteras
- K-means
SOFT:
- Se asigna cada muestra a diferentes clsteres.
- La asignacin depender de la distancia a los vecinos..
- EM.
K-MEANS Hard Clustering
Asigna una muestra a aquel cluster con el centroide mas cercano.
Asigna cada muestra a un nico cluster, esto es PERJUDICIAL en las
muestras de las fronteras.
Estrategia: descenso coordinado
Algoritmo:
1. Inicializar k puntos aleatoriamente(centroides)
2. Asignar cada muestra a un centroide dependiendo de la
distancia.
3. Recalcular centroides: a la media de las muestras asignadas
4. Asignar y recalcular centroides, hasta cuando las
asignaciones no varian.
*Si un centroide en algn momento no tiene puntos, se puede
eliminar.
*K(centroides)<m(num. muestras)
*Aconsejable inicializar centroides en muestras aleatorias.
*Ejecutar k-means muchas veces y escoger la de coste minimo
PROBLEMA: Cuantos cluster escogemos??
1- El mas habitual A manija
2- Ejecutar con diferentes K
Funcion coste optimization objective
EM EXPECTATION-MAXIMIZATION Soft Clustering

-
Alternaivamente se puede asignar una muestra en diferentes

clusters, donde la asignacin depender de la distancia de la
muestra a los clusters.
Una muestra se representa mediante la combinacin lineal
de diferentes modelos(densidades) gausianas.
En los modelos minas cada cluster es un modelo generativo(pe.

gausiana), lo que queremos saber son los parmetros, EM
descubre los parmetros.
Algoritmo: (Repetir hasta la convergencia):

1. Inicializacion aleatoria de un K (numero de gaussianas de la
mixtura)gausian Mixture Model(wk, uk, sumatoria k)
2. EXPECTATION Calcula las probabilidades que cada muestra
pertenezca a cada gausiana(responsabilidad).
3. MaximizacionRecalcula los parmetros de la
GMM(w,u,sumatoria) a partir de la responsabilidad de cada
gausiana.
DETECCION DE ANOMALIAS:
Detectar si una nueva muestra es anmala
1. DISTRIBUCIONES GAUSIANAS:
Algoritmo:
1. Escoger xi(parmetros caracteristicas) que puedan ser
indicativo de ejemplos anmalos.
2. Calcular parmetros u1,.un, fi al cuadrado,..
3. Dado un nuevo ejemplo, Calcular p(x), es anmalo si

p(x)<E
Valor de E Cross- validation

2. GAUSSIANAS MULTIVARIADAS: Dado un conjunto de muestras:
x1,x2xm
Algoritmo:
1. Calcular parmetros de cada modelo Gaussiano.
2. Dada nueva muestra, calcular la probablidad de que

pertenezca a un modulo.
3. avisar de anomala :si p(x)<E
TEMA 3.2: SISTEMAS RECOMENDADORES

Machine learning: aprender modelos de usuarios a partir de sus
preferencias
OBJETIVO: Marketing de tems de inters en usuarios basado en:
- Sus preferencias, obtenidas explicita o implcitamente.
- Las preferencias de otros usuarios
- Atributos del usuario o el producto.
CONTENT-BASED:
- Recomendaciones automticas a partir de las valoraciones de
los usuarios de otros productos
- Cabe definir atributos para los productos
- No requiere informacin de otros usuarios
Ventajas:
- Porductos recomendados similares a los mas preferidos por el
usuario en el pasado.
- Preferencias de usuarios = caractersticas del producto
- Uso de palabras clave para representar contenido
Limitaciones:
- No todo contenido puede ser descrito con caractersticas
- No se tiene en cuenta el entorno social del usuario.
- Problema con usuarios sin historial o con millones de compras.
- No tiene en cuenta la similitud producto
COLLABORATIVE FILTERING:
- Recomendar productos a los usuarios con caractersticas
similares.
- No hace falta definir atributos para los productos
- Calulo de vecinos mas cercanos
Ventajas:
Los productos recomendados son los de aquellos usuarios con
votaciones similares.
Preferencias de usuario = votaciones producto
A mas usuarios, mas votaciones = mejores resultados.
Limitaciones
Usuarios diferentes votan en escalas diferentes.
Problemas con usuarios y productos nuevos.
Encontrar usuarios/grupos similares es complicado
PROBLEMA: este algoritmo si un usuario no ha votado ninguna peli

nos presenta teta=0 y las votaciones sern O
SOLUCION: MEAN NORMALIZATION
TEMA 41. REDES NEURONALES ARTIFICIALES

BACK PROPAGATION
COEFICIENTE DE APRENDIZAJE n:
Fijo: para evitar que oscile mucho 0.05<n<0.25
Variable: Disminuye a medida que disminuye el error
COEFICIENTE MOMENTUM u
Termino proporcional al cambio en el valor de los pesos desde la
ultima iteracin: la red evoluciona teniendo en cuenta el gradiente
anterior y actual.
TEMA 4.2 RADIAL BASIS FUNCTION . REDES NEURONALES NO

SUPERVISADAS
RADIAL BASIS algoritmo:
pregunta de examen
TEMA 4.4 COMPUTACION EVOLUTIVA
DILEMA DEL PRISIONER. PROBLEMA DEL VIAJERO

NO SE DONDE VAAAAAAAA:

Tema 3

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Tema 3

Hochgeladen von

Copyright:

Verfügbare Formate

TEMA 3.

EM EXPECTATION-MAXIMIZATION Soft Clustering

Alternaivamente se puede asignar una muestra en diferentes

En los modelos minas cada cluster es un modelo generativo(pe.

Algoritmo: (Repetir hasta la convergencia):

3. Dado un nuevo ejemplo, Calcular p(x), es anmalo si

Valor de E Cross- validation

2. Dada nueva muestra, calcular la probablidad de que

3. avisar de anomala :si p(x)<E

TEMA 3.2: SISTEMAS RECOMENDADORES

PROBLEMA: este algoritmo si un usuario no ha votado ninguna peli

TEMA 41. REDES NEURONALES ARTIFICIALES

TEMA 4.2 RADIAL BASIS FUNCTION . REDES NEURONALES NO

RADIAL BASIS algoritmo:

TEMA 4.4 COMPUTACION EVOLUTIVA

DILEMA DEL PRISIONER. PROBLEMA DEL VIAJERO

Das könnte Ihnen auch gefallen