Sie sind auf Seite 1von 13

Reconocimiento de Patrones

J. Kittler (revisado y ampliado por GTI-IIE) Revisi on:0.9, Fecha: 1/09/2002


Notas del seminario de Reconocimiento de Patrones de Grupo de Tratamiento de Im agenes del
Instituto de Ingeniera El ectrica, basado en las notas del curso del Prof. J. Kittler en la Univ. de
Surrey.

Indice
1. Modelo de Sistema de Reconocimiento de Patrones 1
1.1. Introducci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Modelo de Sistema de Reconocimiento de Patrones . . . . . . . . . . . . . . . . . . . . . . 1
1.3. Modelo del Proceso de Generaci on de Patrones . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3.1. Modelo Probabilstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3.2. Relaciones B asicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3.3. Ejemplo: Un problema de reconocimiento de caracteres . . . . . . . . . . . . . . . 3
1.4. Reglas de Decisi on Estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4.1. Regla del Mnimo Costo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4.2. Regla del Mnimo Error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2. Dise no de un Sistema de Reconocimiento de Patrones 5
2.1. Problemas en el Dise no de un Sistema de Reconocimiento de Patrones . . . . . . . . . . . . 5
2.2. Reglas de Decisi on para Clases con Distribuci on Normal (Gaussiana) . . . . . . . . . . . . 5
2.2.1. Caso Particular 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.2. Caso Particular 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.3. Caso Particular 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.4. Inferencia de los par ametros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3. Evaluaci on del Desempe no de un Sistema de Clasicaci on . . . . . . . . . . . . . . . . . . 8
3. Apendizaje no supervisado 9
3.1. Aprendizaje no supervisado y an alisis de agrupamientos . . . . . . . . . . . . . . . . . . . 9
3.2. Medidas de Similitud y Criterios de Agrupamiento . . . . . . . . . . . . . . . . . . . . . . 10
3.3. Algoritmo de k-medias (k-means). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1. Modelo de Sistema de Reconocimiento de Patrones 1
1. Modelo de Sistema de Reconocimiento de Patrones
1.1. Introducci on
El objetivo del procesamiento e interpretaci on de datos sensoriales es lograr una descripci on concisa y repre-
sentativa del universo observado. La informaci on de inter es incluye nombres, caractersticas detalladas, rela-
cionamientos, modos de comportamiento, etc. que involucran a los elementos del universo (objetos, fen ome-
nos, conceptos)
Estos elementos se perciben como patrones y los procesos que llevan a su comprensi on son llamados procesos
perceptuales. El etiquetado (clasicaci on, asignaci on de nombres) de esos elementos es lo que se conoce
como reconocimiento de patrones. Por lo tanto, el reconocimiento de patrones es una herramienta esencial
para la interpretaci on autom atica de datos sensoriales.
El sistema nervioso humano recibe aproximadamente 10
9
bits de datos sensoriales por segundo y la mayora
de esta informaci on es adquirida y procesada por el sistema visual. An alogamente, la mayora de los datos a
ser procesados autom aticamente aparecen en forma de im agenes.
El procesamiento de im agenes de escenas complejas es un proceso en m ultiples niveles que se ilustra en la
gura 1 mostrando la participaci on relativa de los dos tipos de metodologas necesarias:
Reconocimiento de patrones basado en atributos.
Reconocimiento de patrones basado en la estructura.
Pixel
Informacin de Atributos
Segmentos
de Objetos
Objetos Grupos Primitivas
de Objetos
Escena
Informacin Relacional
Figura 1: Distintos tipos de informaci on usada en diferentes niveles de procesamiento.
1.2. Modelo de Sistema de Reconocimiento de Patrones
Los procesos perceptuales del ser humano pueden ser modelados como un sistema de tres estados:
adquisici on de datos sensoriales
extracci on de caractersticas
toma de decisiones
2

INDICE
(Objetos, Conceptos)
Universo
Sensor
Patrn Caractersticas
Clasificador
Decisin
Extractor
de
Caractersticas
Representacin
Figura 2: Etapas en un sistema de reconocimiento de patrones.
Por lo tanto es conveniente dividir el problema del reconocimiento autom atico de una manera similar
Sensor Su prop osito es proporcionar una representaci on feasible de los elementos del universo a ser clasi-
cados. Es un sub-sistema crucial ya que determina los lmites en el rendimiento de todo el sistema.
Idealmente uno debera entender completamente las propiedades fsicas que distinguen a los elementos
en las diferentes clases y usar ese conocimiento para dise nar el sensor, de manera que esas propiedades
pudieran ser medidas directamente. En la pr actica frecuentemente esto es imposible porque:
no se dispone de ese conocimiento
muchas propiedades utiles no se pueden medir directamente (medici on no intrusiva)
no es econ omicamente viable
Extracci on de Caractersticas Esta etapa se encarga, a partir del patr on de representaci on, de extraer la
informaci on discriminatoria eliminando la informaci on redundante e irrelevante. Su principal prop osito
es reducir la dimensionalidad del problema de reconocimiento de patrones.
Clasicador El la etapa de toma de decisiones en el sistema. Su rol es asignar a la categora apropiada los
patrones de clase desconocida a priori.
1.3. Modelo del Proceso de Generaci on de Patrones
1.3.1. Modelo Probabilstico
Las diferencias en los patrones de una misma clase puede deberse a ruido, deformaciones, variabilidad
biol ogica, etc. Por lo tanto debemos asumir esta variabilidad en los patrones y el proceso asociado a la
generaci on de patrones puede ser descripto adecuadamente mediante un modelo probabilstico.
De lo anterior podemos asumir que cada patr on
x = [x
1
, x
2
, , x
n
]
es un vector aleatorio n-dimensional perteneciente a una de m posibles clases
i
i = 1, , m donde cada
clase
i
tiene una probabilidad de ocurrencia a priori igual a P(
i
). La distribuci on de probabilidad del
vector patr on x de la clase
i
se caracteriza por la funci on densidad de probabilidad condicional para la
i-esima clase p(x|
i
).
1.3.2. Relaciones B asicas
Notar que las probabilidades a priori de las clases suman uno, o sea
m

i=1
P(
i
) = 1
La densidad conjunta o funci on de densidad de probabilidad no condicional p(x) vienen dada por
p(x) =
m

i=1
p(x|
i
)P(
i
).
1. Modelo de Sistema de Reconocimiento de Patrones 3
En la pr actica nos interesa calcular la probabilidad a posteriori (una vez observado el patr on x) para cada
clase
i
, la cual viene dada por la F ormula de Bayes que relaciona probabilidades condicionales seg un:
P(
i
|x) =
p(x|
i
)P(
i
)
p(x)
=
p(x|
i
)P(
i
)

m
j=1
p(x|
j
)P(
j
)
.
1.3.3. Ejemplo: Un problema de reconocimiento de caracteres
m = 26 n umero de diferentes caracteres excluyendo los dgitos.
n = 8 n umero de medidas
x
i
i = 1 n distancia entre el centro de gravedad y el punto de intersecci on m as lejano en la
semirrecta con origen en este centro y formando un angulo
(i1)
4
con el eje

0x.
P(
i
) probabilidad a priori de la ocurrencia del i- esimo car acter en un lenguaje dado.
x
3
x
2
x
1
Figura 3: Atributos en reconocimiento de caracteres.
1.4. Reglas de Decisi on Estadstica
1.4.1. Regla del Mnimo Costo
Dadas las caractersticas del modelo probabilstico adoptado para el proceso de generaci on de patrones; c omo
decidimos a que clase asignar el patr on x observado?
Para resolver este problema, denamos un costo de decisi on
ij
1 i, j n asociado con la decisi on de
asignar a la clase
j
un patr on x que pertenece a la clase
i
.
Notar que

ii
costo de una decisi on correcta, en general se dene como 0

ij
es en general diferente de
ji

ij
0
Ejemplo: Vericaci on de Firmas
En una aplicaci on de detecci on de rmas falsas tendramos en principio dos clases
_

1
la rma es aut entica

2
la rma ha sido falsicada
Claramente en este contexto podemos cometer 2 tipos de errores de clasicaci on que sin embargo implican
costos muy diferentes; de modo que se deber a cumplir
21

12
.
4

INDICE
Denotaremos con
j
la regi on del espacio de observaci on tal que nuestra regla de decisi on asigna
x
j
x
j
o sea que la regi on
j
est a asociada con la clase
j
.
El costo medio de clasicar un patr on x
j
como perteneciente a la clase
j
es
r
j
(x) =
m

i=1

ij
P(
i
|x)
Por lo tanto el costo para toda la regi on
j
se obtiene integrando sobre todos los valores posibles con sus
correspondientes probabilidades de observaci on:
R
j
=
_

j
r
j
(x)p(x)dx
Finalmente el costo total de nuestro sistema de decisi on viene dado por
R =
m

j=1
R
j
=
m

j=1
_

j
_
m

i=1

ij
P(
i
|x)
_
p(x)dx
De modo que podemos concluir que el costo total ser a minimizado si el espacio de observaci on se particiona
de manera tal que si x
j
se tenga
m

i=1

ij
P(
i
|x)
m

i=1

ik
P(
i
|x) k = j
Hemos llegado por lo tanto a la llamada Regla de Decisi on de Mnimo Costo de Bayes, que establece
Asignar x
j

m

i=1

ij
p(x|
i
)P(
i
) = mn
1km
m

i=1

ik
p(x|
i
)P(
i
)
donde en en la ultima ecuaci on hemos usado la identidad de Bayes: P(
i
|x)p(x) = p(x|
i
)P(
i
).
1.4.2. Regla del Mnimo Error
Consideramos ahora un modelo de costos cero-uno, o sea
_

ii
= 0 1 i m

ij
= 1 1 i, j m, i = j
En este caso el lado derecho de la regla del mnimo costo queda
m

i=1

ik
P(
i
|x) =

1im
i=k
P(
i
|x) = 1 P(
k
|x)
y la regla de decisi on correspondiente resulta:
Asignar x
j
P(
j
|x) = m ax
1km
P(
k
|x)
Observar que si asumimos que se asigna x
j
, la probabilidad condicional de error (x) viene dada por
(x) = 1 P(
j
|x) .
2. Dise no de un Sistema de Reconocimiento de Patrones 5
Por lo tanto el error condicional ser a mnimo si la clase
j
se elije usando la ultima regla de decisi on. En este
caso el error medio
e =
_

(x)p(x)dx
se conoce como error de Bayes.
Integrando en cada regi on de decisi on este error se puede descomponer como
e = 1
m

j=1
_
_

j
P(
j
|x)p(x)dx
_
= 1
m

j=1
P(
j
)
_
_

j
p(x|
j
)dx
_
.
2. Dise no de un Sistema de Reconocimiento de Patrones
2.1. Problemas en el Dise no de un Sistema de Reconocimiento de Patrones
Si conoci eramos totalmente las caractersticas estadsticas del modelo en el proceso de generaci on de los
patrones, esto es si supi eramos P(
i
), p(x|
i
) i; entonces podramos dise nar el sistema de reconocimiento
de patrones (SRP) optimo mediante aplicaci on directa de la teora de decisi on de Bayes. Sin embargo en la
pr actica surgen los siguientes problemas:
el modelo no se puede conocer totalmente y/o
la complejidad del SRP a dise nar est a restringida por consideraciones econ omicas (hardware, tiempo)
Por lo general la base de conocimiento disponible para el dise no de un SRP es un conjunto de entrenamiento
constituido por observaciones, ya sea etiquetadas o no.
En el primer caso asumimos que para cada patr on o vector de observaciones x
i
i = 1, 2, , N en el
conjunto de entrenamiento, un experto asigna una etiqueta con la clase correcta
i
. El dise no de un sistema
basado en un conjunto de datos clasicados de antemano se conoce como aprendizaje supervisado.
Si no se dispone de conocimiento experto sobre el conjunto de datos, o si el etiquetado de los patrones de
entrenamiento es impracticable por razones pr acticas; entonces el problema de dise no implica la necesidad
de una primera etapa de an alisis de los datos. Este proceso primario de an alisis se conoce como una etapa de
aprendizaje no supervisado.
Por lo tanto, en el caso general, dado un conjunto de entrenamientos el dise no del SRP implica:
1. Inferencia del modelo a partir de los datos (aprendizaje).
2. Desarrollo de reglas de decisi on pr acticas.
3. Simulaci on y evaluaci on del rendimiento del sistema.
2.2. Reglas de Decisi on para Clases con Distribuci on Normal (Gaussiana)
Supongamos que las clases responden a distribuciones normales, o sea que las densidades de probabilidad
condicionales de cada clase tienen la forma
p(x|
i
) =
1
(2)
n
2
|
i
|
1
2
exp
_

1
2
(x
i
)
1
i
(x
i
)
T
_
i = 1, , m.
siendo
_

i
= E [x|
i
] vector medio para la i- esima clase

i
= Cov[x|
i
] = E
_
(x
i
)(x
i
)
T
|
i
]

matriz de covarianza para la i- esima clase


6

INDICE
Si tomamos logaritmo a ambos lados de la regla de Bayes del mnimo error obtenemos:
Asignar x
j

log P(
j
)
1
2
_
nlog(2) + log |
j
| + (x
j
)
1
j
(x
j
)
T
_
=
m ax
1km
_
log P(
k
)
1
2
_
nlog(2) + log |
k
| + (x
k
)
1
k
(x
k
)
T
_
_
(1)
Multiplicando por 2, sacando para afuera de la expresi on el signo de menos y agrupando los t erminos que no
dependen de x resulta:
Asignar x
j
(x
j
)
1
j
(x
j
)
T
C
j
= mn
1km
_
(x
k
)
1
k
(x
k
)
T
C
k

siendo
C
k
= 2 log P(
k
) (nlog(2) + log |
k
|)
Observar que en el caso particular en que las probabilidades a priori son uniformes y las matrices de correla-
ci on tienen determinante constante en las distintas clase, de modo que
P(
k
) =
1
m
1 k m y log |
k
| = log |
k
| 1 k = k

m
la regla de Bayes del mnimo error se simplica a:
Asignar x
j
(x
j
)
1
j
(x
j
)
T
= mn
1km
_
(x
k
)
1
k
(x
k
)
T

Si denimos para cada clase una norma a partir de su matriz de covarianza como sigue
x x
2
k
= x
1
k
x
T
1 k m
podemos escribir el criterio anterior como:
Asignar x
j
x
j

j
= mn
1km
x
k

k
De modo que asignamos un patr on x arbitrario a la clase
j
tal que su vector medio
j
este m as cercano en
la distancia inducida por la norma asociada a esa clase.
2.2.1. Caso Particular 1
Supongamos que las probabilidades a priori y las covarianzas son constantes en las clases

i
=
j
= y P(
i
) = P(
j
) 1 i = j m
Denimos la norma y distancias asociadas a como antes:
x
2
= x
1
x
T
d(x, x

) = x x

x, x


Esta distancia se conoce como distancia de Mahalanobis asociada a la covarianza . Notar que en el caso
particular que = I est a distancia coincide con la distancia cuadr atica Euclidiana.
Por lo tanto la regla del mnimo error se reduce a asignar el patr on x a la clase cuyo vector medio sea el m as
cercano seg un la distancia de Mahalanobis (Regla de decisi on por media m as cercana):
Asignar x
j
d(x,
j
) = mn
1km
d(x
k
)
2. Dise no de un Sistema de Reconocimiento de Patrones 7

1
x, d( )
x, d( )
3

3
2
x, d(
2
)

x
Figura 4: Regla de asignaci on por media m as cercana.
2.2.2. Caso Particular 2
Ahora analizaremos el problema general de decisi on entre dos clases
m = 2,
1
=
2
Aplicando la regla de Bayes vemos que la ecuaci on
f(x) = x
1

1
x
2

2
+ C
2
C
1
= 0
dene la supercie de separaci on, conocida como supercie discriminante, entre las regiones asociadas a
cada una de las clases
1
y
2
. En general esta supercie es cuadr atica ya que su ecuaci on resulta:
x
T
_

1
1

1
2
_
x
. .
cuadr atico
2x
T
_

1
1

1

1
2

2
_
. .
lineal
+
_

T
1

1
1

1

T
2

1
2

2
+ C
2
C
1
_
. .
constante
= 0 .
2.2.3. Caso Particular 3
En este caso asumimos que tenemos 2 clases con la misma covarianza
m = 2,
1
=
2
=
Observando la ecuaci on para el caso anterior, vemos que se anula el t ermino cuadr atico y por lo tanto la
supercie discriminante resulta lineal como funci on del patr on vectorial x. La supercie de separaci on es un
hiperplano denido por:
x
T

2
_
+ cte = x
T
w+ cte = 0 siendo w =
_

2
_
.
El resultado es un clasicador lineal se puede implementar como se muestra en la gura 5.
Esta estructura es id entica a la de una importante familia de m aquinas lineales usadas en sistemas de decisi on,
entre las cuales podemos mencionar al Perceptr on.
2.2.4. Inferencia de los par ametros
La inferencia de los par ametros
i
y
i
involucrados en las reglas de decisi on es directa a partir de los
conjuntos de entrenamiento
{x
ij
i = 1, , m; j = 1, , N
i
} con x
ij

i
.
8

INDICE

2

x
T
+ cte = 0 w
w
Figura 5: Regla de asignaci on por media m as cercana.
El patr on vectorial medio para la clase
i
se puede estimar como

i
=
1
N
i
N
i

j=1
x
ij
en tanto la matriz de covarianza se estima con

i
=
1
N
i
N
i

j=1
_
x
ij

i
__
x
ij

i
_
T
2.3. Evaluaci on del Desempe no de un Sistema de Clasicaci on
Supongamos que disponemos de un conjunto de patrones vectoriales x
j
j = 1, , N con sus corres-
pondientes clases verdaderas
j
conocidas. Es importante notar que este conjunto de patrones debera tener
independencia estadstica con el conjuntos de patrones de entrenamiento del sistema.
Sean
j
las etiquetas asignadas a cada x
j
por el sistema de reconocimiento de patrones que estamos evaluan-
do, e introduzcamos las variables aleatorias (x
j
) denidas seg un
(x
j
) =
_
0 si
j
=
j
1 si
j
=
j
Notar que el valor esperado de (x) para un patr on x elegido al azar es
E [] =
_

(1 (x) + 0 [1 (x)]) p(x)dx =


_

(x)p(x)dx = e
en tanto la varianza resulta
E
_
( e)
2

=
_

(x)p(x)dx e
2
= e(1 e) .
Podemos tambi en deducir esto observando es una variable aleatoria de Bernoulli tal que la probabilidad
p{ = 1} es igual a la probabilidad media e de error del sistema.
Si hacemos N observaciones independientes de y denimos la nueva variable aleatoria e como
e =
1
N
N

j=1

j
3. Apendizaje no supervisado 9
encontramos que e tiene distribuci on Binomial con valor medio e (como se ve calculando la esperanza) y por
lo tanto e es un estimador insesgado del error medio e.
La desviaci on est andar de este estimador se calcula como

e
=
_
Var [ e] =
_
E
_
e
2

e
2
_1
2
Sustituyendo e y desarrollando resulta
Var [ e] =
1
N
2
N

j=1
N

k=1
E [
j

k
] e
2
=
1
N
E
_

+
N 1
N
e
2
e
2
=
1
N
e(1 e)
de donde la desviaci on del estimador ser a

e
=
_
e(1 e)
N

1
2

N
.
Resumiendo, hemos visto que podemos estimar el error medio de clasicaci on e present andole a nuestro sis-
tema de clasicaci on un conjunto de patrones que pertenecen a clases conocidas. El error se estima contando
el n umero de discrepancias entre la clase verdadera y la etiqueta de clase asignada por el sistema, y dividiendo
nalmente este resultado entre el n umero de muestras en la prueba.
Notar que si el error medio del sistema es peque no, digamos de 1 %, vamos a necesitar de un n umero
grande de muestras de prueba para vericar este valor de desempe no con una razonable conanza relativa.
3. Apendizaje no supervisado
Es com un encontrarse con situaciones en las que el sistema de clasicaci on de patrones debe dise narse par-
tiendo de un conjunto de patrones de entrenamiento {x
j
; j = 1, 2, , N} para los cuales no conocemos
sus etiquetas de clase
i

Estas situaciones se presentan cuando no disponemos del conocimiento de un experto o bien cuando el etique-
tado de cada muestra individual es impracticable. Esto ultimo ocurre por ejemplo en el caso de aplicaciones
con sensores remotos, como ser im agenes satelitales de terrenos donde sera muy costoso o imposible recoger
informaci on real del tipo de suelo sensado en cada punto de las im agenes. En estos casos el proceso de dise no
requiere una primera etapa de an alisis de las estructuras presentes en los datos de entrenamiento.
3.1. Aprendizaje no supervisado y an alisis de agrupamientos
Dado un conjunto de entrenamiento sucientemente grande podemos inferir la funci on densidad de probabi-
lidad conjunta p(x) y recordando que
p(x) =
m

i=1
P(
i
)p(x|
i
)
podemos deducir que si la densidad conjunta es multimodal cada uno de los modos debera corresponderse
con la distribuci on condicional de cada una de las clases presentes. Por lo tanto identicando estos modos en
p(x) sera en principio posible particionar el espacio de observaci on en regiones disjuntas
i
, i = 1, , m
asociadas con cada una de las clases presentes.
Si las distribuciones condicionales de cada clase son normales cabria la posibilidad de recuperar los par ame-
tros de cada distribuci on a partir del conjunto de entrenamiento. A partir de esto podramos seguir con el
dise no del clasicador como se vio en la secci on anterior. Sin embargo podemos conformarnos con recobrar
10

INDICE

1

2

3
p(x)
Figura 6: Distribuci on conjunta multimodal y regiones asociadas a cada clase..
directamente las regiones
i
lo cual es suciente para nuestros intereses ya que esto puede usarse directa-
mente para la clasicaci on de nuevos datos simplemente usando el criterio:
Asignar x a
j
x
j
Un opci on alternativa seria usar este u otro criterio para clasicar los patrones en el conjunto de entrenamiento
y luego usar estas etiquetas para dise nar el sistema de reconocimiento de patrones usando un aprendizaje
supervisado. En la pr actica ocurre que determinar explicitamente las regiones
i
implicara estimar la funci on
de densidad conjunta y luego analizarla en un espacio de dimensi on n lo que generalmente es impracticable
por su complejidad computacional. Adem as como vimos, solo necesitamos de un m etodo indirecto que nos
permita etiquetar autom aticamente los patrones de entrenamiento. Entonces lo que queremos es alguna forma
de hacer una partici on del conjunto de entrenamiento en clases con una misma etiqueta y esto es lo que se
conoce como m etodos de agrupamiento o clustering.
Intuitivamente podemos anticipar que las modas en la funci on de densidad conjunta p(x) estar an asocia-
das a regiones con alta densidad de muestras en el espacio de observaci on. El proposito de las t ecnicas de
agrupamiento ser a justamente detectar y agrupar estos enjambres de puntos.
3.2. Medidas de Similitud y Criterios de Agrupamiento
El prop osito de los m etodos de agrupamiento ser a analizar y extraer la estructura presente en un conjunto de
patrones o muestras de entrenamiento. Diremos que un conjunto de datos est a bien estructurado si contiene
varios enjambres de patrones cercanos entre si, o sea regiones de alta densidad, separados por otras regiones
relativamente vacias o con poca densidad.
Vemos que los puntos de un mismo agrupamiento apareceran m as proximos entre ellos que a puntos en otros
agrupamientos. Esta observaci on nos lleva a concluir que si queremos decidir si un punto x pertenece o no a
un agrupamiento necesitaremos una medida de proximidad o similitud. Se han sugerido y estudiado un gran
n umero de tales medidas, pero probablemente las m as comunmente usadas son las medidas de distancia y en
particular la distancia Euclideana.
La anidad de un punto a un agrupamiento se puede determinar ya sea midiendo su similitud con otros
puntos en el agrupamiento o bien con un modelo denido para el agrupamiento. El ejemplo m as sencillo de
esto ultimo es representar un agrupamiento i por su vector medio
i
; en este caso la anidad entre un puntox
y el agrupamiento se puede cuanticar con la distancia Euclideana al cuadrado
d(x,
i
) =
_
(x
i
)
T
(x
i
)

3. Apendizaje no supervisado 11

Figura 7: Datos structurados vs. no estructurados.


Pero para particionar un conjunto de puntos en agrupamientos de una manera optima no nos alcanza con una
medida de anidad o similitud sino que adem as necesitamos algun criterio de agrupamiento que nos permita
denir cuantitativamente cuando una partici on es mejor que otra. Obviamente tanto el criterio de agrupa-
miento que denamos tanto como el algoritmo de agrupamiento asociado, estar an intimamente relacionados
con la medida de similitud usada y se denir an a partir de esta.
En la siguiente secci on veremos algunos ejemplos de m etodos de agrupamiento que se basan en los conceptos
anteriores.
3.3. Algoritmo de k-medias (k-means).
Supondremos que el conjunto de datos X contiene k agrupamientos y que cada uno de estos subconjuntos
X
i
puede representarse adecuadamente con su valor medio
i
. Como se menciona anteriormente, en este
caso podemos usar la distancia Euclideana como una medida de similitud. Se deduce que un criterio de
agrupamiento adecuado en este caso es considerar la suma total sobre el conjunto de entrenamiento de la
distancia cuadr atica de cada punto al vector valor medio de su agrupamiento.
El objetivo del algoritmo de agrupamiento ser a encontrar entre todas las particiones de X en k conjuntos
{X
i
; i = 1, 2, , k} aquella que minimice el criterio de agrupamiento elegido.
Dicho formalmente, queremos encontrar los agrupamientos {X
i
} que minimizan la funci on
J =
k

i=1
J
i
=
k

i=1
N
i

j=1
d(x
ij
,
i
) siendo x
ij
X
i
, N
i
= #X
i
entre todas las posibles particiones de Xen k subconjuntos.
Un algoritmo para minimizar J puede deducirse considerando el efecto de un cambio minimal o at omico en
la conguraci on de agrupamientos, que consiste en sacar un punto x que este en el agrupamiento X
l
para
pasarlo a otro agrupamiento X
r
.
12

INDICE
Claramente esta reasignaci on afectara solo a los agrupamientos l y r cuyos valores medios pasar an a ser

l
=
l
+
1
N
l
1
(
l
x) y
r
=
r

1
N
r
+ 1
(
r
x)
respectivamente.
Para deducir la primera ecuaci on calculamos el valor medio de X
i
antes y despues de la reasignaci on

l
=
1
N
l
N
l

j=1
x
j

l
=
1
N
l
1
N
l
1

j=1
x
j
=
1
N
l
1
_
_
N
l

j=1
x
j
x
_
_
donde hemos asumido que el punto reasignado es el ultimo en la sumatoria. De aqui resulta que
(N
l
1)
l
= N
l

l
x
l
=
N
l
N
l
1

l

1
N
l
1
x
l
=
l
+
1
N
l
1
(
l
x)
y an alogamente se verica la segunda identidad.
Por lo tanto para calcular el cambio global en el valor de J bastar a calcular los cambios en las contribuciones
de J
l
y J
r
. Para el nuevo agrupamiento l-esimo tendremos

J
l
=
N
l
1

j=1
d(x
j
, mu
l
) =
N
l
1

j=1
(x
j

l
)
T
(x
j

l
) =
=
N
l

j=1
_
x
j

l
+

l
x
N
l
1
_
T
_
x
j

l
+

l
x
N
l
1
_

_
x
l
+

l
x
N
l
1
_
T
_
x
l
+

l
x
N
l
1
_
=
J
l

2
N
l
1
(
l
x)
N
l

j=1
(x
j

l
)
. .
0
+
N
l
(N
l
1)
2
(
l
x)
T
(
l
x) +
N
2
l
(N
l
1)
2
(
l
x)
T
(
l
x)
de donde luego de agrupar concluimos que

J
l
= J
l

N
l
N
l
1
(
l
x)
T
(
l
x) = J
l

N
l
N
l
1
d(x,
l
)
y an alogamente para el agrupamiento r se obtiene

J
r
= J
r
+
N
r
N
r
1
(
r
x)
T
(
r
x) = J
r
+
N
r
N
r
1
d(x,
r
)

Das könnte Ihnen auch gefallen