2858 5822 1 PB

ón
estigac
i
Academ
ia Modelamiento difuso
con técnicas de Clustering
Des
arrollo
Inv
Ciencia
Diana Marcela RESUMEN II. IDENTIFICACION Y

González1 Chaparro1
En este documento se presentan técnicas para de- MODELAMIENTO DIFUSO
Sergio Barato rivar modelos difusos Takagi-Sugeno-Kang (TSK)
Quintero 2 Las técnicas y algoritmos para el reconocimien-
de sistemas complejos, no lineales y semidescono- to de los parámetros de un modelo de dato se cono-
cidos a partir de métodos de clustering (agrupa- cen como identificación difusa. Los parámetros de
miento). Se utilizan tres algoritmos: Gustafson- una estructura difusa como funciones de pertenen-
Kessel (GK), Maximum Likelihood Estimation cia y el peso de las reglas son sintonizadas usando
(MLE) y una modificación a la versión simplificada los datos de entrada y salida. En este proceso no se
del algoritmo de Maximum Likelihood. Estos son hace necesario un conocimiento a priori, en lugar de
evaluados en condiciones de presencia ruido. De ello se espera que las funciones de pertenencia y re-
los resultados de las simulaciones se demostró que glas extraídas proporcionen una interpretación del
el algoritmo menos vulnerable ante ruido es el GK. comportamiento del sistema. La identificación es
Adicionalmente, se encontró que en condiciones vista como una descomposición de un sistema no
de poco ruido la generación de submodelos linea- lineal, lo cual genera un balance entre la complejidad
les eficientemente se obtuvo con el algoritmo MLE (no uniforme) y la exactitud del modelo.
modificado.
El modelamiento difuso reúne el procesamien-
Palabras clave: clustering difuso, centros, función to lógico de información con estructuras matemáti-
objetivo, matriz de partición, modelo difuso TSK. cas capaces de representar mapeos no lineales com-
plejos. La estructura basada en reglas de los siste-
I. INTRODUCCION mas difusos, contribuye a los modelos difusos gene-
rados por tratamiento de datos, ya que generan una
Es de gran importancia el desarrollo de modelos descripción cualitativa, que combinada con el cono-
matemáticos de sistemas reales. Estos permiten cimiento de expertos ayuda a comprender, validar
obtener simulaciones, analizar el comportamiento del y/o simplificar el modelo.
sistema y diseñar procesos. Sin embargo, muchos
sistemas físicos no son tratables por aproximacio-
nes desde el punto de vista de modelamiento con- III. MODELOS TSK
vencional, debido a la falta de conocimiento del sis- Los modelos TSK son modelos difusos que constan
tema, fuerte comportamiento no lineal, y alto grado de reglas Ri con la siguiente estructura [1] [2] [9] [10]:
de incertidumbre.
Ri: Si x es Ai entonces yi = aiTx +bi i = 1,2,,K (1)
El modelamiento difuso ha sido reconocido como
una poderosa herramienta en el tratamiento de sis- Donde x es el vector de entrada, Ai es el conjunto
temas que presentan los problemas mencionados, difuso (multidimensional), yi es la salida de la i-esima
debido a la capacidad de integrar información de regla, ai es un vector paramétrico y bi es el desplaza-
diferentes fuentes tales como, conocimiento de ex- miento escalar. La proposición de entrada x es Ai
pertos, modelos empíricos o mediciones. Los con- puede ser expresada como una combinación lógica
juntos difusos sirven como interfaz entre las varia- de proposiciones unidimensionales definidas por
bles cualitativas, los datos numéricos, las entradas y cada componente del vector de entrada x:
1
Miembro Grupo de Investigación salidas del sistema. Entre las metodologías de iden-
Laboratorio de Automática,
Microelectrónica e Inteligencia tificación difusa se encuentran las técnicas de Ri: Si x1 es Ai1 y...y xp es Aip entonces yi = aiTx +bi (2)
Computacional LAMIC,de la Uni- clustering. Estas se basan en el manejo de datos de
2
versidad Distrial.
entrada y salida del sistema, y su agrupamiento en Tal como en los modelos difusos Mamdani el gra-
Miembro Grupo de Investigación
Laboratorio de Automática,
subconjuntos (clusters). Como gran ventaja, estas do de cumplimiento de la regla esta dado por
Microelectrónica e Inteligencia
Computacional LAMIC,de la Uni- técnicas presentan la capacidad de sobrellevar los
versidad Distrial.
problemas de no linealidades y la falta de conoci- â i (x) = ì A i,1 (x) ∧ ì Ai,2 (x) ∧ K ∧ ì A i, p (x) (3)
miento preciso del sistema.
Artículo recibido en Abril de 2003
Aceptado en Junio 2003
86 Vol. 8 No.1
No.1
Ingeniería
Donde ∧ representa una T-norma[1][4]. La salida cia adaptiva con el fin de detectar clusters de dife-
del sistema TSK es obtenida combinando las reglas rentes formas geométricas y orientación, es decir,
de la siguiente forma: generan clusters hiperelipsoidales que pueden ser
c aproximados a hiperplanos. La desventaja de estos
∑ â (x)(a
i
T
i x + bi ) algoritmos es que al derivar los antecedentes (fun-
y= i =1
c
(4) ciones de pertenencia) que forman el modelo TSK,
∑ â (x) i
se producen errores por proyección o poca inter-
i =1 pretabilidad cuado se corrige este error. El tercer al-
Tomando la normalización del grado de cumpli- goritmo maneja clusters de forma hiperelipsoidal
mento como: pero paralelos a los ejes de las variables de entrada.
Debido a esto no se producen errores al derivar los
â i (x) antecedentes teniendo una alta interpretabilidad; la
ö i (x) = c (5) desventaja es que se pierde predictividad de modelo.
∑ â (x)
i =1
i
A. ALGORITMO GUSTAFSON-KESSEL
La ecuación (4) se puede rescribir como:
Este algoritmo se basa en la optimización de la
c
siguiente función objetivo [3][4][5]:
y = ∑ö
i =1
i (x)(a T
i x + bi) (6)
c N
La anterior expresión muestra que los modelos
TSK puede cumplir el papel de regresores de fun-
∑∑ (ì
i =1 k =1
m 2
ik d ij (7)
ciones, es decir pueden aproximar con cierto mar-

gen de exactitud cualquier función y = f(x). Donde c es el número de clusters, N es el número
de datos que se toman de la dispersión, µik es la
función de pertenencia del k-esimo dato al i-esimo
IV. TECNICAS DE CLUSTERING cluster, m es un índice que indica la fusividad entre
Las técnicas de clustering surgieron dentro de la las fronteras de cada cluster. Entre más alto sea m
disciplina patrones de reconocimiento. Esta técnica más difusas son las fronteras de cada cluster y dij2 es
busca hallar subgrupos con cierto grado de similari- una distancia (norma) entre puntos denominada
dad dentro de una colección de datos. Además de norma Mahalanobis, la cual es de la siguiente forma:
identificar cada subgrupo, determina los parámetros d ij 2 = ( z k - v i ) T A i ( z k - v i )
representativos de cada uno. Originalmente se plan-
teó la idea de que cada dato solo podría pertenecer a Donde zk, es un vector columna de dimensión s
un solo subgrupo, denominado hard clustering. que contiene el k-ésimo dato tomado, vi también es
Mas adelante se tomó la idea de clustering difuso en un vector columna de dimensión s denominado cen-
el cual particionamiento de datos se hace de forma tro del cluster y Ai es una matriz simétrica cuyo ta-
tal que la transición entre conjuntos es gradual en maño es (s x s), esta matriz indica la orientación de
lugar de abrupta como lo haría el hard clustering cada cluster. En este caso la norma Mahalanobis
[3]-[4]. Para el estudio, la similaridad es definida como mide la distancia entre el k-ésimo dato zk y el centro
una distancia, la cual puede ser medida entre vectores del i-ésimo cluster vi.
que contienen los datos y un elemento prototipo del
La identificación cluster, normalmente el centro [4]. En el momento de minimizar se toman como va-
difusa es una riables µ ik, Ai y vi, teniendo en cuenta las siguientes
efectiva Existen varios algoritmos de clustering los cuales restricciones [4][5]:
herramienta para tienen en cuenta: la forma geométrica, densidad y c
la aproximación relación espacial de cada cluster, además de la dis-
tancia entre ellos [3][4]. Se encuentran algoritmos
∑ì ik =1 1≤ k ≤ N (8)
de sistemas no- i =1
lineales inciertos iterativos basados en la optimización de una función A i = ñi ñ i > ∀i (9)

objetivo diferenciable, con la cual se mide la conve-
basándose en
niencia de la partición. En este documento se traba- Donde ρi es denominado el volumen de cada cluster.
datos medidos; ja sobre este tipo específico de algoritmos. Una de
existen varias las primeras técnicas de agrupamiento planteada que Para minimizar (7) con las restricciones (8) y (9) se
técnicas para utiliza una función objetivo es conocida como Fuzzy utilizan multiplicadores de Lagrange. Sin las restric-
esta identificación C-means [4]. Una desventaja de esta técnica es que la ciones la minimización conduciría a respuestas trivia-
y entre ellas medida de similaridad entre datos genera clusters les µ ik = 0 y Ai = 0. La primera restricción implica que
están los circulares. En este artículo se trabajan tres algoritmos: la suma de los grados de pertenencia de cada dato a
métodos de Gustafson-Kessel, Maximum Likelihood, y una mo- los clusters debe ser igual a uno, lo cual es acorde con
agrupamiento o dificación a la versión simplificada del Maximum la teoría de probabilidad. La segunda limita el volu-
Likelihood. Los dos primeros proponen una distan- men de cada cluster a un valor determinado.
clustering difuso.
Vol. 8 No.1
No.1 87
Ingeniería
En la teoría de El proceso de minimización se realiza de forma B. ALGORITMO MAXIMUM LIKELIHOOD
probabilidad alternante, es decir, se minimiza una variable supo- ESTIMATION (MLE)
niendo las otras constantes y se iguala a cero. Como El concepto de likelihood está cercanamente rela-
clásica se intenta
resultado la minimización se obtiene las siguientes cionado con el de probabilidad [5][7][4]. En la teoría
predecir la expresiones, sobre las cuales se realiza el proceso
probabilidad de de probabilidad clásica se intenta predecir la probabi-
iterativo. lidad de que cierto dato o evento ocurra, de acuerdo a
que cierto dato o N
parámetros de una función de densidad de probabilidad (pdf)
evento ocurra, de ∑ (ì ik
(l−1) m
zk
dada. El objetivo de MLE es encontrar los valores de
acuerdo a vi = k =1
N
(10) los parámetros que maximicen el valor una pdf esta-
parámetros de ∑ (ì ik (l−1) m blecida a partir de los datos o eventos obtenidos.
una función de k =1
densidad de N Sin embargo, es más sencillo obtener los

probabilidad ∑ (ì ik
m
z k − v i z k − v i T parámetros de la pdf a partir de la maximización del
(pdf) dada. Fi = k =1 (11) logaritmo natural de dicha función, esta técnica se
conoce como log likelihood [7]. La pdf de la cual se
N
∑ (ì
k =1
ik
m
obtiene los parámetros es una combinación lineal o
suma de pdf s normales multivariables y cada una de
[
Ai = (ñ i det(Fi )1 n Fi −1 ] (12) estas representa un cluster.
d ij 2 = ( z k - v i ) T A i ( z k - v i ) (13) Una función de densidad de probabilidad normal

multivariable tiene la siguiente forma [4][7]:
ì ik =
c
(14)
∑
-( x -ì i ) T Vi -1 ( x -ì i )
(d ik d jk ) 2 (m −1)
g (x i, è i ) =
1
1
e 2
(16)
(2ð )2 Vi
j=1 s
2
Las iteraciones inician determinando el número

de cluster c, el exponente m (por lo general es 2) y La cual se entiende como la probabilidad que suce-
seleccionando de manera aleatoria la matriz de par- da el evento x dados los parámetros θi , estos son la i-
tición difusa U de tamaño (c x N) la cual contiene ésima matriz de covarianza Vi y la i-ésima media µ i
los grados de pertenencia de los datos y cumple con (elemento prototipo del i-ésimo cluster). s es la di-
(8). La matriz de partición difusa se encuentra orga- mensión de los datos, por tanto las dimensión de la
nizada así: matriz de covarianza es (s x s) y la de la media es s.
 ì 11 ì 12 L ì 1N  Al realizar una mezcla de pdf s normales la pdf
ì ì 22 L ì 2N 
U=
21 (15) resultante es de la forma:
 M M M M 
  k
ì c1 ì c2 L ì cN 
f (x; á) = ∑ Pi g( x i, è i ) (17)
i =1
Posteriormente se calcula el valor de los centros con
(10). Teniendo el valor de vi se calcula la matriz de Que indica la suma de pdf s normales con coefi-
covarianza difusa Fi. A partir de (12) se calcula Ai ne- cientes Pi. Ahora los parámetros de la función se
cesaria para hallar la distancia de la expresión (13). conocen como α y son Vi, µi y Pi. Si se toma a Pi
La ecuación (13) describe una hiperelipse rotada. La como la probabilidad a priori de seleccionar la i-
dirección y dimensión de cada uno de los ejes rotados ésima función, es decir, de seleccionar el i-ésimo
está establecida por los autovectores y autovalores de cluster, se debe cumplir de acuerdo a la teoría clásica
la matriz Ai respectivamente Lo anterior fija la geo- de probabilidad que:
metría de los clusters. La actualización de U se logra k
mediante (14). El proceso concluye cuando la dife- ∑P

i =1
i =1 (12) (18)
rencia entre U actual y U anterior es menor que el
limite de tolerancia ε (0.01 ó 0.001). Suponiendo N eventos (datos) se desea encontrar
una pdf que haga más probable a todos los eventos,
Este algoritmo tiene la ventaja de ser prácticamente es decir, más probable el evento 1 "y" el eventeo2
insensible a los parámetros de inicialización. Presen- "y" el evento N. La pdf resultante estará dada por:
ta limitaciones en cuanto al volumen de los cluster
debido a la restricción en (9) incapacitándolo para H (x; á) = f (x 1 ; á) f (x 2 ; á) ....f (x N ; á) (19)
identificar clusters con diferentes volúmenes. Ade-
más, si el sistema presenta linealidades o la cantidad Observe que esta pdf tiene exactamente los mismos
de datos es muy pequeña, Ai puede presentar pro- parámetros que f(xk,α). Ahora el logaritmo de H es: Al
blemas de singularidad, interrumpiendo el proceso
iterativo. En [5] se presentan dos técnicas para co- Ln(H (x;á)) = Ln(f (x1; á) f (x2 ; á) ....f (xN ; á))
rregir los problemas matemáticos que pueden surgir N (20)
= ∑Ln f (x;á)
en el cálculo de la matriz de covarianza Ai. i =1
88 Vol. 8 No.1
No.1
Ingeniería
AL aplicar MLE a esta función se buscan los C. VERSIÓN DE EJES PARALELOS SIMPLIFI
parámetros α que maximicen Ln (H(x;a)), bajo la CADA DEL MAXIMUM LIKELIHOOD
condición (18). Debido a esto se aplican ESTIMATION
multiplicadores de Lagrange para llegar a las siguien- Como ya se dijo el algoritmo MLE tiene como una
tes expresiones: de las variables a minimizar la matriz de covarianza.
N
Pi g (x k i; è i )
Esto produce clusters rotados de forma hiperelipsoidal,
∑

Pi = (20) de acuerdo a la orientación de cada subgrupo.
N f (x k ; á )
k =1
En la versión de ejes paralelos simplificada la ma-
Pi g (x k i; è i )
N
∑
k =1
f (x k ; á )
xk
(21)
triz de covarianza se toma como una matriz diago-
nal[9][10]. Cada uno de los elementos de la matriz es
ìi =
Pi g (x k i; è i ) la desviación estándar de cada una de las variables
N
∑ f (x k ; á ) en cada cluster[9]. Con este nuevo planteamiento

k =1
cada una de las pdf's g(x i, è i ) ,que compone la mez-
Pi g (x k i; è i ) cla se puede rescribir como:
N
∑ f (x k ; á )
x k − ì i x k − ì i T
s -( x r -ì i r ) 2
g (x i, èi ) =
k =1 (22)
Vi =
∏
1
(28)
Pi g (x k i; è i )
N e 2ó 2 i r
∑ 2ð ó 2
r =1
f (x k ; á )
ir
k =1
donde x es el vector que representa un dato tomado, s
la dimensión de cada dato, xr representa la r-ésima
Ahora aplicando la regla de Bayes [8] se obtiene: componente del vector x, µi r es r-ésima componente
del centro del i-ésimo cluster µi y σ2i r representa la
(
Pi g x k i; èi )= Pi g x k i; èi ( ) desviación estándar de la r-ésima variable en el i-ésimo
f (x k ; á ) k (24) cluster. Siguiendo un procedimiento similar al descri-
∑ P g(x
i =1
i k i; èi )
to para obtener el algoritmo del MLE se llega a:
N
= p i; èi x k( ) ∑ p(i; è x )x i k k
ìi = k =1
N
(29)
Entonces se puede rescribir de la siguiente forma ∑ p(i; è x )
k =1
i k
el algoritmo:
N
∑ p(i; è x )( x
N
∑ p(i; è x )x i k k
σ 2
= k =1
i k rk − ì i r )( x k r − ì i r )T
(30)
ìi = k =1 (25) ij
N
N
∑ p(i; è x ) i k
∑(
k =1
p i; è i x k )
k =1
N
∑ p(i; è x )(x
N
∑ p(i; è x )

i k k − ì i )( x k − ì i ) T Pi = i k (31)
N
Vi = k =1 (26) k =1
N
∑ p(i; è x )
( x r -ì i r ) 2
s
2ð ó 2i r
k =1
i k d ij =
2
∏ r =1
Pi
e 2ó 2 i j (31)
∑ p(i; è x ) ( )
1 (21) 1
Pi = p i; èi x k = (33)
En la versión de N
i k
c
∑ (d
k =1
ejes paralelos
2
ik d jk )
simplificada la (2ð )
s 1
( x -ì i ) Vi ( x -ì i )
T -1 j=1
2 Vi 2 (27)
matriz de d ij =
2
e 2
Pi Debido a que la matriz es diagonal, solo se obten-
covarianza se
drán clusters de forma elipsoidal pero paralelos a cada
toma como una Al igual que en GK, (27) describe la ecuación de uno de los ejes del espacio muestreal. Obsérvese que
matriz diagonal. elipses rotadas que determina la geometría del clus- teniendo en cuenta la ecuación (28), la funciona ob-
Cada uno de los ter. Sin embargo, este algoritmo no tiene restriccio- jetivo de la ecuación (17) se puede rescribir como:
elementos de la nes en cuanto al volumen de cada cluster. El proce-
matriz es la so de actualización de los parámetros y convergen- c
desviación cia del proceso es similar al utilizado en GK. Una de

f (z; á) = ∑ p(ç )g(z ç )
i =1
i i
estándar de cada las desventajas que presenta este algoritmo es que c

(34)
una de las debido a su distancia exponencial es sensible a los = ∑ p(x, y/ç )p(ç )
i =1
i i
variables en parámetros de inicialización. c
cada cluster.
= ∑ p(y/x, ç )p(x/ç )p(ç )
i =1
i i i
Vol. 8 No.1
No.1 89
Ingeniería
El problema de En este caso cada dato es representado por un
∑ (x - v )(x - v ) p(ç /x , y
N
derivar los vector z y es dividido en un vector de entrada x y

x
i
x T
i i k k ) (43)
k =1
modelos TSK se una constante de salida y. A p(x k /ç i ) se le denomina óij = N
reduce a hallar distribución de entrada y es de la forma: ∑ p(ç /x , y i k k )
los parámetros k =1 (44)
-( x r -ì i r ) 2 N
∑ (y - (a x + b ))(y - (a x + b )) p(ç /x y )
n
de la función
∏
1 (35) T
p(x k /çi ) =
2
e 2ó ir i i i i i k, k
lineal en los r =1 2ð ó 2i r ói = k =1
N
consecuentes y
las funciones de donde n es la dimensión de entrada y p(y/x, çi ) se le ∑ p(ç /x y )
k =1
i k k
(45)
pertenencia en denomina distribución de salida y es de la forma:
los antecedentes. -( y -ì y ) 2 è i = (X Te Ö i X e ) −1 X Te Ö i y
p(y/x, çi ) = (36)
1 2ó 2
iy
e
2πσ i2y Xe denota una matriz de regresión extendida, la
cual se forma de la siguiente manera: primero que
D. MODIFICACIÓN DE LA VERSIÓN todo se forma una matriz llamada X, donde a cada
SIMPLIFICADA DEL MLE fila le corresponde el valor de las componentes de
Esta modificación se basa en interpretación dada entrada de cada uno de los datos. Después se adicio-
por las ecuaciones (34), (35) y (36) a la versión sim- na una columna de unos obteniendo Xe, es decir
plificada del MLE y busca mejorar la interpretación Xe=[X 1] y Φ i denota una matriz diagonal que con-
a la hora de derivar modelos TSK. Esta variación tiene las funciones de pertenencia de cada dato al i-
plantea una distribución de entrada de la forma de la ésimo cluster.
ecuación (35), y una distribución de salida en la que
a la vez se evalúa un modelo lineal de la salida como
p(çi x1, y1 ) 0 L 0 
función de las variables de entrada [9][10]. 
Φ=
0 p(çi 2 , y2 )
x L 0


(46)
En esta técnica las distribuciones de entrada y sa-  M M M M 
 
lida están determinadas por:
 0 0 L p(çi x N , yN )
n -( x r -ì i r ) 2
∏
1
p(x k /çi ) = e 2ó 2 i r (37)
n ( xr -ìi r )2 −
(y−x è ) (y−x è ) (47)
T
i
T T
i
2ð ó 2ðσ 2i r
∏
2
r =1 2ói2
ir
dij = e 2ó2i r
2ðσi2 e
r =1
p(çi )
−
(y−x è ) (y−x è )
T
i
T T
i
1 2ó i2 (38)
p(y/x,çi ) = e
El proceso de actualización de los parámetros y con-
2ðði2
vergencia del algoritmo es similar a GK y se utiliza
Donde θi indica los parámetros del i-ésimo mode- (40) para la reconstrucción de U. Al igual que MLE
lo lineal de salida. También se presenta la siguiente este algoritmo presenta problemas de inicialización.
restricción:
c
V. DERIVACIÓN DE MODELOS TSK
∑ p(ç ) = 1
i =1
i (39)
A PARTIR DE LOS PARAMETROS
OBTENIDOS EN LOS METODOS
Siendo p(çi ) la probabilidad a priori de cada clus-
ter. Utilizando un proceso similar al desarrollado para
DE CLUSTERING
obtener el algoritmo MLE se llega a las siguientes El problema de derivar los modelos TSK se redu-
expresiones que genera el proceso iterativo. ce a hallar los parámetros de la función lineal en los
consecuentes y las funciones de pertenencia en los
p(çi x k , y k ) = antecedentes. Se debe tener en cuenta que el méto-
1
c
(40) do modificado de la versión simplificada del MLE
∑ (d
j=1
ik d jk ) 2
brinda ya todos los parámetros de los consecuentes.
N
Por tanto solo se describirán métodos para derivar
p(çi ) = ∑ p(ç /x, y) (41) consecuentes a partir de las particiones y parámetros
1
i
N k =1 obtenidos en los métodos de clustering GK y MLE
N
∑ x p(ç /xk i k , yk ) A. DERIVACIÓN DE CONSECUENTES

vix = k =1 (42) Para derivar los consecuentes los dos métodos
N
∑ p(ç /x i k , yk ) usados más comúnmente son: mínimos cuadrados

k =1 totales y mínimos cuadrados ponderados [4]:
90 Vol. 8 No.1
No.1
Ingeniería
Mínimos cuadrados totales (TLS): Como resultado de (y − X e è i ) T Ö i (y − X e è i ) (54)
las técnicas de clustering se obtienen clusters de for-
ma hiperelipsoidal que pretenden aproximar donde Xe es la misma matriz que se describió en la
hiperplanos, por tanto el eje más pequeño del sección IV. Como resultado se obtiene la ecuación
hiperelipse debe tender a ser perpendicular al (45), es decir:
hiperplano que se quiere aproximar. Las direcciones
y las magnitudes de los ejes de los hiperelipses están [
è i = a iT , b i ] (55)
determinadas por los autovectores y los autovalores Es conveniente utilizar TLS en lugar de WLS, en
de cada matriz de covarianza respectivamente. El datos donde se considere que existe ruido, ya que
autovalor más pequeño indica cual de los ejes del TLS brinda de cierta forma robustez frente al ruido.
hiperelipse es más pequeño y por tanto indica que el También es importante resaltar que en la modifica-
correspondiente autovector es perpendicular al ción a la versión simplificada de MLE en cada itera-
hiperplano. Basándose en esta idea y teniendo en ción del algoritmo se esta usando WLS, por tanto el
cuenta que el hiperplano debe pasar por cierto pun- propio algoritmo brinda los consecuentes sin nece-
to con determinadas coordenadas llamado centro se sidad de procedimientos extra.
construye la ecuación de un hiperplano:
ö iT (z - v i ) = 0 (48) B. DERIVACIÓN DE ANTECEDENTES

Donde es el autovector correspondiente al Como resultado del clustering se obtienen funcio-
ö iT
autovalor más pequeño de la i-ésima matriz de nes de pertenencia multivariable. Es difícil la inter-
covarianza y v i es el i-ésimo centro. Ahora el pretación e implementación multidimensional de
autovector ϕ i y el centro vi se pueden rescribir par- conjuntos difusos, por lo tanto los antecedentes en
tiéndolos en sus dimensiones de la siguiente forma: (1) deben ser reescritos como una combinación de
proposiciones simples con conjuntos difusos
( )
ö iT =  ö ix

T
, ö iy  v iT =  v ix
 
( ) T
v iy 

(49) unidimensionales. Para este fin se pueden aplicar dos
estrategias: proyección ortogonal y proyección
autovector [4].
( ) ( ) T T
Donde ö ix y v ix son la parte de los vectores
Proyección Ortogonal: Proyecta la función de perte-
ö iT y v iT respectivamente que corresponden a las
variables de entrada mientras que ö iy y v iy son las nencia multivariable sobre cada uno de los ejes co-
constantes que corresponden a la salida Teniendo rrespondientes a las diferentes variables de entrada
en cuenta esto la ecuación (44) se puede rescribir de de la siguiente forma:
la siguiente forma.
µAi(xj) = projj U(i) (56)
( ) 
[x , y] ( )  T
 öx T
, ö iy  T T
-  v ix
T
, v iy  = 0 (50)
 i 
  
  Esta proyección presenta errores ya que los clusters
no siempre están paralelos a los ejes y se produce el
Lo que conduce a: denominado error por proyección.
-1 T 1
( )
y = y ö ix x + y ö iT v i ( ) (51) Proyección con autovector: Ya se describió como los
öi öi autovectores indican la dirección de los ejes rotados
de las hyperelipses, por tanto se puede utilizar esta
Donde
propiedad para formar una matriz de rotación y luego
ai =
-1
öiy
(ö )x T
i
(52)
proyectar ortogonalmente. Esta solución aunque más
precisa, tiene el problema que es poco interpretable,
bi
1
öiy
(ö )vT
i i
ya las nuevas entradas se convierten en combinacio-
nes lineales de la entradas originales (por el proceso
de rotación de ejes a través de la matriz).
que son los consecuentes de la i-ésima regla. Esta
solución es basada en la interpretación geométrica Una vez obtenidas las funciones de pertenencia
de los cluster, pero también esta demostrado [4] que univariables por cualquiera de los dos métodos de
es la solución al sistema: proyección, se deben usar una curva parametrizada
que aproxime lo mejor posible el punto proyectado.
Äy -ik = a iT Äx -ik (53)
Mínimos cuadrados ponderados (WLS): Este métodos

Como resultado plantea minimizar los errores de predicción de los
VI. SIMULACIONES Y RESULTADOS
del clustering se modelos locales individuales, resolviendo como un En esta sección son desarrollados 3 ejemplos para
obtienen conjunto de c independientes problemas (uno para verificar la robustez y exactitud en la generación de
funciones de cada cluster) de mínimos cuadrados ponderados. Lo modelos. Para la generación de antecedentes se
pertenencia anterior se obtiene a partir de la minimización del implementó la proyección ortogonal descrita en la
multivariable. siguiente criterio: sección V.B.. En cuanto a los parámetros de los con-
Vol. 8 No.1
No.1 91
Ingeniería
Comparando las secuentes fueron derivados a partir del método TLS TABLA 1. PARÁMETROS DEL CONSECUENTE OBTENIDOS
gráficas 2(a) y para los algoritmos GK y MLE. WLS fue CON CADA ALGORITMO.
2(b), se puede implementado para la modificación de MLE simpli- A1 B1 A2 B2
evidenciar mejor ficado. En el primer ejemplo de aplicación se tomó GK -3.3874 4.3068 0.6955 0.0925
el hecho que el una función compuesta de dos funciones lineales, MLE -3.9561 5.6393 0.6698 0.0683
descrita de la siguiente forma: MOD MLE -0.9507 -0.3026 -0.6642 0.6653
algoritmo GK
tiende a generar y1 = x1 x1 ∈ [0,1]
(57)
clusters de igual y 2 = − 3x 2 + 4 x 2 ∈ [1,2]
volumen.
Fue agregado ruido gaussiano con media 0 y des-
viación estándar de 0.2, N(0, σ2). Se tomaron 1000
muestras por cada submodelo, es decir 2000 mues-
tras en total. Los funciones de pertenencia obteni-
das para los antecedentes son mostrados en las figu-
ra 1. La función, los datos con ruido agregado y los
consecuentes obtenidos son mostrados en la figura
2 Además los parámetros encontrados para los con-
secuentes son tabulados en la tabla 1.
Se puede observar en la Fig.1(a) que la frontera (pun-

to en el cual el valor de la función de pertenencia es
0.5) originada por el algoritmo GK entre ambos
clusters esta alrededor de 1,2. Idealmente esta fronte-
ra se debería encontrar en 1, tal como lo sugiere la
ecuación (57). Este desplazamiento es debido a la pre-
sencia de ruido, sin embargo, es una buena aproxima-
ción. Los mejores resultados se obtuvieron cuando se Figura 2. Comparación entre los consecuentes originales
empleó el algoritmo MLE donde la frontera se en- (“—”) y los consecuentes obtenidas a partir cada algoritmo.
cuentra cercana a 1.1 lo cual significa que agrupó la (“—“)GK, (“——”)MLE, (“•••”) modificado
dispersión de manera más eficiente, tal como se ve en
la Fig. 1(b). El peor resultado es obtenido al utilizar la
modificación de MLE ya que la frontera se presenta Comparando las graficas 2(a) y 2(b), se puede evi-
de 0.75, además de esto las proyecciones que repre- denciar mejor el hecho que el algoritmo GK tiende
sentan las funciones de pertenencia son las más dis- a generar clusters de igual volumen, ya que los
persas como se observa en la Fig.1(c). parámetros del primer submodelo fueron bastante
próximos a los ideales, mientras que los del segundo
son apenas buenos. Los parámetros obtenidos con
el algoritmo MLE son bastantes buenos para ambos
clusters. Observando la grafica 2(c) se confirma el
hecho evidenciado en la Fig. 1(c), donde se observa
que la modificación del algoritmo MLE no identifi-
ca bien los submodelos lineales, ya que los conse-
cuentes hallados a través de esta modificación se en-
cuentran lejanos a los originales.
En el segundo ejemplo se toma una función com-
puesta idéntica a la del ejemplo 1, variando la des-
viación estándar a 0. Los funciones de pertenencia
obtenidas para los antecedentes y son mostrados en
las figura 3. La función, los datos con ruido agrega-
do y los consecuentes obtenidos son mostrados en
la figura 4 Además los parámetros encontrados para
los consecuentes son tabulados en la tabla 2.
TABLA 2. PARÁMETROS DE LOS CONSECUENTES

OBTENIDOS CON CADA ALGORITMO PARA EL EJEMPLO 2.
A1 B1 A2 B2
GK -3.3874 4.3068 0.6955 0.0925
Figura 1. Funciones de pertenencia obtenidas a partir de
(a)GK, (b)MLE, (c)MLE modificado, para el ejemplo de aplicación. 1. MLE -3.9561 5.6393 0.6698 0.0683
MOD MLE -0.9507 -0.3026 -0.6642 0.6653
92 Vol. 8 No.1
No.1
Ingeniería
Con el MLE no se derivan consecuentes aproxi-
mados a los reales para ninguno de los dos clusters,
su desempeño es pobre en comparación con el ob-
tenido en GK. Confirmando así los resultados obte-
nidos en las funciones de pertenencia. A partir de la
Fig. 4. (c) se puede observar que el MLE modificado
presenta un pésimo desempeño a la hora de obtener
consecuentes representativos de la dispersión de
datos. En el tercer ejemplo se tomó una función no
lineal descrita en la siguiente ecuación:
Y=1x10-4sin(0.001x2) x3 (58)
A dicha función le fue agregado ruido gaussiano
N(0, σ2) con media 0 y desviación estándar de 5. Se
tomaron 200 muestras en total. Los resultados obte-
nidos son mostrados en las graficas 5, 6 y 7.
En la figura 5 se puede observar que los 3

algoritmos pueden identificar bastante bien los
Figura 3. Funciones de pertenencia obtenidas a partir de (a)GK, (b)MLE, (c)MLE
modificado, para el ejemplo de aplicación.
subgrupos dentro de la dispersión de datos. En el
algoritmo GK se presenta conjuntos difusos con
De la Fig.3(a) y 3(b) se puede observar que los transiciones suaves mientras que las transiciones
puntos de frontera se colocan aproximadamente en obtenidas con los algoritmos MLE y MLE modifi-
1.3 para las funciones de pertenencia obtenidas a cados son bastante abruptas.
partir de los algoritmos GK y MLE. La diferencia En la Fig. 6 se muestran los submodelos lineales
radica que con GK se derivan conjuntos más difu- obtenidos a partir de cada algoritmo de clustering.
sos, mientras MLE tienden a generar conjuntos con- Nótese que el algoritmo GK no identifica muy bien
cretos (no difusos). El error en el punto de frontera los dos primeros cluster mientras MLE y su modifi-
de nuevo se debe al ruido que en este caso es mayor cación no identifican muy bien el segundo cluster.
que en el ejemplo 1. Los resultados obtenidos con la
modificación del MLE son pésimos. El algoritmo
identificó la partición como un solo cluster, ya que,
para uno de los conjuntos, el valor de la función de
pertenencia es uno en todo el rango de la variable de
entrada, mientras que en el otro conjunto cero, tal
como se ve en la Fig. 3.(c).
Al observar la Fig. 4 y la tabla 2 se puede concluir
que el algoritmo que mantiene un aceptable desem-
peño para derivar consecuentes es el algoritmo GK.
Al observar la Fig.
4 y la tabla 2 se
puede concluir
que el algoritmo
que mantiene un
aceptable
desempeño Figura 5. Funciones de pertenencia obtenidas por
para derivar Figura 4. Comparación entre los consecuentes originales proyección(".")y las curvas parametricas que las aproximan
consecuentes es (“—”) y los consecuentes obtenidas a partir cada algoritmo. ("-"), a partir de (a)GK, (b)MLE, (c)MLE modificado,
el algoritmo GK. (“—“)GK, (“——”)MLE, (“•••”) modificado, para el ejemplo 2 para el ejemplo 3.
Vol. 8 No.1
No.1 93
Ingeniería
El algoritmo que obtuvo el peor desempeño fue el
GK, confirmando el hecho analizado con la figura 6,
donde GK fue el algoritmo que no identifico apro-
piadamente dos de los submodelos lineales. En este
caso el que obtuvo un mejor desempeño fue el MLE
modificado, porque logro identificar submodelos li-
neales más cercanos al comportamiento real.
VII. CONCLUSIONES
Las técnicas de clustering son una excelente he-
rramienta para derivar modelos difusos tipo TSK
capaces de aproximar sistemas no lineales.
Observando los ejemplos 1 y 2 se puede concluir
que el algoritmo más robusto frente al ruido es GK.
Por el contrario el más sensible ante el ruido es MLE
Figura 6. Curva generada por la ecuación (58) (“—“), con ruido agregado (“+.”). modificado. Sin embargo en condiciones de poco
Submodelos lineales obtenidos a partir de cada algoritmo. ruido el algoritmo MLE modificado puede identifi-
(“—“)GK, (“——“)MLE, (“•••“)MLE modificado. car mejor submodelos lineales que sean más próxi-
mos al modelo general.
En la figura 7 se muestra la salida que produce Para trabajos futuros se puede pensar en aplicar
cada uno de los modelos. Para poder evaluar técnicas de clustering robusto a los algoritmos con
cuantitativamente el desempeño del modelo, fue apli- el fin de volverlos menos insensibles ante la presen-
cado el criterio RMSE, el cual es definido así: cia de ruido.
∑ (y − ŷ )
N
j j
2
(59) REFERENCIAS BIBLIOGRÁFICAS
j=1
RMSE = [1] L.X.Wang, A Course in Fuzzy Systems and Control. Prentice
N Hall, 1997.
[2] T. Takagi and M. Sugeno, "Fuzzy Identification of Systems and
TABLA 3. CONTIENE LOS RESULTADOS OBTENIDOS Its Applications to Modeling and Control", IEEE Trans.on
CON EL CRITERIO DE EVALUACIÓN RMSE Systems, Man and Cybernetics, vol. SMC-15, No.1, 1985
Algoritmo RMSE [3] D. E. Gustafson and W. C. Kessel, "Fuzzy Clustering with a Fuzzy
Covariance", Proc.IEEE CDC, pp 761-766, San Diego, CA, USA, 1979
GK 0.2983
[4] R. Babuska, Fuzzy Modeling for Control. Kluwer Academic
MLE 0.2741 Publishers, 1998.
MOD MLE 0.2543
[5] R. Babuska, "et al", "Improved Covariance Estimation for
Gustafson-Kessel Clustering", Proc. Of the 2002 IEEE International
Conference on Fuzzy Systems,vol. 2, pp. 1081-1085, 2002.
[5] I. Gath and A. B. Geva, "Unsupervised Optimal Fuzzy Clustering",
IEEE Trans. On Pattern Analisis and Machine Intelligence, vol.
11, No. 7, pp. 773-781, 1989.
[7] J. C. Bezdek and J. C. Dunn, "Optimal Fuzzy Partitions": A
Heuristic for Estimating the Parameters in a Mixture of Normal
Distributions", IEEE Trans.on Computers, pp. 835-838, 1975
[8] P. L. Meyer, Probabilidad y Aplicaciones Estadisticas, Addison
Wesley, 1992.
[9] J. Abonyi, "et al", "Modified Gath-Geva Fuzzy Clustering for
Identification of Takagi-Sugeno Fuzzy Models", IEEE Trans. on
Systems, Man and Cybernetic, Part B, October, 2002.
[10] J. Abonyi, "et al", "Identification of Nonlinear System Using
Gaussian Mixture of local Models", Hungarian Journal of Indus-
trial Chemestry, vol. 29, 134-139, 2001.
Diana Marcela González Chaparro

Miembro del Grupo de investigación: Laboratorio de Automática,
Microelectrónica e Inteligencia Computacional LAMIC.
Figura 7. Curva generada por la ecuación (58) (“—“) junto con el modelo
Takagi-Sugeno-Kang (TSK) obtenido ("-") a partir de los algoritmos Sergio Barato Quintero
(“—“)GK, (“——“)MLE, (“•••“)MLE modificado. Miembro del Grupo de investigación: Laboratorio de Automática,
Microelectrónica e Inteligencia Computacional LAMIC.
94 Vol. 8 No.1
No.1
Ingeniería

2858 5822 1 PB

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

2858 5822 1 PB

Hochgeladen von

Copyright:

Verfügbare Formate

ón

Diana Marcela RESUMEN II. IDENTIFICACION Y

ciones, es decir pueden aproximar con cierto mar-

lineales inciertos iterativos basados en la optimización de una función A i = ñi ñ i > ∀i (9)

densidad de N Sin embargo, es más sencillo obtener los

d ij 2 = ( z k - v i ) T A i ( z k - v i ) (13) Una función de densidad de probabilidad normal

Las iteraciones inician determinando el número

mediante (14). El proceso concluye cuando la dife- ∑P

∑ f (x k ; á ) en cada cluster[9]. Con este nuevo planteamiento

desviación cia del proceso es similar al utilizado en GK. Una de

estándar de cada las desventajas que presenta este algoritmo es que c

variables en parámetros de inicialización. c

derivar los vector z y es dividido en un vector de entrada x y

∑ x p(ç /xk i k , yk ) A. DERIVACIÓN DE CONSECUENTES

∑ p(ç /x i k , yk ) usados más comúnmente son: mínimos cuadrados

ö iT (z - v i ) = 0 (48) B. DERIVACIÓN DE ANTECEDENTES

Mínimos cuadrados ponderados (WLS): Este métodos

Se puede observar en la Fig.1(a) que la frontera (pun-

TABLA 2. PARÁMETROS DE LOS CONSECUENTES

En la figura 5 se puede observar que los 3

Diana Marcela González Chaparro

Das könnte Ihnen auch gefallen

2858 5822 1 PB

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

2858 5822 1 PB

Hochgeladen von

Copyright:

Verfügbare Formate

ón

Diana Marcela RESUMEN II. IDENTIFICACION Y

ciones, es decir pueden aproximar con cierto mar-

lineales inciertos iterativos basados en la optimización de una función A i = ñi ñ i >  ∀i (9)

densidad de N Sin embargo, es más sencillo obtener los

d ij 2 = ( z k - v i ) T A i ( z k - v i ) (13) Una función de densidad de probabilidad normal

Las iteraciones inician determinando el número

mediante (14). El proceso concluye cuando la dife- ∑P

∑ f (x k ; á ) en cada cluster[9]. Con este nuevo planteamiento

desviación cia del proceso es similar al utilizado en GK. Una de

estándar de cada las desventajas que presenta este algoritmo es que c

variables en parámetros de inicialización. c

derivar los vector z y es dividido en un vector de entrada x y

∑ x p(ç /xk i k , yk ) A. DERIVACIÓN DE CONSECUENTES

∑ p(ç /x i k , yk ) usados más comúnmente son: mínimos cuadrados

ö iT (z - v i ) = 0 (48) B. DERIVACIÓN DE ANTECEDENTES

Mínimos cuadrados ponderados (WLS): Este métodos

Se puede observar en la Fig.1(a) que la frontera (pun-

TABLA 2. PARÁMETROS DE LOS CONSECUENTES

En la figura 5 se puede observar que los 3

Diana Marcela González Chaparro

Das könnte Ihnen auch gefallen

lineales inciertos iterativos basados en la optimización de una función A i = ñi ñ i > ∀i (9)