Beruflich Dokumente
Kultur Dokumente
estigac
i
Academ
ia Modelamiento difuso
con técnicas de Clustering
Des
arrollo
Inv
Ciencia
86 Vol. 8 No.1
No.1
Ingeniería
Donde ∧ representa una T-norma[1][4]. La salida cia adaptiva con el fin de detectar clusters de dife-
del sistema TSK es obtenida combinando las reglas rentes formas geométricas y orientación, es decir,
de la siguiente forma: generan clusters hiperelipsoidales que pueden ser
c aproximados a hiperplanos. La desventaja de estos
∑ â (x)(a
i
T
i x + bi ) algoritmos es que al derivar los antecedentes (fun-
y= i =1
c
(4) ciones de pertenencia) que forman el modelo TSK,
∑ â (x) i
se producen errores por proyección o poca inter-
i =1 pretabilidad cuado se corrige este error. El tercer al-
Tomando la normalización del grado de cumpli- goritmo maneja clusters de forma hiperelipsoidal
mento como: pero paralelos a los ejes de las variables de entrada.
Debido a esto no se producen errores al derivar los
â i (x) antecedentes teniendo una alta interpretabilidad; la
ö i (x) = c (5) desventaja es que se pierde predictividad de modelo.
∑ â (x)
i =1
i
A. ALGORITMO GUSTAFSON-KESSEL
La ecuación (4) se puede rescribir como:
Este algoritmo se basa en la optimización de la
c
siguiente función objetivo [3][4][5]:
y = ∑ö
i =1
i (x)(a T
i x + bi) (6)
c N
La anterior expresión muestra que los modelos
TSK puede cumplir el papel de regresores de fun-
∑∑ (ì
i =1 k =1
m 2
ik d ij (7)
Vol. 8 No.1
No.1 87
Ingeniería
En la teoría de El proceso de minimización se realiza de forma B. ALGORITMO MAXIMUM LIKELIHOOD
probabilidad alternante, es decir, se minimiza una variable supo- ESTIMATION (MLE)
niendo las otras constantes y se iguala a cero. Como El concepto de likelihood está cercanamente rela-
clásica se intenta
resultado la minimización se obtiene las siguientes cionado con el de probabilidad [5][7][4]. En la teoría
predecir la expresiones, sobre las cuales se realiza el proceso
probabilidad de de probabilidad clásica se intenta predecir la probabi-
iterativo. lidad de que cierto dato o evento ocurra, de acuerdo a
que cierto dato o N
parámetros de una función de densidad de probabilidad (pdf)
evento ocurra, de ∑ (ì ik
(l−1) m
zk
dada. El objetivo de MLE es encontrar los valores de
acuerdo a vi = k =1
N
(10) los parámetros que maximicen el valor una pdf esta-
parámetros de ∑ (ì ik (l−1) m blecida a partir de los datos o eventos obtenidos.
una función de k =1
∑ (ì
k =1
ik
m
obtiene los parámetros es una combinación lineal o
suma de pdf s normales multivariables y cada una de
[
Ai = (ñ i det(Fi )1 n Fi −1 ] (12) estas representa un cluster.
88 Vol. 8 No.1
No.1
Ingeniería
AL aplicar MLE a esta función se buscan los C. VERSIÓN DE EJES PARALELOS SIMPLIFI
parámetros α que maximicen Ln (H(x;a)), bajo la CADA DEL MAXIMUM LIKELIHOOD
condición (18). Debido a esto se aplican ESTIMATION
multiplicadores de Lagrange para llegar a las siguien- Como ya se dijo el algoritmo MLE tiene como una
tes expresiones: de las variables a minimizar la matriz de covarianza.
N
Pi g (x k i; è i )
Esto produce clusters rotados de forma hiperelipsoidal,
∑
Pi = (20) de acuerdo a la orientación de cada subgrupo.
N f (x k ; á )
k =1
En la versión de ejes paralelos simplificada la ma-
Pi g (x k i; è i )
N
∑
k =1
f (x k ; á )
xk
(21)
triz de covarianza se toma como una matriz diago-
nal[9][10]. Cada uno de los elementos de la matriz es
ìi =
Pi g (x k i; è i ) la desviación estándar de cada una de las variables
N
∑ f (x k ; á )
x k − ì i x k − ì i T
s -( x r -ì i r ) 2
g (x i, èi ) =
k =1 (22)
Vi =
∏
1
(28)
Pi g (x k i; è i )
N e 2ó 2 i r
∑ 2ð ó 2
r =1
f (x k ; á )
ir
k =1
donde x es el vector que representa un dato tomado, s
la dimensión de cada dato, xr representa la r-ésima
Ahora aplicando la regla de Bayes [8] se obtiene: componente del vector x, µi r es r-ésima componente
del centro del i-ésimo cluster µi y σ2i r representa la
(
Pi g x k i; èi )= Pi g x k i; èi ( ) desviación estándar de la r-ésima variable en el i-ésimo
f (x k ; á ) k (24) cluster. Siguiendo un procedimiento similar al descri-
∑ P g(x
i =1
i k i; èi )
to para obtener el algoritmo del MLE se llega a:
N
= p i; èi x k( ) ∑ p(i; è x )x i k k
ìi = k =1
N
(29)
Entonces se puede rescribir de la siguiente forma ∑ p(i; è x )
k =1
i k
el algoritmo:
N
∑ p(i; è x )( x
N
∑ p(i; è x )x i k k
σ 2
= k =1
i k rk − ì i r )( x k r − ì i r )T
(30)
ìi = k =1 (25) ij
N
N
∑ p(i; è x ) i k
∑(
k =1
p i; è i x k )
k =1
N
∑ p(i; è x )(x
N
∑ p(i; è x )
i k k − ì i )( x k − ì i ) T Pi = i k (31)
N
Vi = k =1 (26) k =1
N
∑ p(i; è x )
( x r -ì i r ) 2
s
2ð ó 2i r
k =1
i k d ij =
2
∏ r =1
Pi
e 2ó 2 i j (31)
∑ p(i; è x ) ( )
1 (21) 1
Pi = p i; èi x k = (33)
En la versión de N
i k
c
∑ (d
k =1
ejes paralelos
2
ik d jk )
simplificada la (2ð )
s 1
( x -ì i ) Vi ( x -ì i )
T -1 j=1
2 Vi 2 (27)
matriz de d ij =
2
e 2
Pi Debido a que la matriz es diagonal, solo se obten-
covarianza se
drán clusters de forma elipsoidal pero paralelos a cada
toma como una Al igual que en GK, (27) describe la ecuación de uno de los ejes del espacio muestreal. Obsérvese que
matriz diagonal. elipses rotadas que determina la geometría del clus- teniendo en cuenta la ecuación (28), la funciona ob-
Cada uno de los ter. Sin embargo, este algoritmo no tiene restriccio- jetivo de la ecuación (17) se puede rescribir como:
elementos de la nes en cuanto al volumen de cada cluster. El proce-
matriz es la so de actualización de los parámetros y convergen- c
cada cluster.
= ∑ p(y/x, ç )p(x/ç )p(ç )
i =1
i i i
Vol. 8 No.1
No.1 89
Ingeniería
El problema de En este caso cada dato es representado por un
∑ (x - v )(x - v ) p(ç /x , y
N
∑ (y - (a x + b ))(y - (a x + b )) p(ç /x y )
n
de la función
∏
1 (35) T
p(x k /çi ) =
2
e 2ó ir i i i i i k, k
lineal en los r =1 2ð ó 2i r ói = k =1
N
consecuentes y
las funciones de donde n es la dimensión de entrada y p(y/x, çi ) se le ∑ p(ç /x y )
k =1
i k k
(45)
pertenencia en denomina distribución de salida y es de la forma:
los antecedentes. -( y -ì y ) 2 è i = (X Te Ö i X e ) −1 X Te Ö i y
p(y/x, çi ) = (36)
1 2ó 2
iy
e
2πσ i2y Xe denota una matriz de regresión extendida, la
cual se forma de la siguiente manera: primero que
D. MODIFICACIÓN DE LA VERSIÓN todo se forma una matriz llamada X, donde a cada
SIMPLIFICADA DEL MLE fila le corresponde el valor de las componentes de
Esta modificación se basa en interpretación dada entrada de cada uno de los datos. Después se adicio-
por las ecuaciones (34), (35) y (36) a la versión sim- na una columna de unos obteniendo Xe, es decir
plificada del MLE y busca mejorar la interpretación Xe=[X 1] y Φ i denota una matriz diagonal que con-
a la hora de derivar modelos TSK. Esta variación tiene las funciones de pertenencia de cada dato al i-
plantea una distribución de entrada de la forma de la ésimo cluster.
ecuación (35), y una distribución de salida en la que
a la vez se evalúa un modelo lineal de la salida como
p(çi x1, y1 ) 0 L 0
función de las variables de entrada [9][10].
Φ=
0 p(çi 2 , y2 )
x L 0
(46)
En esta técnica las distribuciones de entrada y sa- M M M M
lida están determinadas por:
0 0 L p(çi x N , yN )
n -( x r -ì i r ) 2
∏
1
p(x k /çi ) = e 2ó 2 i r (37)
n ( xr -ìi r )2 −
(y−x è ) (y−x è ) (47)
T
i
T T
i
2ð ó 2ðσ 2i r
∏
2
r =1 2ói2
ir
dij = e 2ó2i r
2ðσi2 e
r =1
p(çi )
−
(y−x è ) (y−x è )
T
i
T T
i
1 2ó i2 (38)
p(y/x,çi ) = e
El proceso de actualización de los parámetros y con-
2ðði2
vergencia del algoritmo es similar a GK y se utiliza
Donde θi indica los parámetros del i-ésimo mode- (40) para la reconstrucción de U. Al igual que MLE
lo lineal de salida. También se presenta la siguiente este algoritmo presenta problemas de inicialización.
restricción:
c
V. DERIVACIÓN DE MODELOS TSK
∑ p(ç ) = 1
i =1
i (39)
A PARTIR DE LOS PARAMETROS
OBTENIDOS EN LOS METODOS
Siendo p(çi ) la probabilidad a priori de cada clus-
ter. Utilizando un proceso similar al desarrollado para
DE CLUSTERING
obtener el algoritmo MLE se llega a las siguientes El problema de derivar los modelos TSK se redu-
expresiones que genera el proceso iterativo. ce a hallar los parámetros de la función lineal en los
consecuentes y las funciones de pertenencia en los
p(çi x k , y k ) = antecedentes. Se debe tener en cuenta que el méto-
1
c
(40) do modificado de la versión simplificada del MLE
∑ (d
j=1
ik d jk ) 2
brinda ya todos los parámetros de los consecuentes.
N
Por tanto solo se describirán métodos para derivar
p(çi ) = ∑ p(ç /x, y) (41) consecuentes a partir de las particiones y parámetros
1
i
N k =1 obtenidos en los métodos de clustering GK y MLE
N
90 Vol. 8 No.1
No.1
Ingeniería
Mínimos cuadrados totales (TLS): Como resultado de (y − X e è i ) T Ö i (y − X e è i ) (54)
las técnicas de clustering se obtienen clusters de for-
ma hiperelipsoidal que pretenden aproximar donde Xe es la misma matriz que se describió en la
hiperplanos, por tanto el eje más pequeño del sección IV. Como resultado se obtiene la ecuación
hiperelipse debe tender a ser perpendicular al (45), es decir:
hiperplano que se quiere aproximar. Las direcciones
y las magnitudes de los ejes de los hiperelipses están [
è i = a iT , b i ] (55)
determinadas por los autovectores y los autovalores Es conveniente utilizar TLS en lugar de WLS, en
de cada matriz de covarianza respectivamente. El datos donde se considere que existe ruido, ya que
autovalor más pequeño indica cual de los ejes del TLS brinda de cierta forma robustez frente al ruido.
hiperelipse es más pequeño y por tanto indica que el También es importante resaltar que en la modifica-
correspondiente autovector es perpendicular al ción a la versión simplificada de MLE en cada itera-
hiperplano. Basándose en esta idea y teniendo en ción del algoritmo se esta usando WLS, por tanto el
cuenta que el hiperplano debe pasar por cierto pun- propio algoritmo brinda los consecuentes sin nece-
to con determinadas coordenadas llamado centro se sidad de procedimientos extra.
construye la ecuación de un hiperplano:
Vol. 8 No.1
No.1 91
Ingeniería
Comparando las secuentes fueron derivados a partir del método TLS TABLA 1. PARÁMETROS DEL CONSECUENTE OBTENIDOS
gráficas 2(a) y para los algoritmos GK y MLE. WLS fue CON CADA ALGORITMO.
2(b), se puede implementado para la modificación de MLE simpli- A1 B1 A2 B2
evidenciar mejor ficado. En el primer ejemplo de aplicación se tomó GK -3.3874 4.3068 0.6955 0.0925
el hecho que el una función compuesta de dos funciones lineales, MLE -3.9561 5.6393 0.6698 0.0683
descrita de la siguiente forma: MOD MLE -0.9507 -0.3026 -0.6642 0.6653
algoritmo GK
tiende a generar y1 = x1 x1 ∈ [0,1]
(57)
clusters de igual y 2 = − 3x 2 + 4 x 2 ∈ [1,2]
volumen.
Fue agregado ruido gaussiano con media 0 y des-
viación estándar de 0.2, N(0, σ2). Se tomaron 1000
muestras por cada submodelo, es decir 2000 mues-
tras en total. Los funciones de pertenencia obteni-
das para los antecedentes son mostrados en las figu-
ra 1. La función, los datos con ruido agregado y los
consecuentes obtenidos son mostrados en la figura
2 Además los parámetros encontrados para los con-
secuentes son tabulados en la tabla 1.
92 Vol. 8 No.1
No.1
Ingeniería
Con el MLE no se derivan consecuentes aproxi-
mados a los reales para ninguno de los dos clusters,
su desempeño es pobre en comparación con el ob-
tenido en GK. Confirmando así los resultados obte-
nidos en las funciones de pertenencia. A partir de la
Fig. 4. (c) se puede observar que el MLE modificado
presenta un pésimo desempeño a la hora de obtener
consecuentes representativos de la dispersión de
datos. En el tercer ejemplo se tomó una función no
lineal descrita en la siguiente ecuación:
Y=1x10-4sin(0.001x2) x3 (58)
A dicha función le fue agregado ruido gaussiano
N(0, σ2) con media 0 y desviación estándar de 5. Se
tomaron 200 muestras en total. Los resultados obte-
nidos son mostrados en las graficas 5, 6 y 7.
Al observar la Fig.
4 y la tabla 2 se
puede concluir
que el algoritmo
que mantiene un
aceptable
desempeño Figura 5. Funciones de pertenencia obtenidas por
para derivar Figura 4. Comparación entre los consecuentes originales proyección(".")y las curvas parametricas que las aproximan
consecuentes es (“—”) y los consecuentes obtenidas a partir cada algoritmo. ("-"), a partir de (a)GK, (b)MLE, (c)MLE modificado,
el algoritmo GK. (“—“)GK, (“——”)MLE, (“•••”) modificado, para el ejemplo 2 para el ejemplo 3.
Vol. 8 No.1
No.1 93
Ingeniería
El algoritmo que obtuvo el peor desempeño fue el
GK, confirmando el hecho analizado con la figura 6,
donde GK fue el algoritmo que no identifico apro-
piadamente dos de los submodelos lineales. En este
caso el que obtuvo un mejor desempeño fue el MLE
modificado, porque logro identificar submodelos li-
neales más cercanos al comportamiento real.
VII. CONCLUSIONES
Las técnicas de clustering son una excelente he-
rramienta para derivar modelos difusos tipo TSK
capaces de aproximar sistemas no lineales.
Observando los ejemplos 1 y 2 se puede concluir
que el algoritmo más robusto frente al ruido es GK.
Por el contrario el más sensible ante el ruido es MLE
Figura 6. Curva generada por la ecuación (58) (“—“), con ruido agregado (“+.”). modificado. Sin embargo en condiciones de poco
Submodelos lineales obtenidos a partir de cada algoritmo. ruido el algoritmo MLE modificado puede identifi-
(“—“)GK, (“——“)MLE, (“•••“)MLE modificado. car mejor submodelos lineales que sean más próxi-
mos al modelo general.
En la figura 7 se muestra la salida que produce Para trabajos futuros se puede pensar en aplicar
cada uno de los modelos. Para poder evaluar técnicas de clustering robusto a los algoritmos con
cuantitativamente el desempeño del modelo, fue apli- el fin de volverlos menos insensibles ante la presen-
cado el criterio RMSE, el cual es definido así: cia de ruido.
∑ (y − ŷ )
N
j j
2
(59) REFERENCIAS BIBLIOGRÁFICAS
j=1
RMSE = [1] L.X.Wang, A Course in Fuzzy Systems and Control. Prentice
N Hall, 1997.
[2] T. Takagi and M. Sugeno, "Fuzzy Identification of Systems and
TABLA 3. CONTIENE LOS RESULTADOS OBTENIDOS Its Applications to Modeling and Control", IEEE Trans.on
CON EL CRITERIO DE EVALUACIÓN RMSE Systems, Man and Cybernetics, vol. SMC-15, No.1, 1985
Algoritmo RMSE [3] D. E. Gustafson and W. C. Kessel, "Fuzzy Clustering with a Fuzzy
Covariance", Proc.IEEE CDC, pp 761-766, San Diego, CA, USA, 1979
GK 0.2983
[4] R. Babuska, Fuzzy Modeling for Control. Kluwer Academic
MLE 0.2741 Publishers, 1998.
MOD MLE 0.2543
[5] R. Babuska, "et al", "Improved Covariance Estimation for
Gustafson-Kessel Clustering", Proc. Of the 2002 IEEE International
Conference on Fuzzy Systems,vol. 2, pp. 1081-1085, 2002.
[5] I. Gath and A. B. Geva, "Unsupervised Optimal Fuzzy Clustering",
IEEE Trans. On Pattern Analisis and Machine Intelligence, vol.
11, No. 7, pp. 773-781, 1989.
[7] J. C. Bezdek and J. C. Dunn, "Optimal Fuzzy Partitions": A
Heuristic for Estimating the Parameters in a Mixture of Normal
Distributions", IEEE Trans.on Computers, pp. 835-838, 1975
[8] P. L. Meyer, Probabilidad y Aplicaciones Estadisticas, Addison
Wesley, 1992.
[9] J. Abonyi, "et al", "Modified Gath-Geva Fuzzy Clustering for
Identification of Takagi-Sugeno Fuzzy Models", IEEE Trans. on
Systems, Man and Cybernetic, Part B, October, 2002.
[10] J. Abonyi, "et al", "Identification of Nonlinear System Using
Gaussian Mixture of local Models", Hungarian Journal of Indus-
trial Chemestry, vol. 29, 134-139, 2001.
94 Vol. 8 No.1
No.1
Ingeniería