Sie sind auf Seite 1von 7

Ezient Klassizieren und Clustern:

Lernparadigmen von Vektorquantisierern

Barbara Hammer, Thomas Villmann

Der vorliegende Beitrag gibt einen Überblick über Lernparadigm en bei neuronalen prototypbasi erten Vektorquantisierern Clustern bzw. zur Klassi kation von Daten. Prototypbasierte Modelle protieren von ihrer leichten und intuitiven Interpre- tierbarkeit. Dabei gehen wir auf verschieden Lernparadigmen ein, wie z.B. informationsoptimale Modelle, Fuzzyklassikation, Relevanzlernen und Nichtstandardmetriken oder rekursive Modell e. Damit wird die Vielfältigkeit der Anwendbarkeit neuronaler Vektorquantisierer unter einem einheitlichen Framework demonstriert. Sie erönen ein breites Spektrum der Anwendungsmög- lichkeiten und sind daher insbesondere bei der sensorischen Inf ormationsauswertung in der Robotik von zentraler Bedeutung.

1 Neuronale Vektorquantisierung

Klassi zierungs- und Clusteralgorithmen sind wesentliche Me- thoden bei der Mustererkennung, die in vielen Problemstellun- gen Anwendung nden. Beispiele sind Sprach- und Bilderken- nung, Zeitreihen- und Signalanalyse sowie Datenvisualisierung oder die Auswertung komplexer, heterogener Sensorsignale in der Robotik. Prototypenbasierte Vektorquantisierungsmethoden haben sich dabei als robuste adaptive Modelle etabliert. Sie n- den ihren Einsatz sowohl bei der unüberwachten (Clustern) als auch bei der überwachten Adaptation (Klassikationsprobleme). Adaptation wird hier als maschinelles Lernen aufgefasst. Beiden Varianten gemein ist, dass eine Menge W = {w r } r A von Pro- totypen w r D zur Repräsentation der Daten v V D verwendet wird. Oft ist der Datenraum D = R D V , jedoch sind auch komplexere Datenstrukturen möglich. Die Menge A ist ei- ne Indexmenge und D sei mit einem (gegebenenfalls di eren- zierbaren) Ähnlichkeitsmaß d versehen, im einfachsten Fall der euklidische Abstand. Vektorquantisierung ist dann die Abbildung

Ψ VA : v 7s (v ) = argmin ϕ (d (v , w r )) (1)

r A

mit einer Modulationsfunktion ϕ. Ψ VA stellt eine winner- takes-all-Regel dar. Die Menge R r = {v |Ψ VA (v ) = r} wird rezeptives Feld des Prototypen w r genannt. Bei Klassi kationsproblemen sind die Daten zusätzlich mit Klassenlabel x (v ) versehen. Analog wird jedem Prototypen ein Label y r Y zugeordnet. Die prototypenbasierte Klassi kation wird dann de niert durch die Abbildung

(2)

Die Adaptation (das Lernen) der Prototypen erfolgt entwe- der gemäß einer zu minimierenden Kostenfunktion als (stochasti- scher) Gradientenabstieg oder nach Heuristiken. Dabei kommen verschiedene Lernparadigmen zum Einsatz. In dem vorliegenden Artikel stellen wir verschiedene solcher Paradigmen vor. Dabei konzentrieren wir uns auf sogenannte neuronale Vektorquantisierer . Sie haben ihren Ursprung in biolo- gischen Korrelaten neuronaler Repräsentationen im Gehirn. We- sentlicher Aspekt ist dabei die Nachbarschaftskooperation beim Lernen, d.h. die Kooperativität der Prototypen untereinander beim Adaptationsprozess. Dies führt zu einer deutlichen Kon- vergenzverbesserung und erhöhten Robustheit der Modelle.

Ψ VY : v 7y s(v ) .

ˆ

Die betrachteten Paradigmen der Prototypenadaptation sind

datenangepasste Adaptationsdynamiken

informationsgetriebene Vektorquantisierung

Fuzzy-Methoden der Klassi kation

Relevanzlernen und Metrikadaptation

rekursive Modelle

Gegenüber den grundlegenden Modellen erweitern diese Pa- radigmen den Einsatz von neuronalen Vektorquantisierern auf komplexe Anwendungssituationen, in denen Daten in unter- schiedlichster Form vorliegen und verschiedenen Anforderungen in adäquater Weise Rechnung getragen werden muss: dieses um- fasst Methoden zum schnellen Lernen bei vollständig gegebener Information (batch Varianten) ebenso wie Methoden zur Fokus- sierung auf relevante Datenbereiche bei sehr großen Datenmen- gen (aktives Lernen) oder heterogener zugrundeliegender Infor- mation (aufmerksamkeitsgesteuertes Lernen); die insbesondere bei hochdimensionalen Daten oder heterogenen Situationen es- sentielle Integration von Zusat zinformationen durch Metrikad- aptation (Relevanzlernen) oder explizite Klassizierung (Fuzzy- Methoden), ebenso wie den Umgang mit nichtvektoriellen Daten

und Zeitreihen (Median-Versionen, rekursive Modelle).

2 Grundlegende Modelle

Unüberwachte Vektorquantisierung: Wir stellen zunächst zwei weit verbreitete neuronale Vektorquantisierer vor: die von Kohonen eingeführten selbstorganisierenden neurona- len Merkmalskarten (self-organizing maps — SOMs) und das neuronale Gas-Modell von Martinetz (neural gas — NG) [Kohonen, 1995],[Martinetz et al. , 1993]. SOMs und NG ha- ben sich erfolgreich beim Einsatz in der Robotik bewährt. Sie nden ihre Anwendung z.B. in der Trajektorienana- lyse, bei der Steuerung oder der sensorischen Wahrneh- mung [Jun and Duckett, 2002], [Padoan-Junior et al. , 2003], [Ritter et al., 1992], [Villmann and Heinze, 2000]. Für SOMs wird in der Indexmenge A eine topologische Struktur eingeführt, meist als Rechteckgitter der Dimension D A

D A )

oder als Hexagonalgitter. Dann wird der Index r = (r 1 , ,r

als Ortskoordinate aufgefasst. Durch die Nachbarschaftsfunktion

h

SOM

r

r 0 = exp d A r, r 0 /2σ 2

(3)

wird in A eine Nachbarschaftskooperation zwischen Prototypen w r und w r 0 de niert mit d A als quadratischem Abstand im Git- ter A und σ als Reichweite der Nachbarschaft. In der Standard- Variante nach Kohonen gilt in (1) ϕ id. SOMs minimieren (in der Variante nach Heskes, [Heskes, 1999])

E SOM = χ(R r ) P (v ) h

r 0 A

SOM

r

r 0 d (v , w r 0 ) dv

(4)

als Kostenfunktion, wobei χ (R r ) die Indikatorfunktion ist und ϕ abweichend von der Original-SOM durch

ϕ σ (d (v , w r )) = h

r 0 A

SOM

r

r 0 d (v , w r 0 )

(5)

de niert wird. P (v ) ist die Dichte der Daten. Die Adaptations- regel der Prototypen ergibt sich als stochastischer Gradienten-

abstieg gemäß E SOM

. Für kleine Nachbarschaftsreichweiten σ

ergibt sich eine gute Approximation der ursprünglichen (heuristi- schen) Gewinnerregel, bei der ϕ id in (1) gilt. Für die Original- SOM lässt sich keine Energiefunktion nden [Ritter et al. , 1992]. Im Gegensatz zu SOMs wird für das NG-Modell die Nach- barschaftskooperativität über den Rangplatz rk bei der Gewin- nerbestimmung (1) mit ϕ id de niert:

w r

h

NG

r

(v ) = exp rk (r, v ) /2σ 2

(6)

mit rk (r, v )=# {w r 0 |d (v , w r 0 ) <d (v , w r )} mit

E NG =

1

2C (σ )

r

χ (R r ) P (v ) h d (v , w r ) dv (7)

NG

r

als entsprechender Kostenfunktion mit einer Konstanten C (σ )

[Martinetz et al. , 1993]. Der stochastische Gradientenabstieg

für die Prototypenadaptation ist analog über E NG

w r gegeben.

Für beide Algorithmen erhält man daraus strukturell ähnli- che Adaptationsregeln. Im Fall der quadratischen euklidischen Metrik ergibt sich mit einer Lernschrittweite 0 < ¿ 1

4w r = h r (v w r )

(8)

)

für den NG. Für σ 0 gehen beide Algorithmen in den bekann- ten LBG-Algorithmus über [Linde et al., 1980]. Unter bestimmten Bedingungen generiert eine SOM eine topologieerhaltende (nachbarschaftserhaltende) Abbildung des Datenraumes auf das Gitter, siehe [Villmann et al. , 1997]. Ge- gebenenfalls kann die Gitterstruktur durch wachsende Modelle angepasst werden [Villmann et al. , 1997]. Neben diesen beiden Modellen gibt es eine große Palette weiterer prototypenbasierter Ansätze. Stellver- tretend seien hier das Generative Topographic Mapping (GTM) oder Gaussian Mixture Modells (GMM) genannt [Bishop et al. , 1998],[Verbeek et al., 2005], auf die hier aber nicht näher eingegangen wird. Überwachte Modelle: Die bekanntesten Vertreter der pro- totypbasierten Klassi kationsalgorithmen sind die LVQ-Modelle ( Learning V ector Quantization) nach [Kohonen, 1995]. Die La- bel x (v ) und y r der Daten und Prototypen sind crisp. Die Klas- sikation von v erfolgt gemäß (2) mit ϕ id in (1). Die Adaptationsregel basiert im Wesentlichen auf dem At- traktionsverhalten des bezüglich der Metrik d (v , w r ) nächsten

und h r = h

SOM

r

(s (v )) im Fall der SOMs bzw. h r = h

NG

r

(v

korrekt klassi zierender Prototypen w r + , d.h. y r + = x, mit Abstand d r + und dem abstoßendem Verhalten für den best ap- proximierenden Prototypen w r (Abstand d r ) mit inkorrekter Klassi kation. Die Adaptationsregeln der LVQ-Varianten sind heuristisch motiviert. Sie basieren nicht auf einer Kostenfunk- tion und minimieren daher nicht den Klassi kationsfehler. Au-

ßerdem zeigen sie häu g instabiles Verhalten, insbesondere bei

überlappenden Klassen. Deshalb haben Sato & Yamada ei- ne Verallgemeinerung vorgeschlagen, so dass die resultierende Adaptationsregel einen stochastischen Gradienten auf einer, den Klassi kationsfehler approximierenden Kostenfunktion darstellt - Generalized LVQ (GLVQ) [Sato and Yamada, 1996]. Sowohl

LVQ als auch GLVQ sind sensitiv bezüglich der Initialisierung. Um dieses Manko zu umgehen, kann das Prinzip der Nach- barschaftskooperation vom NG in den GLVQ involviert werden [Hammer et al. , 2005c]. Man erhält den SNG ( Supervised NG ):

Mit W c werde die Teilmenge der Prototypen w r bezeichnet, für die y r = c gilt. K c = # {W c } bezeichne die Kardinalität. O ensichtlich ist w r + W c . Weiter sei h | c (v ) die Nach- barschaftsfunktion des NG eingeschränkt auf W c . Die entspre- chende Kostenfunktion ist

NG

r

E SNG =

w r W x(v )

h

NG

r

| x(v ) (v ) · μ (r, v ) 2C (σ,K x(v ) )

dv

(9)

mit C (σ,K x(v ) )

als einer Normierungskonstanten und

μ (r, v ) = d (v , w r ) d r

d (v , w r ) + d r

(10)

als Klassi katorfunktion . Es gilt μ (r , v ) < 0 für den Prototy- pen w r , falls korrekt klassi ziert wird. Die Gradienten E SNG

für w r W x(v ) und E SNG

ergeben die Adaptationsregeln

für den SNG. Für verschwindende Nachbarschaftskooperativität,

d.h. für σ 0 in h

w r

w r

NG

r

| x(v ) erhält man den GLVQ.

3 Strategien der Lerndynamik

Die in (8) angegebene Lernrege l bzw. das entsprechende Pen- dant bei überwachten Modellen wird als online-Lernen bezeich- net. Dieses ist biologisch plausibel und es kann in online Szena- rien wie etwa der Robotik angewandt werden, da sich die neuro- nalen Verbindunsstärken entsprechend jedem gegebenen Stimu- lus anpassen. In der Praxis ist man oft mit a priori gegebenen und gegebenenfalls umfangreichen Datenmengen konfrontiert, so dass sich die alternativen Lerndynamiken des aktiven bzw. batch-Lernen eignen. Aktives Lernen wurde bereits in der Arbeit [Hasenjäger and Ritter, 1998] für prototypen-basierte Mo- delle eingeführt. Es basiert auf der Feststellung, dass sich der Informationsgehalt von Stimuli bezogen auf das bereits trainierte Modell stark unterscheidet und nur solche Stimuli sinnvollerweise zum Training verwandt werden sollten, deren In- formation zur Güte des trainierten Modells signikant beiträgt. Dieses beschleunigt das Training, da weniger Adaptationen nötig sind und durch Auswahl der Trainingsmuster das Modell gezielt in eine vielversprechende Richtung gedrängt werden kann. Die aktive Auswahl der Trainingsmuster beruht bei unüberwachten Modellen dabei zumeist auf geometrischen

Überlegungen, indem Stimuli in der Nähe noch nicht hinreichend abgedeckter Bereiche bzw. Grenzen von rezeptiven Feldern bevorzugt werden. Für den überwachten Fall wurde kürzlich eine Strategie vorgeschlagen, die explizit die zu erwartende Güte des Klassi kators berücksichtigt: der sogenannte Hypothesis-margin des Klassikators, der die Generalisierungsfähigkeit des Modells direkt steuert, kann geometrisch ausgedrückt und durch eine aktive Auswahl der Trainingsmuster gezielt optimiert werden [Hammer et al. , 2005a, Schleif et al. , 2006]. Im Gegensatz zum online und aktiven Lernen beruht das batch-Lernen auf dem Prinzip, die in den Trainingsmustern gegebene Information möglichst vollständig in jedem Adapta- tionsschritt in die Prototypen zu integrieren, um so weniger einzelne Adaptationsschritte zu benötigen. Mathematisch be- trachtet können batch Varianten elegant aus der Kostenfunk- tion eines Modells hergeleitet werden, wie etwa für SOM in der Formulierung von Heskes und NG demonstriert wurde [Cottrell et al. , 2006 accepted]. Fasst man die Zuordnungen der Stimuli zum Gewinnerneuron für SOM bzw. den Rang für NG als verborgene Variablen auf, dann kann die Kostenfunktion des Modells direkt analytisch bezogen auf die verborgenen Varia- blen bzw. die gesuchten Prototypen wechselseitig in einem EM- ähnlichen Schema optimiert werden:

1. bestimme s (v ) für alle v V gemäß (1) mit ϕ aus (5)

für SOMs bzw. er-

und Nachbarschaftsfunktion h

r

SOM

mittle rk (r, v ) für alle v V für NG.

2. adaptiere

w r = v h

v h

SOM

r

(s (v )) ·v

SOM

r

(s (v ))

bzw. w r = v h

v h

NG

r

(v ) ·v

NG

r

(v

)

für SOMs bzw. mit h

NG

r

aus (6) für NG.

(11)

Neben einer in der Regel wesentlich schnelleren Konver- genz dieses Verfahrens verglichen mit online-Adaptation ergibt sich der Vorteil, dass eine Optimierung der Prototypen prinzi- piell in einem beliebigen durch das jeweilige Distanzmaß be- stimmten Raum geschehen kann. Dieses erö net eine Schnitt- stelle zu allgemeinen Daten, die nicht in einem reellen Vektor- raum eingebettet, sondern lediglich vermöge paarweiser Distan- zen gegeben sind, wie etwa symbolische Daten, Daten aus der Psychologie oder biologische Sequenzen. Sogenannte Median- Varianten der Batch-Optimierung können in diesen Situa- tionen direkt verwandt werden [Cottrell et al., 2006 accepted, Kohonen and Somervuo, 2002].

4 Informationsoptimale Modelle

Wir bezeichnen die Prototypendichte mit ρ und betrachten die Au ösung (magni cation) eines Vektorquantisierers:

ρ (w r ) P (w r ) α

(12)

Der Exponent α ( Magnication Factor ) ist mit dem verallge- meinerten Beschreibungsfehler

ˆ

E γ =

r

χ (R r ) kw r v k γ P (v ) dv

(13)

d+γ gekoppelt [Zador, 1982]. Dabei ist d die in-

über α =

trinsische Datendimension. Für informationsoptimale Vektor-

d

quantisierer mit maximaler Entropie der Gewinnwahrschein-

lichkeiten p r der Prototypen gilt α = 1. Für die origina-

le SOM gilt im eindimensionalen Fall α SOM =

[Dersch and Tavan, 1995]. R (σ ) ist das zweite normalisierte

. Für das NG ndet man im Fall der euklidi-

schen Metrik α NG =

dulation der Basis-Adaptationsregel (8) lässt sich jedoch der Ex- ponent α steuern und so eine informationsoptimale Vektorquan- tisierung erzwingen. Einen umfassenden Überblick ndet man in [Villmann and Claussen, 2006],[v an Hulle, 2000]. Hier soll expli- zit das aufmerksamkeitsgesteuerte Lernen erwähnt werden: in der Lernregel (8) wird eine prototypspezi sche lokale Lernrate

(14)

d+2 [Martinetz et al. , 1993]. Durch Mo-

Moment für h

1+12R(σ )

3+18R(σ )

SOM

r

d

r = · P (w r ) m

in den online-Varianten von SOM und NG verwendet. Der

resultierende Exponent α 0 ist für beide Modelle α 0 = α · (m + 1) [Bauer et al., 1996],[Villmann, 2000]. Für die batch-

Varianten werden die Nachbarschaftsfunktionen h

(s (v ))

bzw. h

Als Kostenfunktion im informationstheoreti- schen Sinn können auch die Transinformation zwi- schen ρ und P oder die Kullback-Leibler-Divergenz dienen [Deco and Obradovic, 1997], [Kapur, 1994], [Lehn-Schiøler et al. , 2005], [Principe et al. , 2000],

[Torkkola, 2003]. Die Verwendung der Transinformation beruht auf zusätzlichen notwendigen Annahmen, die zu In- stabilitäten der Algorithmen führen können, insbesondere bei Mehrklassen-Problemen [Villmann et al. , 2006c].

In [Lehn-Schiøler et al. , 2005] wurde durch die Arbeitsgrup-

pe um J. Principe die direkte Verwendung der Kullback- Leibler-Divergenz unter Verwendung der Shannon-Entropie als

zu minimierendes Kostenfunktional in der unüberwachten Vek- torquantisierung vorgestellt:

SOM

r

NG

r

(v ) in (11) jeweils mit P (w r ) m multipliziert.

KL (ρ, P ) = ρ (v ) log

) dv

ρ

(v )

P

(v

(15)

Unter Verwendung eines Parzen-Schätzers mit Gauss-Kern

2σ 2

G (v , w ) = const. · exp d (v , w )

(16)

und M Prototypen w i bei N Datenpunkten v j kann die Diver- genz durch

KL (ρ, P ) 1

M

M

i=1

log

N

M

j

=1 G (w i , w j )

M

N

j

=1 G (w i , v j )

(17)

ergibt die entspre-

approximiert werden. Der Gradient KL(ρ,P )

chende Prototypenadaptation. Anstatt der Shannon-Entropie kann für die Diver- genz (15) auch die Rényi-Entropie verwendet werden [Renyi, 1961],[Lehn-Schiøler et al., 2005]. Dann ergibt sich für die Divergenz unter Verwendung der Cauchy-Schwarz- Ungleichung für die quadratische Rényi-Entropie

w k

KL R (ρ, P ) = log ρ 2 (v ) dv

bzw. die Approximation

2 log ρ (v ) P (v ) dv (18)

KL R (ρ, P ) log

N

M

i,j =1 G w i , w j , 2σ

M

G (w i , v j , 2σ ) ,

2

M

i=1 j

N

=1

wieder unter Verwendung der Parzen-Window-Schätzung (16)

dieser Kostenfunktion

der Dichten. Der Gradient

führt zu stabilerem Verhalten [Lehn-Schiøler et al. , 2005].

KL Renyi´ (ρ,P )

w k

5 Fuzzy-Klassikation

Bisher wurden bei den überwachten Modellen die Label als crisp angesehen. Oft liegen aber nur unscharfe Informationen vor, d.h. die Trainingsdaten können nur mit einer gewissen Unsicherheit (Wahrscheinlichkeit, Fuzzy-Zugehörigkeit) den Klassen zugeord- net werden. In diesem Fall läßt sich der oben besprochene SNG nicht anwenden. Man kann aber die unüberwachten Vektorquan- tisierungsmodelle NG und SOM so erweitern, dass eine unschar- fe, prototypbasierte (Fuzzy-) Klassi kation möglich ist. Wir nehmen an, dass N c Klassen existieren. Für einen Da- tenpunkt v ist dann das Label x (v ) R N c mit x i [0, 1] als Klassenzugehörigkeiten. Falls x i = 1 gilt, können die x i di- rekt als Klassenwahrscheinlichkeit interpretiert werden. Analog gilt jetzt y r R N c , y [0, 1] für die Fuzzy-Zugehörigkeiten (Label) der Prototypen. Sowohl SOM als auch NG lassen sich zu überwachten Fuzzy-Lernmodellen erweitern Fuzzy-Labeled SOM und Fuzzy-Labeled NG (FLSOM und FLNG), indem der jewei- ligen Energiefunktion ein gewichteter Klassi kationsfehler

c

r

E FL =

1

2

r

χ(R r ) P (v ) g γ (v , w r ) (x (v ) y r ) 2 dv

(19)

hinzugefügt wird [Villmann et al. , 2006a]:

E F LSOM = (1 β ) · E SOM + β · E FL

(20)

bzw.

(21)

mit einem Kontrollparameter β , der die Balance zwischen un- überwachtem und überwachtem Lernen steuert. Die Gewich- tungsfunktion g γ in (19) ist ein Gauss-Kern der Form

E F LNG = (1 β ) · E NG + β · E FL

g γ (v , w r ) = exp d (v , w r ) /2γ 2

(22)

wobei γ die Reichweite der Wichtung determiniert. Die jewei- ligen Lernregeln ergeben sich aus dem stochastischen Gradien-

tenabstiegen E F LSOM

. Man sieht sofort, dass

w r 6= 0 gilt, d.h. die Positionierung der Prototypen wird

durch die Klassi kation beein usst. Beide Algorithmen sind eine Überlagerung von statistischem unüberwachten Lernen und Klassi kation mittels des Kontroll- parameters β . Ein Parameter β = 0 ergibt die unüberwachten Modelle SOM bzw. NG .Hohe Werte für β betonen die Klassi- kation. Für β 1 wird allerdings die Dynamik der Prototype- nadaptation instabil. Werte von β 0.75 haben sich als optimal im Sinne der Klassi kation herausgestellt [Brüß et al. , 2006]. Fuzzy-Klassikation kann auch unter Verwendung des Ansatzes zur informationsoptima len Vektorquantisierung von Principe erreicht werden [Villmann et al., 2006b]. Dazu wird die Kullback-Leibler-Divergenz (15) auf die Klassenwahrschein- lichkeitsdichten P X (v ,x c (v )) der Daten und ρ Y (w i ,y ) der Prototypenlabel für eine Klasse c übertragen und man erhält:

i.a. E FL

und E FLNG

w r

w r

c

i

C F LV QKL (Y , X) =

N c

c =1

KL c (ρ Y ,P X ) .

(23)

und KL c (ρ Y ,P X ) = KL (ρ Y (v ,c) ,P X (v ,c)). Die Schätzung

der Dichten erfolgt dann mittels adaptierter Parzen-Schätzer

und

P (v ,x c (v )) = 1

ˆ

N

N

i=1

ρˆ (w ,y

c

1

,

y M ) = 1

c

M

x c (v i ) G (v , v i , σ )

M

i=1

y

c

i

G (w , w i , σ ) .

(24)

(25)

Damit ergibt sich im Kostenfunktional (23)

KL c (ρ Y ,P X ) 1

M

M

i

=1

log M

N

j

N

=1 x c (v j ) G (w i , v j )

c

j =1 y

j

G (w i , w j )

M

Analog erhält man unter Verwendung der Rényi-Entropie

KLR c (ρ Y ,P X ) log

x c (v j ) G w i , v j ,2σ

(26)

als zu optimierende Terme im Funktional (23). Die parallele Optimierung von C F LV QKL (Y , X) bezüglich der Prototypen w i und der Label y i durch stochastischen Gra-

dientenabstieg entlang C FLV QKL (Y , X)

2·M i,j =1 y

N

M

c

j

G w i , w j ,2σ

M

i =1 j =1 y i

N

c

und ∂C FLV QKL (Y ,X )

y i

w i

ergibt die Adaptationsdynamik.

6 Metrikadaptation

Für alle bis hierher eingeführten Modelle sind wir von einer allgemeinen, hinreichend dierenzierbaren Metrik d (v , w ) ausgegangen, die meist als euklidische Metrik angenommen wird. Wie die angegebenen Formeln erkennen lassen, ist diese Annahme jedoch nicht zwingend, d.h. andere alterna- tive Metriken oder Ähnlichkeitsmaße sind in den Verfahren einsetzbar. Beispiele sind die Mahalanobis-Distanz, die ver- allgemeinerte Tanimoto-Distanz oder das Korrelationsmaß [Duda and Hart, 1973],[Strickert et al. , 2006]. Die konkrete Wahl hängt dabei von der zu realisierenden Problemstellung ab [Hammer and Villmann, 2003],[Hammer and Villmann, 2005]. Bei der Verwendung allgemeiner parametrisierter Maße

d λ (v , w ) mit einem (geeignet normierten) Parametervektor

m ) können die Parameter λ i in die Optimierung

der Kostenfunktionen einbezogen werden. Beispiele sind die qua- drierte skalierte euklidische Metrik

λ = (λ 1 , ,λ

d

Euklid

λ

(v , w ) =

D V

i=1

λ i v i w i 2

(27)

nach [Hammer et al. , 2005c] mit λ i = 1 oder das skalierte Korrelationsmaß vorgestellt in [Strickert et al. , 2006]. Optimie- rung der Energiefunktionen der obigen Modelle bezüglich der Metrikparameter λ i mittels entsprechendem Gradientenabstieg führt zur Bestimmung der relevanten Metrikparameter und da-

mit zur optimalen Adaptation der zu verwendenden Metrik. Bei

der skalierten euklidischen Metrik (27) sind das z.B. die entspre- chenden Dimensionen des Datenraumes.

Diese Methode ist bei allen oben beschriebenen Modellen anwendbar und wird als Relevanzlernen bezeichnet.

7 Rekursive / temporale Strukturen

In vielen Anwendungsbereichen, wie z.B. in der Robotik, haben Stimuli eine inhärente zeitliche Struktur, etwa Sensorsignale der Robotik, Sprache, Text, etc. Ein typisches Signal besitzt da- bei für jeden Zeitpunkt t die Form v t eines Vektors, der im

beobachtet wird. Neuronale

zeitlichen Kontext v t1 , v t2 ,

Vektorquantisierer in der zeitreihenanalyse können direkt für die einzelnen Zeitpunkten trainiert werden, vernachlässigen dabei aber eine in der Regel relevante zeitliche Di erenzierung solcher Signale. Daher ist der Entwurf von Methoden mit explizitem zeitlichen Kontextbezug innerhalb des Modells wünschenswert. Eine Möglichkeit o erieren die bereits angesprochenen Median- Varianten des Clustering: Ersetzt man die euklidische Metrik durch eine direkt auf Zeitreihen arbeitende globale Metrik (etwa eine edit-Distanz), erhält man globale Quantisierer für Zeitrei- hen. Allerdings ist in diesen Ansätzen eine detaillierte Inspektion einzelner typischer Zeitverläufe in der Regel nicht möglich, da einzelne Zeitpunkte nicht explizit dargestellt werden. Eine Alternative für die prototypenbasierte Zeitreihenana- lyse bietet die Erweiterung von neuronalen Vektorquantisierern um rekursive Dynamiken, so dass vermöge rekursiver Ähnlich- keitsmaße die temporale Struktur der Daten innerhalb der Dy- namik des neuronalen Modells abgebildet und eine Inspektion einzelner Zeitpunkte im zeitlichen Kontext in einem globalen Modell ermöglicht wird. Zu den ersten vorgeschlagenen tempo- ralen neuronalen Vektorquantisierern gehören die sogenannte re- current SOM (RSOM) und die temporal Kohonen map (TKM) [Chappell and Taylor, 1993, Koskela et al. , 1998]. Diese erwei- tern die Dynamik der SOM um eine biologisch plausible zeitlich abfallend gewichtete Integration der Signale aus vorherigen Zeit- schritten, d.h. die Abstandsberechnung ist von der Form

ξ (v t , w r ) = d(v t , w r ) + α · ξ (v t1 , w r )

Diese Erweiterung hat allerdings den wesentlichen Nachteil, dass kein expliziter zeitlicher Kontext gelernt oder dargestellt wird, so dass sich lediglich eine Mittelung über konsekutive Zeitschritte realisieren läßt. Diese Beobachtung kann mathematisch präzi- siert werden: es lassen sich mit solchen rekursiven Dynamiken zwar endliche Zeitkontexte kodieren, aber bereits einfache endli- che Automaten, die eine explizite Speicherung eines Zeitkontexts über gegebenenfalls beliebig viele Zeitschritte verlangen, können nicht mehr dargestellt werden [Strickert and Hammer, 2005]. Aus diesem Grund wurden alternative Modelle vorgeschla- gen, deren essentieller Bestandteil eine explizite Repräsentation und Adaptation zeitlichen Kontexts darstellt. Jeder Prototyp re- präsentiert neben einem erwarteten Stimulus w r einen erwarte- ten zeitlichen Kontext c r , der in die Berechnung des Abstands zum Zeitpunkt t eingeht:

ξ (v t , (w r , c r )) = (1 α) · d(v t , w r ) + α · d(C t , c r )

Der Vektor

C t = ψ (ξ (v t1 , (w 1 , c 1 )),

(v t1 , (w N , c N )))

( N = Anzahl der Neuronen) repräsentiert dabei den zum Zeit- punkt t im Modell berechneten Zeitkontext, für den die wesent- liche zeitliche Information mithilfe der Modulationsfunktion ψ aus dem letzten Berechnungsschritt extrahiert wird. Sowohl die

Repräsentation des erwarteten Stimulus w r , als auch der erwar- tete Kontext c r werden dabei mithilfe einer zur online-Regel (8) äquivalenten Lernregel adaptiert. Anders als bei standard NG oder SOM, ist dieses allerdings nur ein approximativer Gradien- tenabstieg, bei dem zeitliche Beiträge für die Ausprägung des Kontexts nur für einen Rekursionsschritt berücksichtigt werden [Hammer et al. , 2004b]. Diese Formulierung verallgemeinert übliche (überwachte) rekurrente Neuronale Netze auf Prototypen-basierte Szenari- en. In dieser allgemeinen Form wurde sie das erste Mal in [Hammer et al. , 2004b] vorgeschlagen. Es existieren verschie- dene konkrete Realisierungen dieser Dynamik, die sich durch die Modulationsfunktion ψ , d.h. die Art der Repräsentation von zeitlichem Kontext unterscheiden: die bereits erwähnten Modelle TKM und RSOM erhält man durch eine Fokussie- rung der Modulation auf das jeweils betrachtete Neuron selbst. Komplexere Modelle verwenden die volle Information, wie et- wa in der recursive SOM vorgeschlagen [Voegtlin, 2002], oder kompaktere Darstellungen des Kontexts wie etwa die Positi- on des Gewinners im letzten Schritt in der SOM for structu- res data (SOMSD) [Hagenbuchner et al. , 2003], oder der In- halt des Gewinnerneurons wie in der Merge SOM (MSOM) [Strickert and Hammer, 2005]. Die exakte Wahl des Kontexts hat dabei wesentlichen Ein uß auf die E zienz des Modells und Kombinierbarkeit mit verschiedenen Nachbarschaftstopolo- gien einerseits, andererseits bestimmt sie wesentlich die Dar- stellungsmächtigkeit der Modelle. Für SOMSD und MSOM konnte gezeigt werden, dass sie, anders als die einfacheren Modellen TKM und RSOM, temporale Zustände über einen beliebigen Zeitraum speichern können [Hammer et al., 2004a, Strickert and Hammer, 2005]. Interessanterweise erö net die- se Formulierung eine Schnittstelle zu noch komplexeren Da- tenstrukturen als Zeitreihen: durch die Wahl von zwei Kon- textrepräsentationen und also eines Verzweigungsprozesses in jedem rekursiven Schritt können auf dieselbe Art und Weise Baumstrukturen oder azyklische Graphen repräsentiert werden [Hagenbuchner et al. , 2003, Hammer et al. , 2004a]. Es ist also möglich, in dieser Form rekursive symbolische Objekte neuronal zu quantisieren.

8 Diskussion

Wie bereits erwähnt, erweitern diese Paradigmen der Vek- torquantisierung die zugrunde liegenden, oft heuristisch mo- tivierten Modelle erheblich, und sie formen einen essenti- ellen Bestandteil für die erfolgreiche Anwendung der Me- thoden für komplexe Probleme der Robotik oder Sensorver- arbeitung. Wie in [Ritter et al. , 1992], [Kohonen, 1995] und [Atkeson et al., 1997] eindrucksvoll dargestellt ist, erö nen di- stanzbasierte Lernmethoden, insbesondere neuronale Vektor- quantisierung, aufgrund ihrer e infachen und natürlichen Funk- tionsweise und großen Flexibilität vielversprechende Möglich- keiten für relevante Probleme der Robotik wie inverse Kine- matik, Pfadplanung, Greifen, Bildverarbeitung, etc. Den Nut- zen der hier vorgestellten Lernparadigmen demonstrieren dabei verschiedenste Anwendungen, etwa verbesserte Performanz bei der Kartierung der für einen autonomen Agenten kritischen Si- tuationen durch geeignete Steuerung des magni cation Expo- nenten [Villmann and Heinze, 2000] oder die Möglichkeit, Ef-

fektoren intelligent direkt in einer neuronalen Dynamik abzubil- den [Steil et al., 2006]. Die vorgestellten erweiterten Lernpara- digmen ermöglichen den Einsatz der Methoden in komplexen industriellen Sensorproblemen [Bojer et al. , 2003] oder bei an- spruchsvollen, typischerweise extrem hochdimensionalen Proble- men der Bildverarbeitung [Villmann et al., 2003]. Dabei ist der Einsatz der Modelle nicht auf die Robotik und Sensorauswertung beschränkt, wie der erfolgreich e Einsatz in zukunftsweisenden Gebieten wie etwa der Medizin- und Bioinformatik demonstriert [Hammer et al. , 2005b, Schleif et al. , 2006], [Villmann, 2002], [Wismüller and Villmann, 2002], [Villmann et al. , 2000].

Literatur

[Atkeson et al. , 1997] Christopher G. Atkeson, Andrew W. Moore, and Stefan Schaal. Locally weighted learning for con- trol. Articial Intelligence Review , 11(1-5):75—113, 1997. [Bauer et al. , 1996] H.-U. Bauer, R. Der, and M. Herrmann. Controlling the magnication factor of self—organizing feature maps. Neural Computation , 8(4):757—771, 1996. [Bishop et al. , 1998] Christopher M. Bishop, Markus Svensén, and Christopher K. I. Williams. GTM: The generative topo- graphic mapping. Neural Computation , 10:215—234, 1998. [Bojer et al. , 2003] T. Bojer, B. Hammer, and C. Koers. Mo- nitoring technical systems with prototype based clustering. In M. Verleysen, ed., Europ. Symp. on Arti cial Neural Net- works’2003 , pages 433—439. D-side publications, 2003. [Brüß et al. , 2006] C. Brüß, F. Bollenbeck, F.-M. Schleif, W. Weschke, Th. Villmann, and U. Sei ert. Fuzzy image segmentation with fuzzy labeled neural gas. In M. Verleysen, ed., Europ. Sympos. on Arti cial Neural Networks’2006, in press, Brussels, Belgium, 2006. d-side publications. [Chappell and Taylor, 1993] G. Chappell and J. Taylor. The temporal Kohonen map. Neural Networks, 6:441—445, 1993. [Cottrell et al. , 2006 accepted] M. Cottrell, B. Hammer, A. Ha- senfuss, and T. Villmann. Batch and median neural gas. Neural Networks , 2006 accepted. [Deco and Obradovic, 1997] G. Deco and D. Obradovic. An Information-Theoretic Approach to Neural Computing . Sprin- ger, Heidelberg, New York, Berlin, 1997. [Dersch and Tavan, 1995] Dominik Dersch and Paul Tavan. Asymptotic level density in topological feature maps. IEEE Trans. on Neural Networks , 6(1):230—236, January 1995. [Duda and Hart, 1973] R.O. Duda and P.E. Hart. Pattern Clas- si cation and Scene Analysis . Wiley, New York, 1973. [Hagenbuchner et al. , 2003] M. Hagenbuchner, A. Sperduti, and A.-C. Tsoi. A supervised self-organizing map for structu- res. IEEE Trans. on Neural Networks , 14:191—205, 2003. [Hammer and Villmann, 2003] B. Hammer and Th. Villmann. Mathematical aspects of neural networks. In M. Ver- leysen, ed., Europ. Symp. on Arti cial Neural Networks (ESANN’2003) , pages 59—72, Brussels, Belgium, 2003. d-side. [Hammer and Villmann, 2005] B. Hammer and Th. Villmann. Classi cation using non-standard metrics. In M. Ver- leysen, ed., Europ. Symp. on Arti cial Neural Networks (ESANN’2005) , pages 303—316, Brussels, Belgium, 2005. d- side publications. [Hammer et al. , 2004a] B. Hammer, A. Micheli, A. Sperduti, and M. Strickert. Recursive self-organizing network models. Neural Networks , 17(8-9):1061—1086, 2004.

[Hammer et al. , 2004b] B. Hammer, A. Micheli, M. Strickert, and A. Sperduti. A general framework for unsupervised pro- cessing of structured data. Neurocomputing , (57):3—35, 2004. [Hammer et al. , 2005a] B. Hammer, M. Strickert, and T. Vill- mann. On the generalization ability of grlvq networks. Neural Processing Letters , 21(2):109—120, 2005. [Hammer et al. , 2005b] B. Hammer, M. Strickert, and T. Vill- mann. Prototype based recognition of splice sites. In U. Seif- fert, L.C. Jain, and P. Schweitzer, editors, Bioinformatics using computational intelligence paradigms , pages 25—55. Springer, 2005. [Hammer et al. , 2005c] B. Hammer, M. Strickert, and Th. Vill- mann. Supervised neural gas with general similarity measure. Neural Processing Letters , 21(1):21—44, 2005. [Hasenjäger and Ritter, 1998] M. Hasenjäger and H. Ritter. Ac- tive learning with local models. Neural Processing Letters , 7:107—117, 1998. [Heskes, 1999] T. Heskes. Energy functions for self-organizing maps. In E. Oja and S. Kaski, editors, Kohonen Maps, pages 303—316. Elsevier, Amsterdam, 1999. [Jun and Duckett, 2002] L. Jun and T. Duckett. Learning robot behaviours with self-organizing maps and radial basis function networks. In Proc. of the 2nd Swedish Workshop on Autono- mous Robotics , Stockholm, Sweden, Oct. 2002. [Kapur, 1994] J.N. Kapur. Measures of Information and their Application . Wiley, New Delhi, 1994. [Kohonen and Somervuo, 2002] T. Kohonen and P. Somervuo.

How to make large self-organizing maps for nonvectorial data. Neural Networks , 15(8-9):945—952, 2002. [Kohonen, 1995] Teuvo Kohonen. Self-Organizing Maps, volu- me 30 of Springer Series in Information Sciences . Springer, Berlin, Heidelberg, 1995. (Second Extended Edition 1997). [Koskela et al. , 1998] T. Koskela, M. Varsta, J. Heikkonen, and K Kaski. Time series prediction using recurrent SOM with local linear models. International Journal of Knowledge-Based Intelligent Engineering Systems , 2(1):60—68, 1998. [Lehn-Schiøler et al. , 2005] T. Lehn-Schiøler, A. Hegde, D. Er- dogmus, and J.C. Principe. Vector quantization using infor- mation theoretic concepts. Natural Computing , 4(1):39—51,

2005.

[Linde et al. , 1980] Y. Linde, A. Buzo, and R.M. Gray. An al- gorithm for vector quantizer design. IEEE Transactions on Communications , 28:84—95, 1980. [Martinetz et al. , 1993] Thomas M. Martinetz, Stanislav G. Berkovich, and Klaus J. Schulten. ’Neural-gas’ network for vector quantization and its application to time-series predic- tion. IEEE Trans. on Neural Networks , 4(4):558—569, 1993. [Padoan-Junior et al. , 2003] A.C. Padoan-Junior, G.A. Barreto, and A.F. Araujo. Modeling and production of robot trajec- tories using the temporal parametrized self organizing maps. Internat. Jour. of Neural Systems , 13(2):119—127, 2003. [Principe et al. , 2000] J. C. Principe, J.W. Fischer III, and D. Xu. Information theoretic learning. In S. Haykin, ed., Unsupervised Adaptive Filtering . Wiley, New York, NY, 2000. [Renyi, 1961] A. Renyi. On measures of entropy and informa- tion. In Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability . University of Cali- fornia Press, 1961. [Ritter et al., 1992] Helge Ritter, Thomas Martinetz, and Klaus Schulten. Neural Computation and Self-Organizing Maps: An Introduction . Addison-Wesley, Reading, MA, 1992.

[Sato and Yamada, 1996] A. Sato and K. Yamada. Generalized learning vector quantization. In D. S. Touretzky, M. C. Mozer, and M. E. Hasselmo, editors, Advances in Neural Information Processing Systems 8. Proceedings of the 1995 Conference, pages 423—9. MIT Press, Cambridge, MA, USA, 1996. [Schleif et al. , 2006] F.-M. Schleif, B. Hammer, and T. Vill- mann. Margin based active learning for LVQ networks. In

M. Verleysen, editor, ESANN’2006 . d-facto, 2006.

[Steil et al. , 2006] J. Steil, R. Koiva, and A. Sperduti. Unsuper-

vised clustering of continuous trajectories of kinematic trees with SOM-SD. In M. Verleysen, editor, ESANN’2006 , 2006. [Strickert and Hammer, 2005] M. Strickert and B. Hammer. Merge SOM for temporal data. Neurocomputing , 64:39—72,

2005.

[Strickert et al. , 2006] M. Strickert, U. Seiert, N. Sreenivasu- lu, W. Weschke, T. Villmann, and B. Hammer. Generalized relevance LVQ with correlation measures for gene expression analysis. Neurocomputing , 69(6—7):651—659, 2006. [Torkkola, 2003] K. Torkkola. Feature extraction by non- parametric mutual information maximization. Journal of Ma- chine Learning Research , 3:1415—1438, 2003. [van Hulle, 2000] Marc M. van Hulle. Faithful Representations and Topographic Maps From Distortion- to Information-based

Self-organization . J. Wiley & Sons, Inc., 2000.

[Verbeek et al. , 2005] J.J. Verbeek, N. Vlassis, and B.J.A. Krö-

se. Self-organizing mixture models. Neurocomputing , 63:99—

123, 2005. [Villmann and Claussen, 2006] T. Villmann and J.-C. Claussen. Magni cation control in self-organizing maps and neural gas. Neural Computation , 18(2):446—469, February 2006. [Villmann and Heinze, 2000] Thomas Villmann and Andrea Heinze. Application of magnication control for the neural gas network in a sensorimotor architecture for robot navigati- on. In Horst-Michael Groß, Klaus Debes, and Hans-Joachim Böhme, editors, Proceedings of Selbstorganisation Von Ad- aptivem Verfahren (SOAVE’2000) Ilmenau , pages 125—134, VDI-Verlag Düsseldorf, 2000. Fortschrittsberichte des VDI. [Villmann et al. , 1997] Th. Villmann, R. Der, M. Herrmann, and Th. Martinetz. Topology Preservation in Self—Organizing Feature Maps: Exact De nition and Measurement. IEEE Transactions on Neural Networks , 8(2):256—266, 1997. [Villmann et al. , 2000] Thomas Villmann, Wieland Hermann, and Michael Geyer. Variants of self-organizing maps for data

mining and data visualization in medicine. Neural Network World , 10(4):751—762, 2000. [Villmann et al. , 2003] T. Villmann, E. Merenyi, and B. Ham- mer. Neural maps in remote sensing image analysis. Neural Networks , 16(3-4):389—403, 2003. [Villmann et al. , 2006a] T. Villmann, B. Hammer, F.-M. Schleif, and T. Geweniger. Fuzzy classi cation by fuzzy labe- led neural gas. Neural Networks, page in press, 2006. [Villmann et al. , 2006b] T. Villmann, B. Hammer, F.-M. Schleif, T. Geweniger, and M. Cottrell. Fuzzy learning vector quantization by density matching. Technical report, Claus- thal University of Technology, Institute of Computer Science, Clausthal-Zellerfeld, Germany, 2006. [Villmann et al. , 2006c] T. Villmann, F.-M. Schleif, and

B. Hammer. Comparison of relevance learning vector quan-

tization with other metric adaptive classi cation methods. Neural Networks , 19:in press, 2006.

[Villmann, 2000] Thomas Villmann. Controlling strategies for the magni cation factor in the neural gas network. Neural Network World , 10(4):739—750, 2000. [Villmann, 2002] Th. Villmann. Ne ural maps for faithful data modelling in medicine — state of the art and exemplary app- lications. Neurocomputing , 48(1—4):229—250, 2002. [Voegtlin, 2002] T. Voegtlin. Recursive self-organizing maps. Neural Networks , 15(8-9):979—91, 2002. [Wismüller and Villmann, 2002] A. Wismüller and Th. Vill- mann. Exploratory data analys is in medicine and bioinforma- tics. In M. Verleysen, editor, Proc. Of European Symposium on Arti cial Neural Networks (ESANN’2002) , pages 25—38, Brussels, Belgium, 2002. d-side. [Zador, 1982] P. L. Zador. Asymptotic quantization error of continuous signals and the quantization dimension. IEEE Transaction on Information Theory , (28):149—159, 1982.

Kontakt

Prof. Dr. habil. Barabara Hammer TU Clausthal, Inst. f. Informatik Julius-Albert-Str. 4, 38678 Clausthal-Zellerfeld Tel./Fax: +49 (0)5323 7271-86/-39 Email: hammer@in.tu-clausthal.de

PD Dr. habil. Thomas Villmann Universität Leipzig, Bereich Medizin K.-Tauchnitz-Str. 25, 04107 Leipzig Tel./Fax: +49 (0)341 97188-68/-49 Email: thomas.villmann@medizin.uni-leipzig.de

Bild

Bild

Barbara Hammer is professor for Theoreti- cal Computer Science at Clausthal Univer- sity of Technology, Germany, in 2004. Her areas of expertise include various techniques such as hybrid systems, self-organizing maps, clustering, and recurrent networks as well as applications in bioinformatics, industrial pro- cess monitoring, or cognitive science. Most of her publications can be retrieved from http://www.in.tu-clausthal.de/ hammer/

Thomas Villmann leads the computer science group and the research group of computational intelligence of the clinic for psychotherapy at Leipzig University. His research areas include a broad range of ma- chine learning approaches like neural maps, clustering, classi cation, pattern recognition and evolutionary algorithms as well as appli- cations in medicine, bioinformatics, satellite remote sensing and other. http://www.uni- leipzig.de/ psychsom/diagramm/MA_vill- mann.html