Sie sind auf Seite 1von 31

LUDWIGMAXIMILIANSUNIVERSITY

MUNICH

DEPARTMENT
INSTITUTE FOR
INFORMATICS

DATABASE
SYSTEMS
GROUP

Skript zur Vorlesung:

Einfhrung in die Informatik: Systeme und Anwendungen


Sommersemester 2013

Kapitel
i 4: Data Mining
i i

Vorlesung: PD Dr. Peer Krger


bungen: Johannes Niedermayer
Skript 2004 Christian Bhm, Peer Krger
http://www dbs ifi lmu de/cms/ Einfhrung_in_die_Informatik_Systeme_und_Anwendungen
http://www.dbs.ifi.lmu.de/cms/
Einfhrung in die Informatik Systeme und Anwendungen

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

berblick

4.1 Einleitung
4.2 Clustering
4.3 Klassifikation
4.4 Outlier Detection

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Motivation

Kreditkarten

Scanner-Kassen

Telefongesellschaft
Datenbanken

Astronomie

Riesige Datenmengen werden in Datenbanken gesammelt


Analysen
A l
k
knnen nicht
i h mehr
h manuell
ll durchgefhrt
d h fh werden
d
Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Big Data

Das Schlagwort
g
Big
g Data g
geht zurck auf einen Report
p
von McKinsey
y
vom May 2011
(http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation)

The
The amount of data in our world has been exploding
exploding, and analyzing
large data setsso-called big datawill become a key basis of
competition,
p
underpinning
p
g new waves of productivity
p
y growth,
g
innovation, and consumer surplus []
Data have swept into every industry and business function and are now
an important
i
ffactor off production,
d i
alongside
l
id labor
l b and
d capital
i l
Wertschpfungspotential im US Healthcare Sektor: > $300 Millionen
Wertschpfungspotential im ffentlichen Sektor der EU: > 100 Millionen

There will be a shortage of talent necessary for organizations to take


advantage of big data. By 2018, the United States alone could face a
shortage of 140,000 to 190,000 people with deep analytical skills as well
as 1.5 million managers and analysts with the know-how to use the
analysis of big data to make effective decisions.
decisions

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Big Data

Data Mining
g ist offensichtlich eine der entscheidenden Technologien
g
um Big Data in den Griff zu bekommen
Im brigen gibt es seit ca. 40 Jahren (!!!) die Konferenz on Very Large
Databases schnen Gruss Herr McKinsey ;-)
(htt //
(http://www.vldb.org/)
ldb
/)

Achtung: Big Data ist nicht notwendigerweise nur einfach


einfach gro
gro
=> Die drei Vs (the three Vs characterizing big data)
Volume
Velocity
Variety

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

A Paradigm Shift in Science?

Some 1
1,000
000 years ago
ago, science was empirical
(describing natural phenomena)
Last few hundred years,
years science was theoretical
(Models, generalizations)
Last few decades, science became computational
(d t iintensive)
(data
t
i )
Computational methods for simulation
Automatic
A t
ti data
d t generation,
ti
high-throughput
hi h th
h t methods,
th d

Data Sciene
Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

A Paradigm Shift in Science?

Wissenschatler produzieren eine riesige Menge


an Daten ber die Phnomene, die sie
untersuchen
Bottom-up und top-down Modelle:
Bottom-up:
Bottom up:
Von Experten ber Jahre hinweg erforscht
g Beobachtungen
g abgeleitet
g
Meist aus wenigen

Top-down:
Mit Hilfe von Data Mining Methoden erzeugt
Meist aus groen Datenmengen abgeleitet

Fragestellungen fr die Informatik:


Wie knnen top-down-Modelle erzeugt werden
Wie knnen sich mehrere Modell sinnvoll verknpfen
Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Knowledge Discovery in Databases

Knowledge Discovery in Databases (KDD) ist der Prozess der


(semi-) automatischen Extraktion von Wissen aus Datenbanken,
das

gltig
bisher unbekannt
und potentiell ntzlich ist.

Bemerkungen:

(semi ) automatisch: im Unterschied zu manueller Analyse.


(semi-)
Hufig ist trotzdem Interaktion mit dem Benutzer ntig.
gltig: im statistischen Sinn.
bisher unbekannt: bisher nicht explizit, kein Allgemeinwissen.
potentiell ntzlich: fr eine gegebene Anwendung.

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

Muster

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

Bewertun
B
ng der Intteressantthheit durch
h den Beenutzer
V
Validierun
ng: Statistische
Prfung d
P
der Modeelle

Data
Mining

Evvaluationn

Datenbank

Generieru
G
ung der M
Muster
bbzw. Mod
delle

Transformation

Daata Mining

Diskretisi
D
ierung nu
umerisscher Merkmale
A
Ableitung
g neuer M
Merkmalle
S
Selektion
n relevantter Merk
km.

Fokussieren Vorverarbeit ng
beitung

Traansform
mation

Inntegratio
on von D
Daten aus
uunterschiedlichen
n Quellen
n
V
Vervollstndigung
g
K
Konsisten
nzprfun
ng

Vorverarbeeitung:

DATABASE
SYSTEMS
GROUP

B
Beschaffu
ung der D
Daten
V
Verwaltun
ng (File//DB)
S
Selektion
n relevantter Daten
n

Fokussiereen:

Kapitel 4: Data Mining

Der KDD
KDD-Prozess
Prozess (Modell)

Prozessmodell nach Fayyad, Piatetsky-Shapiro & Smyth


Evaluation

Wissen

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Objekt-Merkmale
Objekt
Merkmale (Feature)

Oft sind die betrachteten Objekte komplex


Eine Aufgabe des KDD-Experten ist dann, geeignete Merkmale
(Features) zu definieren bzw. auszuwhlen, die fr die Unterscheidung
(Kl ifik i hnlichkeit)
(Klassifikation,
h li hk i ) der
d Objekte
Obj k relevant
l
sind.
i d
Diese Merkmale knnen dann z.B. in einer Tabelle in einem (rel.)
DBMS verwaltet werden
Beispiel: CAD-Zeichnungen:

M li h Merkmale:
Mgliche
M k l
Hhe h
Breite w
ax2+bx+c

Kurvatur-Parameter
(a,b,c)

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

10

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Feature-Vektoren
Feature
Vektoren
Objekt-Raum
Objekt
Raum

Merkmals-Raum
Merkmals
Raum

ObjektID h w a

Relation
b

(h, w, a, b, c)
c

b
a

ax2+bx+c
bx c

Im Kontext von statistischen Betrachtungen


g werden die Merkmale
hufig auch als Variablen bezeichnet
Die ausgewhlten Merkmale werden zu Merkmals-Vektoren (Feature
V t ) zusammengefasst
Vector)
f t
Der Merkmalsraum ist hufig hochdimensional (im Beispiel 5-dim.)
Merkmale sind oft nummerisch ((=> Euklidischer Vektorraum),
), knnen
aber auch kategorisch, ordinal, etc. sein (siehe bernchste Folie)
Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

11

Kapitel 4: Data Mining

Feature-Vektoren
Feature
Vektoren (weitere Beispiele)

Bilddatenbanken:
Farbhistogramme

Hufigk
keit

DATABASE
SYSTEMS
GROUP

Farbe
Gen-Datenbanken:
Expressionslevel

Text-Datenbanken:
Begriffs-Hufigkeiten

Data
Mining
Feature
Object
...

25
15
12
7

Der Feature-Ansatz ermglicht einheitliche Behandlung von Objekten


verschiedenster Anwendungsklassen
Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

12

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Feature: verschiedene Kategorien

Nominal (kategorisch)

Ordinal

Metrisch

Charakteristik:

Charakteristik:

Charakteristik:

Nur feststellbar, ob der Wert


gleich oder verschieden ist. Keine
Richtung (besser
(besser, schlechter) und
kein Abstand.
Merkmale mit nur zwei Werten
nennt man dichotom.

Es existiert eine
Ordnungsrelation
(besser/schlechter) zwischen
den Kategorien, aber kein
einheitlicher Abstand.

Sowohl Differenzen als auch


Verhltnisse zwischen den
Werten sind aussagekrftig.
aussagekrftig
Die Werte knnen diskret
oder stetig sein.

Beispiele:

Beispiele:

Beispiele:

Geschlecht (dichotom)
Augenfarbe
Gesund/krank (dichotom)

Schulnote (metrisch?)
Gteklasse
Altersklasse

Gewicht (stetig)
Verkaufszahl (diskret)
Alter (stetig oder diskret)

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

13

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

hnlichkeit von Objekten

Definiere ein Distanzma auf den Feature Vektoren


Zu einem Anfrage-Objekt qDB kann man dann
hnliche Objekte suchen Range-Query (Radius )

alternative Schreibweise
fr Mengendifferenz:
A\B = A B

RQ(q,DB | (q,o) }

die k hnlichsten Objekte suchen Nearest Neighbor Query


NN(q,k) DB mit k Objekten, sodass oNN(q,k), pDB\NN(q,k) : (q,o) (q,p)

Distanz im Feature-Raum (Un-)hnlichkeit der ursprnglichen Objekte


Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

14

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Distanzmae fr nummerische Features

E klidi h Norm
Euklidische
N
(L2):
)

M h
Manhattan-Norm
N
(L1):
)

M i
Maximums-Norm
N
(L):
)

1(x,y) = ((x1y1)2+(x2y2)2+...)1/2

2(x,y) = |x1y1|+|x2y2|+...

(x,y) = max{|x1y1|, |x2y2|,...}

x
y

Abstand in Euklidischen Raum


(natrliche Distanz)

Die Unhnlichkeiten
der einzelnen Merkmale
werden direkt addiert

Die Unhnlichkeit des


am wenigsten hnlichen
Merkmals zhlt

Verallgemeinerung
g
g Lp-Abstandsma:
p(x,y) = (|x1y1|p + |x2y2|p + ...)1/p
Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

15

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Gewichtete Distanzmae

Viele Varianten ggewichten verschiedene Merkmale unterschiedlich stark.


y
x

x
y

Gewichtete Euklidische Distanz

p , w ( x, y )

wi xi yi

Mahalanobis Distanz
p

( x, y ) ( x y )T 1 ( x y )

i1

= Kovarianz-Matrix

Statt Distanzmaen verwendet man auch manchmal hnlichkeitsmae

Distanzma: je hher der Wert, desto unhnlicher


hnlichkeitsma: je hher der Wert,
Wert desto hnlicher

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

16

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Kategorien von Data Mining

Klassen von Data-Mining-Verfahren


g

Clustering
Outlier Detection
Klassifikation
Regression
F
Frequent
t Pattern
P tt
Mining
Mi i

normalerweise unsupervised
normalerweise supervised

Supervised: Trainingsphase erforderlich, der Lernerfolg kann berwacht


werden.
Unsupervised: Die Methode lernt nicht, sondern findet Muster, die einem
bestimmten Modell entsprechen.
Viele Methoden arbeiten auf Merkmalsvektoren, meist explizit auf Euklidischen
Rumen (nur nummerische Merkmale)
=> wir konzentrieren uns hier auf Euklidische Merkmalsrume
Darber hinaus gibt es zahlreiche Verfahren, die nicht auf Merkmalsvektoren,
sondern direkt auf Texten,
Texten Mengen,
Mengen Graphen usw.
usw arbeiten
arbeiten.

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

17

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

berblick

4.1 Einleitung
4.2 Clustering
4.3 Klassifikation
4.4 Outlier Detection

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

18

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Clustering

Cluster 1: Klammern

Cluster 2: Ngel

Ein Grundmodell des Clustering ist:


Zerlegung (Partitionierung) einer Menge von Objekten (bzw. FeatureVektoren) in Teilmengen (Cluster), so dass
Objekte im gleichen Cluster mglichst hnlich sind
Objekte aus verschiedenen Clustern mglichst unhnlich sind

Idee: Die verschiedenen Cluster reprsentieren meist unterschiedliche Klassen


von Objekten; bei evtl.
evtl unbek.
unbek Anzahl und Bedeutung der Klassen
Im Euklidischen Raum:
Fi d Regionen,
Finde
R i
in
i denen
d
die
di Punkte
P kt nher
h zusammen liegen
li
(dichter
(di ht sind?)
i d?)
Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

19

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Ziel des Clustering

Herausforderungen:
g
Cluster unterschiedlicher Gre, Form und Dichte
hierarchische Cluster
Rauschen
Ra schen (Noise)
=> unterschiedliche Clustering-Algorithmen

Hier: Partitionierendes Verfahren


Parameter: Anzahl k der Cluster
sucht eine Partitionierung in k Cluster
Cluster sind daher meist sphrisch, Rauschen wird nicht bercksichtigt

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

20

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Partitionierende Verfahren
Grundlagen

Ziel
Partitionierung in k Cluster so dass eine Kostenfunktion minimiert wird
(Gtekriterium)

Lokal optimierendes Verfahren


whle k initiale Cluster-Reprsentanten
optimiere diese Reprsentanten iterativ
ordne jedes Objekt seinem hnlichsten Reprsentanten zu

Typen von Cluster


Cluster-Reprsentanten
Reprsentanten
Mittelwert des Clusters (Centroid)
Element des Clusters (Medoid)
Wahrscheinlichkeitsverteilung des Clusters (Erwartungsmaximierung)

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

21

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Partitionierende Verfahren
Beispiel
Cluster

schlechtes Clustering

Cluster-Reprsentanten

x
x

C t id
x Centroide

1
1

optimales Clustering

x
1

1
1

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

x Centroide
5

22

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Partitionierende Verfahren: k-means


k means
Grundbegriffe

Objekte sind Punkte p=(p1, ..., pd) in einem d-dimensionalen


euklidischen
klidi h Vektorraum
V kt
Datenstrukturen:
Fr Punkte:
RECORD Punkt =
(
ID : Nat
f1 : Real

fd : Real
)

Fr eine Menge von Punkten:


PunktList

= euklidische Distanz auf dem Record-Typ Punkte, d.h.


: Punkt Punkt Real
Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

23

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Partitionierende Verfahren: k-means


k means

Centroid C: Mittelwert aller Punkte im Cluster C (ist selbst wieder vom


Typ Punkt)
Ma fr die Kosten (Kompaktheit) eines Clusters C
TD 2 (C ) ( p, C ) 2
pC

Ma fr die Kosten (Kompaktheit) eines Clustering (aus k Clustern)


k

TD TD 2 (Ci )
2

i 1

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

24

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Partitionierende Verfahren: k-means


k means
Idee des Algorithmus

Algorithmus startet z.B. mit zufllig gewhlten Punkten als ClusterReprsentanten


p
Der Algorithmus besteht aus zwei alternierenden Schritten:
Zuordnung jedes Datenpunktes zum rumlich nchsten Reprsentanten
Neuberechnung der Reprsentanten (Centroid der zugeordneten Punkte)

Diese Schritte werden so lange wiederholt, bis sich keine nderung


mehr
h ergibt
ibt

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

25

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Partitionierende Verfahren: k-means


k means
Algorithmus

algorithmus kMeansClustering
input
k: Nat, D: PunktList
// Anzahl der Cluster, Punktemenge, die geclustert wird
output
C: PunktList
// Liste der finalen Centroide
variables
C1, , Ck: Punkt,
// die Centroide der k Cluster
C: PunktList
// Liste der neu bestimmten Centroide
g
begin
// Erzeuge eine initiale Zerlegung von D in k Klassen;
Ziehe zufllig k Elemente aus der Liste D und speichere sie in C1, , Ck;
Berechne die Menge C={C1, ..., Ck} der Zentroide fr die k Klassen;
C = {};
while C C
// es ndert sich noch etwas
do {
C=C
C
// die aktuellen Centroide
Ordne alle Punkte aus D neu zum nchstliegenden Centroid aus C zu;
// fr jeden Punkt p in D und alle 1i k muss (p, Ci) berechnet werden
Bestimme die Menge C
C={C
={C 1, ..., C
Ck} der Centroide neu;
}
return C;

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

26

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Partitionierende Verfahren: k-means


k means
Beispiel
10

10

Berechnung der
neuen Zentroide

6
5
4

6
5
4

0
0

10

10

10

Zuordnung zum nchsten Zentroid


10

10

Berechnung der
neuen Zentroide

3
2
1
0

3
2
1
0

10

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

27

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Partitionierende Verfahren: k-means


k means
Diskussion

+ Effizienz:
Anzahl
A
hl d
der It
Iterationen
ti
iistt iim allgemeinen
ll
i
kl
klein
i ((~ 5 - 10).
10)

+ einfache Implementierung:
k-means
k
i td
ist
das populrste
l t partitionierende
titi i
d Cl
Clustering-Verfahren
t i V f h

Anflligkeit gegenber Rauschen und Ausreiern


(alle Objekte gehen ein in die Berechnung des Centroids)
Cluster mssen konvexe Form haben
die Anzahl k der Cluster muss bekannt sein
starke Abhngigkeit von der initialen Zerlegung
(sowohl Ergebnis als auch Laufzeit)

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

28

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Erweiterung auf kategorische Merkmale

k-means-Verfahren nicht direkt fr kategorische


g
Attribute anwendbar
=> gesucht ist ein Analogon zum Centroid eines Clusters
Idee
Centroid einer Menge C von Objekten minimiert die Distanzen aller Elemente aus C zu
sich
Diese Intuition kann auf kategorische Daten angewandt werden
Der Centroid heit nun Mode
Der Mode m einer Menge C von Objekten minimiert ebenfalls die Distanzen aller
El
Elemente
t aus C zu sich
i h
( m ist nicht unbedingt ein Element der Menge C )

Eine Distanzfunktion dist fr kategorische Attribute kann z.B. wie folgt


definiert werden
0, falls xi yi
dist ( x, y ) ( xi, yi ) mit ( xi, yi )
i 1
1, sonst
d

Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

29

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Erweiterung auf kategorische Merkmale

Bestimmung
g des Modes
Die Funktion TD ( C , m) dist ( p , m)

wird genau dann

p C

minimiert, wenn fr m = (m1, ..., md) und fr alle Attribute Ai, i = 1,..., d, gilt:
Es gibt in Ai keinen hufigeren Attributwert als mi
Der Mode einer Menge von Objekten ist nicht eindeutig bestimmt.
Beispiel
Objektmenge {(a, b), (a,c), (c, b), (a,d), (b,c)}
id A1 A2
( b) iistt ein
(a,
i M
Mode
d
a
b
1
(a, c) ist ein Mode
a
c
2

Anpassungen des Algorithmus


Initialisierung

3
4
5

c
a
b

b
d
c

keine zufllige Partitionierung

sondern k Objekte a
auss der Datenmenge als initiale Modes
Cluster-Reprsentanten
Mode anstelle des Centroids

Distanzfunktion fr kategorische Daten


Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

30

Kapitel 4: Data Mining


DATABASE
SYSTEMS
GROUP

Clustering: Schlussbemerkungen

Clustering
g wird angewendet
g
um Gruppen
pp von hnlichen Objekten
j
zu
entdecken (ohne die Gruppen vorher zu kennen)
Intuition aus der Statistik: es gibt fr jeden Cluster einen (statistischen)
Prozess, der die Objekte des Clusters erzeugt hat.
(jeder Prozess beschreibt ein spezielles (natur-)wissenschaftliches Phnomen)

Beispiele:

Im Marketing werden Kundengruppen identifiziert, die hnliche Prferenzen haben


Analog: hnliches Surf-Verhalten im Web
Analog: Benutzergruppen in sozialen Netzwerken
In der Geographie werden z.B. thematische Karten mittels Clusterverfahren erstellt
In der Biologie sucht man gruppen von Genen
Genen, deren Produkte sich hnlich verhalten
Teilnehmer einer Umfrage werden in Gruppen mit hnlichem Antwortverhalten
eingeteilt

Orthogonales Problem: welche Objekte sind nicht in Clustern (weil sie


sich abnormal
abnormal verhalten)
Einfhrung in die Informatik: Systeme und Anwendungen SoSe 2013

31