Beruflich Dokumente
Kultur Dokumente
Data-Mining
Themenübersicht
Einführung
Data Mining
Modellbildung
Programmierung
Ethik
Organisation
Analytische Informationssysteme 2
Themenübersicht
Einführung
Data Mining
Modellbildung
Programmierung
Ethik
Organisation
Analytische Informationssysteme 3
Agenda Data Mining
1 Motivation
2 Grundlagen
3 Der Data-Mining-Prozess
4 Datenaufbereitung
5 Assoziationsanalyse
6 Entscheidungsbäume
Analytische Informationssysteme 4
Data-Mining
1 MOTIVATION
Analytische Informationssysteme 5
Data-Mining
„Wir ertrinken in
Information und sind
hungrig nach Wissen“
R. R. Rogers
Analytische Informationssysteme 6
Data-Mining: Ausgangslage
Zunehmender Datenreichtum
Durch die umfassende Digitalisierung werden immer mehr Daten
erzeugt und automatisiert erfasst.
Die dauerhafte Speicherung großer Datenmengen wird immer
preiswerter.
Sehr umfangreiche Datensammlungen entstehen.
Herausforderungen
Manuelle Sichtung und Auswertung der Daten unmöglich.
Genauer Umfang und Struktur der Daten nicht immer vollständig
bekannt.
Ansatzpunkte zur Auswertung der Daten häufig unklar oder sogar
unbekannt.
Analytische Informationssysteme 7
Daten als Kapital
Analytische Informationssysteme 8
Bedeutende Datenquellen
Unternehmen
Operative Systeme (ERP, CRM, SCM, …)
Kommunikationssysteme (Telefon, E-Mail, …)
Dokumente (Produktbeschreibungen, Verträge, Patente, …)
Internet
Informationsportale
Webshops
Soziale Netzwerke
Sensordaten
Industrie
Forschung
Internet der Dinge
Mobiltelefone
Analytische Informationssysteme 9
Data-Mining: Anwendungsbeispiele I
Responseanalyse
Ziel(e) • Auswahl von Kunden, die für bestimmte
Werbeaktionen besonders geeignet sind
Nutzenpotential • Reduzierung der Kosten bei gleichzeitiger
Effektivitätssteigerung
• Erhöhte Kundenbindung durch weniger und
besser passende Werbung
Daten • Bisheriges Kaufverhalten
• Soziodemographische Daten
• Daten aus sozialen Netzwerken
Analytische Informationssysteme 10
Data-Mining: Anwendungsbeispiele II
Analytische Informationssysteme 11
Data-Mining: Anwendungsbeispiele III
Bonitätsanalyse
Ziel(e) • Erkennung von zahlungsunfähigen oder –
unwilligen Kunden
Nutzenpotential • Vermeidung von Zahlungsausfällen
• Bereinigung des Kundenbestands
Daten • Personenbezogene Daten (Einkommen, Besitz,
Ausbildung, Alter, Wohnort usw.)
• Bisheriges Zahlungsverhalten
Analytische Informationssysteme 12
Data-Mining: Anwendungsbeispiele IV
Analytische Informationssysteme 13
Data-Mining: Anwendungsbeispiele V
Verbrechensbekämpfung
Ziel(e) • Erkennung von Vorgehensmustern bei Straftaten
• Erkennung und Prognose von Gefährdungslagen
Nutzenpotential • Optimierung des Einsatzes von Polizeikräften
• Aufdeckung von Zusammenhängen bei Straftaten
• Bekämpfung von Wirtschaftskriminalität/
Geldwäsche
• Identifikation von terroristischen Zellen
Daten • Detailinformationen über vergangene Straftaten
• Überwachungsdaten (z. B. Videokameras,
Telekommunikation, Kontobewegungen)
Analytische Informationssysteme 14
Weitere Anwendungsfälle
Analytische Informationssysteme 15
Data-Mining
2 GRUNDLAGEN
Analytische Informationssysteme 16
Der Begriff Data-Mining I
Analytische Informationssysteme 17
Der Begriff Data-Mining II
Analytische Informationssysteme 18
Der Begriff Data-Mining III
Analytische Informationssysteme 19
Der Begriff Data-Mining IV
Data Mining ist der Gesamtprozess der Identifikation und Präsentation von
bisher unbekannten Mustern in (großen) Datenbeständen, und zwar:
autonom mittels allgemein verwendbarer, effizienter Verfahren, die
auf methodischen Ansätzen aus
Statistik,
Künstlicher Intelligenz,
Maschinellem Lernen,
Mustererkennung
basieren und
ohne vom Anwender a priori Hypothesen zu fordern.
Analytische Informationssysteme 20
Der Begriff Data-Mining V
Analytische Informationssysteme 21
Data-Mining und DWH
• Clusteranalyse
• Assoziationsanalyse
• Abweichungsanalyse Mustererkennung
• Hauptkomponentenanalyse
• Sequenzanalyse
• Klassifikation
Prognose
• Regressionsanalyse
Analytische Informationssysteme 24
Aufgabenstellungen des Data Mining II
Clusteranalyse
Idee: Identifikation von Gruppierungen/Clustern innerhalb der Daten
Beispiel: Kundensegmentierung
Assoziationsanalyse
Idee: Analyse der Häufigkeit des gleichzeitigen Auftretens von
Objekten oder Ereignissen
{ Steaks, Holzkohle } { Bier }
Beispiel: Warenkorbanalysen
Analytische Informationssysteme 25
Aufgabenstellungen des Data Mining III
Abweichungsanalyse
Idee: Identifizierung von ungewöhnlichen Datensätzen
F1
F2
C A B C
Klassifikation
Idee: Zuordnung bisher unbekannter Objekte zu bestehenden Klassen
oder Gruppen
Abhängige Variable
Unabhängige Variable ?
Analytische Informationssysteme 28
Lernen: überwacht und unüberwacht I
Analytische Informationssysteme 30
Eingabedaten II
Zeitreihen
Zeitlich geordnete Datenfolgen mit
Umsatz
zugehörigem Mess-, Beobachtungs-
oder Zählzeitpunkt
Beispiele: Umsatzzahlen, Börsenkurse Quartale
Analytische Informationssysteme 32
Data-Mining
3 DER DATA-MINING-PROZESS
Analytische Informationssysteme 33
Der KDD-Prozess I
(Graphik: https://behavior.lbl.gov/?q=node/11)
Analytische Informationssysteme 34
Der KDD-Prozess II
1. Selektion
Auswahl der für die Fragestellung relevanten Daten
2. Vorverarbeitung (Preprocessing)
Sicherung der Datenqualität, z. B. Behandlung fehlender Werte,
Erkennen von Dubletten, Identifikation von Ausreißern, Korrektur
fehlerhafter Werte
3. Transformation
Umwandlung in eine für das Data Mining geeignete Darstellungsform,
z. B. durch Skalierung oder Transformation in andere Datentypen
4. Data-Mining
Anwendung des gewählten Data-Mining-Algorithmus zur
Mustererkennung oder Modellgenerierung
5. Evaluation
Interpretation und Bewertung der Analyseergebnisse. Beurteilung der
entdeckten Zusammenhänge, ihrer Auswirkungen und Einsetzbarkeit
Analytische Informationssysteme 35
Der KDD-Prozess III
Der KDD-Prozess hat eine sehr enge Sichtweise auf das Data-Mining
(nur Schritt 4).
Der KDD-Prozess fokussiert auf die technischen Aspekte des
Analyseprozesses. Der zielgebende und für die Bewertung zentrale
Anwendungskontext/Geschäftskontext wird nicht explizit adressiert.
Alternative Ansätze
SEMMA (Sample, Explore, Modify, Model, Assess) vom SAS Institut,
entwickelt als Leitfaden zur Implementierung von Data-Mining-
Anwendungen. Fokus auch eher technisch und produktbezogen.
CRISP-DM: Im Rahmen eines EU-Projekts von 1996-99 entwickelter
umfassender, industrieübergreifender Standard-Data-Mining-
Prozess.
Analytische Informationssysteme 36
CRISP-DM I
Cross-Industry Standard
Process for Data-Mining
Gründung einer Special
Interests Group (mehr
als 200 Mitglieder
weltweit)
Informationen unter
www.crisp-dm.org
(Graphik: http://crisp-dm.eu/reference-model)
Analytische Informationssysteme 37
CRISP-DM II
Phase 1: Business Understanding
Geschäftsziele festlegen
Beispiel: Abwanderung von Kunden verhindern
Geschäftliche Erfolgskriterien, etwa Abwanderungsquote -10 %
Situation bewerten
Ressourcen: Personal, Datenbestand, Rechenleistung, Software
Anforderungen, Annahmen, Einschränkungen
Chancen und Risiken, Wirtschaftlichkeitsanalyse
Terminologie (Glossar der Geschäfts- und Data-Mining-Begriffe)
Data-Mining-Ziele festlegen
Beispiel: 70 % der Abwanderer erkennen bei 20 % Fehlalarmen
Projektplan erstellen
Meilensteine, Werkzeugauswahl, Methodenwahl
Analytische Informationssysteme 38
CRISP-DM III
Phase 2: Data Understanding
Initiale Datensammlung
Datenquellen bestimmen
Zugriffsmethoden festlegen
Datenbeschreibung
Metadaten (Attribute, Typen, Werte, Formate, Mengen)
Explorative Datenanalyse
Beispiele analysieren
Einfache statistische Analysen (z. B. Verteilungen, ausgewählte
Korrelationen, einfache Aggregationen)
Visualisierung von Zusammenhängen
Überprüfung der Datenqualität
Vollständigkeit der Daten, fehlender Werte, fehlerhafte Wert usw.
Analytische Informationssysteme 39
CRISP-DM IV
Phase 3: Data Preparation
Datenauswahl
Auswahl relevanter Attribute, Sampling
Datenbereinigung
Ausreißer, fehlende und inkorrekte Werte behandeln
Datenkonstruktion
Abgeleitete Attribute, generierte Datensätze
Datenintegration
Daten aus verschiedenen Quellen (z. B. Tabellen) kombinieren
Aggregation von Daten
Datentransformation und –formatierung
Transformation, z. B. Anpassung verwendeter Werte, Skalierung
Formatierung, z. B. Datentypen, Zeitformate
Analytische Informationssysteme 40
CRISP-DM V
Phase 4: Modeling
Auswahl der Modellierungstechnik
Festlegung der konkreten Data-Mining-Methode
Modellannahmen treffen
Entwurf des Testdesigns
Vorgehen zur Bestimmung der Modellgüte
Aufteilung der Daten in Trainings-, Test- und Validierungsdaten
Modellbildung
Generierung des Modells
Begründung der gewählten Parametrisierung
Modellbewertung
Bestimmung der erreichten Modellgüte
Gegebenenfalls Wiederholung/Anpassung der vorigen Schritte
Analytische Informationssysteme 41
CRISP-DM VI
Phase 5: Evaluation
Bewertung der Ergebnisse
Beurteilung der Ergebnisse aus Geschäftssicht
Abnahme des Data-Mining-Modells
Prozessrevision
Bewertung des Vorgehens
Wurden Aspekte übersehen?
Müssen Prozessschritte wiederholt werden?
Festlegung des weiteren Vorgehens
Liste möglicher nächster Schritte (mit Vor- und Nachteilen)
Entscheidung über Nutzung der Ergebnisse
Analytische Informationssysteme 42
CRISP-DM VII
Phase 6: Deployment
Verwendungskonzeption
Planung zur Einführung des Data-Mining-Modells
Planung des Monitoring und der Wartung
Konzept und Arbeitsschritte zur Überwachung und Wartung des
eingesetzten Data-Mining-Modells
Erstellung des Abschlussberichts
Zusammenfassender Bericht aller Ergebnisse
Gegebenenfalls Abschlusspräsentation
Projektrückblick
Dokumentation der gesammelten Erfahrungen
(erfolgreiche Ansätze, potentielle Fallgruben usw.)
Analytische Informationssysteme 43
Voraussetzungen für Data-Mining I
Problem
Analytische Informationssysteme 44
Voraussetzungen für Data-Mining II
Data-Mining
Analytische Informationssysteme 45
Data-Mining
4 DATENAUFBEREITUNG
Analytische Informationssysteme 46
Fragen der Datenaufbereitung
Problem
Daten aus operativen Systemen häufig lückenhaft
Vollständige Datensätze für viele Data-Mining-Methoden
notwendig
Ansätze
Ausschluss unvollständiger Datensätze
Ausschluss unvollständiger Attribute/Variablen
Fehlende Werte ersetzen (imputation)
Spezielle Kodierung fehlender Werte
Analytische Informationssysteme 48
Datenausschluss
Analytische Informationssysteme 49
Fehlende Werte ersetzen
Analytische Informationssysteme 50
Fehlende Werte ersetzen: Beispiel
Analytische Informationssysteme 53
Umgang mit seltenen Ereignissen
Interesse an seltenen Ereignissen (z. B. Identifikation von betrügerischen
Transaktionen oder Phishing-E-Mails)
Starkes Ungleichgewicht von interessanten/uninteressanten Datensätzen
Data-Mining-Algorithmen erkennen relevante Informationen häufig nicht
Beispiel: Bonitätsanalyse
Schlechte
Zahler:
Trainingsdaten: 3.000 97 %
Modell: korrekte
100.000
Alle Kunden Prognosen!
Kunden Gute
zahlen gut
Zahler:
97.000
Lösungsansatz:
Einsatz geschichteter Stichproben
Anpassung der Gütemaße
Analytische Informationssysteme 54
Datenaggregation I
Analytische Informationssysteme 55
Datenaggregation II
Voraussetzungen
Überlappungsfreiheit der Zuordnung
Jedes Datenobjekt wird nur einer Aggregationsklasse zugeordnet
Vollständigkeit der Zerlegung
Jedes Datenobjekt wird einer Aggregationsklasse zugeordnet
Typverträglichkeit von Fakt und Aggregationsfunktion
Typische Aggregationsfunktionen:
Summierung: z. B. Umsatz, Kaufanzahl
Mittelwertbildung: z. B. Umsatz oder Lagerbestand pro Monat
Abwägung
Überwiegen die Vorteile den Verlust an DetailIinformationen?
Keine Intraklassenvarianz
Individuelles Verhalten nicht mehr analysierbar
Analytische Informationssysteme 56
Dimensionsreduzierung I
Bei steigender Anzahl der Dimensionen (Datenattribute):
wächst der Datenraum exponentiell
„Fluch der
besetzen die vorliegenden Daten den Datenraum Dimensionalität“
immer spärlicher
steigt der Abstand zwischen den Datenpunkten
wird das Erkennen von Zusammenhängen schwieriger
Beispiel:
Generiere zufällig 500 Punkte
Berechne maximalen und minimalen
Punktabstand
Setze die Differenz beider Abstände
ins Verhältnis
(Grafik: Tan, Steinbach, Kumar:
Introduction to Data Mining, 2004)
Analytische Informationssysteme 57
Dimensionsreduzierung II
Ziele
Vermeide „Fluch der Dimensionalität“
Reduziere Datenmenge beschleunige Analyseverfahren
Erleichtere die Visualisierung
Eliminiere unwichtige Attribute/reduziere Rauschen
Methoden:
Hauptkomponentenanalyse (Principal Component Analysis, PCA)
Faktorenanalyse
Weitere statistische oder Data-Mining-Methoden
Analytische Informationssysteme 58
Dimensionsreduzierung III
Grundprinzip
Reduziere Dimensionen bei minimalem Informationsverlust
Schließe offensichtlich überflüssige Merkmale aus (soweit möglich)
Korrelierte Merkmale bedeuten redundante Informationen
entferne Merkmale oder bilde Linearkombinationen
Herausforderung: Interpretation der künstlichen Variablen
x2
e
x1
Analytische Informationssysteme 59
Datentransformation I
Skalentransformation
Ziele
Reduzierung der Modellkomplexität
Erfüllung von Modellvoraussetzungen
(für bestimmte Data-Mining-Algorithmen)
Vorgehen
Überführung in niedrigeres Skalenniveau
(z. B. Verhältnisskala Ordinalskala)
Klassenbildung (Clustering)
Kodierung nicht formatierter Werte (z. B. Freitext)
Zu beachten
Informationsverlust
Analytische Informationssysteme 60
Datentransformation II
Normierung
Ziele
Bessere Vergleichbarkeit
Vereinfachte Berechnung
Erfüllung von Modellvoraussetzungen
(für bestimmte Data-Mining-Algorithmen)
Vorgehen
Normalisierung der Werte (z. B. auf einen Wertebereich [0, 1])
Abbildung durch mathematische Funktionen (z. B. log, exp, Wurzel)
Anpassung von
Lagemaßen (z. B. Mittelwert)
Streumaßen (z. B. Standardabweichung)
Analytische Informationssysteme 61
Datentransformation III
Abgeleitete Merkmale
Ziel:
Erzeugung von künstlichen Merkmalen, welche die wichtigsten
Informationen der Daten effizienter als die Originalmerkmale erfassen
Vorgehen
Kombination bestehender Merkmale zu neuen, z. B.
Pro-Kopf-Umsatz = Umsatz / Kundenzahl
Marktanteil = Absatz / Marktvolumen
Ableitung neuer Merkmale aus bestehenden, z. B.
Umsatzzahlen Umsatzwachstum
Zu beachten
Domainwissen zur Abbildung nicht-trivialer Wirkungsrelationen
notwendig
Analytische Informationssysteme 62
Übungsaufgabe: Datenaufbereitung
Analytische Informationssysteme 63
Data-Mining
5 ASSOZIATIONSANALYSE
Analytische Informationssysteme 64
Was ist Assoziationsanalyse?
Analytische Informationssysteme 68
Assoziationsregeln: Lift I
Beim Data-Mining werden häufig extrem viele Assoziationsregeln
gefunden
Der Lift ist ein Maß um „interessante“ Regeln herauszufiltern
Der Lift vergleicht die Konfidenz einer Regel 𝑋𝑋 → 𝑌𝑌 mit dem erwarteten
Auftreten von 𝑌𝑌, falls keine Vorinformation vorliegt
𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾(𝑋𝑋 → 𝑌𝑌)
𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿 𝑋𝑋 → 𝑌𝑌 =
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆(𝑌𝑌)
30
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 = = 30 %
100
12
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 = = 12 %
100
5
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵, 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 = =5 %
100
𝑛𝑛( 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵, 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 ) 5
K𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 → {𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶} = = = 16,67 %
𝑛𝑛( 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 ) 30
K𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 → {𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶} 0,1667
𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 → {𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶} = = = 1,389
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 0,12
Analytische Informationssysteme 70
Apriori-Algorithmus I
Ziel
Bestimme alle Assoziationsregeln 𝑋𝑋 → 𝑌𝑌 mit
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑋𝑋 → 𝑌𝑌 ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾(𝑋𝑋 → 𝑌𝑌) ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
Herausforderung
Brute Force-Ansatz nicht praktikabel, da auf der Potenzmenge von 𝐺𝐺
operiert werden muss.
Idee
Alle Assoziationsregeln 𝑋𝑋 → 𝑌𝑌 mit denselben Item-Mengen (d. h.
𝑋𝑋 ∪ 𝑌𝑌 identisch) haben denselben Support
Finde zunächst alle häufigen Item-Mengen
Nutze dabei die Monotonie-Eigenschaft: Jede Teilmenge einer häufig
auftretenden Item-Menge muss selbst auch häufig auftreten
Analytische Informationssysteme 71
Apriori-Algorithmus II
fünf Elementen
A B C D E
{A} selten
unterlegte Mengen ABCDE
ebenfalls selten
(Grafik: Tan, Steinbach, Kumar: Introduction to Data Mining, 2004)
Analytische Informationssysteme 72
Apriori-Algorithmus III
Grundaufbau
Eingabe: Datenbank mit Transaktionen, minSupport, minKonfidenz
Ausgabe: Assoziationsregeln
Schritt 1:
Finde alle häufigen Item-Mengen mit einem Support ≥ minSupport
Schritt 2:
Generiere für jede häufige Item-Menge alle Assoziationsregeln mit einer
Konfidenz ≥ minKonfidenz
(Algorithmus nach: Agrawal, Srikant: Fast algorithms for mining association rules, 1994)
Analytische Informationssysteme 73
Apriori-Algorithmus IV
Schritt 1: Finde häufige Item-Mengen
Eingabe: Datenbank mit Transaktionen, minSupport
Ausgabe: Häufige Item-Mengen
Berechne 𝐹𝐹1 als Menge aller häufigen einelementigen Item-Mengen
𝑘𝑘 = 1
do
Generiere Kandidatenmenge 𝐹𝐹𝑘𝑘+1 aus 𝐹𝐹𝑘𝑘
Berechne Support aller Elemente aus 𝐹𝐹𝑘𝑘+1
Entferne Kandidaten mit Support < minSupport wieder aus 𝐹𝐹𝑘𝑘+1
𝑘𝑘 = 𝑘𝑘 + 1
while 𝐹𝐹𝑘𝑘 nicht leer
return Vereinigung aller Mengen 𝐹𝐹𝑖𝑖 mit 𝑖𝑖 = 1, … , 𝑘𝑘 − 1
Analytische Informationssysteme 74
Apriori-Algorithmus V
Analytische Informationssysteme 75
Apriori-Algorithmus VI
Schritt 2: Generiere Assoziationsregeln mit hoher Konfidenz
Eingabe: Menge F mit häufigen Item-Mengen, minKonfidenz
Ausgabe: Assoziationsregeln mit hoher Konfidenz
Für jedes Element 𝑍𝑍 von 𝐹𝐹:
Berechne Assoziationsregeln 𝑋𝑋 → 𝑌𝑌 mit 𝑌𝑌 = 1 und 𝑋𝑋 = 𝑍𝑍 − 𝑌𝑌
mit 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 𝑋𝑋 → 𝑌𝑌 ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
Erzeuge 𝐻𝐻1 mit den gefundenen Konklusionsmengen
𝑘𝑘 = 1
do
Generiere Kandidatenmenge Hk+1 aus Hk
∀ ℎ𝑘𝑘+1 ∈ 𝐻𝐻𝑘𝑘+1 berechne 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 Z − ℎ𝑘𝑘+1 → ℎ𝑘𝑘+1
Falls die Konfidenz zu gering: entferne ℎ𝑘𝑘+1 aus 𝐻𝐻𝑘𝑘+1
𝑘𝑘 = 𝑘𝑘 + 1
while 𝐻𝐻𝑘𝑘 nicht leer
return Vereinigung aller Mengen 𝐻𝐻𝑖𝑖 mit 𝑖𝑖 = 1, … , 𝑘𝑘 − 1
Analytische Informationssysteme 76
Apriori-Algorithmus VII
Beispiel: Berechnung häufiger Item-Mengen TID Items
minSupport = 0,5 1 Chips, Bier
Transaktionen
2 Chips, Windeln, Wurst, Käse
3 Bier, Windeln, Wurst
4 Chips, Bier, Windeln
5 Chips, Wurst, Windeln, Cola
k=3
k=1 k=2
Analytische Informationssysteme 77
Apriori-Algorithmus VIII
Beispiel: Berechnung von Assoziationsregeln mit hoher Konfidenz
minKonfidenz = 0,8
TID Items
1 Chips, Bier
2 Chips, Windeln, Wurst, Käse
3 Bier, Windeln, Wurst
4 Chips, Bier, Windeln Regel Konfidenz
Item Support
Assoziationsregeln
Häufige Item-Mengen
Analytische Informationssysteme 78
Übungsaufgabe: Assoziationsanalyse
Analytische Informationssysteme 79
Data-Mining
6 ENTSCHEIDUNGSBÄUME
Analytische Informationssysteme 80
Grundprinzip der Klassifikation
Eingabe Ausgabe
Attributmenge x Zielfunktion f Klassen-
(Datenobjekt) (Klassifikationsmodell) bezeichnung y
Analytische Informationssysteme 81
Klassifikation: Allgemeiner Ansatz
Lern-
verfahren
Induktion
Modell
erlernen
Modell
Training Set
Modell
anwenden
Deduktion
Test Set
(Angelehnt an: Tan; Steinbach; Kumar: Introduction to Data Mining, 2005)
Analytische Informationssysteme 82
Klassifikation: Anwendungsbeispiele
Klassifiziere die Kreditkartentransaktionen
als legitim oder betrügerisch
Klassifiziere die Tumorzellen als gut-
oder bösartig
Klassifiziere die E-Mail als SPAM oder HAM
Klassifiziere die Proteinstruktur als α-Helix,
β-Faltblatt oder Zufallsknäul
Ordne die Nachrichtenartikel den Klassen
„Politik“, „Finanzen“, „Unterhaltung“,
„Kultur“, „Sport“ und „Wetter“ zu
Analytische Informationssysteme 83
Klassifikationsgüte
Wahrheits-/Konfusionsmatrix für ein Zwei-Klassen-Problem (z. B. SPAM/HAM)
Vorhergesagte Klasse
positiv negativ
Tatsächliche positiv richtig positiv (rp) falsch negativ (fn)
Klasse negativ falsch positiv (fp) richtig negativ (rn)
Analytische Informationssysteme 84
Klassifikationsansätze
Entscheidungsbäume
Regelbasierte Methoden
Im Folgenden
Memory-Based-Reasoning näher betrachtet
Neuronale Netze
Naïve-Bayes-Klassifizierung
und Bayessche Netze
Support-Vektor-Machinen
…
Analytische Informationssysteme 85
Entscheidungsbäume: Definition
Ein Entscheidungsbaum ist ein geordneter, gerichteter Baum, dessen
Knoten logische Bedingungen und dessen Blätter Datenmengen
sind, die die Bedingungen des jeweiligen Pfades erfüllen. Jeder Pfad
des Baumes stellt eine Hierarchie von Entscheidungsregeln dar.
Regel1
Regel2 Regel3
Entscheidungsattribute
Status
TID Kinder Status Gehalt Betrug verheiratet ledig, geschieden
1 ja ledig 65,000 nein
nein Kinder
2 nein verheiratet 50,000 nein
3 nein ledig 35,000 nein ja nein
4 ja verheiratet 60,000 nein
nein Gehalt
5 nein geschieden 50,000 ja
< 40,000 > 40.000
6 nein verheiratet 30,000 nein
7 ja geschieden 95,000 nein nein ja
8 nein ledig 45,000 ja
9 nein verheiratet 35,000 nein Für dieselben Daten ist mehr als ein
10 nein ledig 75,000 ja
Entscheidungsbaum möglich!
10
Trainingsdaten
Analytische Informationssysteme 88
Klassifikation mit Entscheidungsbäumen I
Ent.-Baum-
Verfahren
Induktion
Ent.-Baum
erlernen
Modell
Training Set
Entscheidungs-
Ent.-Baum baum
anwenden
Deduktion
Test Set
(Angelehnt an: Tan; Steinbach; Kumar: Introduction to Data Mining, 2005)
Analytische Informationssysteme 89
Klassifikation mit Entscheidungsbäumen II
Kinder
ja nein
Klassifizierung:
nein Status
Kein Betrug
ledig, geschieden verheiratet
Gehalt nein
< 40,000 > 40.000
nein ja
Modell: Entscheidungsbaum
Analytische Informationssysteme 90
Klassifikation mit Entscheidungsbäumen I
Baum-
Verfahren
Induktion
Ent.-Bauml
erlernen
Modell
Training Set
Entscheidungs-
Ent.-Baum baum
anwenden
Deduktion
Test Set
(Angelehnt an: Tan; Steinbach; Kumar: Introduction to Data Mining, 2005)
Analytische Informationssysteme 91
Entscheidungsbaum-Algorithmen
Analytische Informationssysteme 92
Hunt-Algorithmus: Grundidee
Algorithmus Hunt-rekursiv
Eingabe: Knoten 𝑡𝑡, Menge 𝐷𝐷𝑡𝑡 der Trainingsdatensätze, die 𝑡𝑡 erreichen
Ausgabe: Entscheidungsbaum
if alle Datensätze in 𝐷𝐷𝑡𝑡 gehören zur selben Klasse 𝑦𝑦𝑡𝑡
𝑡𝑡 ist Blatt mit Kennzeichnung 𝑦𝑦𝑡𝑡
else
Wähle Attribut-Testbedingung um Datensätze in kleinere
Teilmengen zu spalten
Erzeuge einen Nachfolgerknoten für jeden Ausgang der
Testbedingung
Verteile die Datensätze in gemäß der Testbedingung an
die Nachfolgerknoten
Wende den Algorithmus rekursiv auf jeden Nachfolgerknoten an
Analytische Informationssysteme 93
Hunt-Algorithmus: Beispiel
Kinder Kinder
ja nein ja nein
Analytische Informationssysteme 94
Hunt-Algorithmus: Sonderfälle
Analytische Informationssysteme 95
Erlernen der Entscheidungsbaumstruktur
Greedy-Strategie
Teile die Datensätze aufgrund einer Attribut-
Testbedingung auf, die ein bestimmtes Kriterium
optimiert.
Offene Fragen
Wie werden die Datensätze konkret aufgeteilt?
Wie wird die Attribut-Testbedingung festgelegt?
Wie wird die beste Aufteilung bestimmt?
Wann sollte man nicht weiter aufteilen?
Analytische Informationssysteme 96
Aufteilung (Split) der Datensätze
Abhängig von den Attributtypen
Rentner
binär
ja nein
Farbe
nominal
blau gelb rot
Größe
ordinal Alter
S M L XL
stetig < 18 [18,65] > 65
Analytische Informationssysteme 97
Was ist die beste Aufteilung?
Nutzen?
Analytische Informationssysteme 98
Homogenitätsmaße I
Entropie
Gegeben:
Knoten 𝑇𝑇 mit |𝑇𝑇| Datensätzen in 𝑘𝑘 Klassen (Partitionen von 𝑇𝑇)
𝑝𝑝𝑖𝑖 = relative Anzahl der Datensätze der Klasse 𝑖𝑖 (mit 𝑖𝑖 = 1, … , 𝑘𝑘)
𝑘𝑘
Gini-Index
Gegeben:
Knoten 𝑇𝑇 mit |𝑇𝑇| Datensätzen in 𝑘𝑘 Klassen (Partitionen von 𝑇𝑇)
𝑝𝑝𝑖𝑖 = relative Anzahl der Datensätze der Klasse 𝑖𝑖 (mit 𝑖𝑖 = 1, … , 𝑘𝑘)
𝑘𝑘
Gini 𝑇𝑇 = 1 − � 𝑝𝑝𝑖𝑖2
𝑖𝑖=1
Klassifizierungsfehler
Gegeben:
Knoten 𝑇𝑇 mit |𝑇𝑇| Datensätzen in 𝑘𝑘 Klassen (Partitionen von 𝑇𝑇)
𝑝𝑝𝑖𝑖 = relative Anzahl der Datensätze der Klasse 𝑖𝑖 (mit 𝑖𝑖 = 1, … , 𝑘𝑘)
Klassifizierungsfehler 𝑇𝑇 = 1 − max{𝑝𝑝𝑖𝑖 }
Entropie
Unreinheit
Impurity
Gini-Index
Klassifikationsfehler
𝑚𝑚
𝑇𝑇𝑖𝑖
Information Gain = 𝐻𝐻 𝑇𝑇 − � 𝐻𝐻(𝑇𝑇𝑖𝑖 )
𝑇𝑇
𝑖𝑖=1
Knoten T1 Knoten T2
K1 6 K1 4
K2 4 K2 6
2 2
6 4
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑇𝑇1 =1− − = 0,48
10 10
2 2
4 6
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑇𝑇2 =1− − = 0,48
zu minimieren 10 10
um IG zu 10 10
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 = � 0,48 + � 0,48 = 0,48
maximieren 20 20
K2 3 K2 0 K2 7
2 2
1 3
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑇𝑇1 =1− − = 0,375
4 4
2 2
8 0
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑇𝑇2 =1− − =0
8 8
2 2
1 7
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑇𝑇3 =1− − = 0,219
zu minimieren 8 8
um IG zu 4 8 8
maximieren 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 = � 0,375 + �0+ � 0,219 = 0,1625
20 20 20