Sie sind auf Seite 1von 110

Analytische Informationssysteme

Data-Mining
Themenübersicht

Einführung

Datenmanagement und Reporting

Data Mining

Modellbildung

Spezielle Methoden: Überblick zu weiteren Methoden

Programmierung

Ethik

Organisation

Analytische Informationssysteme 2
Themenübersicht

Einführung

Datenmanagement und Reporting

Data Mining

Modellbildung

Spezielle Methoden: Überblick zu weiteren Methoden

Programmierung

Ethik

Organisation

Analytische Informationssysteme 3
Agenda Data Mining

1 Motivation
2 Grundlagen
3 Der Data-Mining-Prozess
4 Datenaufbereitung
5 Assoziationsanalyse
6 Entscheidungsbäume

Analytische Informationssysteme 4
Data-Mining

1 MOTIVATION

Analytische Informationssysteme 5
Data-Mining

„Wir ertrinken in
Information und sind
hungrig nach Wissen“
R. R. Rogers

Analytische Informationssysteme 6
Data-Mining: Ausgangslage

„Aktivitäten erzeugen Daten. Und Daten werden gesammelt.“

 Zunehmender Datenreichtum
 Durch die umfassende Digitalisierung werden immer mehr Daten
erzeugt und automatisiert erfasst.
 Die dauerhafte Speicherung großer Datenmengen wird immer
preiswerter.
 Sehr umfangreiche Datensammlungen entstehen.
 Herausforderungen
 Manuelle Sichtung und Auswertung der Daten unmöglich.
 Genauer Umfang und Struktur der Daten nicht immer vollständig
bekannt.
 Ansatzpunkte zur Auswertung der Daten häufig unklar oder sogar
unbekannt.
Analytische Informationssysteme 7
Daten als Kapital

 Wunsch: Nutzung der vorhandenen „Datenschätze“ zur


 Optimierung vorhandener Geschäftsprozesse
 Entwicklung neuer Geschäftsbereiche
 Voraussetzung: (Semi-) Automatisierte Gewinnung von
Erkenntnissen aus (großen) Datenbeständen
 Dafür benötigt:
 Neue Ansätze der Modellbildung (bottom-up)
 Nutzung von Methoden aus verschiedenen Fachdisziplinen
 Geeignete Datenanalysesoftware
 Speziell ausgebildetes Personal („Data Scientists“)

Analytische Informationssysteme 8
Bedeutende Datenquellen
 Unternehmen
 Operative Systeme (ERP, CRM, SCM, …)
 Kommunikationssysteme (Telefon, E-Mail, …)
 Dokumente (Produktbeschreibungen, Verträge, Patente, …)
 Internet
 Informationsportale
 Webshops
 Soziale Netzwerke
 Sensordaten
 Industrie
 Forschung
 Internet der Dinge
 Mobiltelefone
Analytische Informationssysteme 9
Data-Mining: Anwendungsbeispiele I

Responseanalyse
Ziel(e) • Auswahl von Kunden, die für bestimmte
Werbeaktionen besonders geeignet sind
Nutzenpotential • Reduzierung der Kosten bei gleichzeitiger
Effektivitätssteigerung
• Erhöhte Kundenbindung durch weniger und
besser passende Werbung
Daten • Bisheriges Kaufverhalten
• Soziodemographische Daten
• Daten aus sozialen Netzwerken

Analytische Informationssysteme 10
Data-Mining: Anwendungsbeispiele II

Analyse des Webauftritts


Ziel(e) • Optimierung des Informationsangebots, der
Informationsstruktur und der
Informationsdarstellung
• Gezieltere Interessentenführung
Nutzenpotential • Erhöhung der Verkaufszahlen/Kontaktaufnahmen
• Stärkere Kundenbindung
Daten • Log- und Tracking-Daten
• Blickbewegungen, Mauszeigerbewegungen
• Click-Streams

Analytische Informationssysteme 11
Data-Mining: Anwendungsbeispiele III

Bonitätsanalyse
Ziel(e) • Erkennung von zahlungsunfähigen oder –
unwilligen Kunden
Nutzenpotential • Vermeidung von Zahlungsausfällen
• Bereinigung des Kundenbestands
Daten • Personenbezogene Daten (Einkommen, Besitz,
Ausbildung, Alter, Wohnort usw.)
• Bisheriges Zahlungsverhalten

Analytische Informationssysteme 12
Data-Mining: Anwendungsbeispiele IV

Semantische Analyse von Texten


Ziel(e) • Automatische inhaltliche Auswertung von Texten
Nutzenpotential • Verbesserte Recherchemöglichkeiten
• Optimierte Suchmaschinen
• Sentiment Analysis
Daten • Dokumentenbestände (z. B. Patentdatenbank,
Gesetzestexte, Wartungshandbücher,
Literatursammlungen)
• Informationen aus Websites
• Texte aus sozialen Netzwerken

Analytische Informationssysteme 13
Data-Mining: Anwendungsbeispiele V

Verbrechensbekämpfung
Ziel(e) • Erkennung von Vorgehensmustern bei Straftaten
• Erkennung und Prognose von Gefährdungslagen
Nutzenpotential • Optimierung des Einsatzes von Polizeikräften
• Aufdeckung von Zusammenhängen bei Straftaten
• Bekämpfung von Wirtschaftskriminalität/
Geldwäsche
• Identifikation von terroristischen Zellen
Daten • Detailinformationen über vergangene Straftaten
• Überwachungsdaten (z. B. Videokameras,
Telekommunikation, Kontobewegungen)

Analytische Informationssysteme 14
Weitere Anwendungsfälle

Zahlreiche weitere Anwendungsfälle finden sich im Buch


“Predictive Analytics” von Eric Siegel. Er beschreibt dort
182 Mini-Fallstudien aus den Bereichen:
 Familie und Privatleben
 Marketing, Werbung und Web
 Finanzen und Versicherungen
 Gesundheitswesen
 Verbrechensbekämpfung und Betrugserkennung
 Fehlererkennung, Sicherheit, Logistik
 Verwaltung, Politik, Bildung
 Verständnis natürlicher Sprache, Psychologie
 Personalwesen

Analytische Informationssysteme 15
Data-Mining

2 GRUNDLAGEN

Analytische Informationssysteme 16
Der Begriff Data-Mining I

„Data Mining ist das semi-automatische Aufdecken von


Mustern mittels Datenanalyse-Verfahren in meist sehr großen
und hochdimensionalen Datenbeständen.“
Müller, Lenz: Business Intelligence, 2013

Analytische Informationssysteme 17
Der Begriff Data-Mining II

„Data Mining bezeichnet den Prozess zur effizienten


Erforschung und Analyse großer Datenmengen durch
halbautomatische Verfahren im Hinblick auf noch nicht
bekannte, wertvolle und verwendbare Muster und Regeln.“
Berry, Linoff: Data Mining Techniques for Customer Support, 1997

Analytische Informationssysteme 18
Der Begriff Data-Mining III

Als Data Mining bezeichnet man die softwaregestützte


Ermittlung bisher unbekannter Zusammenhänge, Muster und
Trends aus dem Datenbestand sehr großer Datenbanken
beziehungsweise des Data Warehouse. Dabei kann der
Benutzer bestimmte Ziele vorgeben, für die das System
angemessene Beurteilungskriterien ableitet und damit die
Datenobjekte der Datenbank(en) analysiert.
Hansen, Neumann: Wirtschaftsinformatik 1, Grundlagen und Anwendungen, 2005

Analytische Informationssysteme 19
Der Begriff Data-Mining IV

Data Mining ist der Gesamtprozess der Identifikation und Präsentation von
bisher unbekannten Mustern in (großen) Datenbeständen, und zwar:
 autonom mittels allgemein verwendbarer, effizienter Verfahren, die
auf methodischen Ansätzen aus
 Statistik,
 Künstlicher Intelligenz,
 Maschinellem Lernen,
 Mustererkennung
basieren und
 ohne vom Anwender a priori Hypothesen zu fordern.

(nach Petersohn: Data Mining: Verfahren, Prozesse, Anwendungsarchitektur, 2005)

Analytische Informationssysteme 20
Der Begriff Data-Mining V

Es existieren weitere Definitionen, die sich vor allem in


folgenden Aspekten unterscheiden:
 Weite des Begriffs:
 Berücksichtigung des Gesamtprozesses der Wissensgewinnung oder
 Fokus auf das eigentlich Analyse-/Lernverfahren
 Abgrenzung zu anderen Disziplinen, insbesondere:
 Statistik
 Künstliche Intelligenz/Machine Learning
 Business Intelligence
 Betonung der eingesetzten Methoden oder verwendeten
Software

Analytische Informationssysteme 21
Data-Mining und DWH

Data-Warehouses (DWH) bilden eine gute Basis für Data-Mining


im Business Intelligence Umfeld:
 DWH integrieren viele relevante Unternehmensdaten
 Daten im DWH sind bereits konsolidiert und
qualitätsgesichert:
 vollständig
 vereinheitlicht
 geprüft
 bereinigt
Dennoch sind meist weitere Datenvorverarbeitungsschritte
notwendig.
Analytische Informationssysteme 22
Grundformen des Data Mining
 Mustererkennung
 Welche Ähnlichkeiten
weisen die Daten auf?
Daten Analyseverfahren Muster
 Welche Strukturen Achtung: Modellbegriff
wiederholen sich? weicht etwas ab von der
Historische
Daten Lerneinheit „Modellbildung“
 Prognose
1. Modellgenerierung auf Basis
historischer Daten und Analyse- Modell
bekannter Ergebnisse der Bekannte verfahren
Zielvariablen Ergebnisse
2. Anwendung des Modells
auf neue Daten zur Vor-
hersage der Zielvariablen Neue Modell Prognose
Daten
Analytische Informationssysteme 23
Aufgabenstellungen des Data Mining I

Grundlegende Aufgaben des Data Mining:

• Clusteranalyse
• Assoziationsanalyse
• Abweichungsanalyse Mustererkennung
• Hauptkomponentenanalyse
• Sequenzanalyse

• Klassifikation
Prognose
• Regressionsanalyse

Analytische Informationssysteme 24
Aufgabenstellungen des Data Mining II
 Clusteranalyse
 Idee: Identifikation von Gruppierungen/Clustern innerhalb der Daten

 Beispiel: Kundensegmentierung

 Assoziationsanalyse
 Idee: Analyse der Häufigkeit des gleichzeitigen Auftretens von
Objekten oder Ereignissen
{ Steaks, Holzkohle }  { Bier }

 Beispiel: Warenkorbanalysen
Analytische Informationssysteme 25
Aufgabenstellungen des Data Mining III
 Abweichungsanalyse
 Idee: Identifizierung von ungewöhnlichen Datensätzen

 Beispiele: Entdeckung betrügerischer Transaktionen, Eingabefehlern


 Hauptkomponentenanalyse
 Idee: Reduktion des Datensatzes auf eine kompaktere Beschreibung

F1
F2

 Beispiele: Modellvereinfachung, Identifizierung latenter Variablen


Analytische Informationssysteme 26
Aufgabenstellungen des Data Mining IV
 Sequenzanalyse
 Idee: Identifizierungen von Mustern in zeitlich aufeinander folgenden
Ereignissen

C A B C

 Beispiele: Klickverhalten auf Websites

 Klassifikation
 Idee: Zuordnung bisher unbekannter Objekte zu bestehenden Klassen
oder Gruppen

 Beispiele: Einteilung in Bonitätsklassen, Identifizierung von Spam


Analytische Informationssysteme 27
Aufgabenstellungen des Data Mining V
 Regressionsanalyse
 Idee: Identifizierungen von Beziehungen zwischen abhängigen und
unabhängigen Variablen

Abhängige Variable

Unabhängige Variable ?

 Beispiele: Bestimmung von Hauspreisen, Zusammenhang von


Produktabsatz und Marketingmaßnahme

Analytische Informationssysteme 28
Lernen: überwacht und unüberwacht I

 Unüberwachtes Lernen (unsupervised learning)


 Lernen aus Daten ohne im Voraus X1 X2 … Xn
bekannte Zielwerte
 Erkennung von Datenmustern, die
vom strukturlosen Rauschen abweichen
 Grundlage sind häufig statistische
Methoden und Ähnlichkeitsmaße
 Überwachtes Lernen (supervised learning)
 Lernen aus Daten mit bekannten Zielwerten
X1 X2 … Xn Y
 Entwicklung eines Modells zur Prognose
der Zielwerte +
 Beim Lernen wird der Fehler zwischen
den gegebenen Zielwerten und den
Prognosen verringert
Analytische Informationssysteme 29
Eingabedaten I
 Strukturierte Daten Produkt
 Beschreibung von Entitäten mit klar Name Preis Gewicht …
definierten Attributen Steak 4,90 € 400 g …
 Beispiele: Datenbank-Tabellen,
Äpfel 3,50 € 1000 g …
Tabellenkalkulation
 Mengen
 Mengen und Multimengen von { Bier, Chips }
{ Möhren, Äpfel, Salat }
zusammen auftretenden Objekten
{ Pralinen, Sekt }
 Beispiel: Warenkörbe
 Sequenzen
Home Politik
 Daten mit linearer Ordnungsstruktur
 Beispiel: Klickpfad in einer Website News Sport

Analytische Informationssysteme 30
Eingabedaten II
 Zeitreihen
 Zeitlich geordnete Datenfolgen mit

Umsatz
zugehörigem Mess-, Beobachtungs-
oder Zählzeitpunkt
 Beispiele: Umsatzzahlen, Börsenkurse Quartale

 Text Schlagwort: Milch mit dem Mehl gut ver-


Text-Mining rühren und die Eier dazu-
 Wenig strukturierte, geben. Salz, Zucker und
natürlichsprachliche Dokumente einen EL Öl dazugeben und
nochmal kräftig verrühren …
 Beispiele: Produktbeschreibungen, E-Mails
 Semistrukturierte Daten Schlagwort: <Zutat menge=“500 ml“>
 Textuelle Daten mit Struk- Web-Mining Milch
turregeln/-elementen (Tags) </Zutat>
<Zutat menge=“300 g“>
 Beispiele: XML, Log-Dateien, Mehl
Datenaustauschformate </Zutat>
Analytische Informationssysteme 31
Eingabedaten III
 Graphen Lea
 Repräsentation von Daten als Mia
Ole Ben
Knoten und verbindende Kanten
 Beispiele: Soziale Netzwerke, Jan Pia
Prozess-Graphen Schlagwort:
 Geo-Daten Process-Mining
 Geographische Position von Objekten
wie Kunden, Läden, Fahrzeugen
 Beispiele: Adressdaten, Positionsdaten
 Bilder, Audio, Video
 Statische oder dynamische visuelle Daten,
auditive Daten sowie Kombinationen von beidem
 Beispiele: Gesichtserkennung, Spracherkennung

Analytische Informationssysteme 32
Data-Mining

3 DER DATA-MINING-PROZESS

Analytische Informationssysteme 33
Der KDD-Prozess I

Knowledge Discovery in Databases (KDD)


(nach Fayyad, Piatetsky-Shapiro und Smyth, 1996)

(Graphik: https://behavior.lbl.gov/?q=node/11)

Analytische Informationssysteme 34
Der KDD-Prozess II
1. Selektion
Auswahl der für die Fragestellung relevanten Daten
2. Vorverarbeitung (Preprocessing)
Sicherung der Datenqualität, z. B. Behandlung fehlender Werte,
Erkennen von Dubletten, Identifikation von Ausreißern, Korrektur
fehlerhafter Werte
3. Transformation
Umwandlung in eine für das Data Mining geeignete Darstellungsform,
z. B. durch Skalierung oder Transformation in andere Datentypen
4. Data-Mining
Anwendung des gewählten Data-Mining-Algorithmus zur
Mustererkennung oder Modellgenerierung
5. Evaluation
Interpretation und Bewertung der Analyseergebnisse. Beurteilung der
entdeckten Zusammenhänge, ihrer Auswirkungen und Einsetzbarkeit
Analytische Informationssysteme 35
Der KDD-Prozess III

 Der KDD-Prozess hat eine sehr enge Sichtweise auf das Data-Mining
(nur Schritt 4).
 Der KDD-Prozess fokussiert auf die technischen Aspekte des
Analyseprozesses. Der zielgebende und für die Bewertung zentrale
Anwendungskontext/Geschäftskontext wird nicht explizit adressiert.
 Alternative Ansätze
 SEMMA (Sample, Explore, Modify, Model, Assess) vom SAS Institut,
entwickelt als Leitfaden zur Implementierung von Data-Mining-
Anwendungen. Fokus auch eher technisch und produktbezogen.
 CRISP-DM: Im Rahmen eines EU-Projekts von 1996-99 entwickelter
umfassender, industrieübergreifender Standard-Data-Mining-
Prozess.

Analytische Informationssysteme 36
CRISP-DM I

 Cross-Industry Standard
Process for Data-Mining
 Gründung einer Special
Interests Group (mehr
als 200 Mitglieder
weltweit)
 Informationen unter
www.crisp-dm.org

(Graphik: http://crisp-dm.eu/reference-model)

Analytische Informationssysteme 37
CRISP-DM II
 Phase 1: Business Understanding
 Geschäftsziele festlegen
 Beispiel: Abwanderung von Kunden verhindern
 Geschäftliche Erfolgskriterien, etwa Abwanderungsquote -10 %
 Situation bewerten
 Ressourcen: Personal, Datenbestand, Rechenleistung, Software
 Anforderungen, Annahmen, Einschränkungen
 Chancen und Risiken, Wirtschaftlichkeitsanalyse
 Terminologie (Glossar der Geschäfts- und Data-Mining-Begriffe)
 Data-Mining-Ziele festlegen
 Beispiel: 70 % der Abwanderer erkennen bei 20 % Fehlalarmen
 Projektplan erstellen
 Meilensteine, Werkzeugauswahl, Methodenwahl
Analytische Informationssysteme 38
CRISP-DM III
 Phase 2: Data Understanding
 Initiale Datensammlung
 Datenquellen bestimmen
 Zugriffsmethoden festlegen
 Datenbeschreibung
 Metadaten (Attribute, Typen, Werte, Formate, Mengen)
 Explorative Datenanalyse
 Beispiele analysieren
 Einfache statistische Analysen (z. B. Verteilungen, ausgewählte
Korrelationen, einfache Aggregationen)
 Visualisierung von Zusammenhängen
 Überprüfung der Datenqualität
 Vollständigkeit der Daten, fehlender Werte, fehlerhafte Wert usw.

Analytische Informationssysteme 39
CRISP-DM IV
 Phase 3: Data Preparation
 Datenauswahl
 Auswahl relevanter Attribute, Sampling
 Datenbereinigung
 Ausreißer, fehlende und inkorrekte Werte behandeln
 Datenkonstruktion
 Abgeleitete Attribute, generierte Datensätze
 Datenintegration
 Daten aus verschiedenen Quellen (z. B. Tabellen) kombinieren
 Aggregation von Daten
 Datentransformation und –formatierung
 Transformation, z. B. Anpassung verwendeter Werte, Skalierung
 Formatierung, z. B. Datentypen, Zeitformate
Analytische Informationssysteme 40
CRISP-DM V
 Phase 4: Modeling
 Auswahl der Modellierungstechnik
 Festlegung der konkreten Data-Mining-Methode
 Modellannahmen treffen
 Entwurf des Testdesigns
 Vorgehen zur Bestimmung der Modellgüte
 Aufteilung der Daten in Trainings-, Test- und Validierungsdaten
 Modellbildung
 Generierung des Modells
 Begründung der gewählten Parametrisierung
 Modellbewertung
 Bestimmung der erreichten Modellgüte
 Gegebenenfalls Wiederholung/Anpassung der vorigen Schritte
Analytische Informationssysteme 41
CRISP-DM VI
 Phase 5: Evaluation
 Bewertung der Ergebnisse
 Beurteilung der Ergebnisse aus Geschäftssicht
 Abnahme des Data-Mining-Modells
 Prozessrevision
 Bewertung des Vorgehens
 Wurden Aspekte übersehen?
 Müssen Prozessschritte wiederholt werden?
 Festlegung des weiteren Vorgehens
 Liste möglicher nächster Schritte (mit Vor- und Nachteilen)
 Entscheidung über Nutzung der Ergebnisse

Analytische Informationssysteme 42
CRISP-DM VII
 Phase 6: Deployment
 Verwendungskonzeption
 Planung zur Einführung des Data-Mining-Modells
 Planung des Monitoring und der Wartung
 Konzept und Arbeitsschritte zur Überwachung und Wartung des
eingesetzten Data-Mining-Modells
 Erstellung des Abschlussberichts
 Zusammenfassender Bericht aller Ergebnisse
 Gegebenenfalls Abschlusspräsentation
 Projektrückblick
 Dokumentation der gesammelten Erfahrungen
(erfolgreiche Ansätze, potentielle Fallgruben usw.)

Analytische Informationssysteme 43
Voraussetzungen für Data-Mining I

Für welche Probleme eignet sich Data-Mining besonders?

Es sind genügend Komplexe, wissens-


relevante Daten basierte Entscheidung
vorhanden? notwendig?

Problem

Problem wird bislang mit Richtige Entscheidung


sub-optimalen Methoden erzeugt einen nennes-
gelöst? werten Mehrwert?

Analytische Informationssysteme 44
Voraussetzungen für Data-Mining II

Welche Annahmen müssen beim Data-Mining gegeben sein?

Die vorhandenen Daten Muster der Vergangen-


dürfen tatsächlich heit sind auch in Zukunft
ausgewertet werden noch gültig

Data-Mining

Die Qualität der Die Daten enthalten das,


vorliegenden Daten ist was man prognosti-
ausreichend hoch zieren will

Analytische Informationssysteme 45
Data-Mining

4 DATENAUFBEREITUNG

Analytische Informationssysteme 46
Fragen der Datenaufbereitung

 Daten über mehrere Quellen verteilt?


 Datenintegration Bereits in früheren
 Qualität der Daten ungenügend? Lerneinheiten
behandelt
 Datenbereinigung (data cleansing)
 Behandlung fehlender Werte
 Datenmenge zu groß für Analyse (Performanzprobleme)?
 Zu viele Datensätze?
 Stichproben ziehen (sampling)
 Daten aggregieren
 Zu viele Attribute/Variablen?  Dimensionsreduzierung
 Form der Daten nicht optimal für Analyse?
 Datentransformation
Analytische Informationssysteme 47
Behandlung fehlender Werte

 Problem
 Daten aus operativen Systemen häufig lückenhaft
 Vollständige Datensätze für viele Data-Mining-Methoden
notwendig
 Ansätze
 Ausschluss unvollständiger Datensätze
 Ausschluss unvollständiger Attribute/Variablen
 Fehlende Werte ersetzen (imputation)
 Spezielle Kodierung fehlender Werte

Analytische Informationssysteme 48
Datenausschluss

 Ausschluss von Beobachtungen (Datensätzen/Tabellenzeilen)


 Mögliche Probleme
 Datenmenge kann erheblich sinken
 Unkontrollierte Verzerrung der Daten, falls fehlende Werte
systematische Ursachen haben
 Beispiele: Fehlende Werte bei Gehaltsangaben, Telefonnummern,
Social-Media-Daten
 Ausschluss von Merkmalen (Attributen/Tabellenspalten)
 Mögliche Probleme:
 Gelöschtes Attribut könnte wichtige Modellvariable sein
 Die Nicht-Angabe von Werten kann selbst informativ sein
 Beispiel: Angabe von Produktinteressen selten, aber wertvoll

Analytische Informationssysteme 49
Fehlende Werte ersetzen

 Idee: Einsetzen plausibler Werte


 Vorgehen
 Einfache Ansätze
 Mittelwert
 Median
 Modalwert
 Individuelle Schätzwerte
 Anspruchsvollere Ansätze
 Statistische Verfahren
 Nutzung der Korrelation zwischen den Attributen
 Vorhersage mit Data-Mining-Methoden (z. B. Regressionsanalyse,
Clusteranalyse, Entscheidungsbäume)

Analytische Informationssysteme 50
Fehlende Werte ersetzen: Beispiel

(Quelle: H. Petersohn: Data Mining: Verfahren, Methoden, Anwendungsarchitektur, 2005)


Analytische Informationssysteme 51
Datenreduktion: Stichproben
 Ziele
 Reduktion der Datenmenge auf ein handhabbares Maß
 Aspekte
 Repräsentativität: Erhaltung der Zu-
sammenhänge der Grundgesamtheit
 Stichprobengröße
 Auswahl
 Zufallsauswahl
 ein-/mehrstufig
 geschichtet
 Bewusste Auswahl (Grafik: https://faculty.elgin.edu/dkernler/statistics/ch01/1-4.html)

 Spezialfall: Stichproben für Trainings-, Test- und


Validierungsdaten
Analytische Informationssysteme 52
Beispiel: Stichprobengröße
 Bleiben die Zusammenhänge erhalten?

8000 Punkte 2000 Punkte 500 Punkte

 Wie groß muss die Stichprobe sein,


um aus zehn gleichgroßen Gruppen
jeweils mindestens einen Repräsen-
tanten zu erhalten?

(Grafiken: Tan, Steinbach, Kumar: Introduction to Data Mining, 2004)

Analytische Informationssysteme 53
Umgang mit seltenen Ereignissen
 Interesse an seltenen Ereignissen (z. B. Identifikation von betrügerischen
Transaktionen oder Phishing-E-Mails)
 Starkes Ungleichgewicht von interessanten/uninteressanten Datensätzen
 Data-Mining-Algorithmen erkennen relevante Informationen häufig nicht
 Beispiel: Bonitätsanalyse
Schlechte
Zahler:
Trainingsdaten: 3.000 97 %
Modell: korrekte
100.000
Alle Kunden Prognosen!
Kunden Gute
zahlen gut
Zahler:
97.000
 Lösungsansatz:
 Einsatz geschichteter Stichproben
 Anpassung der Gütemaße
Analytische Informationssysteme 54
Datenaggregation I

Datenaggregation (Verdichtung/Konsolidierung) ist die


Zusammenfassung von Fakten zu einem einzigen Fakt.
Ziele
 Reduzierung der Datenmenge
 weniger Datensätze oder Attribute
 Skalenanpassung
 z. B. von Filialen zu Städten, Regionen, Ländern; Zeitrastervergröberung
 Vereinheitlichung bei verschiedenen Datenquellen
(z. B. bei externen Datenquellen)
 „Stabilere“ Daten
 Aggregierte Daten schwanken meist weniger
(geringere Varianz/Standardabweichung)

Analytische Informationssysteme 55
Datenaggregation II
 Voraussetzungen
 Überlappungsfreiheit der Zuordnung
 Jedes Datenobjekt wird nur einer Aggregationsklasse zugeordnet
 Vollständigkeit der Zerlegung
 Jedes Datenobjekt wird einer Aggregationsklasse zugeordnet
 Typverträglichkeit von Fakt und Aggregationsfunktion
 Typische Aggregationsfunktionen:
 Summierung: z. B. Umsatz, Kaufanzahl
 Mittelwertbildung: z. B. Umsatz oder Lagerbestand pro Monat
 Abwägung
 Überwiegen die Vorteile den Verlust an DetailIinformationen?
 Keine Intraklassenvarianz
 Individuelles Verhalten nicht mehr analysierbar

Analytische Informationssysteme 56
Dimensionsreduzierung I
Bei steigender Anzahl der Dimensionen (Datenattribute):
 wächst der Datenraum exponentiell
„Fluch der
 besetzen die vorliegenden Daten den Datenraum Dimensionalität“
immer spärlicher
 steigt der Abstand zwischen den Datenpunkten
 wird das Erkennen von Zusammenhängen schwieriger

Beispiel:
 Generiere zufällig 500 Punkte
 Berechne maximalen und minimalen
Punktabstand
 Setze die Differenz beider Abstände
ins Verhältnis
(Grafik: Tan, Steinbach, Kumar:
Introduction to Data Mining, 2004)

Analytische Informationssysteme 57
Dimensionsreduzierung II

 Ziele
 Vermeide „Fluch der Dimensionalität“
 Reduziere Datenmenge  beschleunige Analyseverfahren
 Erleichtere die Visualisierung
 Eliminiere unwichtige Attribute/reduziere Rauschen
 Methoden:
 Hauptkomponentenanalyse (Principal Component Analysis, PCA)
 Faktorenanalyse
 Weitere statistische oder Data-Mining-Methoden

Analytische Informationssysteme 58
Dimensionsreduzierung III

Grundprinzip
 Reduziere Dimensionen bei minimalem Informationsverlust
 Schließe offensichtlich überflüssige Merkmale aus (soweit möglich)
 Korrelierte Merkmale bedeuten redundante Informationen
 entferne Merkmale oder bilde Linearkombinationen
 Herausforderung: Interpretation der künstlichen Variablen

x2
e

x1
Analytische Informationssysteme 59
Datentransformation I
Skalentransformation
 Ziele
 Reduzierung der Modellkomplexität
 Erfüllung von Modellvoraussetzungen
(für bestimmte Data-Mining-Algorithmen)
 Vorgehen
 Überführung in niedrigeres Skalenniveau
(z. B. Verhältnisskala  Ordinalskala)
 Klassenbildung (Clustering)
 Kodierung nicht formatierter Werte (z. B. Freitext)
 Zu beachten
 Informationsverlust

Analytische Informationssysteme 60
Datentransformation II
Normierung
 Ziele
 Bessere Vergleichbarkeit
 Vereinfachte Berechnung
 Erfüllung von Modellvoraussetzungen
(für bestimmte Data-Mining-Algorithmen)
 Vorgehen
 Normalisierung der Werte (z. B. auf einen Wertebereich [0, 1])
 Abbildung durch mathematische Funktionen (z. B. log, exp, Wurzel)
 Anpassung von
 Lagemaßen (z. B. Mittelwert)
 Streumaßen (z. B. Standardabweichung)

Analytische Informationssysteme 61
Datentransformation III
Abgeleitete Merkmale
 Ziel:
Erzeugung von künstlichen Merkmalen, welche die wichtigsten
Informationen der Daten effizienter als die Originalmerkmale erfassen
 Vorgehen
 Kombination bestehender Merkmale zu neuen, z. B.
 Pro-Kopf-Umsatz = Umsatz / Kundenzahl
 Marktanteil = Absatz / Marktvolumen
 Ableitung neuer Merkmale aus bestehenden, z. B.
 Umsatzzahlen  Umsatzwachstum
 Zu beachten
 Domainwissen zur Abbildung nicht-trivialer Wirkungsrelationen
notwendig
Analytische Informationssysteme 62
Übungsaufgabe: Datenaufbereitung

Bearbeiten Sie Aufgabe 1 des Übungsblatts

Analytische Informationssysteme 63
Data-Mining

5 ASSOZIATIONSANALYSE

Analytische Informationssysteme 64
Was ist Assoziationsanalyse?

Assoziationsanalyse ist ein Verfahren zur Aufdeckung


einer „informativen“ Menge von Abhängigkeiten (engl.
Associations) zwischen Objekten der Form X → Y,
d. h. „wenn X dann wahrscheinlich auch Y“.
Müller, Lenz: Business Intelligence, 2013

 Assoziationsregeln X → Y beschreiben Zusammenhänge


zwischen gemeinsam auftretenden Merkmalsausprägungen
 Beispiel Warenkorbanalyse:
 Fragestellung: Welche Produkte werden häufig zusammen gekauft?
 Anwendungsbeispiele:
 Cross-Selling: Digitalkamera → Speicherkarte
 Empfehlungsdienste (z. B. Musik): „Yesterday“ → „Get Back“
 Analyse von Log-Dateien, Text-Mining, …
Analytische Informationssysteme 65
Assoziationsanalyse: Grundbegriffe I
 Items 𝑮𝑮 TID Items
Grundgesamtheit 𝐺𝐺 von Bezeichnern 1 Chips, Bier
(z. B. Produktnamen, Artikelnummern) 2 Chips, Windeln, Wurst, Käse
 Item-Menge 𝑿𝑿 3 Bier, Windeln, Wurst
Nicht-leere Teilmenge 𝑋𝑋 ⊆ 𝐺𝐺 4 Chips, Bier, Windeln
 𝒌𝒌-Item-Menge 5 Chips, Wurst, Windeln, Cola
Item-Menge mit 𝑘𝑘 Elementen (𝑘𝑘 ≥ 1)
 Datenbank/Datenbasis 𝑫𝑫
Menge 𝐷𝐷 von Item-Mengen (Transaktionen),
die Anzahl der Transaktionen ist 𝐷𝐷
 Absolute Häufigkeit 𝒏𝒏(𝑿𝑿)
Anzahl der Item-Menge 𝑋𝑋 in der Datenbank 𝐷𝐷
 Support (“Reichweite”) 𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺 𝑿𝑿 𝑛𝑛(𝑋𝑋)
Relativer Anteil der Item-Menge bezüglich der 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑋𝑋 =
|𝐷𝐷|
Gesamtmenge der Transaktionen
Analytische Informationssysteme 66
Assoziationsanalyse: Grundbegriffe II
 Häufige Item-Menge (frequent itemset) TID Items
Item-Menge, deren Support größer oder 1 Chips, Bier
gleich einer Schranke 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 ist 2 Chips, Windeln, Wurst, Käse
 Assoziationsregeln 3 Bier, Windeln, Wurst
Implikation der Form 𝑋𝑋 → 𝑌𝑌. Dabei sind 4 Chips, Bier, Windeln
𝑋𝑋 und 𝑌𝑌 Item-Mengen, die keine
5 Chips, Wurst, Windeln, Cola
gleichen Items enthalten (𝑋𝑋 ∩ 𝑌𝑌 = ∅).
 Support einer Assoziationsregel
Relative Häufigkeit der
Transaktionsmenge 𝑋𝑋 ∪ 𝑌𝑌 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑋𝑋 → 𝑌𝑌 = 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆(𝑋𝑋 ∪ 𝑌𝑌)
 Konfidenz (“Treffsicherheit”) einer Assoziationsregel
Misst bei einer Assoziationsregel
𝑋𝑋 → 𝑌𝑌, wie häufig 𝑌𝑌 in allen 𝑛𝑛(𝑋𝑋 ∪ 𝑌𝑌)
𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 𝑋𝑋 → 𝑌𝑌 =
Transaktionen auftritt, die 𝑋𝑋 𝑛𝑛(𝑋𝑋)
bereits enthalten.
Analytische Informationssysteme 67
Deutung von Assoziationsregeln

 Die Konfidenz einer Regel 𝑋𝑋 → 𝑌𝑌 ist eine Abschätzung der


bedingten Wahrscheinlichkeit 𝑷𝑷 𝒀𝒀 𝑿𝑿
 Assoziationsregeln implizieren nicht zwingend Kausalität
 Vier Arten von Abhängigkeiten
 𝑋𝑋 beeinflusst 𝑌𝑌 (direkt oder indirekt) kausal
 𝑌𝑌 beeinflusst X (direkt oder indirekt) kausal
 Es gibt eine gemeinsame Ursache, die sowohl 𝑋𝑋 als auch 𝑌𝑌
beeinflussen
 Es ist nur Zufall, dass die Regel besteht

Analytische Informationssysteme 68
Assoziationsregeln: Lift I
 Beim Data-Mining werden häufig extrem viele Assoziationsregeln
gefunden
 Der Lift ist ein Maß um „interessante“ Regeln herauszufiltern
 Der Lift vergleicht die Konfidenz einer Regel 𝑋𝑋 → 𝑌𝑌 mit dem erwarteten
Auftreten von 𝑌𝑌, falls keine Vorinformation vorliegt

𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾(𝑋𝑋 → 𝑌𝑌)
𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿 𝑋𝑋 → 𝑌𝑌 =
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆(𝑌𝑌)

 Statistisch ist der Lift der Quotient der geschätzten bedingten


Wahrscheinlichkeit und der geschätzten marginalen Wahrscheinlichkeit

𝑃𝑃(𝑌𝑌|𝑋𝑋)
𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿 𝑋𝑋 → 𝑌𝑌 =

𝑃𝑃(𝑌𝑌)

 „Interessant“ sind Regeln mit einem möglichst großen Lift (> 1)


Analytische Informationssysteme 69
Assoziationsregeln: Lift II
Rechenbeispiel:
𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 → {𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶}
Alle Trans-
𝑛𝑛 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 = 12 aktionen (=100)

𝑛𝑛 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵, 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 =5 𝑛𝑛 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 = 30

30
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 = = 30 %
100
12
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 = = 12 %
100
5
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵, 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 = =5 %
100
𝑛𝑛( 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵, 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 ) 5
K𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 → {𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶} = = = 16,67 %
𝑛𝑛( 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 ) 30
K𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 → {𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶} 0,1667
𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 → {𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶} = = = 1,389
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 0,12
Analytische Informationssysteme 70
Apriori-Algorithmus I
 Ziel
Bestimme alle Assoziationsregeln 𝑋𝑋 → 𝑌𝑌 mit
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑋𝑋 → 𝑌𝑌 ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾(𝑋𝑋 → 𝑌𝑌) ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
 Herausforderung
Brute Force-Ansatz nicht praktikabel, da auf der Potenzmenge von 𝐺𝐺
operiert werden muss.
 Idee
 Alle Assoziationsregeln 𝑋𝑋 → 𝑌𝑌 mit denselben Item-Mengen (d. h.
𝑋𝑋 ∪ 𝑌𝑌 identisch) haben denselben Support
 Finde zunächst alle häufigen Item-Mengen
 Nutze dabei die Monotonie-Eigenschaft: Jede Teilmenge einer häufig
auftretenden Item-Menge muss selbst auch häufig auftreten

Analytische Informationssysteme 71
Apriori-Algorithmus II

 Item-Mengen bei null

fünf Elementen
A B C D E

 Bei n Elementen gibt


es 2n Item-Mengen
 Monotonie-Eigenschaft: AB AC AD AE BC BD BE CD CE DE

Ist eine Item-Menge


häufig, müssen es auch
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ihre Teilmengen sein

ABCD ABCE ABDE ACDE BCDE

{A} selten
unterlegte Mengen ABCDE
ebenfalls selten
(Grafik: Tan, Steinbach, Kumar: Introduction to Data Mining, 2004)

Analytische Informationssysteme 72
Apriori-Algorithmus III

Grundaufbau
Eingabe: Datenbank mit Transaktionen, minSupport, minKonfidenz
Ausgabe: Assoziationsregeln
Schritt 1:
Finde alle häufigen Item-Mengen mit einem Support ≥ minSupport
Schritt 2:
Generiere für jede häufige Item-Menge alle Assoziationsregeln mit einer
Konfidenz ≥ minKonfidenz
(Algorithmus nach: Agrawal, Srikant: Fast algorithms for mining association rules, 1994)

Analytische Informationssysteme 73
Apriori-Algorithmus IV
Schritt 1: Finde häufige Item-Mengen
Eingabe: Datenbank mit Transaktionen, minSupport
Ausgabe: Häufige Item-Mengen
Berechne 𝐹𝐹1 als Menge aller häufigen einelementigen Item-Mengen
𝑘𝑘 = 1
do
Generiere Kandidatenmenge 𝐹𝐹𝑘𝑘+1 aus 𝐹𝐹𝑘𝑘
Berechne Support aller Elemente aus 𝐹𝐹𝑘𝑘+1
Entferne Kandidaten mit Support < minSupport wieder aus 𝐹𝐹𝑘𝑘+1
𝑘𝑘 = 𝑘𝑘 + 1
while 𝐹𝐹𝑘𝑘 nicht leer
return Vereinigung aller Mengen 𝐹𝐹𝑖𝑖 mit 𝑖𝑖 = 1, … , 𝑘𝑘 − 1

Analytische Informationssysteme 74
Apriori-Algorithmus V

Monotonie-Eigenschaft zur Generierung von Assoziationsregeln


mit hoher Konfidenz
 Sei 𝐿𝐿 eine Item-Menge (z. B. 𝐿𝐿 = {𝐴𝐴, 𝐵𝐵, 𝐶𝐶, 𝐷𝐷}).
 Seien 𝑋𝑋1 , 𝑋𝑋2 nicht-leere Teilmengen von 𝐿𝐿 und 𝑋𝑋2 ⊆ 𝑋𝑋1 .
 Dann gilt:
Die Konfidenz einer Regel 𝑋𝑋2 → 𝐿𝐿\𝑋𝑋2 kann nicht größer sein als die
Konfidenz der Regel 𝑋𝑋1 → 𝐿𝐿\𝑋𝑋1 .
 Beispiel: 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾( 𝐴𝐴, 𝐵𝐵 → 𝐶𝐶, 𝐷𝐷 ) ≤ 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾( 𝐴𝐴, 𝐵𝐵, 𝐶𝐶 → 𝐷𝐷 )
 Nutzung:
 Überprüfe zuerst Regeln mit kurzer Konklusion
 Prüfe Regeln mit längerer Konklusion nur, wenn entsprechende
Regeln mit kurzer Konklusion eine hohe Konfidenz haben

Analytische Informationssysteme 75
Apriori-Algorithmus VI
Schritt 2: Generiere Assoziationsregeln mit hoher Konfidenz
Eingabe: Menge F mit häufigen Item-Mengen, minKonfidenz
Ausgabe: Assoziationsregeln mit hoher Konfidenz
Für jedes Element 𝑍𝑍 von 𝐹𝐹:
Berechne Assoziationsregeln 𝑋𝑋 → 𝑌𝑌 mit 𝑌𝑌 = 1 und 𝑋𝑋 = 𝑍𝑍 − 𝑌𝑌
mit 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 𝑋𝑋 → 𝑌𝑌 ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
Erzeuge 𝐻𝐻1 mit den gefundenen Konklusionsmengen
𝑘𝑘 = 1
do
Generiere Kandidatenmenge Hk+1 aus Hk
∀ ℎ𝑘𝑘+1 ∈ 𝐻𝐻𝑘𝑘+1 berechne 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 Z − ℎ𝑘𝑘+1 → ℎ𝑘𝑘+1
Falls die Konfidenz zu gering: entferne ℎ𝑘𝑘+1 aus 𝐻𝐻𝑘𝑘+1
𝑘𝑘 = 𝑘𝑘 + 1
while 𝐻𝐻𝑘𝑘 nicht leer
return Vereinigung aller Mengen 𝐻𝐻𝑖𝑖 mit 𝑖𝑖 = 1, … , 𝑘𝑘 − 1
Analytische Informationssysteme 76
Apriori-Algorithmus VII
Beispiel: Berechnung häufiger Item-Mengen TID Items
minSupport = 0,5 1 Chips, Bier

Transaktionen
2 Chips, Windeln, Wurst, Käse
3 Bier, Windeln, Wurst
4 Chips, Bier, Windeln
5 Chips, Wurst, Windeln, Cola

Item Support Item Support Item Support

k=3

k=1 k=2
Analytische Informationssysteme 77
Apriori-Algorithmus VIII
Beispiel: Berechnung von Assoziationsregeln mit hoher Konfidenz
minKonfidenz = 0,8
TID Items
1 Chips, Bier
2 Chips, Windeln, Wurst, Käse
3 Bier, Windeln, Wurst
4 Chips, Bier, Windeln Regel Konfidenz

5 Chips, Wurst, Windeln, Cola


Transaktionen

Item Support

Assoziationsregeln

Häufige Item-Mengen

Analytische Informationssysteme 78
Übungsaufgabe: Assoziationsanalyse

Bearbeiten Sie die Aufgaben 2 und 3 des Übungsblatts

Analytische Informationssysteme 79
Data-Mining

6 ENTSCHEIDUNGSBÄUME

Analytische Informationssysteme 80
Grundprinzip der Klassifikation

Classification is the task of learning a target function f that maps


each attribute set x to one of the predefined class labels.
Tan; Steinbach; Kumar: Introduction to Data Mining, 2005.

Eingabe Ausgabe
Attributmenge x Zielfunktion f Klassen-
(Datenobjekt) (Klassifikationsmodell) bezeichnung y

Einsatzmöglichkeiten als deskriptives oder prädiktives Modell

Analytische Informationssysteme 81
Klassifikation: Allgemeiner Ansatz

Lern-
verfahren

Induktion

Modell
erlernen

Modell
Training Set

Modell
anwenden

Deduktion

Test Set
(Angelehnt an: Tan; Steinbach; Kumar: Introduction to Data Mining, 2005)

Analytische Informationssysteme 82
Klassifikation: Anwendungsbeispiele
 Klassifiziere die Kreditkartentransaktionen
als legitim oder betrügerisch
 Klassifiziere die Tumorzellen als gut-
oder bösartig
 Klassifiziere die E-Mail als SPAM oder HAM
 Klassifiziere die Proteinstruktur als α-Helix,
β-Faltblatt oder Zufallsknäul
 Ordne die Nachrichtenartikel den Klassen
„Politik“, „Finanzen“, „Unterhaltung“,
„Kultur“, „Sport“ und „Wetter“ zu

Analytische Informationssysteme 83
Klassifikationsgüte
Wahrheits-/Konfusionsmatrix für ein Zwei-Klassen-Problem (z. B. SPAM/HAM)
Vorhergesagte Klasse
positiv negativ
Tatsächliche positiv richtig positiv (rp) falsch negativ (fn)
Klasse negativ falsch positiv (fp) richtig negativ (rn)

𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 𝑟𝑟𝑝𝑝 + 𝑟𝑟𝑛𝑛


𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 = =
𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 𝑟𝑟𝑝𝑝 + 𝑓𝑓𝑝𝑝 + 𝑓𝑓𝑛𝑛 + 𝑟𝑟𝑛𝑛

𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 𝑓𝑓𝑝𝑝 + 𝑓𝑓𝑛𝑛


𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 = =
𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 𝑟𝑟𝑝𝑝 + 𝑓𝑓𝑝𝑝 + 𝑓𝑓𝑛𝑛 + 𝑟𝑟𝑛𝑛

Prinzip auf mehr als zwei Klassen erweiterbar

Analytische Informationssysteme 84
Klassifikationsansätze

 Entscheidungsbäume
 Regelbasierte Methoden
Im Folgenden
 Memory-Based-Reasoning näher betrachtet

 Neuronale Netze
 Naïve-Bayes-Klassifizierung
und Bayessche Netze
 Support-Vektor-Machinen
 …

Analytische Informationssysteme 85
Entscheidungsbäume: Definition
Ein Entscheidungsbaum ist ein geordneter, gerichteter Baum, dessen
Knoten logische Bedingungen und dessen Blätter Datenmengen
sind, die die Bedingungen des jeweiligen Pfades erfüllen. Jeder Pfad
des Baumes stellt eine Hierarchie von Entscheidungsregeln dar.

Regel1

Regel2 Regel3

Daten1 Daten2 Daten3 Daten4 Daten5

Idee: Hierarchische Klassifikation


Überprüfe die Merkmale der Daten in der Reihenfolge der Wichtigkeit,
schränke die Kandidaten für die Klassen immer mehr ein.
Analytische Informationssysteme 86
Entscheidungsbäume: Beispiel I

Entscheidungsattribute

TID Kinder Status Gehalt Betrug


1 ja ledig 65,000 nein
Kinder
2 nein verheiratet 50,000 nein ja nein
3 nein ledig 35,000 nein
4 ja verheiratet 60,000 nein nein Status
5 nein geschieden 50,000 ja ledig, geschieden verheiratet
6 nein verheiratet 30,000 nein
Gehalt nein
7 ja geschieden 95,000 nein
8 nein ledig 45,000 ja < 40,000 > 40.000
9 nein verheiratet 35,000 nein nein ja
10 nein ledig 75,000 ja
10

Trainingsdaten Modell: Entscheidungsbaum


Analytische Informationssysteme 87
Entscheidungsbäume: Beispiel II

Status
TID Kinder Status Gehalt Betrug verheiratet ledig, geschieden
1 ja ledig 65,000 nein
nein Kinder
2 nein verheiratet 50,000 nein
3 nein ledig 35,000 nein ja nein
4 ja verheiratet 60,000 nein
nein Gehalt
5 nein geschieden 50,000 ja
< 40,000 > 40.000
6 nein verheiratet 30,000 nein
7 ja geschieden 95,000 nein nein ja
8 nein ledig 45,000 ja
9 nein verheiratet 35,000 nein Für dieselben Daten ist mehr als ein
10 nein ledig 75,000 ja
Entscheidungsbaum möglich!
10

Trainingsdaten
Analytische Informationssysteme 88
Klassifikation mit Entscheidungsbäumen I

Ent.-Baum-
Verfahren

Induktion

Ent.-Baum
erlernen

Modell
Training Set

Entscheidungs-
Ent.-Baum baum
anwenden

Deduktion

Test Set
(Angelehnt an: Tan; Steinbach; Kumar: Introduction to Data Mining, 2005)

Analytische Informationssysteme 89
Klassifikation mit Entscheidungsbäumen II

Starte bei der Wurzel Neuer Fall


Kinder Status Gehalt Betrug
nein verheiratet 80,000 ?
10

Kinder
ja nein
Klassifizierung:
nein Status
Kein Betrug
ledig, geschieden verheiratet
Gehalt nein
< 40,000 > 40.000
nein ja

Modell: Entscheidungsbaum
Analytische Informationssysteme 90
Klassifikation mit Entscheidungsbäumen I

Baum-
Verfahren

Induktion

Ent.-Bauml
erlernen

Modell
Training Set

Entscheidungs-
Ent.-Baum baum
anwenden

Deduktion

Test Set
(Angelehnt an: Tan; Steinbach; Kumar: Introduction to Data Mining, 2005)

Analytische Informationssysteme 91
Entscheidungsbaum-Algorithmen

Zahlreiche Algorithmen für Entscheidungsbäume vorhanden


 Hunt-Algorithmus Im Folgenden
näher betrachtet
 C4.5
 CART (Classifikation and Regression Trees)
 CHAID (Chi-Square Automatic Interaction Detectors)
 ID3 (Iterative Dichotomiser 3)
 SLIQ (Supervised Learning in Quest)
 SPRINT (Scalable Parallelizable Induction of Decision Trees)

Analytische Informationssysteme 92
Hunt-Algorithmus: Grundidee

Algorithmus Hunt-rekursiv
Eingabe: Knoten 𝑡𝑡, Menge 𝐷𝐷𝑡𝑡 der Trainingsdatensätze, die 𝑡𝑡 erreichen
Ausgabe: Entscheidungsbaum
if alle Datensätze in 𝐷𝐷𝑡𝑡 gehören zur selben Klasse 𝑦𝑦𝑡𝑡
𝑡𝑡 ist Blatt mit Kennzeichnung 𝑦𝑦𝑡𝑡
else
Wähle Attribut-Testbedingung um Datensätze in kleinere
Teilmengen zu spalten
Erzeuge einen Nachfolgerknoten für jeden Ausgang der
Testbedingung
Verteile die Datensätze in gemäß der Testbedingung an
die Nachfolgerknoten
Wende den Algorithmus rekursiv auf jeden Nachfolgerknoten an

Analytische Informationssysteme 93
Hunt-Algorithmus: Beispiel
Kinder Kinder
ja nein ja nein

nein ? nein Status


ledig, geschieden verheiratet

TID Kinder Status Gehalt Betrug ? nein


1 ja ledig 65,000 nein
2 nein verheiratet 50,000 nein Kinder
3 nein ledig 35,000 nein ja nein
4 ja verheiratet 60,000 nein
nein Status
5 nein geschieden 50,000 ja
6 nein verheiratet 30,000 nein ledig, geschieden verheiratet
7 ja geschieden 95,000 nein
Gehalt nein
8 nein ledig 45,000 ja
9 nein verheiratet 35,000 nein
< 40,000 > 40.000
10 nein ledig 75,000 ja nein ja
10

Analytische Informationssysteme 94
Hunt-Algorithmus: Sonderfälle

 Nachfolgerknoten erhält keine Datensätze


 Knoten wird Blatt
 Klassenlabel: häufigster Klassenlabel der Datensätze des
Elternknotens
 Datensätze unterscheiden sich nur bezüglich des
Klassenlabels
 Weitere Aufteilung der Datensätze nicht möglich
 Knoten wird Blatt
 Klassenlabel: häufigster Klassenlabel in den zugehörigen
Datensätzen

Analytische Informationssysteme 95
Erlernen der Entscheidungsbaumstruktur

 Greedy-Strategie
 Teile die Datensätze aufgrund einer Attribut-
Testbedingung auf, die ein bestimmtes Kriterium
optimiert.
 Offene Fragen
 Wie werden die Datensätze konkret aufgeteilt?
 Wie wird die Attribut-Testbedingung festgelegt?
 Wie wird die beste Aufteilung bestimmt?
 Wann sollte man nicht weiter aufteilen?

Analytische Informationssysteme 96
Aufteilung (Split) der Datensätze
 Abhängig von den Attributtypen
Rentner
 binär
ja nein
Farbe
 nominal
blau gelb rot
Größe
 ordinal Alter
S M L XL
 stetig < 18 [18,65] > 65

 Anzahl der Teilmengen


Größe
 zwei Größe
{S, M} {L, XL}
 mehr als zwei {S, M} {L} {XL}

Analytische Informationssysteme 97
Was ist die beste Aufteilung?

Idee: Bestimme die Homogenität bzw. den Unreinheitsgrad der


entstehenden Datensatzteilmengen

Geschlecht Autotyp Kunden-ID


m w Familie Luxus ID10
Sport
ID01 …
K1 6 K1 4 K1 1 K1 8 K1 1 K1 1 K1 0

K2 4 K2 6 K2 3 K2 0 K2 7 K2 0 K2 1

geringe Homogenität/ hohe Homogenität/ vollständig homogen/


hohe Unreinheit geringe Unreinheit keine Unreinheit

Nutzen?

Analytische Informationssysteme 98
Homogenitätsmaße I

Entropie
 Gegeben:
 Knoten 𝑇𝑇 mit |𝑇𝑇| Datensätzen in 𝑘𝑘 Klassen (Partitionen von 𝑇𝑇)
 𝑝𝑝𝑖𝑖 = relative Anzahl der Datensätze der Klasse 𝑖𝑖 (mit 𝑖𝑖 = 1, … , 𝑘𝑘)

𝑘𝑘

Entropy 𝑇𝑇 = − � 𝑝𝑝𝑖𝑖 log 2 𝑝𝑝𝑖𝑖


𝑖𝑖=1

 Der Knoten ist vollständig homogen/rein, wenn Entropy 𝑇𝑇 = 0


 Entropie maximal, wenn alle enthaltenen Klassen gleichverteilt sind
(Maximalwert bei zwei Klassen: 1,0)
 Genutzt z. B. von ID3, C4.5
Analytische Informationssysteme 99
Homogenitätsmaße II

Gini-Index
 Gegeben:
 Knoten 𝑇𝑇 mit |𝑇𝑇| Datensätzen in 𝑘𝑘 Klassen (Partitionen von 𝑇𝑇)
 𝑝𝑝𝑖𝑖 = relative Anzahl der Datensätze der Klasse 𝑖𝑖 (mit 𝑖𝑖 = 1, … , 𝑘𝑘)

𝑘𝑘

Gini 𝑇𝑇 = 1 − � 𝑝𝑝𝑖𝑖2
𝑖𝑖=1

 Der Knoten ist vollständig homogen/rein, wenn Gini 𝑇𝑇 = 0


 Gini-Index maximal, wenn alle enthaltenen Klassen gleichverteilt sind
(Maximalwert bei zwei Klassen: 0,5)
 Genutzt z. B. von CART, SLIQ, SPRINT
Analytische Informationssysteme 100
Homogenitätsmaße III

Klassifizierungsfehler
 Gegeben:
 Knoten 𝑇𝑇 mit |𝑇𝑇| Datensätzen in 𝑘𝑘 Klassen (Partitionen von 𝑇𝑇)
 𝑝𝑝𝑖𝑖 = relative Anzahl der Datensätze der Klasse 𝑖𝑖 (mit 𝑖𝑖 = 1, … , 𝑘𝑘)

Klassifizierungsfehler 𝑇𝑇 = 1 − max{𝑝𝑝𝑖𝑖 }

 Der Knoten ist vollständig homogen/rein, wenn


Klassifizierungsfehler 𝑇𝑇 = 0
 Klassifizierungsfehler maximal wenn alle enthaltenen Klassen
gleichverteilt sind (Maximalwert bei zwei Klassen: 0,5)

Analytische Informationssysteme 101


Homogenitätsmaße IV

Vergleich der Homogenitätsmaße für ein binäres Klassifikationsproblem

Entropie
Unreinheit

Impurity
Gini-Index

Klassifikationsfehler

Grafik: Tan; Steinbach; Kumar: Introduction to Data Mining, 2005

Analytische Informationssysteme 102


Homogenitätsmaße V

Güte der Knotenaufteilung/Information Gain (IG)


 Gegeben:
 Knoten 𝑇𝑇 mit 𝑚𝑚 Nachfolgeknoten 𝑇𝑇𝑖𝑖 mit jeweils |𝑇𝑇𝑖𝑖 | Datensätzen
 𝐻𝐻 sei das gewählt Homogenitätsmaß

𝑚𝑚
𝑇𝑇𝑖𝑖
Information Gain = 𝐻𝐻 𝑇𝑇 − � 𝐻𝐻(𝑇𝑇𝑖𝑖 )
𝑇𝑇
𝑖𝑖=1

 Beispiel: Gewähltes Homogenitätsmaß: Entropie


𝑇𝑇𝑖𝑖
 𝐼𝐼𝐼𝐼 = Entropie T − ∑𝑚𝑚
𝑖𝑖=1 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑇𝑇𝑖𝑖
𝑇𝑇
𝑇𝑇𝑖𝑖
 𝐼𝐼𝐼𝐼 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 ⟺ ∑𝑚𝑚
𝑖𝑖=1 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑇𝑇𝑖𝑖 minimal
𝑇𝑇

Analytische Informationssysteme 103


Beispiel: Aufteilung mittels Gini I
Knoten T
Geschlecht
m w

Knoten T1 Knoten T2
K1 6 K1 4
K2 4 K2 6
2 2
6 4
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑇𝑇1 =1− − = 0,48
10 10
2 2
4 6
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑇𝑇2 =1− − = 0,48
zu minimieren 10 10
um IG zu 10 10
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 = � 0,48 + � 0,48 = 0,48
maximieren 20 20

Analytische Informationssysteme 104


Beispiel: Aufteilung mittels Gini II
Knoten T
Autotyp Knoten T2
Familie Luxus
Sport
Knoten T1 K 1 K1 8 K1 1 Knoten T3
1

K2 3 K2 0 K2 7
2 2
1 3
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑇𝑇1 =1− − = 0,375
4 4
2 2
8 0
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑇𝑇2 =1− − =0
8 8
2 2
1 7
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑇𝑇3 =1− − = 0,219
zu minimieren 8 8
um IG zu 4 8 8
maximieren 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 = � 0,375 + �0+ � 0,219 = 0,1625
20 20 20

Analytische Informationssysteme 105


Beispiel: Aufteilung mittels Gini III
 Weitere Schritte
 Attributauswahl: Niedrigster Gini-Index (⇒ größter Information Gain)
nach Aufteilung bei Attribut Autotyp
 Rekursion: Algorithmus auf die neuen Knoten 𝑇𝑇1,𝑇𝑇2 und 𝑇𝑇3 anwenden
und auf beste Aufteilmöglichkeit untersuchen
 Gini-Index-Berechnung wie im ersten Schritt
 Allgemeine Vorgehensweise:
1. Start: Alle Objekte befinden sich in einem Knoten
2. Suche nach dem besten Klassifikationsmerkmal
3. Klassifizierung der Objekte nach diesem Merkmal
4. Rekursive Anwendung der Schritte 2 und 3 bis zum Stopp-Kriterium
5. Nachträgliches Zurückschneiden des Baumes (siehe nächste Folien)

Analytische Informationssysteme 106


Wann soll man die Aufteilung beenden?
 Natürliche Kriterien
 Knoten enthalten nur noch Datensätze einer Klasse
 Die zur Verfügung stehenden Attribute erlauben keine weitere
Verbesserung
 Gefahr: Overfitting (Überanpassung)
 Nutzung Immer speziellerer
Merkmalskombinationen
 Der Klassifikationsfehler bei den
Trainingsdaten sinkt
 Spezielle Merkmalskombinationen
nicht auf andere Daten übertragbar
 Generalisierungsfähigkeit sinkt!
 Der Klassifikationsfehler bei den
Testdaten steigt!
Analytische Informationssysteme 107
Pruning
Pruning (Zurückschneiden/Zurechtstutzen)
 Top-Down Pruning: Einführung künstlicher Stopp-Kriterien
 Minimale Anzahl von Datensätzen im Knoten (absolut/prozentual)
 Grenzwerte für die Verbesserung der Homogenität
 Maximalen Baumtiefe
 …
 Bottom-Up Pruning (Nachträgliches Stutzen)
 Pruning von Aufteilungen mit geringem Homogenitätsbeitrag
 Verschmelze aufgeteilte Knoten solange der Generalisierungsfehler
sinkt

Analytische Informationssysteme 108


Entscheidungsbäume: Bewertung
 Vorteile
 Effizient zu erstellen
 Sehr schnelle Klassifizierung unbekannter Datensätze
 Kleine Entscheidungsbäume leicht zu interpretieren
 Klassifikationsgüte bei einfachen Datensätzen vergleichbar zu
komplexeren Verfahren
 Nachteile
 Instabilität: Leicht veränderte Daten können zu ganz anderen
Entscheidungsbäumen führen
 Klassifizierungsgrenzen:
 Keine weichen Übergänge/Grenzfälle möglich
 Grenzen/Grenzstücke müssen parallel zu den Attributachsen sein
 Algorithmenvarianten unterscheiden sich bezüglich des gewählten Homo-
genitätsmaßes, der nutzbaren Datentypen und der Pruning-Strategie.
Analytische Informationssysteme 109
Übungsaufgabe: Datenaufbereitung

Bearbeiten Sie die Aufgaben 4 und 5 des Übungsblatts

Analytische Informationssysteme 110

Das könnte Ihnen auch gefallen