02 Kapitel Data Mining

Analytische Informationssysteme
Data-Mining
Themenübersicht
Einführung
Datenmanagement und Reporting
Data Mining
Modellbildung
Spezielle Methoden: Überblick zu weiteren Methoden
Programmierung
Ethik
Organisation
Analytische Informationssysteme 2
Themenübersicht
Einführung
Datenmanagement und Reporting
Data Mining
Modellbildung
Spezielle Methoden: Überblick zu weiteren Methoden
Programmierung
Ethik
Organisation
Agenda Data Mining
1 Motivation
2 Grundlagen
3 Der Data-Mining-Prozess
4 Datenaufbereitung
5 Assoziationsanalyse
6 Entscheidungsbäume
Data-Mining
1 MOTIVATION
Data-Mining
„Wir ertrinken in
Information und sind
hungrig nach Wissen“
R. R. Rogers
Data-Mining: Ausgangslage
„Aktivitäten erzeugen Daten. Und Daten werden gesammelt.“
 Zunehmender Datenreichtum
 Durch die umfassende Digitalisierung werden immer mehr Daten
erzeugt und automatisiert erfasst.
 Die dauerhafte Speicherung großer Datenmengen wird immer
preiswerter.
 Sehr umfangreiche Datensammlungen entstehen.
 Herausforderungen
 Manuelle Sichtung und Auswertung der Daten unmöglich.
 Genauer Umfang und Struktur der Daten nicht immer vollständig
bekannt.
 Ansatzpunkte zur Auswertung der Daten häufig unklar oder sogar
unbekannt.
Daten als Kapital
 Wunsch: Nutzung der vorhandenen „Datenschätze“ zur

 Optimierung vorhandener Geschäftsprozesse
 Entwicklung neuer Geschäftsbereiche
 Voraussetzung: (Semi-) Automatisierte Gewinnung von
Erkenntnissen aus (großen) Datenbeständen
 Dafür benötigt:
 Neue Ansätze der Modellbildung (bottom-up)
 Nutzung von Methoden aus verschiedenen Fachdisziplinen
 Geeignete Datenanalysesoftware
 Speziell ausgebildetes Personal („Data Scientists“)
Bedeutende Datenquellen
 Unternehmen
 Operative Systeme (ERP, CRM, SCM, …)
 Kommunikationssysteme (Telefon, E-Mail, …)
 Dokumente (Produktbeschreibungen, Verträge, Patente, …)
 Internet
 Informationsportale
 Webshops
 Soziale Netzwerke
 Sensordaten
 Industrie
 Forschung
 Internet der Dinge
 Mobiltelefone
Data-Mining: Anwendungsbeispiele I
Responseanalyse
Ziel(e) • Auswahl von Kunden, die für bestimmte
Werbeaktionen besonders geeignet sind
Nutzenpotential • Reduzierung der Kosten bei gleichzeitiger
Effektivitätssteigerung
• Erhöhte Kundenbindung durch weniger und
besser passende Werbung
Daten • Bisheriges Kaufverhalten
• Soziodemographische Daten
• Daten aus sozialen Netzwerken
Data-Mining: Anwendungsbeispiele II
Analyse des Webauftritts

Ziel(e) • Optimierung des Informationsangebots, der
Informationsstruktur und der
Informationsdarstellung
• Gezieltere Interessentenführung
Nutzenpotential • Erhöhung der Verkaufszahlen/Kontaktaufnahmen
• Stärkere Kundenbindung
Daten • Log- und Tracking-Daten
• Blickbewegungen, Mauszeigerbewegungen
• Click-Streams
Data-Mining: Anwendungsbeispiele III
Bonitätsanalyse
Ziel(e) • Erkennung von zahlungsunfähigen oder –
unwilligen Kunden
Nutzenpotential • Vermeidung von Zahlungsausfällen
• Bereinigung des Kundenbestands
Daten • Personenbezogene Daten (Einkommen, Besitz,
Ausbildung, Alter, Wohnort usw.)
• Bisheriges Zahlungsverhalten
Data-Mining: Anwendungsbeispiele IV
Semantische Analyse von Texten

Ziel(e) • Automatische inhaltliche Auswertung von Texten
Nutzenpotential • Verbesserte Recherchemöglichkeiten
• Optimierte Suchmaschinen
• Sentiment Analysis
Daten • Dokumentenbestände (z. B. Patentdatenbank,
Gesetzestexte, Wartungshandbücher,
Literatursammlungen)
• Informationen aus Websites
• Texte aus sozialen Netzwerken
Data-Mining: Anwendungsbeispiele V
Verbrechensbekämpfung
Ziel(e) • Erkennung von Vorgehensmustern bei Straftaten
• Erkennung und Prognose von Gefährdungslagen
Nutzenpotential • Optimierung des Einsatzes von Polizeikräften
• Aufdeckung von Zusammenhängen bei Straftaten
• Bekämpfung von Wirtschaftskriminalität/
Geldwäsche
• Identifikation von terroristischen Zellen
Daten • Detailinformationen über vergangene Straftaten
• Überwachungsdaten (z. B. Videokameras,
Telekommunikation, Kontobewegungen)
Weitere Anwendungsfälle
Zahlreiche weitere Anwendungsfälle finden sich im Buch

“Predictive Analytics” von Eric Siegel. Er beschreibt dort
182 Mini-Fallstudien aus den Bereichen:
 Familie und Privatleben
 Marketing, Werbung und Web
 Finanzen und Versicherungen
 Gesundheitswesen
 Verbrechensbekämpfung und Betrugserkennung
 Fehlererkennung, Sicherheit, Logistik
 Verwaltung, Politik, Bildung
 Verständnis natürlicher Sprache, Psychologie
 Personalwesen
Data-Mining
2 GRUNDLAGEN
Der Begriff Data-Mining I
„Data Mining ist das semi-automatische Aufdecken von

Mustern mittels Datenanalyse-Verfahren in meist sehr großen
und hochdimensionalen Datenbeständen.“
Müller, Lenz: Business Intelligence, 2013
Der Begriff Data-Mining II
„Data Mining bezeichnet den Prozess zur effizienten

Erforschung und Analyse großer Datenmengen durch
halbautomatische Verfahren im Hinblick auf noch nicht
bekannte, wertvolle und verwendbare Muster und Regeln.“
Berry, Linoff: Data Mining Techniques for Customer Support, 1997
Der Begriff Data-Mining III
Als Data Mining bezeichnet man die softwaregestützte

Ermittlung bisher unbekannter Zusammenhänge, Muster und
Trends aus dem Datenbestand sehr großer Datenbanken
beziehungsweise des Data Warehouse. Dabei kann der
Benutzer bestimmte Ziele vorgeben, für die das System
angemessene Beurteilungskriterien ableitet und damit die
Datenobjekte der Datenbank(en) analysiert.
Hansen, Neumann: Wirtschaftsinformatik 1, Grundlagen und Anwendungen, 2005
Der Begriff Data-Mining IV
Data Mining ist der Gesamtprozess der Identifikation und Präsentation von
bisher unbekannten Mustern in (großen) Datenbeständen, und zwar:
 autonom mittels allgemein verwendbarer, effizienter Verfahren, die
auf methodischen Ansätzen aus
 Statistik,
 Künstlicher Intelligenz,
 Maschinellem Lernen,
 Mustererkennung
basieren und
 ohne vom Anwender a priori Hypothesen zu fordern.
(nach Petersohn: Data Mining: Verfahren, Prozesse, Anwendungsarchitektur, 2005)
Der Begriff Data-Mining V
Es existieren weitere Definitionen, die sich vor allem in

folgenden Aspekten unterscheiden:
 Weite des Begriffs:
 Berücksichtigung des Gesamtprozesses der Wissensgewinnung oder
 Fokus auf das eigentlich Analyse-/Lernverfahren
 Abgrenzung zu anderen Disziplinen, insbesondere:
 Statistik
 Künstliche Intelligenz/Machine Learning
 Business Intelligence
 Betonung der eingesetzten Methoden oder verwendeten
Software
Data-Mining und DWH
Data-Warehouses (DWH) bilden eine gute Basis für Data-Mining

im Business Intelligence Umfeld:
 DWH integrieren viele relevante Unternehmensdaten
 Daten im DWH sind bereits konsolidiert und
qualitätsgesichert:
 vollständig
 vereinheitlicht
 geprüft
 bereinigt
Dennoch sind meist weitere Datenvorverarbeitungsschritte
notwendig.
Grundformen des Data Mining
 Mustererkennung
 Welche Ähnlichkeiten
weisen die Daten auf?
Daten Analyseverfahren Muster
 Welche Strukturen Achtung: Modellbegriff
wiederholen sich? weicht etwas ab von der
Historische
Daten Lerneinheit „Modellbildung“
 Prognose
1. Modellgenerierung auf Basis
historischer Daten und Analyse- Modell
bekannter Ergebnisse der Bekannte verfahren
Zielvariablen Ergebnisse
2. Anwendung des Modells
auf neue Daten zur Vor-
hersage der Zielvariablen Neue Modell Prognose
Daten
Aufgabenstellungen des Data Mining I
Grundlegende Aufgaben des Data Mining:
• Clusteranalyse
• Assoziationsanalyse
• Abweichungsanalyse Mustererkennung
• Hauptkomponentenanalyse
• Sequenzanalyse
• Klassifikation
Prognose
• Regressionsanalyse
Aufgabenstellungen des Data Mining II
 Clusteranalyse
 Idee: Identifikation von Gruppierungen/Clustern innerhalb der Daten
 Beispiel: Kundensegmentierung
 Assoziationsanalyse
 Idee: Analyse der Häufigkeit des gleichzeitigen Auftretens von
Objekten oder Ereignissen
{ Steaks, Holzkohle }  { Bier }
 Beispiel: Warenkorbanalysen
Aufgabenstellungen des Data Mining III
 Abweichungsanalyse
 Idee: Identifizierung von ungewöhnlichen Datensätzen
 Beispiele: Entdeckung betrügerischer Transaktionen, Eingabefehlern

 Hauptkomponentenanalyse
 Idee: Reduktion des Datensatzes auf eine kompaktere Beschreibung
F1
F2
 Beispiele: Modellvereinfachung, Identifizierung latenter Variablen

Aufgabenstellungen des Data Mining IV
 Sequenzanalyse
 Idee: Identifizierungen von Mustern in zeitlich aufeinander folgenden
Ereignissen
C A B C
 Beispiele: Klickverhalten auf Websites
 Klassifikation
 Idee: Zuordnung bisher unbekannter Objekte zu bestehenden Klassen
oder Gruppen
 Beispiele: Einteilung in Bonitätsklassen, Identifizierung von Spam

Aufgabenstellungen des Data Mining V
 Regressionsanalyse
 Idee: Identifizierungen von Beziehungen zwischen abhängigen und
unabhängigen Variablen
Abhängige Variable
Unabhängige Variable ?
 Beispiele: Bestimmung von Hauspreisen, Zusammenhang von

Produktabsatz und Marketingmaßnahme
Lernen: überwacht und unüberwacht I
 Unüberwachtes Lernen (unsupervised learning)

 Lernen aus Daten ohne im Voraus X1 X2 … Xn
bekannte Zielwerte
 Erkennung von Datenmustern, die
vom strukturlosen Rauschen abweichen
 Grundlage sind häufig statistische
Methoden und Ähnlichkeitsmaße
 Überwachtes Lernen (supervised learning)
 Lernen aus Daten mit bekannten Zielwerten
X1 X2 … Xn Y
 Entwicklung eines Modells zur Prognose
der Zielwerte +
 Beim Lernen wird der Fehler zwischen
den gegebenen Zielwerten und den
Prognosen verringert
Eingabedaten I
 Strukturierte Daten Produkt
 Beschreibung von Entitäten mit klar Name Preis Gewicht …
definierten Attributen Steak 4,90 € 400 g …
 Beispiele: Datenbank-Tabellen,
Äpfel 3,50 € 1000 g …
Tabellenkalkulation
 Mengen
 Mengen und Multimengen von { Bier, Chips }
{ Möhren, Äpfel, Salat }
zusammen auftretenden Objekten
{ Pralinen, Sekt }
 Beispiel: Warenkörbe
 Sequenzen
Home Politik
 Daten mit linearer Ordnungsstruktur
 Beispiel: Klickpfad in einer Website News Sport
Eingabedaten II
 Zeitreihen
 Zeitlich geordnete Datenfolgen mit
Umsatz
zugehörigem Mess-, Beobachtungs-
oder Zählzeitpunkt
 Beispiele: Umsatzzahlen, Börsenkurse Quartale
 Text Schlagwort: Milch mit dem Mehl gut ver-

Text-Mining rühren und die Eier dazu-
 Wenig strukturierte, geben. Salz, Zucker und
natürlichsprachliche Dokumente einen EL Öl dazugeben und
nochmal kräftig verrühren …
 Beispiele: Produktbeschreibungen, E-Mails
 Semistrukturierte Daten Schlagwort: <Zutat menge=“500 ml“>
 Textuelle Daten mit Struk- Web-Mining Milch
turregeln/-elementen (Tags) </Zutat>
<Zutat menge=“300 g“>
 Beispiele: XML, Log-Dateien, Mehl
Datenaustauschformate </Zutat>
Eingabedaten III
 Graphen Lea
 Repräsentation von Daten als Mia
Ole Ben
Knoten und verbindende Kanten
 Beispiele: Soziale Netzwerke, Jan Pia
Prozess-Graphen Schlagwort:
 Geo-Daten Process-Mining
 Geographische Position von Objekten
wie Kunden, Läden, Fahrzeugen
 Beispiele: Adressdaten, Positionsdaten
 Bilder, Audio, Video
 Statische oder dynamische visuelle Daten,
auditive Daten sowie Kombinationen von beidem
 Beispiele: Gesichtserkennung, Spracherkennung
Data-Mining
3 DER DATA-MINING-PROZESS
Der KDD-Prozess I
Knowledge Discovery in Databases (KDD)

(nach Fayyad, Piatetsky-Shapiro und Smyth, 1996)
(Graphik: https://behavior.lbl.gov/?q=node/11)
Der KDD-Prozess II
1. Selektion
Auswahl der für die Fragestellung relevanten Daten
2. Vorverarbeitung (Preprocessing)
Sicherung der Datenqualität, z. B. Behandlung fehlender Werte,
Erkennen von Dubletten, Identifikation von Ausreißern, Korrektur
fehlerhafter Werte
3. Transformation
Umwandlung in eine für das Data Mining geeignete Darstellungsform,
z. B. durch Skalierung oder Transformation in andere Datentypen
4. Data-Mining
Anwendung des gewählten Data-Mining-Algorithmus zur
Mustererkennung oder Modellgenerierung
5. Evaluation
Interpretation und Bewertung der Analyseergebnisse. Beurteilung der
entdeckten Zusammenhänge, ihrer Auswirkungen und Einsetzbarkeit
Der KDD-Prozess III
 Der KDD-Prozess hat eine sehr enge Sichtweise auf das Data-Mining
(nur Schritt 4).
 Der KDD-Prozess fokussiert auf die technischen Aspekte des
Analyseprozesses. Der zielgebende und für die Bewertung zentrale
Anwendungskontext/Geschäftskontext wird nicht explizit adressiert.
 Alternative Ansätze
 SEMMA (Sample, Explore, Modify, Model, Assess) vom SAS Institut,
entwickelt als Leitfaden zur Implementierung von Data-Mining-
Anwendungen. Fokus auch eher technisch und produktbezogen.
 CRISP-DM: Im Rahmen eines EU-Projekts von 1996-99 entwickelter
umfassender, industrieübergreifender Standard-Data-Mining-
Prozess.
CRISP-DM I
 Cross-Industry Standard
Process for Data-Mining
 Gründung einer Special
Interests Group (mehr
als 200 Mitglieder
weltweit)
 Informationen unter
www.crisp-dm.org
(Graphik: http://crisp-dm.eu/reference-model)
CRISP-DM II
 Phase 1: Business Understanding
 Geschäftsziele festlegen
 Beispiel: Abwanderung von Kunden verhindern
 Geschäftliche Erfolgskriterien, etwa Abwanderungsquote -10 %
 Situation bewerten
 Ressourcen: Personal, Datenbestand, Rechenleistung, Software
 Anforderungen, Annahmen, Einschränkungen
 Chancen und Risiken, Wirtschaftlichkeitsanalyse
 Terminologie (Glossar der Geschäfts- und Data-Mining-Begriffe)
 Data-Mining-Ziele festlegen
 Beispiel: 70 % der Abwanderer erkennen bei 20 % Fehlalarmen
 Projektplan erstellen
 Meilensteine, Werkzeugauswahl, Methodenwahl
CRISP-DM III
 Phase 2: Data Understanding
 Initiale Datensammlung
 Datenquellen bestimmen
 Zugriffsmethoden festlegen
 Datenbeschreibung
 Metadaten (Attribute, Typen, Werte, Formate, Mengen)
 Explorative Datenanalyse
 Beispiele analysieren
 Einfache statistische Analysen (z. B. Verteilungen, ausgewählte
Korrelationen, einfache Aggregationen)
 Visualisierung von Zusammenhängen
 Überprüfung der Datenqualität
 Vollständigkeit der Daten, fehlender Werte, fehlerhafte Wert usw.
CRISP-DM IV
 Phase 3: Data Preparation
 Datenauswahl
 Auswahl relevanter Attribute, Sampling
 Datenbereinigung
 Ausreißer, fehlende und inkorrekte Werte behandeln
 Datenkonstruktion
 Abgeleitete Attribute, generierte Datensätze
 Datenintegration
 Daten aus verschiedenen Quellen (z. B. Tabellen) kombinieren
 Aggregation von Daten
 Datentransformation und –formatierung
 Transformation, z. B. Anpassung verwendeter Werte, Skalierung
 Formatierung, z. B. Datentypen, Zeitformate
CRISP-DM V
 Phase 4: Modeling
 Auswahl der Modellierungstechnik
 Festlegung der konkreten Data-Mining-Methode
 Modellannahmen treffen
 Entwurf des Testdesigns
 Vorgehen zur Bestimmung der Modellgüte
 Aufteilung der Daten in Trainings-, Test- und Validierungsdaten
 Modellbildung
 Generierung des Modells
 Begründung der gewählten Parametrisierung
 Modellbewertung
 Bestimmung der erreichten Modellgüte
 Gegebenenfalls Wiederholung/Anpassung der vorigen Schritte
CRISP-DM VI
 Phase 5: Evaluation
 Bewertung der Ergebnisse
 Beurteilung der Ergebnisse aus Geschäftssicht
 Abnahme des Data-Mining-Modells
 Prozessrevision
 Bewertung des Vorgehens
 Wurden Aspekte übersehen?
 Müssen Prozessschritte wiederholt werden?
 Festlegung des weiteren Vorgehens
 Liste möglicher nächster Schritte (mit Vor- und Nachteilen)
 Entscheidung über Nutzung der Ergebnisse
CRISP-DM VII
 Phase 6: Deployment
 Verwendungskonzeption
 Planung zur Einführung des Data-Mining-Modells
 Planung des Monitoring und der Wartung
 Konzept und Arbeitsschritte zur Überwachung und Wartung des
eingesetzten Data-Mining-Modells
 Erstellung des Abschlussberichts
 Zusammenfassender Bericht aller Ergebnisse
 Gegebenenfalls Abschlusspräsentation
 Projektrückblick
 Dokumentation der gesammelten Erfahrungen
(erfolgreiche Ansätze, potentielle Fallgruben usw.)
Voraussetzungen für Data-Mining I
Für welche Probleme eignet sich Data-Mining besonders?
Es sind genügend Komplexe, wissens-

relevante Daten basierte Entscheidung
vorhanden? notwendig?
Problem
Problem wird bislang mit Richtige Entscheidung

sub-optimalen Methoden erzeugt einen nennes-
gelöst? werten Mehrwert?
Voraussetzungen für Data-Mining II
Welche Annahmen müssen beim Data-Mining gegeben sein?
Die vorhandenen Daten Muster der Vergangen-

dürfen tatsächlich heit sind auch in Zukunft
ausgewertet werden noch gültig
Data-Mining
Die Qualität der Die Daten enthalten das,

vorliegenden Daten ist was man prognosti-
ausreichend hoch zieren will
Data-Mining
4 DATENAUFBEREITUNG
Fragen der Datenaufbereitung
 Daten über mehrere Quellen verteilt?

 Datenintegration Bereits in früheren
 Qualität der Daten ungenügend? Lerneinheiten
behandelt
 Datenbereinigung (data cleansing)
 Behandlung fehlender Werte
 Datenmenge zu groß für Analyse (Performanzprobleme)?
 Zu viele Datensätze?
 Stichproben ziehen (sampling)
 Daten aggregieren
 Zu viele Attribute/Variablen?  Dimensionsreduzierung
 Form der Daten nicht optimal für Analyse?
 Datentransformation
Behandlung fehlender Werte
 Problem
 Daten aus operativen Systemen häufig lückenhaft
 Vollständige Datensätze für viele Data-Mining-Methoden
notwendig
 Ansätze
 Ausschluss unvollständiger Datensätze
 Ausschluss unvollständiger Attribute/Variablen
 Fehlende Werte ersetzen (imputation)
 Spezielle Kodierung fehlender Werte
Datenausschluss
 Ausschluss von Beobachtungen (Datensätzen/Tabellenzeilen)

 Mögliche Probleme
 Datenmenge kann erheblich sinken
 Unkontrollierte Verzerrung der Daten, falls fehlende Werte
systematische Ursachen haben
 Beispiele: Fehlende Werte bei Gehaltsangaben, Telefonnummern,
Social-Media-Daten
 Ausschluss von Merkmalen (Attributen/Tabellenspalten)
 Mögliche Probleme:
 Gelöschtes Attribut könnte wichtige Modellvariable sein
 Die Nicht-Angabe von Werten kann selbst informativ sein
 Beispiel: Angabe von Produktinteressen selten, aber wertvoll
Fehlende Werte ersetzen
 Idee: Einsetzen plausibler Werte

 Vorgehen
 Einfache Ansätze
 Mittelwert
 Median
 Modalwert
 Individuelle Schätzwerte
 Anspruchsvollere Ansätze
 Statistische Verfahren
 Nutzung der Korrelation zwischen den Attributen
 Vorhersage mit Data-Mining-Methoden (z. B. Regressionsanalyse,
Clusteranalyse, Entscheidungsbäume)
Fehlende Werte ersetzen: Beispiel
(Quelle: H. Petersohn: Data Mining: Verfahren, Methoden, Anwendungsarchitektur, 2005)

Datenreduktion: Stichproben
 Ziele
 Reduktion der Datenmenge auf ein handhabbares Maß
 Aspekte
 Repräsentativität: Erhaltung der Zu-
sammenhänge der Grundgesamtheit
 Stichprobengröße
 Auswahl
 Zufallsauswahl
 ein-/mehrstufig
 geschichtet
 Bewusste Auswahl (Grafik: https://faculty.elgin.edu/dkernler/statistics/ch01/1-4.html)
 Spezialfall: Stichproben für Trainings-, Test- und

Validierungsdaten
Beispiel: Stichprobengröße
 Bleiben die Zusammenhänge erhalten?
8000 Punkte 2000 Punkte 500 Punkte
 Wie groß muss die Stichprobe sein,

um aus zehn gleichgroßen Gruppen
jeweils mindestens einen Repräsen-
tanten zu erhalten?
(Grafiken: Tan, Steinbach, Kumar: Introduction to Data Mining, 2004)
Umgang mit seltenen Ereignissen
 Interesse an seltenen Ereignissen (z. B. Identifikation von betrügerischen
Transaktionen oder Phishing-E-Mails)
 Starkes Ungleichgewicht von interessanten/uninteressanten Datensätzen
 Data-Mining-Algorithmen erkennen relevante Informationen häufig nicht
 Beispiel: Bonitätsanalyse
Schlechte
Zahler:
Trainingsdaten: 3.000 97 %
Modell: korrekte
100.000
Alle Kunden Prognosen!
Kunden Gute
zahlen gut
Zahler:
97.000
 Lösungsansatz:
 Einsatz geschichteter Stichproben
 Anpassung der Gütemaße
Datenaggregation I
Datenaggregation (Verdichtung/Konsolidierung) ist die

Zusammenfassung von Fakten zu einem einzigen Fakt.
Ziele
 Reduzierung der Datenmenge
 weniger Datensätze oder Attribute
 Skalenanpassung
 z. B. von Filialen zu Städten, Regionen, Ländern; Zeitrastervergröberung
 Vereinheitlichung bei verschiedenen Datenquellen
(z. B. bei externen Datenquellen)
 „Stabilere“ Daten
 Aggregierte Daten schwanken meist weniger
(geringere Varianz/Standardabweichung)
Datenaggregation II
 Voraussetzungen
 Überlappungsfreiheit der Zuordnung
 Jedes Datenobjekt wird nur einer Aggregationsklasse zugeordnet
 Vollständigkeit der Zerlegung
 Jedes Datenobjekt wird einer Aggregationsklasse zugeordnet
 Typverträglichkeit von Fakt und Aggregationsfunktion
 Typische Aggregationsfunktionen:
 Summierung: z. B. Umsatz, Kaufanzahl
 Mittelwertbildung: z. B. Umsatz oder Lagerbestand pro Monat
 Abwägung
 Überwiegen die Vorteile den Verlust an DetailIinformationen?
 Keine Intraklassenvarianz
 Individuelles Verhalten nicht mehr analysierbar
Dimensionsreduzierung I
Bei steigender Anzahl der Dimensionen (Datenattribute):
 wächst der Datenraum exponentiell
„Fluch der
 besetzen die vorliegenden Daten den Datenraum Dimensionalität“
immer spärlicher
 steigt der Abstand zwischen den Datenpunkten
 wird das Erkennen von Zusammenhängen schwieriger
Beispiel:
 Generiere zufällig 500 Punkte
 Berechne maximalen und minimalen
Punktabstand
 Setze die Differenz beider Abstände
ins Verhältnis
(Grafik: Tan, Steinbach, Kumar:
Introduction to Data Mining, 2004)
Dimensionsreduzierung II
 Ziele
 Vermeide „Fluch der Dimensionalität“
 Reduziere Datenmenge  beschleunige Analyseverfahren
 Erleichtere die Visualisierung
 Eliminiere unwichtige Attribute/reduziere Rauschen
 Methoden:
 Hauptkomponentenanalyse (Principal Component Analysis, PCA)
 Faktorenanalyse
 Weitere statistische oder Data-Mining-Methoden
Dimensionsreduzierung III
Grundprinzip
 Reduziere Dimensionen bei minimalem Informationsverlust
 Schließe offensichtlich überflüssige Merkmale aus (soweit möglich)
 Korrelierte Merkmale bedeuten redundante Informationen
 entferne Merkmale oder bilde Linearkombinationen
 Herausforderung: Interpretation der künstlichen Variablen
x2
e
x1
Datentransformation I
Skalentransformation
 Ziele
 Reduzierung der Modellkomplexität
 Erfüllung von Modellvoraussetzungen
(für bestimmte Data-Mining-Algorithmen)
 Vorgehen
 Überführung in niedrigeres Skalenniveau
(z. B. Verhältnisskala  Ordinalskala)
 Klassenbildung (Clustering)
 Kodierung nicht formatierter Werte (z. B. Freitext)
 Zu beachten
 Informationsverlust
Datentransformation II
Normierung
 Ziele
 Bessere Vergleichbarkeit
 Vereinfachte Berechnung
 Erfüllung von Modellvoraussetzungen
(für bestimmte Data-Mining-Algorithmen)
 Vorgehen
 Normalisierung der Werte (z. B. auf einen Wertebereich [0, 1])
 Abbildung durch mathematische Funktionen (z. B. log, exp, Wurzel)
 Anpassung von
 Lagemaßen (z. B. Mittelwert)
 Streumaßen (z. B. Standardabweichung)
Datentransformation III
Abgeleitete Merkmale
 Ziel:
Erzeugung von künstlichen Merkmalen, welche die wichtigsten
Informationen der Daten effizienter als die Originalmerkmale erfassen
 Vorgehen
 Kombination bestehender Merkmale zu neuen, z. B.
 Pro-Kopf-Umsatz = Umsatz / Kundenzahl
 Marktanteil = Absatz / Marktvolumen
 Ableitung neuer Merkmale aus bestehenden, z. B.
 Umsatzzahlen  Umsatzwachstum
 Zu beachten
 Domainwissen zur Abbildung nicht-trivialer Wirkungsrelationen
notwendig
Übungsaufgabe: Datenaufbereitung
Bearbeiten Sie Aufgabe 1 des Übungsblatts
Data-Mining
5 ASSOZIATIONSANALYSE
Was ist Assoziationsanalyse?
Assoziationsanalyse ist ein Verfahren zur Aufdeckung

einer „informativen“ Menge von Abhängigkeiten (engl.
Associations) zwischen Objekten der Form X → Y,
d. h. „wenn X dann wahrscheinlich auch Y“.
Müller, Lenz: Business Intelligence, 2013
 Assoziationsregeln X → Y beschreiben Zusammenhänge

zwischen gemeinsam auftretenden Merkmalsausprägungen
 Beispiel Warenkorbanalyse:
 Fragestellung: Welche Produkte werden häufig zusammen gekauft?
 Anwendungsbeispiele:
 Cross-Selling: Digitalkamera → Speicherkarte
 Empfehlungsdienste (z. B. Musik): „Yesterday“ → „Get Back“
 Analyse von Log-Dateien, Text-Mining, …
Assoziationsanalyse: Grundbegriffe I
 Items 𝑮𝑮 TID Items
Grundgesamtheit 𝐺𝐺 von Bezeichnern 1 Chips, Bier
(z. B. Produktnamen, Artikelnummern) 2 Chips, Windeln, Wurst, Käse
 Item-Menge 𝑿𝑿 3 Bier, Windeln, Wurst
Nicht-leere Teilmenge 𝑋𝑋 ⊆ 𝐺𝐺 4 Chips, Bier, Windeln
 𝒌𝒌-Item-Menge 5 Chips, Wurst, Windeln, Cola
Item-Menge mit 𝑘𝑘 Elementen (𝑘𝑘 ≥ 1)
 Datenbank/Datenbasis 𝑫𝑫
Menge 𝐷𝐷 von Item-Mengen (Transaktionen),
die Anzahl der Transaktionen ist 𝐷𝐷
 Absolute Häufigkeit 𝒏𝒏(𝑿𝑿)
Anzahl der Item-Menge 𝑋𝑋 in der Datenbank 𝐷𝐷
 Support (“Reichweite”) 𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺 𝑿𝑿 𝑛𝑛(𝑋𝑋)
Relativer Anteil der Item-Menge bezüglich der 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑋𝑋 =
|𝐷𝐷|
Gesamtmenge der Transaktionen
Assoziationsanalyse: Grundbegriffe II
 Häufige Item-Menge (frequent itemset) TID Items
Item-Menge, deren Support größer oder 1 Chips, Bier
gleich einer Schranke 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 ist 2 Chips, Windeln, Wurst, Käse
 Assoziationsregeln 3 Bier, Windeln, Wurst
Implikation der Form 𝑋𝑋 → 𝑌𝑌. Dabei sind 4 Chips, Bier, Windeln
𝑋𝑋 und 𝑌𝑌 Item-Mengen, die keine
5 Chips, Wurst, Windeln, Cola
gleichen Items enthalten (𝑋𝑋 ∩ 𝑌𝑌 = ∅).
 Support einer Assoziationsregel
Relative Häufigkeit der
Transaktionsmenge 𝑋𝑋 ∪ 𝑌𝑌 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑋𝑋 → 𝑌𝑌 = 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆(𝑋𝑋 ∪ 𝑌𝑌)
 Konfidenz (“Treffsicherheit”) einer Assoziationsregel
Misst bei einer Assoziationsregel
𝑋𝑋 → 𝑌𝑌, wie häufig 𝑌𝑌 in allen 𝑛𝑛(𝑋𝑋 ∪ 𝑌𝑌)
𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 𝑋𝑋 → 𝑌𝑌 =
Transaktionen auftritt, die 𝑋𝑋 𝑛𝑛(𝑋𝑋)
bereits enthalten.
Deutung von Assoziationsregeln
 Die Konfidenz einer Regel 𝑋𝑋 → 𝑌𝑌 ist eine Abschätzung der

bedingten Wahrscheinlichkeit 𝑷𝑷 𝒀𝒀 𝑿𝑿
 Assoziationsregeln implizieren nicht zwingend Kausalität
 Vier Arten von Abhängigkeiten
 𝑋𝑋 beeinflusst 𝑌𝑌 (direkt oder indirekt) kausal
 𝑌𝑌 beeinflusst X (direkt oder indirekt) kausal
 Es gibt eine gemeinsame Ursache, die sowohl 𝑋𝑋 als auch 𝑌𝑌
beeinflussen
 Es ist nur Zufall, dass die Regel besteht
Assoziationsregeln: Lift I
 Beim Data-Mining werden häufig extrem viele Assoziationsregeln
gefunden
 Der Lift ist ein Maß um „interessante“ Regeln herauszufiltern
 Der Lift vergleicht die Konfidenz einer Regel 𝑋𝑋 → 𝑌𝑌 mit dem erwarteten
Auftreten von 𝑌𝑌, falls keine Vorinformation vorliegt
𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾(𝑋𝑋 → 𝑌𝑌)
𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿 𝑋𝑋 → 𝑌𝑌 =
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆(𝑌𝑌)
 Statistisch ist der Lift der Quotient der geschätzten bedingten

Wahrscheinlichkeit und der geschätzten marginalen Wahrscheinlichkeit
�
𝑃𝑃(𝑌𝑌|𝑋𝑋)
𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿 𝑋𝑋 → 𝑌𝑌 =
�
𝑃𝑃(𝑌𝑌)
 „Interessant“ sind Regeln mit einem möglichst großen Lift (> 1)

Assoziationsregeln: Lift II
Rechenbeispiel:
𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 → {𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶}
Alle Trans-
𝑛𝑛 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 = 12 aktionen (=100)
𝑛𝑛 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵, 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 =5 𝑛𝑛 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 = 30
30
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 = = 30 %
100
12
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 = = 12 %
100
5
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵, 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 = =5 %
100
𝑛𝑛( 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵, 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 ) 5
K𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 → {𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶} = = = 16,67 %
𝑛𝑛( 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 ) 30
K𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 → {𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶} 0,1667
𝐿𝐿𝐿𝐿𝐿𝐿𝐿𝐿 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 → {𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶} = = = 1,389
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 0,12
Apriori-Algorithmus I
 Ziel
Bestimme alle Assoziationsregeln 𝑋𝑋 → 𝑌𝑌 mit
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑋𝑋 → 𝑌𝑌 ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾(𝑋𝑋 → 𝑌𝑌) ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
 Herausforderung
Brute Force-Ansatz nicht praktikabel, da auf der Potenzmenge von 𝐺𝐺
operiert werden muss.
 Idee
 Alle Assoziationsregeln 𝑋𝑋 → 𝑌𝑌 mit denselben Item-Mengen (d. h.
𝑋𝑋 ∪ 𝑌𝑌 identisch) haben denselben Support
 Finde zunächst alle häufigen Item-Mengen
 Nutze dabei die Monotonie-Eigenschaft: Jede Teilmenge einer häufig
auftretenden Item-Menge muss selbst auch häufig auftreten
Apriori-Algorithmus II
 Item-Mengen bei null
fünf Elementen
A B C D E
 Bei n Elementen gibt

es 2n Item-Mengen
 Monotonie-Eigenschaft: AB AC AD AE BC BD BE CD CE DE
Ist eine Item-Menge

häufig, müssen es auch
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ihre Teilmengen sein
ABCD ABCE ABDE ACDE BCDE
{A} selten
unterlegte Mengen ABCDE
ebenfalls selten
(Grafik: Tan, Steinbach, Kumar: Introduction to Data Mining, 2004)
Apriori-Algorithmus III
Grundaufbau
Eingabe: Datenbank mit Transaktionen, minSupport, minKonfidenz
Ausgabe: Assoziationsregeln
Schritt 1:
Finde alle häufigen Item-Mengen mit einem Support ≥ minSupport
Schritt 2:
Generiere für jede häufige Item-Menge alle Assoziationsregeln mit einer
Konfidenz ≥ minKonfidenz
(Algorithmus nach: Agrawal, Srikant: Fast algorithms for mining association rules, 1994)
Apriori-Algorithmus IV
Schritt 1: Finde häufige Item-Mengen
Eingabe: Datenbank mit Transaktionen, minSupport
Ausgabe: Häufige Item-Mengen
Berechne 𝐹𝐹1 als Menge aller häufigen einelementigen Item-Mengen
𝑘𝑘 = 1
do
Generiere Kandidatenmenge 𝐹𝐹𝑘𝑘+1 aus 𝐹𝐹𝑘𝑘
Berechne Support aller Elemente aus 𝐹𝐹𝑘𝑘+1
Entferne Kandidaten mit Support < minSupport wieder aus 𝐹𝐹𝑘𝑘+1
𝑘𝑘 = 𝑘𝑘 + 1
while 𝐹𝐹𝑘𝑘 nicht leer
return Vereinigung aller Mengen 𝐹𝐹𝑖𝑖 mit 𝑖𝑖 = 1, … , 𝑘𝑘 − 1
Apriori-Algorithmus V
Monotonie-Eigenschaft zur Generierung von Assoziationsregeln

mit hoher Konfidenz
 Sei 𝐿𝐿 eine Item-Menge (z. B. 𝐿𝐿 = {𝐴𝐴, 𝐵𝐵, 𝐶𝐶, 𝐷𝐷}).
 Seien 𝑋𝑋1 , 𝑋𝑋2 nicht-leere Teilmengen von 𝐿𝐿 und 𝑋𝑋2 ⊆ 𝑋𝑋1 .
 Dann gilt:
Die Konfidenz einer Regel 𝑋𝑋2 → 𝐿𝐿\𝑋𝑋2 kann nicht größer sein als die
Konfidenz der Regel 𝑋𝑋1 → 𝐿𝐿\𝑋𝑋1 .
 Beispiel: 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾( 𝐴𝐴, 𝐵𝐵 → 𝐶𝐶, 𝐷𝐷 ) ≤ 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾( 𝐴𝐴, 𝐵𝐵, 𝐶𝐶 → 𝐷𝐷 )
 Nutzung:
 Überprüfe zuerst Regeln mit kurzer Konklusion
 Prüfe Regeln mit längerer Konklusion nur, wenn entsprechende
Regeln mit kurzer Konklusion eine hohe Konfidenz haben
Apriori-Algorithmus VI
Schritt 2: Generiere Assoziationsregeln mit hoher Konfidenz
Eingabe: Menge F mit häufigen Item-Mengen, minKonfidenz
Ausgabe: Assoziationsregeln mit hoher Konfidenz
Für jedes Element 𝑍𝑍 von 𝐹𝐹:
Berechne Assoziationsregeln 𝑋𝑋 → 𝑌𝑌 mit 𝑌𝑌 = 1 und 𝑋𝑋 = 𝑍𝑍 − 𝑌𝑌
mit 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 𝑋𝑋 → 𝑌𝑌 ≥ 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚
Erzeuge 𝐻𝐻1 mit den gefundenen Konklusionsmengen
𝑘𝑘 = 1
do
Generiere Kandidatenmenge Hk+1 aus Hk
∀ ℎ𝑘𝑘+1 ∈ 𝐻𝐻𝑘𝑘+1 berechne 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 Z − ℎ𝑘𝑘+1 → ℎ𝑘𝑘+1
Falls die Konfidenz zu gering: entferne ℎ𝑘𝑘+1 aus 𝐻𝐻𝑘𝑘+1
𝑘𝑘 = 𝑘𝑘 + 1
while 𝐻𝐻𝑘𝑘 nicht leer
return Vereinigung aller Mengen 𝐻𝐻𝑖𝑖 mit 𝑖𝑖 = 1, … , 𝑘𝑘 − 1
Apriori-Algorithmus VII
Beispiel: Berechnung häufiger Item-Mengen TID Items
minSupport = 0,5 1 Chips, Bier
Transaktionen
2 Chips, Windeln, Wurst, Käse
3 Bier, Windeln, Wurst
4 Chips, Bier, Windeln
Item Support Item Support Item Support
k=3
k=1 k=2
Apriori-Algorithmus VIII
Beispiel: Berechnung von Assoziationsregeln mit hoher Konfidenz
minKonfidenz = 0,8
TID Items
1 Chips, Bier
2 Chips, Windeln, Wurst, Käse
3 Bier, Windeln, Wurst
4 Chips, Bier, Windeln Regel Konfidenz

Transaktionen
Item Support
Assoziationsregeln
Häufige Item-Mengen
Übungsaufgabe: Assoziationsanalyse
Bearbeiten Sie die Aufgaben 2 und 3 des Übungsblatts
Data-Mining
6 ENTSCHEIDUNGSBÄUME
Grundprinzip der Klassifikation
Classification is the task of learning a target function f that maps

each attribute set x to one of the predefined class labels.
Tan; Steinbach; Kumar: Introduction to Data Mining, 2005.
Eingabe Ausgabe
Attributmenge x Zielfunktion f Klassen-
(Datenobjekt) (Klassifikationsmodell) bezeichnung y
Einsatzmöglichkeiten als deskriptives oder prädiktives Modell
Klassifikation: Allgemeiner Ansatz
Lern-
verfahren
Induktion
Modell
erlernen
Modell
Training Set
Modell
anwenden
Deduktion
Test Set
(Angelehnt an: Tan; Steinbach; Kumar: Introduction to Data Mining, 2005)
Klassifikation: Anwendungsbeispiele
 Klassifiziere die Kreditkartentransaktionen
als legitim oder betrügerisch
 Klassifiziere die Tumorzellen als gut-
oder bösartig
 Klassifiziere die E-Mail als SPAM oder HAM
 Klassifiziere die Proteinstruktur als α-Helix,
β-Faltblatt oder Zufallsknäul
 Ordne die Nachrichtenartikel den Klassen
„Politik“, „Finanzen“, „Unterhaltung“,
„Kultur“, „Sport“ und „Wetter“ zu
Klassifikationsgüte
Wahrheits-/Konfusionsmatrix für ein Zwei-Klassen-Problem (z. B. SPAM/HAM)
Vorhergesagte Klasse
positiv negativ
Tatsächliche positiv richtig positiv (rp) falsch negativ (fn)
Klasse negativ falsch positiv (fp) richtig negativ (rn)
𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 𝑟𝑟𝑝𝑝 + 𝑟𝑟𝑛𝑛

𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 = =
𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 𝑟𝑟𝑝𝑝 + 𝑓𝑓𝑝𝑝 + 𝑓𝑓𝑛𝑛 + 𝑟𝑟𝑛𝑛
𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 𝑓𝑓𝑝𝑝 + 𝑓𝑓𝑛𝑛

𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 = =
𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 𝑟𝑟𝑝𝑝 + 𝑓𝑓𝑝𝑝 + 𝑓𝑓𝑛𝑛 + 𝑟𝑟𝑛𝑛
Prinzip auf mehr als zwei Klassen erweiterbar
Klassifikationsansätze
 Entscheidungsbäume
 Regelbasierte Methoden
Im Folgenden
 Memory-Based-Reasoning näher betrachtet
 Neuronale Netze
 Naïve-Bayes-Klassifizierung
und Bayessche Netze
 Support-Vektor-Machinen
 …
Entscheidungsbäume: Definition
Ein Entscheidungsbaum ist ein geordneter, gerichteter Baum, dessen
Knoten logische Bedingungen und dessen Blätter Datenmengen
sind, die die Bedingungen des jeweiligen Pfades erfüllen. Jeder Pfad
des Baumes stellt eine Hierarchie von Entscheidungsregeln dar.
Regel1
Regel2 Regel3
Daten1 Daten2 Daten3 Daten4 Daten5
Idee: Hierarchische Klassifikation

Überprüfe die Merkmale der Daten in der Reihenfolge der Wichtigkeit,
schränke die Kandidaten für die Klassen immer mehr ein.
Entscheidungsbäume: Beispiel I
Entscheidungsattribute
TID Kinder Status Gehalt Betrug

1 ja ledig 65,000 nein
Kinder
2 nein verheiratet 50,000 nein ja nein
3 nein ledig 35,000 nein
4 ja verheiratet 60,000 nein nein Status
5 nein geschieden 50,000 ja ledig, geschieden verheiratet
6 nein verheiratet 30,000 nein
Gehalt nein
7 ja geschieden 95,000 nein
8 nein ledig 45,000 ja < 40,000 > 40.000
9 nein verheiratet 35,000 nein nein ja
10 nein ledig 75,000 ja
10
Trainingsdaten Modell: Entscheidungsbaum

Entscheidungsbäume: Beispiel II
Status
TID Kinder Status Gehalt Betrug verheiratet ledig, geschieden
nein Kinder
3 nein ledig 35,000 nein ja nein
4 ja verheiratet 60,000 nein
nein Gehalt
5 nein geschieden 50,000 ja
< 40,000 > 40.000
7 ja geschieden 95,000 nein nein ja
9 nein verheiratet 35,000 nein Für dieselben Daten ist mehr als ein
Entscheidungsbaum möglich!
10
Trainingsdaten
Klassifikation mit Entscheidungsbäumen I
Ent.-Baum-
Verfahren
Induktion
Ent.-Baum
erlernen
Modell
Training Set
Entscheidungs-
Ent.-Baum baum
anwenden
Deduktion
Test Set
Klassifikation mit Entscheidungsbäumen II
Starte bei der Wurzel Neuer Fall

Kinder Status Gehalt Betrug
nein verheiratet 80,000 ?
10
Kinder
ja nein
Klassifizierung:
nein Status
Kein Betrug
ledig, geschieden verheiratet
Gehalt nein
< 40,000 > 40.000
nein ja
Modell: Entscheidungsbaum
Klassifikation mit Entscheidungsbäumen I
Baum-
Verfahren
Induktion
Ent.-Bauml
erlernen
Modell
Training Set
Entscheidungs-
Ent.-Baum baum
anwenden
Deduktion
Test Set
Entscheidungsbaum-Algorithmen
Zahlreiche Algorithmen für Entscheidungsbäume vorhanden

 Hunt-Algorithmus Im Folgenden
näher betrachtet
 C4.5
 CART (Classifikation and Regression Trees)
 CHAID (Chi-Square Automatic Interaction Detectors)
 ID3 (Iterative Dichotomiser 3)
 SLIQ (Supervised Learning in Quest)
 SPRINT (Scalable Parallelizable Induction of Decision Trees)
Hunt-Algorithmus: Grundidee
Algorithmus Hunt-rekursiv
Eingabe: Knoten 𝑡𝑡, Menge 𝐷𝐷𝑡𝑡 der Trainingsdatensätze, die 𝑡𝑡 erreichen
Ausgabe: Entscheidungsbaum
if alle Datensätze in 𝐷𝐷𝑡𝑡 gehören zur selben Klasse 𝑦𝑦𝑡𝑡
𝑡𝑡 ist Blatt mit Kennzeichnung 𝑦𝑦𝑡𝑡
else
Wähle Attribut-Testbedingung um Datensätze in kleinere
Teilmengen zu spalten
Erzeuge einen Nachfolgerknoten für jeden Ausgang der
Testbedingung
Verteile die Datensätze in gemäß der Testbedingung an
die Nachfolgerknoten
Wende den Algorithmus rekursiv auf jeden Nachfolgerknoten an
Hunt-Algorithmus: Beispiel
Kinder Kinder
ja nein ja nein
nein ? nein Status

ledig, geschieden verheiratet
TID Kinder Status Gehalt Betrug ? nein

2 nein verheiratet 50,000 nein Kinder
3 nein ledig 35,000 nein ja nein
4 ja verheiratet 60,000 nein
nein Status
5 nein geschieden 50,000 ja
6 nein verheiratet 30,000 nein ledig, geschieden verheiratet
7 ja geschieden 95,000 nein
Gehalt nein
< 40,000 > 40.000
10 nein ledig 75,000 ja nein ja
10
Hunt-Algorithmus: Sonderfälle
 Nachfolgerknoten erhält keine Datensätze

 Knoten wird Blatt
 Klassenlabel: häufigster Klassenlabel der Datensätze des
Elternknotens
 Datensätze unterscheiden sich nur bezüglich des
Klassenlabels
 Weitere Aufteilung der Datensätze nicht möglich
 Knoten wird Blatt
 Klassenlabel: häufigster Klassenlabel in den zugehörigen
Datensätzen
Erlernen der Entscheidungsbaumstruktur
 Greedy-Strategie
 Teile die Datensätze aufgrund einer Attribut-
Testbedingung auf, die ein bestimmtes Kriterium
optimiert.
 Offene Fragen
 Wie werden die Datensätze konkret aufgeteilt?
 Wie wird die Attribut-Testbedingung festgelegt?
 Wie wird die beste Aufteilung bestimmt?
 Wann sollte man nicht weiter aufteilen?
Aufteilung (Split) der Datensätze
 Abhängig von den Attributtypen
Rentner
 binär
ja nein
Farbe
 nominal
blau gelb rot
Größe
 ordinal Alter
S M L XL
 stetig < 18 [18,65] > 65
 Anzahl der Teilmengen

Größe
 zwei Größe
{S, M} {L, XL}
 mehr als zwei {S, M} {L} {XL}
Was ist die beste Aufteilung?
Idee: Bestimme die Homogenität bzw. den Unreinheitsgrad der

entstehenden Datensatzteilmengen
Geschlecht Autotyp Kunden-ID

m w Familie Luxus ID10
Sport
ID01 …
K1 6 K1 4 K1 1 K1 8 K1 1 K1 1 K1 0
…
K2 4 K2 6 K2 3 K2 0 K2 7 K2 0 K2 1
geringe Homogenität/ hohe Homogenität/ vollständig homogen/

hohe Unreinheit geringe Unreinheit keine Unreinheit
Nutzen?
Homogenitätsmaße I
Entropie
 Gegeben:
 Knoten 𝑇𝑇 mit |𝑇𝑇| Datensätzen in 𝑘𝑘 Klassen (Partitionen von 𝑇𝑇)
 𝑝𝑝𝑖𝑖 = relative Anzahl der Datensätze der Klasse 𝑖𝑖 (mit 𝑖𝑖 = 1, … , 𝑘𝑘)
𝑘𝑘
Entropy 𝑇𝑇 = − � 𝑝𝑝𝑖𝑖 log 2 𝑝𝑝𝑖𝑖

𝑖𝑖=1
 Der Knoten ist vollständig homogen/rein, wenn Entropy 𝑇𝑇 = 0

 Entropie maximal, wenn alle enthaltenen Klassen gleichverteilt sind
(Maximalwert bei zwei Klassen: 1,0)
 Genutzt z. B. von ID3, C4.5
Homogenitätsmaße II
Gini-Index
 Gegeben:
𝑘𝑘
Gini 𝑇𝑇 = 1 − � 𝑝𝑝𝑖𝑖2
𝑖𝑖=1
 Der Knoten ist vollständig homogen/rein, wenn Gini 𝑇𝑇 = 0

 Gini-Index maximal, wenn alle enthaltenen Klassen gleichverteilt sind
(Maximalwert bei zwei Klassen: 0,5)
 Genutzt z. B. von CART, SLIQ, SPRINT
Homogenitätsmaße III
Klassifizierungsfehler
 Gegeben:
Klassifizierungsfehler 𝑇𝑇 = 1 − max{𝑝𝑝𝑖𝑖 }
 Der Knoten ist vollständig homogen/rein, wenn

Klassifizierungsfehler 𝑇𝑇 = 0
 Klassifizierungsfehler maximal wenn alle enthaltenen Klassen
gleichverteilt sind (Maximalwert bei zwei Klassen: 0,5)

Homogenitätsmaße IV
Vergleich der Homogenitätsmaße für ein binäres Klassifikationsproblem
Entropie
Unreinheit
Impurity
Gini-Index
Klassifikationsfehler
Grafik: Tan; Steinbach; Kumar: Introduction to Data Mining, 2005

Homogenitätsmaße V
Güte der Knotenaufteilung/Information Gain (IG)

 Gegeben:
 Knoten 𝑇𝑇 mit 𝑚𝑚 Nachfolgeknoten 𝑇𝑇𝑖𝑖 mit jeweils |𝑇𝑇𝑖𝑖 | Datensätzen
 𝐻𝐻 sei das gewählt Homogenitätsmaß
𝑚𝑚
𝑇𝑇𝑖𝑖
Information Gain = 𝐻𝐻 𝑇𝑇 − � 𝐻𝐻(𝑇𝑇𝑖𝑖 )
𝑇𝑇
𝑖𝑖=1
 Beispiel: Gewähltes Homogenitätsmaß: Entropie

𝑇𝑇𝑖𝑖
 𝐼𝐼𝐼𝐼 = Entropie T − ∑𝑚𝑚
𝑖𝑖=1 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑇𝑇𝑖𝑖
𝑇𝑇
𝑇𝑇𝑖𝑖
 𝐼𝐼𝐼𝐼 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 ⟺ ∑𝑚𝑚
𝑖𝑖=1 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑇𝑇𝑖𝑖 minimal
𝑇𝑇

Beispiel: Aufteilung mittels Gini I
Knoten T
Geschlecht
m w
Knoten T1 Knoten T2
K1 6 K1 4
K2 4 K2 6
2 2
6 4
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑇𝑇1 =1− − = 0,48
10 10
2 2
4 6
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑇𝑇2 =1− − = 0,48
zu minimieren 10 10
um IG zu 10 10
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 = � 0,48 + � 0,48 = 0,48
maximieren 20 20

Beispiel: Aufteilung mittels Gini II
Knoten T
Autotyp Knoten T2
Familie Luxus
Sport
Knoten T1 K 1 K1 8 K1 1 Knoten T3
1
K2 3 K2 0 K2 7
2 2
1 3
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑇𝑇1 =1− − = 0,375
4 4
2 2
8 0
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑇𝑇2 =1− − =0
8 8
2 2
1 7
𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑇𝑇3 =1− − = 0,219
zu minimieren 8 8
um IG zu 4 8 8
maximieren 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 = � 0,375 + �0+ � 0,219 = 0,1625
20 20 20

Beispiel: Aufteilung mittels Gini III
 Weitere Schritte
 Attributauswahl: Niedrigster Gini-Index (⇒ größter Information Gain)
nach Aufteilung bei Attribut Autotyp
 Rekursion: Algorithmus auf die neuen Knoten 𝑇𝑇1,𝑇𝑇2 und 𝑇𝑇3 anwenden
und auf beste Aufteilmöglichkeit untersuchen
 Gini-Index-Berechnung wie im ersten Schritt
 Allgemeine Vorgehensweise:
1. Start: Alle Objekte befinden sich in einem Knoten
2. Suche nach dem besten Klassifikationsmerkmal
3. Klassifizierung der Objekte nach diesem Merkmal
4. Rekursive Anwendung der Schritte 2 und 3 bis zum Stopp-Kriterium
5. Nachträgliches Zurückschneiden des Baumes (siehe nächste Folien)

Wann soll man die Aufteilung beenden?
 Natürliche Kriterien
 Knoten enthalten nur noch Datensätze einer Klasse
 Die zur Verfügung stehenden Attribute erlauben keine weitere
Verbesserung
 Gefahr: Overfitting (Überanpassung)
 Nutzung Immer speziellerer
Merkmalskombinationen
 Der Klassifikationsfehler bei den
Trainingsdaten sinkt
 Spezielle Merkmalskombinationen
nicht auf andere Daten übertragbar
 Generalisierungsfähigkeit sinkt!
 Der Klassifikationsfehler bei den
Testdaten steigt!
Pruning
Pruning (Zurückschneiden/Zurechtstutzen)
 Top-Down Pruning: Einführung künstlicher Stopp-Kriterien
 Minimale Anzahl von Datensätzen im Knoten (absolut/prozentual)
 Grenzwerte für die Verbesserung der Homogenität
 Maximalen Baumtiefe
 …
 Bottom-Up Pruning (Nachträgliches Stutzen)
 Pruning von Aufteilungen mit geringem Homogenitätsbeitrag
 Verschmelze aufgeteilte Knoten solange der Generalisierungsfehler
sinkt

Entscheidungsbäume: Bewertung
 Vorteile
 Effizient zu erstellen
 Sehr schnelle Klassifizierung unbekannter Datensätze
 Kleine Entscheidungsbäume leicht zu interpretieren
 Klassifikationsgüte bei einfachen Datensätzen vergleichbar zu
komplexeren Verfahren
 Nachteile
 Instabilität: Leicht veränderte Daten können zu ganz anderen
Entscheidungsbäumen führen
 Klassifizierungsgrenzen:
 Keine weichen Übergänge/Grenzfälle möglich
 Grenzen/Grenzstücke müssen parallel zu den Attributachsen sein
 Algorithmenvarianten unterscheiden sich bezüglich des gewählten Homo-
genitätsmaßes, der nutzbaren Datentypen und der Pruning-Strategie.
Übungsaufgabe: Datenaufbereitung
Bearbeiten Sie die Aufgaben 4 und 5 des Übungsblatts

02 Kapitel Data Mining

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

02 Kapitel Data Mining

Hochgeladen von

Copyright:

Verfügbare Formate

Analytische Informationssysteme

Datenmanagement und Reporting

Spezielle Methoden: Überblick zu weiteren Methoden

Datenmanagement und Reporting

Spezielle Methoden: Überblick zu weiteren Methoden

„Aktivitäten erzeugen Daten. Und Daten werden gesammelt.“

 Wunsch: Nutzung der vorhandenen „Datenschätze“ zur

Analyse des Webauftritts

Semantische Analyse von Texten

Zahlreiche weitere Anwendungsfälle finden sich im Buch

„Data Mining ist das semi-automatische Aufdecken von

„Data Mining bezeichnet den Prozess zur effizienten

Als Data Mining bezeichnet man die softwaregestützte

(nach Petersohn: Data Mining: Verfahren, Prozesse, Anwendungsarchitektur, 2005)

Es existieren weitere Definitionen, die sich vor allem in

Data-Warehouses (DWH) bilden eine gute Basis für Data-Mining

Grundlegende Aufgaben des Data Mining:

 Beispiele: Entdeckung betrügerischer Transaktionen, Eingabefehlern

 Beispiele: Modellvereinfachung, Identifizierung latenter Variablen

 Beispiele: Klickverhalten auf Websites

 Beispiele: Einteilung in Bonitätsklassen, Identifizierung von Spam

 Beispiele: Bestimmung von Hauspreisen, Zusammenhang von

 Unüberwachtes Lernen (unsupervised learning)

 Text Schlagwort: Milch mit dem Mehl gut ver-

Knowledge Discovery in Databases (KDD)

Für welche Probleme eignet sich Data-Mining besonders?

Es sind genügend Komplexe, wissens-

Problem wird bislang mit Richtige Entscheidung

Welche Annahmen müssen beim Data-Mining gegeben sein?

Die vorhandenen Daten Muster der Vergangen-

Die Qualität der Die Daten enthalten das,

 Daten über mehrere Quellen verteilt?

 Ausschluss von Beobachtungen (Datensätzen/Tabellenzeilen)

 Idee: Einsetzen plausibler Werte

(Quelle: H. Petersohn: Data Mining: Verfahren, Methoden, Anwendungsarchitektur, 2005)

 Spezialfall: Stichproben für Trainings-, Test- und

8000 Punkte 2000 Punkte 500 Punkte

 Wie groß muss die Stichprobe sein,

(Grafiken: Tan, Steinbach, Kumar: Introduction to Data Mining, 2004)

Datenaggregation (Verdichtung/Konsolidierung) ist die

Bearbeiten Sie Aufgabe 1 des Übungsblatts

Assoziationsanalyse ist ein Verfahren zur Aufdeckung

 Assoziationsregeln X → Y beschreiben Zusammenhänge

 Die Konfidenz einer Regel 𝑋𝑋 → 𝑌𝑌 ist eine Abschätzung der

 Statistisch ist der Lift der Quotient der geschätzten bedingten

 „Interessant“ sind Regeln mit einem möglichst großen Lift (> 1)

𝑛𝑛 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵, 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶 =5 𝑛𝑛 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 = 30

 Item-Mengen bei null

 Bei n Elementen gibt

Ist eine Item-Menge

ABCD ABCE ABDE ACDE BCDE

Monotonie-Eigenschaft zur Generierung von Assoziationsregeln

Item Support Item Support Item Support

5 Chips, Wurst, Windeln, Cola

Bearbeiten Sie die Aufgaben 2 und 3 des Übungsblatts

Classification is the task of learning a target function f that maps

Einsatzmöglichkeiten als deskriptives oder prädiktives Modell

𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 𝑟𝑟𝑝𝑝 + 𝑟𝑟𝑛𝑛

𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓 𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 𝑓𝑓𝑝𝑝 + 𝑓𝑓𝑛𝑛

Prinzip auf mehr als zwei Klassen erweiterbar

Daten1 Daten2 Daten3 Daten4 Daten5

Idee: Hierarchische Klassifikation

TID Kinder Status Gehalt Betrug

Trainingsdaten Modell: Entscheidungsbaum