Sie sind auf Seite 1von 44

Data Mining mit

SPSS Clementine

Universitt Koblenz
13.11.2003
Referent

Dr. Christian Trippner


Consulting Project Manager
SPSS GmbH Software
ctrippner@spss.com
Tel: 089-489074-129

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 2


Firmenprofil - SPSS in Zahlen

Grndung 1968, seit 1993 NASDAQ: SPSS


ber 30 SPSS Niederlassungen, 1200
Beschftigte weltweit
Umsatz 2001: ca. 300 Mio. $
ca. 2-3 Millionen Anwender
SPSS Software in 12 Sprachen

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 3


SPSS Produktportfolio
Ein breites Softwareangebot fr
Papier- und Online-Befragungen
Datenaufbereitung
Datenanalyse und Data Mining
Ergebnisdistribution

Serviceleistungen
Training
Coaching
Consulting

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 4


Prdiktive Datenanalyse mit SPSS
Datenquellen Daten-
Daten- Datenhaltung Datenanalyse
aufbereitung & Data mining Ergebnisdistribution
Data KNOWLEDGE INFORMATION
collection WORKERS CONSUMERS
software
Data Reporting Paper
mart reports
OLAP
External Extract
Pattern
data Cleanse recognition Browser
Impute Exception
detection
ERP Transform Segmentation
systems Data Web Browser
Calculate warehouse Classification server
Enrich Profiling
Other Manage Scoring
transaction Browser
systems Load Forecasting
Simulation
Data Optimization Desktop
Functional software
department mart MODEL
systems BUILDERS

Legacy
databases

Services / Application development / Prototyping

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 5


Agenda

Was ist Data Mining?

Das Data Mining - Prozessmodell CRISP-DM

Praxisdemo Kndigeranalyse

Deployment - Was mache ich denn mit


meinen Modellen??

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 6


Data Mining ist ...

... der Prozess des Entdeckens bedeutsamer


neuer Zusammenhnge, Muster und Trends
durch die Analyse groer Datenstze mittels
Mustererkennung sowie statistischer und
mathematischer Verfahren

- Erick Brethenoux,
Brethenoux, Gartner Group

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 7


Definition - Data Mining
Berry / Linoff:
DM ist der halb- oder vollautomatisierte Prozess der
Erklrung und Analyse groer Datenmengen, um
bedeutsame (= fr die eigene Situation nutzbare)
Strukturen und Zusammenhnge aufzudecken!

DM Menge von Daten in Trichter werfen, um automatisch


relevante Zusammenhnge
zu bekommen!

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 8


Data Mining makes the difference ...

Kundenakquise

OLAP:

Wie war die Responsequote unseres Mailings?

Data Mining:
Wie ist das Profil der Leute, die auf unsere zuknftigen
Mailings am wahrscheinlichsten antworten werden?

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 9


Data Mining makes the difference ...

Cross-selling

OLAP:

Wie viele Einheiten unseres neuen Produktes haben wir an


unsere bestehenden Kunden verkauft?

Data Mining:
Welche unserer bestehenden Kunden werden am
wahrscheinlichsten unser neues Produkt kaufen?

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 10


Data Mining makes the difference ...
Kndigeranalysen
OLAP:
Welche Kunden haben letzten Monat gekndigt?

Data Mining:
Welche Kunden werden wahrscheinlich in den nchsten 6
Monaten zu einem Konkurrenten berlaufen?

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 11


Data Mining makes the difference ...

Customer Lifetime Value

OLAP:

Wer waren letztes Jahr unsere 10 besten Kunden?

Data Mining:

Welche 10 Kunden bieten uns das grte


Umsatzpotenzial?

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 12


Data Mining makes the difference ...

Risiko Management

OLAP:

Welche Kunden waren zahlungsunfhig?

Data Mining:
Ist dieser Kunde wahrscheinlich bonitr?

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 13


Data Mining makes the difference ...

Forecasting

OLAP:

Wieviel Umsatz haben wir in jedem Vertriebsgebiet im


letzten Quartal erwirtschaftet?

Data Mining:
Wie ist der erwartete Umsatz in jedem Vertriebsgebiet im
nchsten Quartal?

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 14


Data Mining makes the difference ...

Produktion

OLAP:

Wie hoch ist der Anteil defekter Teile, den wir gestern
produziert haben?

Data Mining:
Welche Produktionsbedingungen tendieren dazu, defekte
Teile zu produzieren?

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 15


CRISP-DM: eine Methodologie fr`s Data
Mining

Cross-Industry Standard
Process for Data Mining

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 16


CRISP-DM der Weg zum Erfolg

Gemeinsame Anstrengung von fhrenden Kpfen


im Data Mining

Ermglicht gebten und ungebten Anwendern,


auf das Spezialwissen von Branchenexperten
zuzugreifen

Garantiert eine verbesserte Effizienz von Data


Mining-Projekten

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 17


Wurzeln von CRISP-DM
Entstehung: Anfang 1999 aus einem Industriekonsortium

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 18


Warum CRISP-DM?

Zuverlssiger und wiederholbarer Prozess


(Kochanleitung zu Data Mining)
Flexibel genug, um individuellen
Unterschieden Rechnung zu tragen
herstellerneutral / industriebergreifend
Fokus auf geschftliche Fragestellungen

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 19


CRISP-DM Phasen

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 20


Begin with the end in mind ...

Am Anfang steht die Definition eines


kritischen Unternehmens- oder
Forschungsziels

Kurzer berschaubarer Zeitrahmen

Klare Definition des Abzuliefernden

Business understanding ist der Schlssel

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 21


Business understanding

Geschftsbezogene Ziele definieren:


Durch die Kundenbindungsmanahmen (die auf die
Data Mining Aktivitten aufbauen) soll die Kndigungsrate im Bereich
Handy Privatkunden von zur Zeit z.B. 20% pro Jahr auf 15% gesenkt
werden.

Data Mining Ziel definieren:


Um das geschftsbezogene Ziel zu erreichen, sollen Kndiger vorab
mit einer Genauigkeit von z.B. 80%
als solche identifiziert werden.

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 22


Business understanding

Erste Datenbeschaffung

Datenreport
Daten beschreiben (Data Audit)
Daten explorieren

Datenqualitt verifizieren

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 23


Data preparation

Daten auswhlen
Kriterien fr Auswahl/Ausschluss

Daten bereinigen
Missing Values, Fehleingaben

Daten konstruieren
neue Merkmale ableiten (Gesamtumsatz)

Daten integrieren
Daten hinzuspielen

Daten umkodieren

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 24


Data preparation

Beispiel: Datenaufbereitung fr Churnanalyse im


Bereich Telco
Usage Daten (Auszug):
Umsatz Handy-Handy
Umsatz Handy-Festnetz
(lokal, national, internat.)
Umsatz SMS
Umsatz Mailbox
Umsatz Hauptzeit/Nebenzeit
Umsatz Wochenende
Prepaid: Anzahl Aufladungen
Weitere Indikatoren:
Anzahl der zustzlichen Services
Zahl der abgebrochenen Telefonate
Abweichung zwischen bestehendem und besten Tarif
Zahl der Anrufe im Call Center

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 25


Modelling

Modellierungsmethode auswhlen
Testdesign erstellen
Trainings- und Testdaten
Modell erstellen
Parametereinstellungen (Default, Experte)
Modellgte bestimmen
evtl. Parametereinstellungen revidieren
Kombination von Modellen (Metamodelling)
Hintereinanderschalten von verschiedenen Algorithmen (C5,
Neuronale Netze, ...)

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 26


Evaluation

Evaluation der Modelle


Einschtzung der Data Mining Resultate in Bezug auf die am Anfang
definierten geschftlichen Erfolgskriterien

Akzeptierte Modelle

Prozessrckschau
kritischer Rckblick auf den gesamten DAMI Prozess

Nchste Schritte festelegen

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 27


Deployment

Umsetzungsplan
welche Mglichkeiten bestehen und stellen eine sinnvolle
Umsetzung bzw. Verbreitung der durch Data Mining gewonnenen
Resultate/Modelle dar

berwachung und Pflege des Umsetzungsplanes

Erstellung eines Abschlussberichtes

Projektrckblick
Erfahrungen, Dokumentation

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 28


CRISP-DM Ressourcen

CRISP-DM User Guide

Output

Aktivitten

Vorsicht

Gute Idee

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 29


Mehr ber CRISP-DM

www.spss.com

www.crisp-dm.org

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 30


Praxisdemo

Kndigeranalyse
(Churn Analysis)
im Bereich
Telekommunikation

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 31


Deployment
Verteilung der Data Mining
Ergebnisse an die
relevanten Schnittstellen
zum Kunden (customer touchpoints)

ct W
i e
r il eb
D ma SPSS
Data
Ph ce
on
Data mining
- fa
e -to
ce
Fa

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 32


Mglichkeiten des Deployments

Nur Modell exportieren


Datenaufbereitung
fehlt!!

Gesamten Stream
exportieren

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 33


Mglichkeiten des Deployments

1) Automatisierte Ausfhrung von Streams


mit Hilfe eines Batch-Jobs

2) Loslsen des erstellten Modells vom


Analystenrechner und Verteilung an
verschiedenste Stellen in der
Organisation (mit Hilfe des Clementine
Solution Publishers)
Realtime scoring

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 34


Was ist der Batch-Mode?

Batch Execution: Ausfhrung von Clementine-


Streams ohne Benutzeroberflche

Anwendungen:
Ausfhrung von Standard Streams auf Routinebasis
Ablauf von Streams im Hintergrund
Ermglicht zeitgesteuerte Ausfhrung in Verbindung mit
einem Scheduler

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 35


Analysedesign

Mining Stream

Training

Test

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 36


Vorteile

Maximierung des In-DatabaseMining

Skaliert den gesamten, interaktiven Data Mining


Prozess
Viele Hersteller skalieren ausschlielich die
(Modellierungs-) Algorithmen

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 37


Echtzeitscoring
Beispiel:
In einer Bank wurde ein DM-Modell fr die
Gewhrung eines Altersvorsorgeplans fr
Kunden erstellt.

Mit Hilfe des SolutionPublishers kann das


vorab erstellte Modell allen Mitarbeitern
zur Verfgung gestellt werden.

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 38


Echtzeitscoring Applikation

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 39


Beispiele fr Echtzeitscoring
Risikoanalyse bei Kreditvergabe in
Banken

CrossSelling (Banken,
Versicherungen, Lieferservices,
Kundenschalter)

Vorhersagesystem fr Airline, um
berbuchungen zu vermeiden

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 40


Clementine Server

SQL
Optimierungs-
Tabellen
SQL
Datenbank Tabellen Clementine
Server

SDL Ergebnisse

Externe Verarbeitung
(Modellierung-
algorithmen)

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 41


Tier-Architektur im Server-Modus von
SPSS Clementine

Berechnungen, sowie
DB-Operationen select, sort, merge
Datenbank (by key), aggregate, filter und best.
Grafiken (Streu-, Balken- und
Liniendiagramme + Webdiagramm)
Clementine Alle Berechnungen auerhalb der DB,
Server gesamte Modellierung und
flat-file access

Clementine Grafiken auerhalb DB,


Anzeige von Daten in Tabelle
Client

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 42


Vielen Dank fr Ihre Aufmerksamkeit

FRAGEN?

ctrippner@spss.com
SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 43
Literaturliste

Berry/Linnof: Mastering Data Mining

Berry/Linnof: Data Mining Techniques

Clay Helberg: Data Minig with Confidence

Wilde/Hippner: Grundlagen des CRM

Han/Kamber: Data Mining Concepts and


Techniques

SPSS GmbH Software Mnchen 2003 SPSS Clementine an Hochschulen 44

Das könnte Ihnen auch gefallen