Sie sind auf Seite 1von 12

DIPL.KFM.

JÖRG BECKER

Markt und Information


Datenschätze für den Decision Support

2010

WWW.BECKINFO.DE
2

Mit im „Datenbergwerk“ verborgenen Schätzen fündig werden

Data Mining liefert die Grundlagen für differenzierte Marktkorbanalysen, Absatz-


planung und -prognosen, Zielgruppen- und Kundenanalysen, Produktmanagement
und Preisplanung. Der Unterschied zu anderen Analysetechniken liegt darin, daß
Data Mining verschiedene Abfragetechniken und Analyseverfahren automatisch
miteinander verknüpft. Zu diesen Verfahren gehören Entscheidungsbäume, ver-
schiedene statistische Auswertungen, grafische Darstellungsmethoden sowie
neuronale Netze. Bei Bedarf lassen sich auch spezielle Routinen zur Datenauswer-
tung für bestimmte Fragestellungen im Marketing programmieren.
Ergänzende Studien - Verbindungen zu Modellen mit Wissens-
bilanzen, Standortbilanzen und Personenbilanzen, u.a.:

Becker, Jörg: Entscheidungstechniken als Krisenschutz


Becker, Jörg: Wissensbilanz mit Kundenbarometer
Becker, Jörg: Data Mining als Wissensbilanz-Zubringer
Becker, Jörg: Wissensbilanz und Geschäftsplanung
Becker, Jörg: Strategie-Check und Wissensbilanz

Beispiel: Hinsichtlich des Rollenverständnis in Partnerschaftshaushalten ergibt sich


für Kaufentscheidungen ein Schwerpunkt-Rollendreieck: nach diesem bestimmt
beispielsweise bei Bier und Spirituosen immer noch der Mann, welche Marke ge-
trunken wird. Frauen bestimmen nach wie vor in Bereichen wie Körperpflege,
Kosmetik oder Ernährung. Die Tendenz des Kaufverhaltens geht hin zu immer
mehr gemeinsamen Entscheidungen wie z.B. in den Bereichen Urlaub, Wohnungs-
einrichtung etc. In vielen Bereichen, wie beispielsweise beim Auto-Kauf, muss ein
„Veto-Recht“ der Frauen berücksichtigt werden. Beispielsweise bestimmt der
Mann welches Auto gekauft wird, die Frau bestimmt welche Farbe gewählt wird:
3

10 20 30 40 50 60 70 80 90 100
100
80
60 Spirituosen Pkw
40
PC/Homecomputer Fernsehgeräte
Mann
20 Urlaubsreisen dominant:
0
Wohnungseinrichtung
-20 Arzneimittel/Ernähung Frau
-40 Körperpflege/Kosmetik Heimtextilien dominant:
-60
-80
-100
10 20 30 40 50 60 70 80 90 100

So wie ein Minenarbeiter im Bergwerk nach verborgenen Schätzen sucht und im-
mer tiefere, weit verzweigte Stollen in die Erde hineintreibt, um fündig zu werden,
so geht es beim Data Mining darum aus dem „Datenbergwerk“ verborgene Infor-
mationen an das Tageslicht zu befördern. Der Begriff Data Mining beschreibt eine
Sammlung unterschiedlicher Verfahren, welche die in einem Datenbestand enthal-
tenen Informationen für konkrete Entscheidungen aufspürt und nutzbar macht.
Über Abfragesysteme hinaus ist Data Mining die am weitesten entwickelte Metho-
de, um Unternehmensdatenbanken nach bestimmten Informationsmustern zu
durchsuchen.
4

Strategie Geschäftsprozess KUNDE

operativ
Aktion Daten

informativ

Wissens-
Information
erzeugung

Kundenorientiertes Steuern von Geschäftsprozessen

Kombinierte statistische Verfahren

Neben einem erweiterten Methodenspektrum liefert Data Mining für das Marketing
integrierte Enduser-Lösungen. Diese enthalten eine Kombination statistischer Ver-
fahren, Benutzeroberflächen und Visualisierungswerkzeuge. Im Data Mining-
Prozess werden große Datenmengen untersucht und mathematisch mit dem Ziel
modelliert, zum Vorteil des Unternehmens neue Zusammenhänge entdecken zu
können. Die hierzu benötigten komplexen statistischen Verfahren laufend weitge-
hend automatisch und dank leistungsfähiger Software mit hoher Performance ab.
Dabei ist Data Mining keine vollständige „FrageAntwort“-Lösung, sondern eine
Kombination aus mehreren Methoden.
5

Data Mining
Methoden

Muster-
Vorhersage Assoziation Klassifikation
Erkennung

o Zielgruppen- o Portfolio- o Marktkorb- o Missbrauch-


marketing analyse analyse erkennung
o Nachfrage- o Kunden- o Waren- o Qualitäts-
vorhersage segmentierg plazierung kontrolle
o Preisfindung o Kategorie-
Managemt.
o Cross-Sellg.

Modifikation
der Daten

Wählt geeignete
Selektion Kernstück ist die Analyse-Verfahren für
der Daten Modellbildung definierte Aufgaben aus

Aufbereitung
der Daten

Data Mining Methoden

Der Vorteil der Regressionsansätze liegt darin, dass sie auf einer fundierten Theo-
rie basieren und dem Analytiker einen differenzierten Einblick in die Modellme-
chanismen ermöglichen. Im Gegensatz dazu basieren Neuronale Netze auf einer
Kombination sehr komplexer mathematischer und statistischer Verfahren. Einer-
seits erlauben sie daher selbst Spezialisten kaum Einblicke in interne Wirkungs-
prinzipen, andererseits eignen sie sich besonders für eine sehr differenzierte Klassi-
fikation und Prognose. Insbesondere bei sehr inhomogenen Datenbeständen lässt
6

sich mit ihnen im Vergleich zu klassischen Methoden eine bessere Anpassung zwi-
schen Modell und Realität erreichen.

neuronale
Regression
Netze

Die wichtigsten
statistischen
Methoden

Assoziations- Entscheidungs-
analyse bäume

Jedes Modell fokussiert unterschiedliche Schwerpunkte

Beispielsweise können neuronale Netze für die Kaufverhaltensforschung, d.h. die


Vielschichtigkeit der Entscheidungsfindung im Zusammenhang mit Kaufhand-
lungen, angewendet werden. Nach einem „S-O-R-Paradigma“ ( Stimulans-
Organismus-Reaktion) werden die im Käufer selbst (bzw. auf dem Markt) ablau-
fenden Entscheidungsprozesse indirekt analysierbar und modellierbar dargestellt:
7

Input-Variablen Output-Variable
Eingabe- Ausgabe-
Schicht Schicht
Preis Marktanteil

Marke 1 Marke 1
verdeckte
Marke 2 Schicht Marke 2

Marke 3 Marke 3

Marke 4 Marke 4

Marke 5 Marke 5

Marke 6 Marke 6

Stimuli Organismus (neuronales Netz) Reaktionen

Mögliche Struktur eines neuronalen Netzes zur Beschreibung von Kaufverhalten

Die ausgewählte Input-Variable -im vorliegenden Fall die Produktpreise- werden


an die Eingabeschicht des neuronalen Netzes angelegt. Die eingehenden Informati-
onen werden zu den Verarbeitungseinheiten einer inneren, verdeckten Schicht-
geleitet und nach der dort stattfindenden Verarbeitung zur Ausgabeschicht des
neuronalen Netzes weitertransportiert. Nach einem weiteren Verarbeitungsschritt in
den Knoten dieser Schicht kann das Resultat -im vorliegenden Fall prognostizierte
Marktanteile- als Ausgabegröße abgegriffen werden.
8

Data Mining ist keine reine Analysetechnik, sondern ein Prozess, der aus mehreren
Schritten besteht:

 Um die Ergebnisse transparent zu halten


Formulierung und um eventuell auch Zusammenhänge
Fragen oder zu finden, die der automatischen Such-
Hypothesen 1. funktion entgangen sind, läuft der
Arbeitsprozess in mehreren Schritten ab.
Diese können nachträglich verändert
werden, wenn das Ergebnis eines Pro-
zesses nicht befriedigend war.

Auswahl  Der Anwender formuliert zunächst


Datenbasis
2. seine Anfrage. Dies schließt eventuell
eine mathematische Formulierung der
interessierenden Zielvariablen mit ein.

 Dann selektiert man aus den Metadaten


die für die Fragestellung relevanten
Suche nach Be- Datenbestände
zügen zwischen
ausgewählten
3.  Im Anschluss daran sucht das System
Daten in den ausgewählten Grunddaten nach
 Bezügen
 Mustern
die Hinweise auf die gestellte Aufgabe
liefern. Es teilt z.B. den gesamten aus-
gewählten Datenbestand in bestimmte
Klassifizierung 4. Klassen ein und benutzt dann diese neu
eingerichteten Klassen für ein Klassi-
fikationsverfahren

 Die dabei gefunden Muster und Be-


ziehungen werden dann als Text ausge-
geben oder nach verschiedenen Ge-
Auswertung
sichtspunkten grafisch aufbereitet
5.

o
Ablauf einer Data Mining Analyse
9

Mit Unterstützung der Software können Entscheider in den Fachabteilungen Ge-


schäftsabläufe und Kundendaten auswerten. Die modernen Data Mining-Techniken
können hierfür ohne die Hilfe von Statistik- und Analysespezialisten eingesetzt
werden.

1.

Stichprobe 2.

Exploration

3.

Manipulation 4.

Modellbildung

5.

Auswertung

Data-Mining-Analyse in 5 Schritten = SEMMA

Zu den Techniken gehören automatische Regressionsanalysen (Scoring) für große


Einflussanalysen, Entscheidungsbäume (Kundensegmentierungen) und Neuronale
Netze sowie Assoziationsanalysen. Wichtige Analysefälle sind bereits vordefiniert,
sodass sich Marketinganwender nicht in die technischen Details von komplizierten
Data-Mining-Verfahren einarbeiten müssen, um trotzdem aussagefähige Analyse-
ergebnisse zu erhalten.

Stichproben, Datenbereitstellung: Ausgangspunkt aller Data Mining Projekte ist


die Datenbereitstellung (Input Node). Nach der Festlegung der Eingabedatei folgen
Einzelheiten zu den Analyse- und Zielvariablen. Die Geschwindigkeit von Auswer-
tungen kann mit Stichproben beschleunigt werden, z.B. durch
10

 zufällig einfach und zufällig geschichtete Stichprobe


 je n-te und die ersten n-Beobachtungen
 clusterweise
Der Datenteilungsteil (Data Partition Node) ermöglicht die Einteilung in Trainings-
, Prüf- und Test-Daten:

Trainigsdatei dient der ersten Modellanpassung

verfolgt den Modellbildungsprozess,


Prüfdatei verbessert gegebenenfalls
die Modelle

erfolgen für endgültigen


Testdaten Modellvergleich

Der Datenteilungsteil

Bei der automatisch erzeugten Data Mining Database werden folgende Datenum-
formungen durchgeführt:
 numerische Variable: Statistiken sind berechnet und gespeichert
 Zeichen-Variable: Wert sind als ganze Zahlen gespeichert und mit den
Metadaten verbunden
 Klassifikationsvariable: Werte und Häufigkeiten für jede Variable sind in
den Metadaten gespeichert.

Exploration - Visualisierung, Gruppierung: Die Software ermöglicht die interaktive


visuelle Exploration von Daten und enthält statistische Verfahren für den Einstieg
in Data Mining. Mit den Möglichkeiten der 3-dimensionalen Datenexploration für
große Datenmengen können Muster und Trends erkannt sowie Ausreißer entfernt
werden. Mit Clusteranalysen können Gruppen von „ähnlichen“ Beobachtungen
gebildet werden. Prozess-Flussdiagramme können direkt angesteuert werden. We-
11

gen der Größe der im Data Mining auftretenden Dateien ist hier nochmals die
Verwendung von Unter-Stichproben möglich, damit auch zu einzelnen Beobach-
tungen eine Visualisierung vorgenommen werden kann. Die Software liefert für
Input-Variable eine Bewertung und Auswahl nach ihrer Eignung für die spätere
detaillierte Modellbildung. Damit können auch für große Datenmengen Prognose-
und Scoringmodelle entwickelt werden. Ergebnisse können an Verfahren wie Ent-
scheidungsbäume, neuronale Netze oder beliebig andere Prozeduren übergeben
werden. Dabei werden automatisch auch alle Wechselwirkungen 2. Ordnung mit
berechnet und in die Bewertung mit einbezogen. Automatisch werden bei allen
Schritten dazugehörige statistische Grundkennziffern berechnet:

dient der Bildung transformierter Variablen. Unterstützt werden


alle mathematischen Grundoperationen: log, sqrt, usw., frei pro-
Transformation grammierbare Transformationen, Wertebereichesformatierung
von numerischen Variablen

liefert schnelle Erkennung und Ent-


Ausreisser- fernung von Ausreissern, einschl.
Filter grafischer Mittel

Daten- führt eine Ersetzung fehlender Werte


ersetzung mit geeigneten statistischen Verfahren
durch

Ausreißeranalyse und Variablentransformation

Regression: Die Software stellt für den Endanwender die gesamte Funktionalität
der linearen und logistischen Regression bereit. Folgende statistischen Methoden
und Algorithmen sind implementiert:
 multiple lineare Regression
 logistische Regression
 Variablen Auswahl Methoden: Vorwärts-, Rückwarts- und schrittweise Verfah-
ren, Modellwahl bis auf Merkmalsausprägung für nominale Variable
 Wechselwirkungen beliebigen Grades auch für nominale Variable
12

 unterstützt die normale und die komprimierte „Zahl-der-Ereignisse-Zahl-der-


Versuche-Codierung“ für Klassifikations-Ziel-Variabel

Conjoint Analyse

Korrespondenz Analyse
Kundenanalysen
und
Marktforschung
SAS Market
mit hoch- Discrete Choice Analyse
Research Application wertigen
Analyse-
verfahren
Multidimensionale
Skalierung

Multidimensional
Preference Analyse

automatische Modellwahl zur best-


möglichen Vorausberechnung ein-

Analyse
SAS Time Series und Voraus-
Forecasting System berechnung
von
Zeitreihen

Verknüpfung merherer, sachlich zu-


sammenhängender Zeitreihen

Kundenanalysen und Forecasting