Sie sind auf Seite 1von 639

Big Data

Datenanalyseverfahren und -tools

Name Redner, im Diamodell

Inhaltsbersicht
Big Data
Datenanalyseverfahren und tools

Data Mining Technologien


Mgliche Anwendungen der Datenanalyseverfahren und tools
Kommerzielle Software zur Datenanalyse

Thema
Big Data der Prsi, im Diamodell

Big Data - Begriffsbestimmung


Einsatz groer Datenmengen aus vielfltigen
Quellen mit einer hohen
Verarbeitungsgeschwindigkeit zur Erzeugung
wirtschaftlichen Nutzens

Thema
Big Data der Prsi, im Diamodell

BIG DATA als Chance


Effizient

Daten

Automatisierbar

Information

Wirtschaftlich
Log Files
Streaming Data
Sensorik / RFID
Social Media
Interaktion
Interne Daten (Dokumente,
Mails, CRM, ERP,)
Externe Daten (Wetter,)
Geodaten
Applikationen
Audio/Video

Untersttzung im
Entscheidungsprozess

BIG DATA macht aus Daten Informationen

Thema
Big Data der Prsi, im Diamodell

Mit BIG DATA Informationen


integrieren
Sentiment Analyse

360 o View

Preisgestaltung

Communities

Benchmarking

Churn Reduzierung

Marktbeobachtung

Individualisierung der Massen

Process Mining
Automatisierung
Effizienzsteigerung
Kostenoptimierung
Porzessoptimierung

Markenaufbau / Pflege

Kunde

Markt

Prozess

Produkt
Research & Development
Produktmanagement
Qualittsmanagement
Usability
Industrie 4.0

Thema
Big Data der Prsi, im Diamodell

BIG DATA Mit der richtigen


Frage zu Mehrwert
Welche Informationen kann meinen Prozess
verbessern?
Welche Aktivitten / welcher Prozess wird
ausgelst, wenn die Informationen
vorliegen?
Liegen die bentigten Daten und/oder
Informationen im Unternehmen vor?
Knnen die Daten durch externe Quellen
ergnzt werden (z.B. GPS, Wetter, )?
ber den eigenen limitierten Datenraum hinaus denken, um Mehrwert zu schaffen

Thema
Big Data der Prsi, im Diamodell

Low Hanging Fruits vs.


Aufwendige Projekte
Mit dem richtigen Vorgehen Mehrwert schaffen

Analytical Thinking

Innovation Loops

Top Down
Mglichkeiten eingrenzen
Datenbankdesign / klares Zielmodell
ABER: You never know Dont knows

Bottom Up
Ideen aufbauen
In die Breite gehen
Datengetriebene Entscheidungen

Thema
Big Data der Prsi, im Diamodell

Gartner Hype Cycle

Emerging Technologies

Big Data

Source: Gartner, August 2014

Die Kritiker sehen sich besttigt: Big Data ist im


Tal der Trnen. Die Pragmatiker hingegen sehen
Big Data nher an der produktiven Nutzung.

Thema der Prsi, im Diamodell

Technologieanstze im BigData-Umfeld
Es wird gezeigt, dass je nach Anwendungsszenario verschiedene Architekturen oder auch
Kombinationen von Architekturen die zielfhrende Lsung bilden knnen hier sind Hadoop und
In-Memory nur zwei Komponenten. Zunchst wird eine grobe Segmentierung der Technologielandschaft
vorgenommen, um zu zeigen, warum unterschiedliche Technologien zum Einsatz kommen.
Anschlieend wird eine generelle Taxonomie der Big-Data-Technologien eingefhrt. Dieser TechnologieBaukasten bildet den wichtigsten Bezugspunkt fr den gesamten Leitfaden.
Als konstruktiv nutzbare Vorlage fr Konzeption und Entwurf einer Big-Data-Anwendung eignet sich
die Lambda-Architektur. Die in dieser Architektur vorgesehene Modularisierung spiegelt typische
Anforderungen an Big-Data-Anwendungen wider und systematisiert sie.

Thema
Big Data der Prsi, im Diamodell

Big-Data Technologien
vereinfachte Segmentierung

Abbildung 1: Big-Data-Anforderungen und Technologieanstze


Quelle: Forrester Webinar (Sept 19, 2013): Big Data: Gold Rush Or Illusion?

Thema
Big Data der Prsi, im Diamodell

Big Data Technologien


Entsprechend der BITKOM-Definition von Big Data knnen Technologien zur Losung verschiedener Big-Data
Anwendungsszenarien mit unterschiedlichen Herausforderungen genutzt werden. Die Herausforderungen knnen hierbei sowohl
. im Bereich groer Datenmengen (Volume),
. einer groen Datenvielfalt (Variety) oder
. einer hohen Geschwindigkeit der Datengenerierung oder -verarbeitung (Velocity) liegen.
Je nach Anwendungsszenario kann eine Dimension oder auch eine Kombination dieser Dimensionen dazu fuhren, dass
traditionelle Verfahren fr Datenmanagement und analyse nicht mehr greifen und Big-Data-Technologien eingesetzt werden
mssen.

Geht man davon aus, dass groe Datenmengen (Volume) zumeist eine der Herausforderungen von Big-DataAnwendungsszenarien sind, so kann man die Wahl der passenden Technologie auf die Dimensionen . Datenvielfalt (Variety)
und . Geschwindigkeit (Velocity) reduzieren.
Die Abbildung 1 zeigt ein vereinfachtes Modell zur Bestimmung der passenden Datenmanagement-Technologie in Abhngigkeit
von den Anforderungen in den beiden Dimensionen Variety und Velocity. Die Abbildung verdeutlicht, dass sich grundstzlich
nicht die eine Big-Data-Technologie empfiehlt. Vielmehr kann eine ganze Reihe relevanter Technologien (vgl. Tabelle 1)
jeweils einzeln oder auch in Kombination zum Einsatz kommen.
Vgl.: Big Data im Praxiseinsatz Szenarien, Beispiele, Effekte. Leitfaden des BITKOM, Berlin 2012, S. 2

Thema
Big Data der Prsi, im Diamodell

Bestimmung eines problemadquaten Big-DataTechnologieansatzes

Tabelle 1: Bestimmung eines problemadquaten Big-Data-Technologieansatzes

Thema
Big Data der Prsi, im Diamodell

Big Data Technologien


Das Modell in Abbildung 1 stellt eine bewusste Vereinfachung der Realitt dar. Die
Anwendungsbereiche der vier verschiedenen Technologien sind keinesfalls scharf voneinander
getrennt; oftmals bildet eine Kombination von Technologien die passende Losung.
Auerdem findet Hadoop zunehmend in allen vier Quadranten Anwendung. So bringt zum Beispiel die
Erweiterung von Hadoop durch Storm und Spark im Laufe des Jahres 2014 auch Streaming- und InMemory-Fahigkeiten in die Hadoop-Plattform.

Thema
Big Data der Prsi, im Diamodell

Scale up vs. Scale out

Thema
Big Data der Prsi, im Diamodell

NoSQL: DAS aktuelle


Datenbank-Buzzword

Thema
Big Data der Prsi, im Diamodell

NoSQL-Datenbanksysteme: Die
Essenz

Datenmodell

Das zugrundeliegende Datenmodell ist nicht relational.


Das System ist schemafrei oder hat nur schwchere Schemarestriktionen.

Skalierungsarchitektur

Die Systeme sind von Anbeginn an auf eine verteilte und horizontale Skalierbarkeit
ausgerichtet.
Aufgrund der verteilten Architektur untersttzt das System eine einfache Datenreplikation.

Thema
Big Data der Prsi, im Diamodell

NoSQL-Datenbanksysteme:
Datenmodelle

Thema
Big Data der Prsi, im Diamodell

NoSQL: Die Essenz


Datenmodell
Das zugrundeliegende Datenmodell ist nicht relational.
Das System ist schemafrei oder hat nur schwchere Schemarestriktionen.

Skalierungsarchitektur
Die Systeme sind von Anbeginn an auf eine verteilte und horizontale
Skalierbarkeit ausgerichtet.
Aufgrund der verteilten Architektur untersttzt das System eine einfache
Datenreplikation.

Thema
Big Data der Prsi, im Diamodell

Konsistenz bei Scale out?


Strong Consistency (= C in ACID = klassischer Konsistenzbegriff)
Nach Abschluss eines Updates sehen alle nachfolgenden Zugriffe (auch an
anderen Knoten!) den aktuellen Wert

Probleme mit Konsistenz (Consistency) bei


Replikation und verteilten Transaktionen

Eventual Consistency
Es ist garantiert, dass nach einem Zeitfenster schlussendlich (eventually) alle

Zugriffe den aktuellen Wert sehen

BASE (Basically Available, Soft State, Eventually Consistent)

Thema
Big Data der Prsi, im Diamodell

Anwendungsentwicklung mit
NoSQL-DBMS

Herausforderung

Data-to-Code oder Code-to-Data?

Daten verteilt ber hunderte Knoten (zur Erinnerung: scale out)


Parallele Verarbeitung sehr groer Datenmenge erfordert neue Algorithmen und Frameworks

MapReduce

(alte) Idee aus funktionaler Programmierung (LISP, ML etc.)

Operationen ndern die Daten nicht, sondern arbeiten immer auf neu erstellten
Kopien

Unterschiedliche Operationen auf den gleichen Daten beeinflussen sich nicht (keine Concurrency-

Konflikte, keine Deadlocks, keine RaceConditions)


Idee neu angewandt und mit komfortablem Framework vorstellt: J. Dean and S.Gehmawat.
MapReduce: Simplified Data Processing on Large Clusters. OSDI'04. 2004
http://labs.google.com/papers/mapreduce.html

Thema
Big Data der Prsi, im Diamodell

MapReduce: Grundprinzip &


WordCount Bsp.

Thema
Big Data der Prsi, im Diamodell

MapReduce: Architektur und


Phasen

Thema
Big Data der Prsi, im Diamodell

Map & Reduce Funktionen


(Prinzip)
Beispielimplementierung in Hadoop (Java)

public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {

public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, ) {


String line = value.toString();
StringTokenizer tokenizer = new StringTokenizer(line);
while (tokenizer.hasMoreTokens()) {
word.set(tokenizer.nextToken());
output.collect(word, one);
}
}
}
public static class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> {
public void reduce(Text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, ) {
int sum = 0;
while (values.hasNext()) {
sum += values.next().get();
}
output.collect(key, new IntWritable(sum));
}
}

Quelle: http://hadoop.apache.org/docs/r1.0.4/mapred_tutorial.html

Thema
Big Data der Prsi, im Diamodell

MapReduce Frameworks

MapReduce Frameworks kmmern sich um

Skalierung
Fehlertoleranz
(Load balancing)

MapReduce Frameworks

Google MapReduce Framework

Apache Hadoop: standalone oder integriert in NoSQL (und SQL) DBMS

Cloudera: kommerzielle Hadoop-Distribution

Proprietre MapReduce Frameworks integriert in NoSQL DBMS

Thema
Big Data der Prsi, im Diamodell

NoSQL-Datenbanksysteme:
Status Quo
Vorteile
Flexible und kostengnstige horizontale Skalierung (scale out)

Verarbeitung riesiger Datenmengen mit kostengnstiger


Software
Hochgradig parallelisierbare Anfrageverarbeitung mit
MapReduce
Schemaflexibilitt (falls bentigt)

Nachteile
Ggf. Abstriche bei Konsistenz
Erhhter Aufwand fr Entwicklung

Thema
Big Data der Prsi, im Diamodell

NoSQL-Datenbanksysteme:
Status Quo (Forts.)

NoSQL-Datenbanksysteme
Hochgradig volatiler Markt

Trend: Erweiterung von relationalen DBMS und Data Warehouse Systemen um MapReduce
(Hadoop)
2012
Oracle BigData-Appliance mit Hadoop
Oracle NoSQL 2.0 (Key-Value-Store)
IBM Infosphere mit Hadoop Support
Microsoft SQL Server 2012 mit Hadoop Support

2013
SAP mit Hadoop Support (Cloudera Distribution) in SAPs BigData portfolio (SAP
HANA, SAP Sybase IQ, SAP Data Integrator, SAP Business Objects)
Teradata mit Hadoop Support mit SQL-H-API (statt Map-Reduce native)
IBM DB2 10.5 mit Hadoop Support

Thema
Big Data der Prsi, im Diamodell

Big Data Technologien

Big Data Technologien

NoSQL-Datenbanksysteme

Spaltenorientierte Datenbanksysteme
In-Memory Datenbanksysteme

Thema
Big Data der Prsi, im Diamodell

Spaltenorientierte DBMS: Idee

Thema
Big Data der Prsi, im Diamodell

Spaltenorientierte DBMS:
(Reales) Telco Data
Warehouse Beispiel

Thema
Big Data der Prsi, im Diamodell

Spaltenorientierte DBMS:
Status Quo

Spaltenorientierte Systeme
Sybase IQ
Vertica
VectorWise

Trend: Erweiterung von Relationalen Datenbanksystemen um spaltenorientierte Komponenten


Accelarator-Systeme
IBM Smart Analytics Optimizer (2010)
IBM Informix Warehouse Accelarator (2011)

Integration in Core-Datenbanksysteme
Oracle 11g Release 2 auf Exadata (Appliance, 2010): Hybrid columnar compressed tables
MS SQL Server 2012: neuer Indextyp: COLUMNSTORE
IBM DB2 10.5 (BLU Blink Ultimate, 2013): spaltenorientierte Tabellen

Kombination mit In-Memory-Technologie


SAP HANA (Appliance, 2010): Row-Store und Column-Store

Thema
Big Data der Prsi, im Diamodell

Big Data Technologien


Motivation

Big Data Technologien


NoSQL-Datenbanksysteme
Spaltenorientierte Datenbanksysteme
- In-Memory Datenbanksysteme
Zusammenfassung und Ausblick
Thema
Big Data der Prsi, im Diamodell

In-Memory
Datenbanksysteme: Idee

Thema
Big Data der Prsi, im Diamodell

In-Memory Datenbanksysteme: Zeilenorientierte oder


spaltenorientierte Speicherung?

Thema
Big Data der Prsi, im Diamodell

In-Memory
Datenbanksysteme: Status
Quo
In-Memory-Datenbanksysteme
SAP HANA (Appliance)
EXASolution (by EXASOL)
Erweiterung von relationalen Datenbanksystemen und
Analysesystemen um In-Memory-Technologien
Oracle Exalytics In-Memory Machine (Appliance, 2012)
DB2 10.5 (BLU Blink Ultimate, 2013)
Oracle 12c In-Memory Option (September 2013)
Microsoft SQL Server (angekndigt fr 2014)

Thema
Big Data der Prsi, im Diamodell

Big Data Technologien:


Zusammenfassung und
Ausblick
Verschiedene Big Data Technologien
Nicht-relationale, verteilte, horizontal skalierende Datenbanksysteme
(NoSQL-Datenbanksysteme)
Stark volatiler Markt neuer DBMS

Spaltenorientierte Datenbanksysteme

In-Memory Datenbanksysteme

Trends
Integration von Techniken zur spaltenorientierten Speicherung in relationale
DBMS
Integration von In-Memory-Technologien in relationale DBMS und
Analysesysteme
Integration von JSON-Speicherung in relationale DBMS

2013: IBM DB2, IBM Informix mit JSON-Support und MongoDB-API

Thema
Big Data der Prsi, im Diamodell

The Evolving Database


Landscape

Thema
Big Data der Prsi, im Diamodell

Hadoop von Batch bis


Realtime
BI & Analytics I Dashboards I Multivariate I Network analysis I Predictive I Applications I CRM I ERP

Neue
Quelle
n

In Memory

Work Flow &


Integration

Machine
Learning

DWH
Stream
Processing

Data Ingest &


Propagate

Administration &
Automation

Data
Description

Online Data
Processing

User Interface
Search

Relational
Database
System
Structured
Data

Cluster Ressource Management


Distributed File System

Social Media I Connected Car I Sensorik I RFID I Geo Data I Streaming Data I
Machine Data I Applications I Interaction I Video I eMail I Documents I

CRM I ERP I
Logs
I Clickstreams
I

Bestehende
Quellen

Thema
der Prsi, im Diamodell
Big
BigData
Data

Hadoop intelligente Nutzung (un)strukturierter


Massendaten
Hadoop als Adapter fr beliebig
viele, beliebig strukturierte und
beliebige schnelle Datenquellen.

Dashboards I Analytics I Applications I Data Exploration I

Streaming Data /
In-Memory /
Hot Data

Hadoop als hoch skalierbare


Engine fr die Datenaggregation
bis hin zu Realtime.

Data Refinery /
Datenaggregation /
Data Storage

Hadoop als data Lake fr diverse


Analysen und Auswertungen.
In-Memory fr die hoch
performante Ausfhrung von
Applikationen und die Verwendung
der Daten

Connected Car I Test und Testmanagement I Geodaten I Nutzungsdaten I Sensorik I Kaufmnnische Daten I Wetterdaten I
Dokumente I Text I Social I

Thema
Big Data der Prsi, im Diamodell

Hadoop die Datenbasis fr


analytische Plattformen
Datenbereitstellung fr analytische Plattformen

Pig
- Schema on
read
- MapReduce
- Disk-basiert
- API-Zugriff

Hive
-Schema
definiert
-MapReduce
-Disk-basiert
-ODBC/JDBC

Hbase
-NoSQL-DB
Schema
definiert
Column store

Spark
-Schema
definiert
Iterativ
In memory

Solr
-Seach &
Indexing
-Dokumenten
basiert-Realtime

Storm
-Realtime
-Streaming

H Catalog
Tabellenmanagement-Layer / Metadaten-Repository

Hadoop File System (HDFS)


Unstrukturierte Daten
ELT

Scoop
Relationale Daten
Hoch skalierbar

ELT

Flume
Streaming Daten
Realtime

Nutch
Webcrawler
Basis:
Lucene/Solr

Thema
Big Data der Prsi, im Diamodell

Hadoop die Plattform fr den


Data Lake
Analytische Plattformen alle fhrenden Hersteller bieten Konnektoren fr Hadoop an

Metadatenmodelle
Datenzugriff

Batch, interaktiv, Online, Search, In-Memory, Machine Learning,

Data Lake

Aufbereitete Daten I Integrierte Daten I Zeitreihen I Rohdaten I

WISSENSSILOS

Machine Data/Sensorik Telematics Geo Data File System / Email


DWH / Data Marts ERP / CRM Log Files / Tools Social Media
Wetter

Thema
Big Data der Prsi, im Diamodell

Beispielhafter Aufbau einer BIG DATA Architektur mit


Hadoop der De-Facto-Standard fr Big Data

Thema
Big Data der Prsi, im Diamodell

Low Hanging Fruits Transfer


bestehender Innovationen
Social Media
Auswertung Blogs, Feedback (z.B. Hndler,
Servicestellen)
Sentiment Analysen
Segmentierung / Targeting
Marktbeobachtung, Preisanalyse
Thema
Big Data der Prsi, im Diamodell

Low Hanging Fruits Innovation Cycles mit


vorhandenen Daten

BIG DATA Lab Mit den Daten arbeiten und Potentiale entdecken

Thema
Big Data der Prsi, im Diamodell

Low Hanging Fruits Optimierung der


bestehenden DWH Landschaft
Enterprise Data Hub
Beschleunigung der
Ladeprozesse
Anfangen, wo es Sinn
macht
Multi-Temperature
Database
Einfache Algorithmen vs.
Komplexe Modelle
Niedrige Kosten / Terabyte

Kostenreduktion und Performancesteigerung durch Skalierbarkeit

Thema
Big Data der Prsi, im Diamodell

Big Data Wesentliche


Facetten

Volume (Datenmenge):

Wie zielgerichtet und effektiv knnen die Daten genutzt werden?

Datenstze, deren Gre die Fhigkeiten typischer Datenbanksoftware zur Speicherung, Verarbeitung und Analyse bersteigt.

Variety (Datenvielfalt):

zunehmende Vielfalt von Datenquellen und formaten;

lassen sich in unstrukturierte, semistrukturierte und strukturierte Daten gruppieren;

unternehmensinterne Daten werden durch externe Daten ergnzt (bspw. aus sozialen Netzwerken)

Velocity (Geschwindigkeit):

Analysen groer Datenmengen mit Antworten im Sekundenbereich, Datenverarbeitung in Echtzeit, Datengenerierung und
bertragung in hoher Geschwindigkeit.

Komplexitt (Variability):

Polystrukturierte Daten; enorme Rechnerleistungen erforderlich; komplexe Algorithmen kommen zur Anwendung. Mit
entsprechender Technologie und richtiger Anwendung lassen sich jedoch vllig neue Erkenntnisse generieren (Data Mining ), die
es ermglichen, Zusammenhnge, Abhngigkeiten und Widersprche zu erkennen oder sogar Vorhersagen und somit effizientere
und effektivere Managemententscheidungen zu treffen.

Datenquellen (Reach)

Welche Daten sind im Unternehmen vorhanden, welche werden davon bereits aktiv genutzt und welche noch nicht bzw. weshalb
nicht?

Es kann auch sinnvoll sein, externe Daten einzubeziehen oder diese innerhalb der Organisation etwa mithilfe einer
Datenlandkarte neu zu erheben.

Welche Daten sind fr eine bestimmte Entscheidung jeweils erforderlich?

Abhngig von der Anzahl der Vs kommen unterschiedliche BIG DATA Bausteine in der Architektur zum Einsatz

Thema
Big Data der Prsi, im Diamodell

Big Data wesentliche


Facetten

Datenmenge (Volume): Immer mehr Organisationen und Unternehmen verfugen uber gigantische Datenberge, die von einigen Terabytes
bis hin zu Grosenordnungen von Petabytes fuhren.

Datenvielfalt (Variety): Unternehmen haben sich mit einer zunehmenden Vielfalt von Datenquellen und Datenformaten
auseinanderzusetzen. Aus immer mehr Quellen liegen Daten unterschiedlicher Art vor, die sich grob in unstrukturierte, semistrukturierte
und strukturierte Daten gruppieren lassen. Gelegentlich wird auch von polystrukturierten Daten gesprochen.
Die unternehmensinternen Daten werden zunehmend durch externe Daten erganzt, beispielsweise aus sozialen Netzwerken.

. Geschwindigkeit (Velocity): Riesige Datenmengen mussen immer schneller ausgewertet werden, nicht selten in Echtzeit. Die
Verarbeitungsgeschwindigkeit hat mit dem Datenwachstum Schritt zu halten.
Damit sind folgende Herausforderungen verbunden: Analysen groser Datenmengen mit Antworten im Sekundenbereich,
Datenverarbeitung in Echtzeit, Datengenerierung und Ubertragung in hoher Geschwindigkeit.
. Analytics: Analytics umfasst die Methoden zur moglichst automatisierten Erkennung und Nutzung von Mustern, Zusammenhangen
und Bedeutungen. Zum Einsatz kommen u.a. statistische Verfahren, Vorhersagemodelle, Optimierungsalgorithmen, Data Mining,
Text- und Bildanalytik. Bisherige Datenanalyse-Verfahren werden dadurch erheblich erweitert.

Thema
Big Data der Prsi, im Diamodell

Die 10 Vs von Big Data


Die 10 Vs von Big Data

Volume: Natrlich geht es um groe Datenmengen. Aber die gabs auch schon frher und die Diskussion, was denn nun wirklich gro und neu sei
die ist so alt wie die IT selbst.
Variety: Die Daten kommen aus immer unterschiedlichen Quellen in immer mehr Formaten. Besonders die sogenannten unstrukturierten Daten
nehmen berhand. Auch die gibt es schon lnger. Man erwhnt sie heute vor allem deshalb, weil man endlich gelernt hat, etwas mit ihnen
anzufangen.
Velocity: Geschwindigkeit ist ebenfalls ein Klassiker in der Softwarebranche. Nun meint man hier zweierlei. Einerseits wachsen die Datenmengen so
schnell, dass man mit dem Skalieren der Infrastruktur nicht mehr hinterherzukommen scheint. Zum anderen ist der Wert der Daten umso grer, je
schneller sie genutzt werden knnen Stichwort Realtime
Value: Die einfachste Pointe hinter diesen drei klassischen Vs ist es, den Zweck zu betonen, warum man sich berhaupt mit Big Data beschftigen
sollte. Klar, um einen Wert daraus zu generieren. Unbeantwortet ist die Frage, ob in zehnmal mehr unstrukturierten, schnell wachsenen Daten auch
zehnmal mehr Wert drin steckt. Es kommt darauf an.
Viscosity: Damit will Wang den Widerstand messen, der beim flow in den Massendaten auftritt. Es geht also um so etwas wie Verarbeitbarkeit
(auch ein V-Begriff), die sich in neuen Technologien wie Complex Event Processing, Event Stream Processing und Datenintegrationsthemen
ausdrckt. Ohne V knnte man auch sagen, dass es sich um die Dimension der Komplexitt handelt, die ein bestimmtes Big Data-Problem aufwirft.
Virality: Mit der Viralitt meint Wang die Fhigkeit von Daten, sich ber Netzwerke zu verteilen und bernimmt damit die klassische Definition, die
etwa auch im Begriff virales Marketing enthalten ist. Bestimmende Faktoren sind Zeit und Zahl der Vernetzungen.
Whrend diese beiden Begriffe etwas wolkig bleiben, ist die nchste Ergnzung (zeitlich schon vorher), nachvollziehbarer.

Thema
Big Data der Prsi, im Diamodell

Die 10 Vs von Big Data

Verification: Damit meint Beulke das Problem der Glaubwrdigkeit. Wenn Daten aus verschiedenen Quellen zusammenkommen, gibt es
grundstzlich ein Struktur- und Qualittsproblem: Wie hngen einzelne Daten mit anderen zusammen, sind Fehler enthalten, was ist der gltige
Datensatz, was der abweichende, welche Sicherheitsstufen in Sachen Zugriffsrechte etc. gibt es. Ein Stck weit spricht hier tatschlich eine
traditionelle Sichtweise, die aus der Datawarehouse-Welt kommt. Im Big-Data-Zeitalter werden deterministische Anstze zugunsten von
Wahrscheinlichkeiten zurckgedrngt: der einzelne Datensatz ist dann zwar womglich unscharf und nicht hundertprozent zuverlssig in der
gesamthaften Auswertung aber gengt eine Annherung.
Ganz hnlich drckt das auch ein Artikel bei TDWI vom 25.9.2012 aus: Its great to be able to pull all of this data in, but can you trust it? Deshalb
sei nicht zu unterschtzen ein vernachlssigtes V: veracity das ich in dieser Aufzhlung grozgig zu verification schlage.
Nun aber weiter, was gibt es noch? Sicherlich wird Big Data gekennzeichnet als vague aber das ist letztlich die Kehrseite der verificationMedallie und kein neuer Aspekte. Besser geeignet zur Erweiterung ist hingegen eine Methode, um Big Data auswerten zu knnen:
Visualization: Fr mich eine zwingende Konsequenz aus Big Data. Die perzeptiven Fhigkeiten des Menschen sind begrenzt. Eine geeignete
Visualisierung erweitert das gezielt und lsst Muster und Zusammenhnge entscheidungsreif erkennen. Ausgefeilte Darstellungen wie Heatmaps,
Boxplots, animierte Bubblecharts etc. sind in der Lage, eine Vielzahl von Informationen zu verdichten und aufzubereiten. Das war schon immer so
aber ohne die konsequente Nutzung solcher Verfahren zur explorativen Erkundung groer Datenmengen mittels Visualisierung knnen wir am Ende
gar keinen Wert herausholen.
Vision: Man muss vielleicht daran erinnern, dass Big Data ein Begriff fr ein sehr junges Phnomen ist, das einen Gutteil seiner Phantasie aus heute
noch sehr visionren Ideen schpft. In Zukunft wei ein Hersteller nicht nur, wer wann welches Produkt gekauft hat, sondern auch warum und wozu
und wird das in der Produktentwicklung bercksichtigen knnen (so eine Geschichte in Data Unser, dem bekannten Buch von Bloching u.a.).
Auch sind viele technische und organisatorische Hrden noch im Weg, etwa um das Gesundheitswesen auf der Grundlage der Auswertung aller zur
Verfgung stehenden Daten zu revolutionieren. An eine Vision einer effizienteren, umweltfreundlicheren, besseren Zukunft dank bessere
Datenanalyse zu glauben, klingt fr viele Ohren naiv und technikverliebt. Meine Meinung: eine solche Chance sollten wir nicht links liegen lassen.
Damit htten wir zusammengefasst: volume, variety, velocity, value, viscosity, virality, verification / veracity, visualization und vision. Das sind
insgesamt neun Vs. Als Selbstkritik und wichtigen Hinweis zur Einordnung der Big-Data-Diskussion ein letztes V: natrlich ist hier sehr viel
Marketing im Spiel. Big Data ist deshalb ganz klar auch vendor-driven.

Thema
Big Data der Prsi, im Diamodell

Big Data Use Cases Das


Business gibt die Lsung vor

Variety
Connected Car
Online Dienste
Mobility Services
Sensorik
Social Media Analytics
Sentiment Analyse
Frhwarnsysteme
3600 Kundensicht
Competitive Intelligence

Speicherung und

Volume
Speicherung und

Archivierung

Archivierung groer

unstrukturierter

Datenbestnde

Datenbestnde
Social Media Analytics
Aggregation und
Integration beliebiger
Datenquellen
Wechselnde
Datenquellen

Hohe Parallelitt bei


den Zugriffen
Hohe Skalierbarkeit im
Processing

Velocity
Unternehmenskritische
Prozesse
Monitoring in Real
Time
Media Monitoring
Streaming Data
Real Time Processing

Industrie 4.0
Smart Grids
Complex Event
Processing
Multivariantensysteme
Automatisierung
Maintenance
Crodwsourcing
Massendaten
Predictive Analytics

Datengetriebene
Entscheidungsmodelle
Multitemperature DWH

Thema
Big Data der Prsi, im Diamodell

Beispielhafter Aufbau Big Data


Architektur: Volume
-Speicherung und Archivierung groer Datenbestnde
- Data Refining
-Multitemperature DWH

- Hohe Skalierbarkeit im Processing


- Hohe Parallelitt bei den Zugriffen
- Datengetriebene Entscheidungsmodelle

BI & Analytics I Dashboards I Multivariate I Network analysis I Predictive I Applications I CRM I ERP

Realime /
Steaming

Neue
Quelle
n

Datenintegration /
Datenaggregation

DWH /
Data Marts

Social Media I Connected Car I Sensorik I RFID I Geo Data I Streaming Data I
Machine Data I Applications I Interaction I Video I eMail I Documents I

CRM I ERP I
Logs
I Clickstreams
I

Bestehende
Quellen

Thema
Big Data der Prsi, im Diamodell

Beispielhafter Aufbau Big Data


Architektur: Variety
-Speicherung und Archivierung unstrukturierter Datenbestnde
- Social Media Analytics

- Aggregation und Integration beliebiger Datenquellen


- wechselnde Datenquellen
- sich ndernde Datenquellen

BI & Analytics I Dashboards I Multivariate I Network analysis I Predictive I Search I Applications I CRM I ERP

Realime /
Steaming

Neue
Quelle
n

Datenintegration /
Datenaggregation

DWH /
Data Marts

Social Media I Connected Car I Sensorik I RFID I Geo Data I Streaming Data I
Machine Data I Applications I Interaction I Video I Audio I eMail I Documents I

CRM I ERP I
Logs
I Clickstreams
I

Bestehend
e
Quellen

Thema
Big Data der Prsi, im Diamodell

Beispielhafter Aufbau Big Data


Architektur: Velocity
- Unternehmenskritische Prozesse
-Monitoring in Real Time
-Media Monitoring

- Streaming Data
- Real Time Processing

BI & Analytics I Dashboards I Multivariate I Network analysis I Predictive I Search I Applications I CRM I ERP

Realime /
Steaming

Neue
Quelle
n

Datenintegration /
Datenaggregation

DWH /
Data Marts

Social Media I Connected Car I Sensorik I RFID I Geo Data I Streaming Data I
Machine Data I Applications I Interaction I Video I Audio I eMail I Documents I

CRM I ERP I
Logs
I Clickstreams
I

Bestehend
e
Quellen

Thema
Big Data der Prsi, im Diamodell

Vielfalt der Technologien


Big Data basiert nicht auf einer singulren Technologie, sondern ist vielmehr das Resultat des
Zusammenwirkens einer ganzen Reihe von Innovationen in verschiedenen Gebieten.
Insgesamt erlauben diese Fortschritte, aus immer mehr Daten einen immer hheren
betriebswirtschaftlichen Nutzen zu ziehen. Je nach Anwendungsszenario knnen hierbei verschiedene
Technologiekonzepte zum Einsatz kommen.

Thema
Big Data der Prsi, im Diamodell

Klassische Technologien Big-Data-Anforderungen


nicht gewachsen
Der vom Wettbewerb ausgehende Druck auf Unternehmen, schnell rapide zunehmende Datenmengen zu verarbeiten,
beschleunigt sich weiter.
Dafr reichen klassische Technologien wie traditionelle Datenbanken, Data Warehouse oder
Reporting nicht mehr aus. Heute gilt es, sehr viel mehr Informationen ber den Markt und die Kunden zu sammeln und
auszuwerten, um weiterhin einen Wettbewerbsvorteil zu erarbeiten.

Thema
Big Data der Prsi, im Diamodell

Big Data Hebel fr neue Geschftsmodelle


Fr die Unternehmen geht es bei Big Data nicht nur um die Verbesserung bestehender Produkte oder Prozesse
viele sehen die Umsatz-Relevanz von Big Data fr neue Geschftsfelder.
Analyseergebnisse werden zu neuen Produkten fuhren, die wiederum neue Vertriebs- und Geschftsmodelle mit sich
bringen werden.

Thema
Big Data der Prsi, im Diamodell

Vier Technologiesegmente grobe Orientierung in


Technologielandschaft
In Abhngigkeit von den konkreten Anforderungen aus dem Anwendungsszenario knnen verschiedene Architekturen
oder auch Kombinationen von Architekturen die ziel fhrende Losung bilden.
Fr eine erste Orientierung lassen sich vier Technologiesegmente unterscheiden. Fr Anwendungen mit nicht zu hohen
Anforderungen an Zeit und Datenvielfalt eignen sich standardisierte Analytics Appliances. Losungen mit In-MemoryTechnologie kommen zum Einsatz, wenn die Datenauswertung etwa um den Faktor 1000 beschleunigt werden muss.
Liegt eine groe Vielfalt an Datenformaten vor, empfehlen sich Losungen auf der Basis von Hadoop. Diese OpenSource-Technologie kann sehr groe Mengen unterschiedlich strukturierter Daten speichern und verarbeiten; sie
skaliert nahezu unbegrenzt. Streaming und Complex Event Processing bieten sich an, wenn Daten praktisch im
Augenblick ihres Anfallens zu erfassen und auszuwerten sind. Diese grobe vorgenommene Segmentierung der
Technologielandschaft zeigt, warum unterschiedliche Technologien zum Einsatz kommen.

Thema
Big Data der Prsi, im Diamodell

Taxonomie der Big-Data-Technologien

Der Zweck jeder Big-Data-Losung ist es, Daten in entscheidungsrelevante Informationen umzuwandeln. Die
Vielfalt an Datentypen und Big-Data-Einsatz-Szenarien erfordert auch vielfaltige Werkzeuge auf jeder Schicht
einer Technologie-Landschaft.

Abbildung: Taxonomie von Big-Data-Technologien

Thema
Big Data der Prsi, im Diamodell

Taxonomie der Big-Data-Technologien

Die Technologien zur Daten-Haltung unterscheiden sich zum Beispiel nach dem Datenformat, dem Zweck der
Daten-Haltung, der Performance sowie den Anforderungen an die Skalierbarkeit.

. Diese Vielfalt setzt sich auch bei den Technologien zum Daten-Zugriff fort. Sie ermglichen zum Beispiel sowohl
die Stapelverarbeitung als auch Echtzeit-Verfahren sowie ein iteratives Entdecken der Daten.

. Auch fr die analytische Verarbeitung stellt der Leitfaden die relevanten Werkzeuge vor, welche sich zum
groen Teil direkt am Einsatzszenario sowie am Datentyp orientieren. . Ferner mssen die Ergebnisse
zielgruppengerecht prsentiert werden. Das leisten die Visualisierungstechnologien.

Somit markieren die Schichten Daten-Haltung, Daten-Zugriff, Analytische Verarbeitung, Visualiserung (4.1 bis
4.4). in der Abbildung 2 den direkten Weg von den Rohdaten hin zu geschftsrelevanten Erkenntnissen. Dieser
Weg wird flankiert von Daten-Integration (Abschnitt 4.5) und Daten-Governance sowie Daten-Sicherheit (Abschnitt
4.6). Diese flankierenden Bereiche garantieren, dass sich der Weg von den Rohdaten zur Erkenntnis in
existierende Standards groer Unternehmen einbettet und sich ein harmonisches Zusammenspiel von Big Data
mit existierenden Technologien, Prozessen und Compliance-Vorgaben einstellt. Die Abbildung 2 bietet eine
Taxonomie der Technologien an, die fr eine Big-Data-Komplettlosung bentigt werden. Dargestellt sind
kommerziell relevante Bausteine fr den Big-Data-Einsatz in Unternehmen ohne Anspruch auf Vollstndigkeit.
Die Abbildung 2 ist somit als modularer Technologie-Baukasten zu verstehen, nicht jedoch als prskriptive
Referenzarchitektur.

Thema
Big Data der Prsi, im Diamodell

Daten-Haltung

Thema
Big Data der Prsi, im Diamodell

Analytische Verarbeitung

Thema
Big Data der Prsi, im Diamodell

Daten-Zugriff

Thema
Big Data der Prsi, im Diamodell

Visualisierung

Thema
Big Data der Prsi, im Diamodell

Daten-Integration

Thema
Big Data der Prsi, im Diamodell

Daten-Governance und
Sicherheit

Thema
Big Data der Prsi, im Diamodell

Taxonomie der Big-Data-Technologien mit sechs


Schichten
Eine Taxonomie der Big-Data-Technologien quasi ein Technologie-Baukasten bildet den wichtigsten Bezugspunkt
fr diesen Leitfaden. Die Taxonomie umfasst wesentliche Technologien, die fr eine Big-Data-Komplettlosung
bentigt werden. Sie ordnet die Technologien in sechs Schichten an.
Die vier Schichten (1) Daten-Haltung, (2) Daten-Zugriff, (3) Analytische Verarbeitung und (4) Visualisierung markieren
den direkten Weg von den Rohdaten hin zu geschftsrelevanten Erkenntnissen. Dieser Weg wird flankiert von
(5) Daten-Integration und (6) Daten-Governance sowie Daten-Sicherheit. Diese flankierenden Schichten garantieren,
dass sich der Weg von den Rohdaten zur Erkenntnis in existierende Standards groer Unternehmen einbettet und sich
ein zielgerichtetes Zusammenwirken von Big Data mit existierenden Technologien, Prozessen und ComplianceVorgaben einstellt.
Als konstruktiv nutzbare Vorlage fr Konzeption und Entwurf einer Big-Data-Anwendung eignet sich die
Lambda-Architektur. Die in dieser Architektur vorgesehene Modularisierung spiegelt typische Anforderungen
an Big-Data-Anwendungen wider und systematisiert sie.

Thema
Big Data der Prsi, im Diamodell

Big Data Trends Worber


wird derzeit nachgedacht?
Business

Reifegrad
Technologie

Von Social BI zu Operational BI


Potential aus Daten nutzen / Neue Geschftsmodelle / Mobility

Internet der Dinge / Industrie 4.0

Groe Unterschiede sowohl zwischen den, als auch innerhalb


der Brachen
Von ersten PoCs hin zu integrierten Lsungen

Real Time / InMemory


Hadoop 2.0 (von Batch-Verarbeitung zu gesteuerten
Prozessen und InMemory)

Thema
Big Data der Prsi, im Diamodell

Aufwendige Projekte Neue


Schtze heben
Anreichern mit weiteren Datenquellen (GPS, Wetter, )
Batch-Verarbeitung vs. Real Time
Complex Event Processing (CEP)
Predictive Analytics
Machine Learning

BIG DATA wchst mit dem Bedarf


Thema
Big Data der Prsi, im Diamodell

Technologie-Baukasten der Big-Data-Technologien mit sechs


Schichten

(1) Daten-Haltung
(2) Daten-Zugriff
(3) Analytische Verarbeitung

(4) Visualisierung markieren den direkten Weg von den Rohdaten hin zu geschftsrelevanten
Erkenntnissen
(5) Daten-Integration
(6) Daten-Governance sowie Daten-Sicherheit

Thema
Big Data der Prsi, im Diamodell

Hadoop neue Big-Data-Denkweise

Hadoop = Hadoop Distributed File System (HDFS) + MapReduce

HDFS = File Sharing & Data Protection Across Physical Servers


MapReduce = Distribute Computing Across Physical Servers

Modernen Datenarchitektur und Ergnzung herkmmlicher Lsungen

Eine neue skalierbare Technologie, mit der sich die Kosten fur die Speicherung und Verarbeitung
von Daten um etwa 95% im Vergleich zu traditionellen Speicher- und DataWarehousing-Losungen verringern lassen

Untersttzt Unternehmensentscheidungen in nahezu Echtzeit durch verschiedenste


Analyseverfahren

Open-Source-Framework zur parallelen Datenverarbeitung auf sehr hoch skalierenden ServerClustern

Apache Software Foundation

umfasst mit seinen zahlreichen Unterprojekten mehrere Schichten in der Taxonomie (DatenHaltung, -Zugriff, -Integration, -Sicherheit und Betrieb)

Thema
Big Data der Prsi, im Diamodell

Hadoop neue Big-Data-Denkweise

Herkmmliche Losungen sind angesichts der mit Big Data assoziierten Herausforderungen (3 V) sowohl aus
technischer als auch aus betriebswirtschaftlicher Sicht eng limitiert. Hadoop bietet eine Antwort auf diese
Herausforderungen und hat sich daher als Kern einer modernen Datenarchitektur und Ergnzung herkmmlicher
Losungen fest etabliert.

Von einem preiswerten Daten-Parkplatz hat sich Hadoop so weiter entwickelt, dass es
Unternehmensentscheidungen in nahezu Echtzeit durch verschiedenste Analyseverfahren unterstutzt. Diese
gehen ber die Mglichkeiten traditioneller Business Intelligence Tools weit hinaus.

Hadoop ist ein Open-Source-Framework zur parallelen Datenverarbeitung auf sehr hoch skalierenden ServerClustern. Dieses Top-Level-Projekt der Apache Software Foundation umfasst mit seinen zahlreichen
Unterprojekten mehrere Schichten in der Taxonomie (Daten-Haltung, -Zugriff, -Integration, -Sicherheit und
Betrieb).

Hadoop hat sich fur viele Problemstellungen als sehr tragfhig erwiesen und bringt wie ein Motor Big Data
voran. Ein breites und innovatives Okosystem aus Open Source und kommerziellen Produkten liefert in schnellem
Tempo Verbesserungen am Hadoop-Framework; so kann sich Hadoop zunehmend zu einer unternehmensweiten,
gemeinsamen Daten-Plattform entwickelt einem Shared Service.

Thema
Big Data der Prsi, im Diamodell

Big Data Getting Started 9


Steps

Identify Problem
Develop Business Case
Identify Resource Needs
Evaluate/Select Hardware & Software
Fund POC
Create Small Solution
Evaluate Solution
Develop Long-Term Roadmap
Perform Project
Thema
Big Data der Prsi, im Diamodell

Step 1: What is your Problem?


Automotive

Ban-king
und
Securities

Communications,
Media
und
Services

Educatio
n

Governm
ent

Gesundh
eit

Versiiche
rung

Manufact
uring und
Natural
Resource
s

Einzelha
ndel

Transport
ation

Utilities

Wholesal
Trade

Volume
of Data

Velocity
of Data

Variety of
Data

Underutili
zed Dark
Data

Hardwar
e

Software

Services

Potential big data opportunity on each dimension is:

Very hot (compared with other industries)

Hot

Moderate

Low

Very low (compared with other industries)

(Source: Pactera; https://www.youtube.com/watch?v=zY_brMqvhzk

Thema
Big Data der Prsi, im Diamodell

Step 2: Develop Business Case

Proposed
Business
Solution

Proposed

Business
Case

General Guidelines
1. Follow Traditional Business
Case Steps
2. Engage Organization This
is Not an IT Project
3. Engage Experts (You May
Not Have Them Yet)
4. Consider Team Carefully

Technology

Solution

Thema
Big Data der Prsi, im Diamodell

Step 3: Identify Resource


Needs

Business

New

Expertise

Resources?

Technology
Expertise

Potential Weaknesses:
Big Data Skills
Predictive Analytics
Data Scientist
Strong Business
Analyst
Agile Methodology
Project Managers

Thema
Big Data der Prsi, im Diamodell

Step 4: Technical Architecture


Mega-Vendors - Big Data Vertical Industry
Automotive

Banking
und
Securities

Communications,
Media
und
Services

Education

Governm
ent

Gesundh
eit

Versiicher
ung

Manufact
uring und
Natural
Resource
s

Einzelhan
del

Transport
ation

Utilities

Wholesal
Trade

EMC
Pivotal

1010 data

Infochimp
s

Knewton
and
Carnegie
Learning

Digital
Resourci
ng

Cemer

The
Climate
Corp

Aspen
Technolo
gy

First
Insight

Manhatten
Associat.

ABB

Epicor

Alstom

Fujitsu

HP

Humedic
a

Qualcomm

Cloudra

Infor

Siemens

Vistex

IBM
SPSS
Fraunhof
er IAIS

Nice
Actimize
Panopticon Software
Streambase

CrossIndustry
/
Multiple
Industri
es

Pervasive
Software
Splunk

MyFit/Na
viance

Socrata

Visible
Measures

Explorys

Recombi
nant Data

CSC

First
Retail

Invensys
OSIsoft

Pentaho

Apache Hadoop, EMC Greenplum, IBM, Informatica, Microsoft, Opera Solutions, Oracle, SAP, SAS Institute, Teradata
(Source: Pactera; https://www.youtube.com/watch?v=zY_brMqvhzk

Thema
Big Data der Prsi, im Diamodell

Step 4: Technical Architecture


Presentation Layer
Dashboards, Reports, Sandbox
Business Semantic Metadata
Analytic Layer
Statistical
Analysis

Decision
Analysis

Text mining

Simulation

Trend
Analysis

Association
Analysis

Data Mining

Prediction

Data Service Layer

Active
Analytics

Data Mart

OLAP Cube

Enterprise Data Warehouse


Data Quality

Architectures

Move computing near to data

Online analysis & Offline analysis

Parallell ingestion/exchanges

SQL and NoSQL

Computing as well as storing


Business Value

From static to explore & prediction

From period to near real time

From commercial to open source

From big data to big understanding

ETL

Operational Data Store

Data Source Layer


Live site
System

ERP System

CRM System

External Files

Source: Pactera

Thema
Big Data der Prsi, im Diamodell

Step 4: Technical Architecture


Presentation Layer
Dashboards, Reports, Sandbox
Business Semantic Metadata
Analytic Layer

mahout
Data Service Layer

Active
Analytics

APACHE
HIBASE
Hadoop
HIVE

Architectures

Move computing near to data

Online analysis & Offlines analysis

Parallell ingestion/exchanges

SQL and NoSQL

Computing as well as storing


Business Value

From static to explore & prediction

From period to near real time

From commercial to open source

From big data to big understanding

Data Source Layer

Live site
System

ERP System

CRM System

External Files

Source: Pactera

Thema
Big Data der Prsi, im Diamodell

Big Data Critical Mistakes

Lack of Expertise
Big Data is IT project without a problem
Lack of technology alignment
Lack of Long-Term Roadmap
Lack of critical evaluation

Thema
Big Data der Prsi, im Diamodell

Investitionen in In-Memory- sowie NoSQLDatenbanken


prfen

In-Memory-Datenbanken

NoSQL

Beschleunigung des Zugriffs auf Daten

fr mehr Flexibilitat in den Datenstrukturen und bei der Verarbeitung

Beide Technologien ergnzen die relationalen Datenbanken

Thema
Big Data der Prsi, im Diamodell

Daten-Zugriff

Der traditionelle Ansatz fr Data Warehouse und Big Data analysiert ruhende Daten.

Die berwachung und Steuerung dynamischer Prozesse bedarf eines anderen


Ansatzes.
Hierbei werden zeitlich geordnete Ereignisse aus heterogenen Quellen
berwacht, verdichtet, gefiltert und korreliert.
Streaming und Complex Event Processing

Search- & Discovery-Technologien ermglichen das Suchen und Entdecken von


Informationen in meist unstrukturierten Daten analog zur Suchmaschine Google.

Thema
Big Data der Prsi, im Diamodell

Analytische Verarbeitung
Kern von Big-Data-Anwendungen: Gewinnung geschftsrelevanter
Erkenntnisse.
Dafr werden wichtige Werkzeuge beschrieben, die sich zum
groen Teil direkt am Einsatzszenario sowie am Datentyp
orientieren.
Bndel von Technologien zur Verarbeitung der verschiedenen
Datentypen
Predictive Analytics, Data Mining und Maschinelles Lernen

Thema
Big Data der Prsi, im Diamodell

Orts- und raumbezogenen


Datenanalyse

Viele Daten weisen einen Ortsbezug auf. Neue Sichten auf Daten erlauben auch Geo-Informationssysteme (GIS).
Die schnell steigenden Nutzerzahlen von Smartphones und Digitalkameras bieten die Grundlage, dass heutzutage
viele Informationen zusammen mit GPS-Koordinaten erhoben werden. So sind z. B. im Handel Analysen unter
Einbeziehung der rumlichen Dimension seit vielen Jahren Standard zur Bewertung neuer Standorte. In die
Absatzprognosen fr einzelne Artikel gehen Wettermodelle ebenso ein wie die Einwohnerverteilungen bestimmter
Einkommensklassen. Versicherungen ermitteln anhand von Geolokationen zusammen mit berflutungsmodellen
die Schadensrisiken von Immobilien.

Mit Big-Data-Methoden werden nun auch anderen Daten, die lediglich implizit ber einen Ortsbezug verfgen, mit
Geoinformationen verknpft. So werden Texte nach Orten, Straen, Restaurants usw. durchsucht. Dieses Beispiel
verdeutlicht, wie mit Big-Data-Anstzen unterschiedliche externe Daten mit internen Daten eines Unternehmens
ber die Dimension Ort in Beziehung gesetzt werden, um neuartige Datenprodukte zu schaffen.

Durch die Verfugbarkeit von Geodaten im groen Masstab sind Big-Data-Technologien mit effizienten Algorithmen
gefragt, die auch groe Datenmengen in kurzer Zeit analysieren knnen. Hier bringen analytische, relationale
Datenbanksysteme bereits Funktionen mit, die in Standard-SQL eingebettet sind. So lassen sich komplexe geobasierte Anfragen mit Standardwerkzeugen auf groen Datenmengen durchfuhren. Gerade die Mglichkeit, einen
Index in einer relationalen Datenbank auch auf der Ortsdimension anzulegen, erlaubt einen effizienten Umgang
mit groen Datenmengen.

Thema
Big Data der Prsi, im Diamodell

Web Analytics

Web Analytics umfasst die Messung, die Erfassung, die Analyse und das Reporting von Daten, die es erlauben,
eine Webprsenz zu optimieren. Fhrende Online-Handler experimentieren tglich auf ihren Seiten: Sie wollen
herausfinden, ob mehr oder weniger groe nderungen zu gewnschten Kundenreaktionen fuhren.
Viele Unternehmen analysieren routinemig die Conversion Rate einer Seite, die Anzahl der Klicks auf einer
Seite, die Suchbegriffe, die zum Besuch der Seite gefhrt haben, sowie weitere Kennzahlen. Mit Big-DataMethoden lassen sich aus diesen Daten Erkenntnisse ziehen, die den Wert einer Darstellung von Kennzahlen in
Form von Reports bei weitem bertreffen.
Marktfhrer analysieren komplette Pfade von Benutzern durch die verschiedenen Seiten und optimieren damit die
Webprsenz als Ganzes.
Da jeden Tag neue Artikel in einen Webshop eingestellt werden, knnen sich die Fragegestellungen von einem
Tag auf den anderen ndern und erweitern. Jeder neue Artikel kann auch neue Eigenschaften erzeugen, die vom
Shopsystem protokolliert werden.
Es ist nahezu unmglich, eine solche Dynamik in einem Datenmodell zu erfassen. Vielmehr sollten durch
Methoden des Late Bindings (vgl. Abschnitt 5.9) den Daten erst zur Laufzeit einer Analyse eine gewisse Struktur
aufgeprgt werden, die fr diese aktuelle Fragestellung der Dimension Variety die Komplexitt nimmt. Erweist sich
eine Analyse als gewinnbringend, dann sollte ber eine Operationalisierung hinsichtlich des Datenmodells
nachgedacht werden. Die Vielzahl an Erkenntnissen aus Web Analytics hinsichtlich einzelner Benutzergruppen
werden dazu genutzt, um in Echtzeit den Inhalt einer Webseite anhand der Zuordnung eines Benutzers zu einer
gewissen Benutzergruppe dynamisch anzupassen. Graphenbasierte Methoden eignen sich zur Modellierung der
aus den Web Analytics gewonnenen Daten, um mehr als die offensichtlichen Abhngigkeiten von z. B. Produkten
im Webshop zu erkennen und so Benutzer ber die Platzierung von Angeboten gezielter zu steuern. Des Weiteren
wird Web Analytics immer mehr mit anderen Analysetechniken wie z. B. Predictive Analytics verknpft, um nicht
nur das Verhalten eines Kunden zu analysieren und damit Webseiten zu optimieren, sondern auch Voraussagen
ber seine nchsten Schritte zu treffen und ihm z. B. speziell zugeschnittene Angebote zu prsentieren.

Thema
Big Data der Prsi, im Diamodell

Text- und Semantische Analyse


Inhaltliche Erschlieung mittels Semantik
Neben Datenstrmen, die z. B. aus der Vernetzung von Gerten stammen oder von Sensoren generiert werden,
stellt die Auswertung von Daten, die in textueller Form vorliegen, ein groes wirtschaftliches Potential fr
Unternehmen dar. So lassen sich beispielsweise durch die Analyse von Social-Media-Daten Produkttrends
erkennen oder Dokumente mit Hilfe von Textanalyse und semantischen Technologien durch Zusatzinformation
anreichern, so dass die angereicherten Daten ein ganz neues Potential fr Anwendungen und Analysen bieten.
Diese Daten sind jedoch ihrer Natur nach unstrukturiert und basieren in wesentlichen Teilen auf natrlicher
Sprache. Eine direkte Analyse ber klassische Verfahren, wie Data Mining oder Business Intelligence, ist hierfr
nicht mglich. Vielmehr kommen linguistische und semantische Verfahren zum Einsatz, mit deren Hilfe aus den
unstrukturierten Datenstrmen und Texten relevante Informationen extrahiert, Strukturen erkannt und Verknpfungen
der Daten untereinander sowie mit anderen Datenquellen hergestellt werden.

Thema
Big Data der Prsi, im Diamodell

Text- und Semantische Analyse


In gewisser Weise ist das Ziel, BI auf Text zu ermglichen dafr sind jedoch innovative Techniken notwendig, wie
die folgenden Beispiele verdeutlichen:
ei der Analyse von Social-Media-Daten gilt es, die Texte der Nutzer zu analysieren und zu strukturieren, dabei ggf.
B
einen spezifischen Jargon oder Slang zu bercksichtigen sowie eventuell ein Stimmungsbild abzuleiten. Die Beitrage
auf Blogs und Foren werden inhaltlich erschlossen, Problembeschreibungen und Symptome analysiert,
Produktbezeichnungen und Komponenten extrahiert.
In Dokumenten werden Sinnzusammenhange erkannt und Bezuge zu anderen Informationen wie CRM-Systemen oder
Produkt-Katalogen hergestellt. Die beispielhaft aufgefhrten Szenarien erfordern den Einsatz von semantischen und
Sprach-Technologien im Big-Data-Umfeld.

Thema
Big Data der Prsi, im Diamodell

Verarbeitungsschritte der
Sprachtechnologie
Da viele Informationen in Form von Texten vorliegen, gehrt die Sprachtechnologie zu den Schlsseltechnologien
fr die Gewinnung strukturierter Informationen.
Die Verarbeitung von Dokumenten kann in drei Bereiche eingeteilt werden:
- die dokumentenspezifische Verarbeitung,
- die sprachspezifische Verarbeitung und
- die domnenspezifische Verarbeitung.

Thema
Big Data der Prsi, im Diamodell

Teilaufgaben bei der dokumentenspezifischen


Verarbeitung

Tabelle : Teilaufgaben bei der dokumentenspezifischen Verarbeitung

Thema
Big Data der Prsi, im Diamodell

Teilaufgaben bei der dokumentenspezifischen


Verarbeitung

Thema
Big Data der Prsi, im Diamodell

Teilaufgaben bei der dokumentenspezifischen


Verarbeitung

Tabelle: Teilaufgaben bei der sprachspezifischen, aber domnenubergreifenden Verarbeitung

Thema
Big Data der Prsi, im Diamodell

Teilaufgaben fr spezifische Domnen bzw.


Anwendungen

Tabelle: Teilaufgaben fr spezifische Domnen bzw. Anwendungen

Thema
Big Data der Prsi, im Diamodell

Video und Audio Analytics


Neben den Datenstrmen, welche unmittelbar auf Text-Dokumenten basieren, wachsen insbesondere Audio- und VideoInhalte explosionsartig an:
Von Unternehmen verffentlichte Marketing-Videos enthalten detaillierte Beschreibungen zu den Produkten
und Dienstleistungen.
In Trainings-Videos und aufgezeichneten Webinaren finden sich zahlreiche Details fr Schulungs-Zwecke.
Nachrichten-Sendungen bieten reiche Informations-Schtze, wobei hier sowohl offizielle Nachrichten-Kanale,
unternehmensinterne Archive oder auch Internet-Quellen (YouTube) zum Tragen kommen knnen.
Beispielweise verfugt allein die National Library in Washington ber Zettabyte an Audio- und Videomaterial woraus
unmittelbar ersichtlich wird, dass eine manuelle Erschlieung ausgeschlossen ist.

Unter Nutzung der beschriebenen Techniken lassen sich aber auch die Schtze in diesen Daten erheben und somit Audiound Video-Archive erschlieen.
Zunchst mssen die enormen Datenmengen an sich berhaupt gespeichert und fr die weitere Verarbeitung zugreifbar
gemacht werden, wofr Big-Data-Techniken aus dem Bereich Daten-Haltung zum Tragen kommen. Insbesondere die
kostengnstige Speicherung sowie die Mglichkeit zur parallelen Verarbeitung bieten hier enorme Vorteile.

Thema
Big Data der Prsi, im Diamodell

Video und Audio Analytics


Anschlieend werden aus den gespeicherten Audio- und Video-Daten die Text-Informationen
extrahiert, wofr sogenannte Transkriptions-Algorithmen genutzt werden knnen, die je nach Qualitt
des Ausgangsmaterials sehr gute Text-Protokolle erzeugen.
Schlielich kommen die dargestellten linguistischen und semantischen Verfahren zum Einsatz, um die
Transkriptionen inhaltlich zu erschlieen und Sinnzusammenhange herzustellen.

Thema
Big Data der Prsi, im Diamodell

Predictive Analytics
Predictive Analytics ist ein Gebiet des Data Mining, mit dem aus einem Datensatz Trends und
Verhaltensmuster abgeleitet und vorhergesagt werden knnen.

Hierbei kommen je nach Anwendungsszenario verschiedene statistische Algorithmen und ModellierungsTechniken zum Einsatz, die darauf abzielen, Muster in aktuellen oder historischen Daten zu erkennen und ein
System (z.B. der Zustand einer Pumpe, das Wetter oder Finanzdaten) richtig zu beschreiben und daraus
Ableitungen fr das zuknftige Verhalten dieses Systems treffen zu knnen.
In der Wirtschaft wird Predictive Analytics z. B. eingesetzt, um transaktionale Daten zu analysieren und daraus
Geschftsrisiken und -opportunitten frhzeitig zu erkennen.
blicherweise beschreibt man die Vorgehensweise von Predictive Analytics in drei Schritten:
- Descriptive (Beschreiben),
- Predictive (Vorhersagen),
- Prescriptive (Empfehlen).

Thema
Big Data der Prsi, im Diamodell

Predictive Analytics
Im ersten Schritt mssen alle relevanten Daten fr das entsprechende System gesammelt werden, um
daraus die Muster zu erkennen die zu einem bestimmen Verhalten (z.B. dem Ausfall einer Pumpe oder den
Absturz eines Aktienwerts) fhren knnen.
Im zweiten Schritt wird ein passendes statistisches Modell entwickelt, welches das Verhalten des
untersuchten Systems hinreichend gut beschreibt, um daraus Vorhersagen ber sein Verhalten in der
Zukunft ableiten zu knnen.
Im dritten Schritt mssen Empfehlungen ausgearbeitet werden, die das System bei einem bestimmten Trend
in eine gewnschte Richting beeinflussen oder ein vorhergesagtes Ereignis verhindern (z.B. eine Reperatur
an einer Pumpe bevor diese ausfllt).
Der Einsatz von Predictive Analytics ist ein kontinuierlicher, iterativer Prozess. Durch den fortschreitenden
Einsatz werden die eingesetzten Modelle immer weiter verbessert und angepasst, und damit werden auch
die Vorhersagen immer prziser.

Thema
Big Data der Prsi, im Diamodell

In-Database Analytics
Mssen grere Datenmengen verarbeitet werden, so kann es auch sinnvoll sein, die Analysen direkt in der
Datenbank auszufuhren. Das bedeutet, dass die Berechnungen dort durchgefhrt werden, wo die Daten
Gespeichert sind und nicht, wie sonst blich, die Daten erst zu einem Berechnungsserver transferiert werden,
der dann die Analysen berechnet.
Das hat den Vorteil, dass weniger Daten Uber das Netzwerk transportiert werden mssen und die Last des
Berechnungsservers reduziert wird.
Dieses Vorgehen nennt sich In-Database Analytics. Dabei wird der fr die Berechnung notwendige
Programmcode in der Datenbank abgelegt und durch SQL oder eine andere Datenbankanweisungen
ausgefhrt.
Gerade im Big-Data-Umfeld werden durch diese Herangehensweise Datenmengen handhabbar, die vorher
nicht verarbeitet werden konnten. Die Hersteller analytischer Datenbanksysteme bieten daher ein breites
Spektrum unterschiedlicher Werkzeuge und Methoden an, die es erlauben, komplexe statistische
Berechnungen in der Datenbank auszufhren.

Thema
Big Data der Prsi, im Diamodell

Data Mining und R


Der Begriff Data Mining ist ein sehr bildlicher Oberbegriff fr eine Vielzahl von verschiedenen Methoden, Verfahren und
Techniken, der die Intention zusammenfasst geradezu im Sinne eines Daten-Bergbaus Schtze, also
verwertbares Wissen, aus den Daten des Unternehmens zu fordern.
Insbesondere bezeichnet Data Mining im Kontext dieses Leitfadens das intelligente, grtenteils automatisierte Aufspren und
die Extraktion von interessanten, d.h. wirtschaftlich nutzbaren Mustern und Zusammenhangen in groen Datenbestanden.
Dabei sind die eingesetzten Methoden, Verfahren und Techniken interdisziplinar und stammen aus klassischen Bereichen
der Mathematik, Statistik und Informatik sowie der Biologie und Physik.
Da es keine einzige Methode gibt, die fr alle mglichen Problemstellungen geeignet ist bzw. alle anderen Methoden
dominiert, hangt damit die Entscheidung bezglich der zu verwendenden Methodik von der jeweiligen
Problemstellung sowie auch dies ist wichtig von dem Erfahrungshorizont des Data-Mining-Experten ab. Insbesondere
wichtig ist, dass die Arbeit von einer mchtigen und leistungsfhigen Plattform untersttzt wird, die zudem noch eine groe
Verbreitung haben soll, um nicht an dieser Stelle in Engpsse zu laufen.
Da die Behandlung aller am Markt verfgbaren mglichen Plattformen diesen Leitfaden bei Weitem sprengen
wrde, soll nur eine mgliche Plattform hier einmal naher demonstriert werden.

Thema
Big Data der Prsi, im Diamodell

Plattform R De-facto-Standard-Tool fr Data


Mining
R ist eine freie Programmiersprache fr statistisches Rechnen und statistische Grafiken. R ist Teil des GNUProjekts, auf vielen Plattformen verfgbar (http://www.r-project.org/ ) und gilt zunehmend als die statistische
Standardsprache sowohl im kommerziellen als auch im wissenschaftlichen Bereich
(http://r4stats.com/articles/popularity/).
Der Funktionsumfang von R kann durch eine Vielzahl von Paketen erweitert und an spezifische
Problemstellungen angepasst werden. Viele Pakete knnen dabei direkt aus Einer ber die R-Console
abrufbaren Liste ausgewhlt und automatisch installiert werden.
Zentrales Archiv fr diese Pakete ist das Comprehensive R Archive Network (CRAN). Aktuell stehen ber
5.000 Pakete auf CRAN zur Verfugung. R lauft in einer Kommandozeilenumgebung.
Darber hinaus hat der Nutzer die Auswahl unter mehreren grafischen Benutzeroberflachen (GUI),
beispielsweise RStudio

Thema
Big Data der Prsi, im Diamodell

RStudio freie grafische Benutzeroberflachen fr R

Abbildung : RStudio freie grafische Benutzeroberflachen fr R

Thema
Big Data der Prsi, im Diamodell

R Data Miner - Ratlle

Im Bereich Data Mining gibt es ebenfalls sehr viele frei verfugbare Pakete
(http://cran.r-project.org/web/views/MachineLearning.html) sowie GUIs.

Als Beispiel soll das Paket Rattle (http://rattle.togaware.com/) dienen:

Thema
Big Data der Prsi, im Diamodell

R Data Miner- Rattle

Thema
Big Data der Prsi, im Diamodell

Data Mining Projekt - Beispiel

Als Illustration dient ein vollstndiges, einfaches und bewusst neutrales Beispiel
(http://www.springer.com/cda/content/document/cda_downloaddocument/9781441998897c1.pdf?SGWID=0-0-45-1277951-p174110667),
welches einen mglichen Ablauf eines Data Mining-Projektes skizziert: Der Vorhersage der
Regenwahrscheinlichkeit auf Basis verschiedener Wetterdaten.

Die Gliederung der Benutzeroberflche in den Reitern ist dem Data Mining-Prozess
nachempfunden. Zuerst wird der mitgelieferte Beispieldatensatz weather geladen (im Data-Tab
auf Execute und dann auf Yes klicken).

Thema
Big Data der Prsi, im Diamodell

R Data Miner

Abbildung. Schritt 1- Laden des Beispieldatensatzes

Thema
Big Data der Prsi, im Diamodell

R Data Miner
Die Variable RainTomorrow ist als Zielvariable gekennzeichnet, da in den Daten nach Mustern gefahndet werden
soll, ob es morgen regnet oder nicht. Zuerst verschafft sich der Anwender einen berblick ber die Daten, in dem
er sich die Verteilung in Bezug auf die Tagestemperatur und Sonnenscheindauer anschaut.
Er geht hierzu auf den Reiter Explore und markieren dort unter Distributions fr MinTemp und Sunshine jeweils Box
Plot und Histogram (vorher deaktiviert er noch Advanced Graphics unter Settings)

Thema
Big Data der Prsi, im Diamodell

R Data Miner

Abbildung: Schritt 2 Gewinnung des berblicks ber die Daten

Thema
Big Data der Prsi, im Diamodell

R Data Miner

Danach klickt der Anwender wieder auf Execute, das Ergebnis sieht man auf der nchsten Seite:

In diesen Grafiken ist bereits sehr viel Information enthalten; es zeigt sich bereits auf den ersten Blick, dass beide
Variablen eine gewisse Trennschrfe in Bezug auf die Prognose von Regen am nchsten Tag haben konnten. So
scheinen z. B. eine hhere Temperatur und krzere Sonnenscheindauer eine hhere Regenwahrscheinlichkeit am
nchsten Tag anzukndigen.

Thema
Big Data der Prsi, im Diamodell

Graphische Analyse

Abbildung: Schritt 3 erste graphische Analyse von zwei Variablen

Thema
Big Data der Prsi, im Diamodell

Graphische Analyse

Der Anwender probiert noch einmal eine andere Variable, die morgendliche Windrichtung, welche dedizierte
Kategorien hat, d.h. er markiert Bar Plot, Dot Plot und Mosaic fur WindDir9am im selben Fenster und klicken
wieder Execute (vgl. Abbildung).

Thema
Big Data der Prsi, im Diamodell

Graphische Analyse

Abbildung: Schritt 4 grafische Analyse einer weiteren Varaiblen

Thema
Big Data der Prsi, im Diamodell

Graphische Analyse
Ohne auch hier ins Detail zu gehen, liee sich z. B. die These formulieren, dass nrdlicher Wind zu einer erhhten
Regenwahrscheinlichkeit fhren knnte, was genauer zu untersuchen wre. Als nchstes will der Anwender ein
Modell bauen, welches die verschiedenen Variablen in einen Zusammenhang stellt. Dafr eignet sich z. B. ein
Baum, an dem sich ablesen lasst, welches die geeignetsten Variablen zur Prognose sind. Dafr geht der Anwender
auf Reiter Model und klickt Execute.

Thema
Big Data der Prsi, im Diamodell

R Data Miner Rattle

Abbildung : Schritt 5 Untersuchung der verschiedenen Variablen im Zusammenhang

Thema
Big Data der Prsi, im Diamodell

R Data Miner Rattle

Zur Veranschaulichung klickt der Anwender


auf Draw (vgl. Abbildung ).

Der Anwender sieht hier z. B. dass nach der Regel


Nr. 7 eine 74%ige Regenwahrscheinlichkeit am
nchsten Tag vorliegt, wenn der Luftdruck weniger
als 1.012 Hektopascal betragt und die
Sonnenscheindauer geringer als 8,9 Stunden ist.
Diese Regeln kann ber die Schaltflache Rules
auch noch einmal explizit ausgelesen werden (vgl.
Abbildung ):

Tree as rules:
Rule number: 7 [RainTomorrow=Yes cover=27 (11%) prob=0.74]
Pressure3pm< 1012
Sunshine< 8.85
Rule number: 5 [RainTomorrow=Yes cover=9 (4%) prob=0.67]
Pressure3pm>=1012
Cloud3pm>=7.5
Rule number: 6 [RainTomorrow=No cover=25 (10%) prob=0.20]
Pressure3pm< 1012
Sunshine>=8.85
Rule number: 4 [RainTomorrow=No cover=195 (76%) prob=0.05]
Pressure3pm>=1012
Cloud3pm< 7.5

Abbildung : Schritt 6 Generierung eines


Entscheidungsbaums

Abbildung : Schritt 7 Auslesen der Regeln des


Entscheidungsbaums

Thema
Big Data der Prsi, im Diamodell

R Data Miner Rattle

Zum Abschluss dieses Beispiels soll noch die Gute des Modells berprft werden (beim Reiter Evaluate auf
Testing und wieder auf Execute klicken) :

Anhand der sog. Error matrix ist sichtbar, dass das Modell bereits ohne weitere Optimierung in 62% der Falle
kein Regen und in 18% der Falle Regen richtig vorhersagt, d.h. in ber 80% richtig liegt. In 11% der Falle
macht das Modell eine falsch-positive Vorhersage, d.h. es sagt Regen voraus, es bleibt aber trocken. In der Praxis
problematischer durften die 9% falsch-negativen Falle sein, in denen man ohne Regenschirm aus dem Haus geht
und dann doch nass wird. An dieser Stelle wurde in der Praxis eine weitere Verfeinerung des Modells ansetzen
mssen. Das Beispiel kann jedoch nur einen winzigen Teil der Mglichkeiten von Data Mining bzw. von Rattle und
R aufzeigen.

Weitere Informationen im Buch Data Mining with Rattle and R von Graham Williams (2011), aus dem auch das
Beispiel und das oben verlinkte 2. Kapitel stammen (weitere Auszuge:
http://www.amazon.de/exec/obidos/ASIN/1441998896/348-62-21)

Thema
Big Data der Prsi, im Diamodell

R Data Miner Rattle

Abbildung : Schritt 8 berprfung der Modellgute

Thema
Big Data der Prsi, im Diamodell

Machine Learning

Der Begriff Machine Learning beschreibt eine Vielzahl von Anwendungen und Methoden, in denen
Computerprogramme selbststndig neues Wissen erwerben. blicherweise geschieht dies durch statistische oder
logische Analysen gegebener Daten sowie durch die Anwendung rechenintensiver Algorithmen, um optimale
Losungen zu gestellten Aufgaben zu finden. Im Unterschied zu einfachen statistischen Auswertungen oder den
generell ergebnisoffeneren Zielsetzungen des Data Mining , z. B. neue Muster zu finden, ist im Machine Learning
meist das Wie im Losen konkreter Probleme die zentrale Fragestellung. Data Mining verwendet meist
Machine_learning-Methoden zur Mustererkennung.

Zum Beispiel knnen in komplexen Planungsaufgaben zwar alle ntigen Daten explizit vorliegen, aber eine
optimale Strategie nur rechnergestutzt ermittelbar sein, da fr eine manuelle Auswertung zu viele Optionen
existieren (kombinatorische Explosion).

Thema
Big Data der Prsi, im Diamodell

Machine Learning
Typischerweise wird durch Machine Learning gewonnenes Wissen fur die Analyse historischer
Daten aufbereitet (vgl. Data Mining) oder in automatischen Prozessen direkt zur Anwendung
gebracht. Insbesondere bei der automatischen Anwendung ist die fehlerfreie Erfassung von
Informationen, eine korrekte Interpretation der Daten in ihrem Kontext sowie die Generalisierung
des daraus erworbenen Wissens von zentraler Bedeutung, da manuelle Validierung und
Korrekturen meist entfallen mssen.
Zum Beispiel knnen zeitliche Merkmale und sich ndernde Trends eine automatische
Anpassung des Wissens aus historischen Daten an die zuknftige Verwendung erfordern. Daraus
ergibt sich, dass Machine-Learning-Anwendungen meist als mehrschichtige Systeme anstatt
isolierter Komponenten betrachtet werden und an ihrem Endergebnis, blicherweise quantitativ,
zu messen sind.
Praktische Beispiele maschinellen Lernens finden sich vor allem in der modellbasierten
Datenanalyse, der Vorhersagen-Modellierung90 sowie der automatischen Interaktion von
Maschinen mit ihrer Umwelt. In verschiedenen Clustering-Verfahren werden Parameter gesucht,
unter denen das Modell die Daten bestmglich nach vorgegebenen Qualittskriterien segmentiert.
In verschiedenen Clustering-Verfahren werden Parameter gesucht, unter denen das Modell die
Daten bestmglich nach vorgegebenen Qualittskriterien segmentiert.

Thema
Big Data der Prsi, im Diamodell

Machine Learning

Gemeinsam haben alle Machine-Learning-Anwendungen, dass


eine konkrete Aufgabendefinition vorliegt,
Wissen und Erfahrungen aus einer algorithmischen Anwendung gewonnen werden konnen und
der Erfolg einer Methode direkt oder in Nachbetrachtung messbar ist.
Strikte Losungswege zur Herbeifhrung eines erwnschten Ergebnisses, bzw. deren Parameter, sind in der Praxis
selten im Vorfeld manuell definierbar. Die Probleme sind dafr blicherweise zu komplex, zu stark von den oft
zuvor unbekannten Daten einer Anwendung abhngig oder sie unterliegen unkontrollierbaren Umwelteinflssen
und erfordern somit automatische Anpassungen oftmals sogar in Echtzeit. Fr komplexe Themen wie
Wettervorhersagen existieren meist keine exakten Erklrungsmodelle. Deshalb mssen rechnergesttzte
Nherungen gefunden werden. Staubsaugroboter knnen nicht ab Werke feste Wege einprogrammiert
bekommen; sie mssen vielmehr selbst ihren Einsatzort kennenlernen und effiziente Strategien planen.
Automatischer Brsenhandel muss sich stndig an aus Umweltbedingungen resultieren Situations- und
Verhaltensnderungen anpassen.
Machine Learning beschftigt sich daher mit Verfahren, um gnstige Losungsansatze fr Probleme, die manuell
nicht oder nur unter hohem Kostenaufwand lsbar sind, automatisch zu erlernen und in der Anwendung
weiterzuentwickeln.
bliche Ansatze beruhen darauf, erhobene Daten statistisch auszuwerten, um Relationen zwischen beobachteten
Situationen, den Auswirkungen von ausgefhrten Aktionen und der eigenen Leistung aufzudecken. Besonders
hervorzuheben ist hierbei der statistische Zusammenhang von Beobachtungen mit vorherzusagenden
Eigenschaften, zum Beispiel welche aktuellen meteorologischen Messungen die besten Indikatoren fr das
morgige Wetter bieten. Daher finden sich im maschinellen Lernen viele berschneidungen mit klassischer
Statistik, Data Mining (Mustererkennung) und auch Visualisierungsaufgaben zur Modellbewertung. Bei Daten und
rechenintensiven Verfahren sind insbesondere auch Losungen aus verschiedenen Big-Data-Themenbereichen,
wie der effizienten Speicherung groer Datenmengen oder der Verteilung von Rechenlast notwendig.

Thema
Big Data der Prsi, im Diamodell

Machine Learning Supervised Learning das Beispiel E-MailKlassifizierung

In sogenanntem Supervised Learning95 besteht die Herausforderung meist darin, von beobachtbaren
Objekteigenschaften ber Statistiken und Mustern auf zu erlernende Zusammenhange mit vorgegebenen
Informationen oder zuknftigen Ereignissen zu schlieen. berwachstes Lernen. Dieser Begriff grenzt Aufgaben,
in denen korrekte Lsungen oder Feedback von auen z.B. manuell zur Verfgung gestellt werden von
denjenigen Aufgaben des unsupervised oder semi-supervised Learning ab, in denen sich Algorithmen auf
eigenen, fest integrierte Qualittsmerkmale wie z.B. der Konsistenz von Clustern verlassen mssen.

Verdeutlicht wird dies am Beispiel der E-Mail- Klassifizierung. Aus Worthufigkeitsstatistiken knnen mittels DataMining-Methoden zunchst Muster, wie die gemeinsame Verwendung von Wrtern in bestimmten Kontexten,
erkannt werden. Ist dann fr Trainingstexte bekannt, ob diese z. B. Spam-Mails sind oder nicht, kann von den
gefundenen Muster-Instanzen innerhalb einer E-Mail (sog. Features) auf die Wahrscheinlichkeiten der jeweiligen
E-Mail-Klassen geschlossen werden. Dieser Lernschritt beinhaltet meist

die Anwendung von manuell entwickelten mathematischen Modellen,


die automatische Anpassung der Modellparameter, um die Daten darauf abzubilden, sowie
die Bewertung, wie exakt die erlernten Modelle die vorgegebene Klassifizierung der Trainingstexte nachvollziehen.

Fr den Erfolg des Lernverfahrens ist letztendlich entscheidend, wie gut das erlernte Wissen auf neue E-Mails
bertragbar ist zum Beispiel wenn neue Arten von Spam-Mails versendet werden, um unflexible Klassifikatoren
zu umgehen.

Thema
Big Data der Prsi, im Diamodell

Machine Learning und Big Data

Im Bereich groer Datenmengen bedingen sich Machine Learning und Big-Data-Losungen oft gegenseitig. So
sind Analyseverfahren, wie die Klassifizierung vieler Daten, ohne Strategien fr die Integration verschiedener
Datenquellen, fur die Speicherung dieser Daten und deren Zugriff sowie ohne die Verteilung der Rechenlast auf
parallele Rechnerknoten kaum mglich.

Wiederum stellen insbesondere Echtzeitanwendungen im Big-Data-Umfeld oft Anforderungen, welche


menschliche Kapazitten bersteigen. So sind zum Beispiel in Hochsicherheitsbereichen Fehler oder Verstose
anhand von Mustern in Sensordaten zu erkennen und ber Reaktionen, wie der Abschaltung von Ressourcen,
innerhalb von Sekunden zu entscheiden.

Andere datenintensive Dienstleistungen, wie die Empfehlungsdienste groer Internetseiten (sog. RecommenderSysteme), sind auf Grund der anfallenden Datenmengen ohne intelligente automatische Verfahren, und somit
insbesondere auch maschinellem Lernen, undenkbar.

Thema
Big Data der Prsi, im Diamodell

Existierende Machine-Learning-Lsungen

Auf Grund der Heterogenitat der Anforderungen an Machine-Learning-Verfahren sind vorkonfigurierte


Komplettlosungen zum Direkteinsatz im Big-Data-Umfeld zurzeit noch selten.
Stattdessen kann ein blicher Arbeitsablauf festgestellt werden, der sich mit vielen anderen Big-Data-Prozessen
deckt und dabei auf eine Vielzahl verfgbarer Systemkomponenten zurckgreifen kann. Dieser Standardaufbau von
Machine-Learning-Anwendungen ist in der nchsten Abbildung illustriert.

Thema
Big Data der Prsi, im Diamodell

Existierende Machine-Learning-Lsungen

Abbildung: Machine-Learning-Pipeline

Thema
Big Data der Prsi, im Diamodell

Existierende Machine-Learning-Lsungen

Zunchst mssen die fur die Anwendung notwendigen Daten gewonnen, gespeichert und bereinigt werden.
Anschlieend sind sie fr die konkrete Aufgabe und die eingesetzten Lernverfahren zu transformieren (z. B.
Normalisierung) und zu analysieren (z. B. Mustererkennung). Schlielich werden Machine-Learning- bzw. Optimierungs
Methoden angewendet, um aus diesen Daten und vorbereiteten Merkmalen und Mustern deren Zusammenhange mit
den Zielvorgaben zu lernen sowie das Wissen auf weitere Anwendungen zu bertragen. Optional knnen die erlernten
Modelle zur berprfung visualisiert werden. blicherweise erfordert die vorbereitende Datenanalyse, wie zum Beispiel
das Erkennen von Mustern in E-Mails, die meiste intellektuelle Arbeit sowie starke Domnenkenntnisse seitens der
Entwickler. Fr die Optimierung oder das Trainieren der gewhlten Modelle und Systeme stehen oft schon
Standardlosungen zur Verfugung. Insbesondere im Bereich des Supervised Learning der Herstellung des
Zusammenhangs zwischen Beobachtungen und Zuweisungen haben sich verschiedene abstrakte Verfahren
entwickelt, die auf die (semi-) manuelle Datenanalyse und deren resultierende Kennzahlen aufbauen, indem sie diese
statistisch auswerten und in Korrelation zu vorhandenem Wissen setzen.

Dazu gehren u.a.


lineare Regression,
neuronale Netze,
Entscheidungsbaumverfahren,
Bayessche Modelle,
Nachbarschaftsklassifizierer und
Support Vector Machines.

Da diese jeweils nur fr bestimmte Probleme geeignet sind, erfordert deren Wahl und Parametrisierung Rucksicht auf
die zu lernende Relation (z. B. Regression oder Klassifikation), Beachtung der Art der zuvor gefundenen statistischen
Merkmale und Muster (z. B. kategorische oder kontinuierliche Variablen), Experimente und Simulationen, sowie die
ntige Detailkenntnis fur die Ergebnisbewertung.

Thema
Big Data der Prsi, im Diamodell

Machine Learninng - Bewertung von Verfahren unter Big-DataGesichtspunkten

Viele Machine-Learning-Verfahren wurden bereits vor dem Aufkommen der spezifischen Big-Data-Probleme
entwickelt. Dementsprechend beinhalten viele Algorithmen Annahmen und Methoden, die groen Datenmengen
nicht standhalten, wie zum Beispiel dem paarweisen Vergleich aller Datenpunkte untereinander bei
akzeptierbarem Zeit- und Rechenaufwand. Dieser kann auf Grund des exponentiellen Wachstums der
Arbeitsschritte auf groen Datenbanken selbst mit hchster Rechenleistung nicht vervollstndigt werden. Daher
sind Algorithmen zu bevorzugen, welche eine lineare Speicher- oder Rechenkomplexitt aufweisen.

Desweiteren sind viele heute verfugbare Softwareimplementierungen unter der Prmisse moderater Datenmengen
entstanden und daher oftmals allein auf Grund technischer Realisierungen nicht im Big-Data-Betrieb einsetzbar.
Dazu zahlen insbesondere Programme, die versuchen, Daten komplett in den Arbeitsspeicher zu laden, ohne eine
Verteilung der Speicherung oder Rechenleistung vorzusehen.

Machine-Learning-Komplettpakete, die auch Strategien wie MapReduce und Speichersysteme wie Hadoop
unterstutzen, sind zurzeit noch rar. Beispiele solcher Losungen und Anbieter dieser sind das Open-Source-Projekt
Apache Mahout, das Unternehmen Skytree, sowie RapidMiner/ RapidAnalytics.

Des Weiteren zeichnen sich insbesondere die Programmiersprachen R, Python, Matlab, Java und C samt
Derivate jeweils durch eine Vielzahl Frameworks und Programmbibliotheken aus, die in der Praxis hufig fr die
Realisierung von Machine-Learning-Anwendungen, auch im Big-Data-Umfeld, verwendet werden.

Thema
Big Data der Prsi, im Diamodell

Reporting
Big Data dient letztendlich der Erkenntnis von Zusammenhangen.
Die Bedeutung multidimensionaler Datenmodelle fr hypothesengesttzte Analysemethoden ist hinlnglich bekannt96
und soll hier nicht vertieft werden.
Der Abschnitt wiederholt kurz das Bekannte, betrachtet neue Aspekte durch Technologien wie In-Memory und
bietet abschlieend ein praktisches Anwendungsbeispiel sowie Empfehlungen.
Die Basistechnologie fr Reporting bildet das OLAP.

Thema
Big Data der Prsi, im Diamodell

OLAP-Formen

Die Basis fr OLAP bietet der OLAP-Wrfel (Cube), mit dem Daten
multidimensional analysiert werden (vgl. Abbildung). Der Wrfel
ordnet dabei die Daten logisch nach verschiedenen Dimensionen
an, wie zum Beispiel Zeit, Region oder Produkt. Nach Art und
Zeitpunkt des Zugriffs auf die Daten unterscheidet man klassisch:

MOLAP (multidimensionales OLAP) speichert Zahlen in


Form von Datenpunkten. Zur Laufzeit steht damit ein
performanter Cube zur Verfugung, der allerdings hufig in
langwierigen Rechenoperationen berechnet werden muss,
oft in Servicefenstern ber Nacht.

ROLAP (relationales OLAP) greift auf eine relationale


Datenbank zur Laufzeit zu. Hierbei wird auf die
Vorausberechnung verzichtet. Die langsameren
Zugriffszeiten werden durch den Wegfall der Berechnungen
und die Mglichkeit zu Ad-hoc-Analysen aufgewogen.

HOLAP (hybrides OLAP) bietet eine Mischform zwischen


MOLAP und ROLAP.

Durch neuere Technologien ist es mglich, die Wrfel zu


greren Teilen oder vollstndig in memory zu halten und
damit die Berechnungsoperation zu beschleunigen. DOLAP
(Desktop OLAP) ist eine zustzliche Form, bei der der
Wrfel im Arbeitsspeicher des Clients entsteht, im
einfachsten Fall in Excel (www.powerpivot.com).
Weiterhin kann zwischen multidimensionalem und tabellarischem
OLAP unterschieden werden. Im letzteren Falle werden
Faktentabellen ganz oder teilweise in den Arbeitsspeicher geladen.
Hierbei helfen neue In-Memory- und Kompressionstechnologien
fast aller Datenbankanbieter.

Abbildung: OLAP-Wrfel zur multidimensionalen


Datenanalyse

Thema
Big Data der Prsi, im Diamodell

Anwendungsbeispiel
Klout ist ein fhrender Anbieter fur Social Network Analytics und early adopter fur Hadoop. Klout berechnet
den Einfluss von Millionen von Menschen in sozialen Medien mithilfe einer Losung fr Big Data Analytics.
Die Herausforderung besteht darin, ein 800 Terabyte Data Warehouse mit ber 1 Billion Datenzeilen fur die Ad-hocAnalyse bereitzustellen. Obwohl Hive Ad-hoc-Abfragen von Hadoop uber HiveQL unterstutzt, ist die
Antwortgeschwindigkeit fr die meisten BI-Szenarien unzureichend.
Hive bietet ein exzellentes und skalierbares Data Warehouse Framework auf Basis Hadoop. Es ist allerdings
nicht die beste Wahl fr Ad-hoc-Abfragen groer Daten.
Eine bessere Losung besteht darin, die relevanten Hadoop-Daten mittels HiveQL in einen relationalen Cube zu bringen.
Dieser kann die Daten dann fr Analysen und Berichte bereitstellen. Auf diese Weise erreicht Klout mittlere
Antwortzeiten von weniger als 10 Sekunden fr 1 Billion Datenzeilen.
www.klout.com, siehe auch
http://download.microsoft.com/download/D/2/0/D20E1C5F-72EA-4505-9F26-FEF9550EFD44/MOLAP2HIVE_KLOUT.docx

Thema
Big Data der Prsi, im Diamodell

Klout-Archiktektur

Abbildung: Klout-Archiktektur

Thema
Big Data der Prsi, im Diamodell

MOLAP
Leider gibt es keine Mglichkeit, eine multidimensionale Analysedatenbank (MOLAP) direkt an eine Hive-Datenquelle
zu verbinden. Eine hufige Losung, initial auch fur Klout, ist die Nutzung einer Staging-Datenbank ber Sqoop.
Der Cube kann dann die Daten von dort importieren.
Aber dieser Ansatz hat Nachteile: Er erzeugt zustzliche Latenz und Komplexitt, die die Verwaltbarkeit der
Systeme und ihre Kosten beeinflusst.
Mit einem Interface fr die direkte Abfrage101 knnen die Staging-Datenbank und teure Kopieroperationen
vermieden werden. Darber hinaus kann der Cube quasi direkt an Hive verbunden werden, indem Hive-Tabellen als
Pseudotabellen in der relationalen Datenbank angezeigt und In-Memory verwendet werden.

Thema
Big Data der Prsi, im Diamodell

Integration von relationalem OLAP mit Hive


Die Integration von relationalem OLAP mit Hive bietet die folgenden Vorteile:

kosteneffiziente Funktionalitt fur OLAP und Data Mining fr viele Abfrage-Werkzeuge und BI-Anwendungen
Nutzung bestehenden Know-hows beim Aufbau groer Cubes mit Milliarden von Datenzeilen,
Untersttzung fr Ad-hoc-Abfragen zum Beispiel aus Excel zur Untersuchung der Klout-Algorithmen,
optimale Leistung fr groe Datenmengen, weniger als 10 Sekunden Antwortzeit fr 1 Billion Datenzeilen,
nutzerfreundliche Darstellung des Cube mit Metrik und Dimensionen. Der Cube versteckt die Komplexitt sowohl
von SQL als auch von Hadoop fur den Fachanwender.

Thema
Big Data der Prsi, im Diamodell

Empfehlungen aus der Praxis


Folgende Empfehlungen lassen sich aus der Praxis ableiten:

ermeiden Sie traditionelle Datenbanken fr Staging-Zwecke. Schreiben Sie die Daten stattdessen in Hadoop, und benutzen Sie dann
V
Hive in Verbindung mit direkten Abfragen und Sichten, um die Daten der Analyse zuganglich zu machen. Dieser Ansatz minimiert
Latenzen und vermeidet Redundanz im Warehouse. Er kombiniert die Vorteile von Hadoop fr Speicherung und Schreiboperationen,
ohne den Komfort des relationalen Daten-Zugriffs aufzugeben.

Nutzen Sie das Interface fr Direktabfragen Ihrer Datenbank fur heterogene Joints. Damit knnen Abfragen an verbundene Server
weitergereicht werden und HiveQL Abfragen als Pseudo-Tabellen in ihrer relationalen Datenbank dargestellt werden. Pseudotabellen aus
verschiedenen Datenquellen knnen dann zu Sichten kombiniert werden.

utzen Sie benutzerdefinierte Funktionen (UDF) in Hive, um komplexe Datentypen wie zum Beispiel JSON in Zeilen und Spalten zu
N
konvertieren, die SQL versteht. Durch Hive UDF kann fast jeder unstrukturierte Datentyp in HiveQL gewandelt und der Analyse
bereitgestellt werden.

Spezifizieren Sie die Hive UDF als permanent, um sie von verschiedenen relationalen Abfragen nutzen zu lassen.

erwalten Sie groe Dimensionen in Hive-Sichten. Um Speicherplatz und Rechenzeit zu sparen, nutzen Sie nur die fur die Analyse
V
bentigten Attribute. Wenn Sie Uber Hive-Sichten die Fakten in den Faktentabellen verlinken, knnen Sie Dimensionen effizienter
limitieren und gleichzeitig Faktentabellen effizienter partitionieren.

elassen Sie Hive-Objekte im Standardschema. Sie behalten damit die grtmgliche Flexibilitt bei der Auswahl der Abfrage
B
Werkzeuge.

Thema
Big Data der Prsi, im Diamodell

Visualisierung
Das Ziel einer Datenanalyse ist stets, aus einer Menge an Rohdaten strukturierte Informationen und entscheidungsrelevante
Erkenntnisse im gegebenen Anwendungsumfeld bzw. Geschftsfall zu extrahieren.
Visualisierungen spielen nicht nur eine Schlsselrolle bei der effizienten Kommunikation relevanter Informationen zu bekannten Sachverhalten
im Rahmen des BI-Reportings.
Vielmehr stellen fortgeschrittene Visualisierungen ein mchtiges und hochgradig flexibles Werkzeug im Analyseprozess dar, das die bisher
diskutierten algorithmischen Verfahren der Datenanalyse im Sinne von Unsicherheit minimieren durch visuellen Check entscheidend ergnzt.
Genutzte Techniken abhngig von Aufgabenstellung und Konsument
Beim Einsatz visueller Analyse- und Kommunikationstechniken kommen unterschiedliche Techniken zum Einsatz.
Sie lassen sich grob unterscheiden nach:
- Visualisierung zur Informationsbereitstellung versus visuelle Analyse zur Wissensaufbereitung (Erkenntnisgewinn aus Daten),
- Visualisierungsnutzung durch den Fachbereich (Entscheidungstrager) versus durch den Analysten (Domane-Experten), sowie
- Informationskonsum oder Analyse ortsgebunden (am Arbeitsplatz) versus mobil (Meetings, Dienstreisen).

Thema
Big Data der Prsi, im Diamodell

Visualisierung

Abbildung: Rollen, Ziele und Visualisierungstechnologien im berblick

Thema
Big Data der Prsi, im Diamodell

Anscombes Quartett

Als motivierendes Beispiel fr die Relevanz und den Nutzen visueller Reprsentationen im Allgemeinen und visueller Analyse im Besonderen mag
Anscombes Quartett dienen. Dabei handelt es sich um vier synthetische Punktmengen, bei denen trotz stark unterschiedlicher Verteilungen
wesentliche statistische Kennzahlen identisch sind eine irrefhrende Eigenschaft, die selbst bei diesen extrem kleinen Damensitzen nur sehr
schwer aus der tabellarischen Darstellung abzulesen ist (Abbildung 28, links), wahrend sie in der Visualisierung sofort evident wird.
Abgebildet sind vier Mengen von Datenpunkten, die identische statistische Eigenschaften (Mittelwert, Varianz und Korrelationskoeffizienten), aber
dennoch sehr verschiedene Verteilungen aufweisen [Quelle: Wikipedia], Vgl.: Anscombe, F. J. (1973). Graphs in Statistical Analysis. American
Statistician 27 (1): 1721.

Abbildung: Anscombes Quartett

Thema
Big Data der Prsi, im Diamodell

Big Data: Neue Datentypen bentigen neue


Formen der Visualisierung
Im Kontext von Big-Data-Anwendungen steht auch fr die Visualisierung zunchst die Herausforderung der
Skalierbarkeit eingesetzter Technologien hinsichtlich der Dimensionen Volume, Variety und Velocity:

Die Handhabung groer Datenmengen bei der Erzeugung interaktiver visueller Darstellungen erfordert eine
effiziente Integration von Visualisierungsanwendungen mit analytischen Anwendungen sowie leistungsstarke
Schnittstellen zu Datenmanagement-Systemen; in sich geschlossene, inselhafte Visualisierungslosungen sind
dagegen weitestgehend ungeeignet.

ie Datenlage setzt sich zunehmend aus einer Vielzahl unterschiedlicher Datenstrmen zusammen, die zudem
D
typischerweise aus verteilten Quellen zusammenlaufen (Internet der Dinge). Diese Aggregation und Verdichtung
muss auch auf der Prsentationsschicht sichtbar werden.

er im Big-Data-Umfeld verstrkt in den Fokus ruckende Echtzeitaspekt, wie z.B. dem Monitoring von
D
Echtzeitstrmen, bedingt gegenber klassischen statischen Datenstzen neue Ansatze sowohl fr Analysen als
auch Prsentation.

Schlielich bergen umfassende Datensammlungen personalisierter oder (re-)personalisierbarer Daten eine nicht
zu vernachlssigende Bedrohung fur den Datenschutz. Entsprechenden Privacy-Preserving Analysis-Methoden
kommt daher zunehmende Bedeutung zu; visuelle Analysemethoden, welche prinzipbedingt frhzeitig von
personenbezogenen Einzeldatenstzen abstrahieren knnen, stellen gegenber analytischen Verfahren oftmals
einen geeigneteren Ansatz dar, Datenschutzvorgaben umzusetzen.

Thema
Big Data der Prsi, im Diamodell

Visualisierung

Thema
Big Data der Prsi, im Diamodell

Dashboards

Zielfhrende Visualisierung

Die ziel fhrende visuelle Aufbereitung von Inhalten hat in den letzten Jahren berdurchschnittlich an Bedeutung
gewonnen. Im Fokus von Big-Data-Projekten stehen zeitnahe visuelle Entscheidungsuntersttzung und visuelle
Analyse. Trotz facettenreicher Vielzahl an verfugbaren visuellen Elementen liegt der angebotene wesentliche
Gehalt aktueller Visualisierungstechnologien nicht im einzelnen Element oder einer Anhufung von Elementen,
sondern in der Einbettung von Forschungsergebnissen aus der Entscheidungsfindung und
Wahrnehmungspsychologie.

Der technisch versierte Leser kennt die Mittel (Reports, Mashups, Dashboards) seit Jahren. Um ihn dabei nicht mit
zeitlicher Einordnung und bekannten Trends alleine stehen zu lassen, werden Visualisierungselemente (vgl.
Technische Sicht: Visualisierung im Zeitablauf, ), dann wesentliche Anforderungen der Treiber fr eine
bessere Entscheidungsfindung und die Konsequenzen fr die Architektur vor vorgestellt.

Thema
Big Data der Prsi, im Diamodell

Technische Sicht: Visualisierung im Zeitablauf

Zwei Grundtypen sind am Markt:

Typen, die proprietre Visualisierungen gekapselt als Anwendung ausliefern und

Typen, deren Visualisierungsschnittstellen den offenen (W3C) Standards folgen.

Diese zweite Gruppe erlaubt zustzlich zur vollwertigen Dashboard-Nutzung die Einbettung der Visualisierung in
individuelle Mashups z.B. als Dashboard-Baustein in einem Unternehmensportal.
Das Reporting systembasierter Informationen begleitete die Entwicklung von proprietrer Software seit ihren Anfangen.
Im Jahr 2003 wurde ein wesentlicher technologischer Bruch unter dem Schlagwort Web 2.0 publik: Er steht als
zeitlicher Eckpfeiler fr die strkere Entkopplung der Visualisierung vom lokalen Arbeitsplatz bzw. lokalen Ressourcen.
Im letzten Jahrzehnt entstand eine Vielzahl an interaktiven Elementen. Dabei zeigte sich eine Wiederholung der von
monolithischen Losungen bekannten Abfolge: Nach Listen folgte die Implementierung von Reports, grafischer
Bausteine und Dashboards.

Thema
Big Data der Prsi, im Diamodell

Begriffsklrung: Report versus Dashboard

Fr beide gilt, dass sie direkt, ad-hoc oder periodisch, regelmig oder aufgrund spezifischer Anforderung genutzt
werden:

Reports sind systematische (Detail-) Berichte, die eine analytische Aufbereitung, meist in tabellarischer Form,
auch als Mischform aus tabellarischen und grafischen Elementen mit Textblocken, zur Verfugung stellt. In der
herkmmlichen Nutzung werden diese hufig gedruckt bzw. intern via Mail-Anhang verteilt.

in Dashboard (englisch fr Instrumententafel) besteht aus einem Arrangement von mehreren visuellen
E
Bausteinen mit dem Ziel diese zu konsolidieren, dabei ntigenfalls zu verdichten und damit relevante
Informationen auf einem Schirm im berblick darzustellen. Gngige Dashboards erlauben eine mehrschichtige
Darstellung (Multi-Layer/Linking). Interaktiv kann zwischen einzelnen Schichten navigiert werden und im besten
Falle stehen dem Betrachter Selektionen zur Verfugung, die ihn z. B. Zeitraume einschrnken oder dargestellte
Inhalte variieren lassen.

Thema
Big Data der Prsi, im Diamodell

Interaktives Dashboard mit sukzessiven Detailsichten


in Tableau Software
Die visuellen Bausteine in Dashboards lassen sich in zwei Gruppen einteilen (vgl. Abbildung ):

Report-Bausteine, die tabellarische Darstellung von Zahlen bzw. Textsequenzen als Ausschnitt einbetten,

isuelle Dashboard-Bausteine, die Informationen verdichtet darstellen und haufig als Navigationspunkt fur eine
V
interaktive Detailauswahl dienen.

Abbildung: Interaktives Dashboard mit sukzessiven Detailsichten in Tableau Software

Thema
Big Data der Prsi, im Diamodell

Wege zum Maanzug: Mashups

Seit 2003 steht das Schlagwort Mashup (to mash = vermischen) fr einzelne Web-Seiten oder Web-Anwendungen, die aus verschiedenen
Quellen relevante Inhalte als Bausteine gemeinsam auf einer (Portal-)Flache darstellen. Dies geschieht, indem jeder einzelne Bausteine Uber
offene APIs (d.h. Programmierschnittstellen, mittels JSON, Ajax, REST, ) auf eine Datenquelle zugreift, den jeweiligen Inhalt aufbereitet
und neben anderen anzeigt.
Als Beispiel fr leichtgewichtige Mashups mag www.gelbeseiten.de gelten. Die Ergebnisliste inserierender Firmen wird neben einem Overlay
Mashup, der geographischen Karte mit bergelagerten (= overlay) Referenznummern, dargestellt.
Mashups fr visuelle Darstellungen nutzen spezielle Entwicklungsumgebungen, um herstellerabhngige Plugin-Technologien (wie z.B.
Silverlight, AdobeFlash etc.) oder alternativ offene Standards (z.B. HTML5) einzubetten.
und komfortable Dashboard Software
Anstelle individueller Programmierung erlauben Desktop- Softwareumgebungen die Gestaltung von Dashboards via Drag & Drop. Die Basis
liefern Konnektoren, die dafr sorgen, dass Programmierung entfallen kann und direkt visuelle Elemente bedarfsgerecht angezeigt werden. Die
Steigerung liefert visuelle Analyse-Software, die diese Entkopplung realisiert und zustzlich das Shneidermann-Mantra abbildet.
Anhand der Anforderungen werden im nchsten Absatz im Bereich serverbasierte Visualisierungen naher betrachtet. Technisch dienen sie
entweder als zentraler Auslieferungspool programmierter Mashups oder stellen alternativ vollstndige Analysesichten, die in DashboardSoftware erstellt wurden, zur Verfugung.

Thema
Big Data der Prsi, im Diamodell

Anforderersicht: Eine Frage des Fokus

Erkenntnisgewinn zur Entscheidungsuntersttzung ist die dominierende Herausforderung. Der Charakter der bentigten
visuellen Analyse definiert wesentlich die Architektur. Hier ist zu unterscheiden zwischen dem Erkenntnisgewinn
durch Spezialisten (Szenario A) und . dem am Markt zu beobachtenden breiten Trend zum Einsatz im betrieblichen
Umfeld (Szenario B).
Szenario A: Fokus Erkenntnisgewinn durch Spezialisten
Komplexe Visualisierungen bereiten spezifische Fragestellungen (z.B. Genomuntersuchungen) auf. Gewonnene
Erkenntnisse werden Nutzern (z.B. rzten) in der Regel in stark reduzierter Form (z.B. Medikamentenliste) zur
operativen Entscheidungsuntersttzung zur Verfugung gestellt. Falls ntig, kann die visuelle Aufbereitung technologisch
leicht als Mashup erfolgen.

Thema
Big Data der Prsi, im Diamodell

Reporting
Szenario B: Einsatz im betrieblichen Umfeld
Bisherige Architekturen zeigen ein groes Defizit: Werden Ad-hoc-Aussagen bentigt, reagieren vorhandene
Architekturen unflexibel. (vgl. Tabelle 9115) Hauptanforderungen des Fachbereichs zur Verbesserung des
Entscheidungsprozesses zielen daher auf grere Handlungs- und Kompetenzrahmen. Der Anforderungskatalog der
Self-Service-BI enthalt:

(Empowerment): die Fhigkeit, eigene Analysen durchzufhren und dabei

die Entkoppelung vom Zeit- und Ressourcenengpass IT-Entwicklung und Analysespezialist,


der flexible breite Zugang zu internen und externen (strukturierten und unstrukturierten) Big-Data-Datenbestanden.

Tabelle: Kategorisierung von Unternehmen bezglich Reaktionsgeschwindigkeit im Reporting

Thema
Big Data der Prsi, im Diamodell

Mitarbeiterbezogenen Datenanalyseprozess

(Sharing): den Diskurs mit Kollegen durch Teilen der eigenen Analysesichten, darin als Aspekte

Erkenntnispotentiale schaffen durch den Austausch von Analysesichten mit der Fhigkeit, dass die Kollegen die Sichten andern,
erweitern, kommentieren und damit anreichern,

Absicherung der Erkenntnisse und Entscheidungen mit Kollegen,

Persnliche Arbeitsbereiche mit eigenverantwortlich gestaltbarem personenabhngigen Zugang.

(Communication): die breite Kommunikation der Erkenntnisse (Analysesichten) an Entscheider und Involvierte.

Der Mitarbeiter im Fachbereich wird zentraler Orientierungspunkt der Datenlieferanten (via IT), der Entscheidungsfindungsprozesse
(Diskurs mit Kollegen) und der Freigabe an involvierte Dritte (vgl. nchste Abbildung).

Abbildung: Mitarbeiterbezogenen Datenanalyseprozess

Thema
Big Data der Prsi, im Diamodell

Serverbasierte Visualisierung als Antwort fr den


Fachbereich

Diese Anforderungen decken serverbasierte Visualisierung ab, wenn die Architektur die Entkoppelung der
Datenabfrage von Visualisierung und Datenquelle realisiert. Dem Fachbereich gengen dann programmierfreie
Konnektoren zu Big-Data-Bestanden, um die dynamisch relevanten Daten anzuzeigen. Allein aufgrund der
Display-Pixelgrose gengen Menschen wenige Daten fr eine parallele Anzeige. maximal wenige Tausend
Einzelobjekte dargestellt z. B. im Scatter Plot. blicherweise ist die ergonomische Anzahl um Zehnerpotenzen
kleiner. Dies gilt ebenso fr Big-Data-Volumina.

Das Netzwerk ist bei dieser bertragungsanforderung kein Engpass. Es werden die relevanten SQL-/MDX- etc.
Abfragen zum Server geschickt. Als Antwort erhalt der Client die geforderten Datensatze zur Anzeige.

Die in der Visualisierung dargestellten Aggregationen werden somit nicht lokal berechnet, sondern bestenfalls InMemory, alternativ hardwarenah in den Analytischen Anwendungen .

Die Kompetenz der Software beruht dabei in interaktiver Ad-hoc-Analyse und hochwertiger Visualisierung.
Technologien, die in ihrer Architektur auf diese Entkopplung achten, erhalten dabei automatisch die Flexibilitat, auf
verschiedene Datentopfe zuzugreifen.

Thema
Big Data der Prsi, im Diamodell

Shneidermann-Mantra: Interaktiv-iterative
Visualisierung

Der Kernansatz der interaktiv-iterativen Visualisierung folgt dem Prinzip Overview first, zoom and filter, then
details-on-demand:

In einer ersten Ansicht wird zunchst ein stark verallgemeinerter berblick der Daten dargestellt (Overview).

er Anwender kann dann interaktiv fr ihn relevante Informationen selektieren, irrelevante Kontextinformationen
D
ausblenden und die Darstellung sukzessive anpassen.

r identifizierte Zielinformationen und Zusammenhange lassen sich schlielich Detailinformationen abrufen, z. B.


F
in Form einer Rckverknpfung zu den Ursprungswerten in der Datenbank.

Die interaktiv-iterative Visualisierung unterstutzt damit Hauptanforderungen der Fachbereiche fr ihre Arbeit:

grere Mengen von Informationen zu verarbeiten, d.h. durch Visualisierungstechniken mgliche Muster und
Trends zu erkennen (greater volume)

grere inhaltliche Breite von Informationen zu vergleichen, d.h. durch Gegenberstellung hnlicher Ansichten bei
verschiedener Auswahl (broader dimensionality)

die Fhigkeit den Betrachtungswinkel schnell zu wechseln, d.h. um Standpunkte aus verschiedenen Sichten zu
prfen (variable perspective).

Thema
Big Data der Prsi, im Diamodell

Beispiel einer interaktiv-iterativen visuellen


Datenanalyse
Anlass der Analyse anhand einer Fragenkette sei eine fiktive Immobiliensuche in Kiel: Der Mitarbeiter startet auf einer Tabelle zu
jahresabhngigen Preisen und Eigenschaften einzelner Immobilien. Die folgende Tabelle ist lokal in einer Excel-Liste oder auf einem
zentralen Datenserver ber einen Konnektor zuganglich.

Tabelle: Visuell untersttzte Ad-hoc-Analyse, beispielhaft mit Tableau Software

Thema
Big Data der Prsi, im Diamodell

Fortgeschrittene Visualisierung und Visuelle Analytik


Die Herausforderungen im Umfeld von Big Data bezglich der Dimensionen
Volume, Velocity und Variety erfordern nicht nur auf technischer Ebene skalierbare
Visualisierungslosungen.
In der Praxis sind konkrete Problemstellungen oftmals nur unscharf oder informell
formuliert, so dass der Datenbestand zunchst explorativ d.h. zunchst mehr oder
weniger ungerichtet untersucht und erst im Zuge dieser Exploration die Analysebzw. Modellierungsaufgabe konkretisiert wird.
Der Cross-Industry Standard Process for Data Mining (CRISP-DM, vgl. Abbildung )
beschreibt die unterschiedlichen Phasen der Datenanalyse in einem konzeptuellen
Modell: Zu Beginn des Prozesses steht stets die Aufgabe, die involvierten
Geschaftsflle und prozesse sowie die als Entscheidungsgrundlage dienenden
Daten zu sammeln und im Sinne einer Anforderungsanalyse zu strukturieren
(Phasen Business Understanding bzw. Data Understanding), wobei sich beide
Teilaspekte gegenseitig beeinflussen. Vor der eigentlichen analytischen
Verarbeitung der ausgewhlten Daten (Phase Modeling) mssen diese im
Allgemeinen bereinigt und ggf. ergnzt werden (Phase Data Preparation). Ergebnis
der Analyse (Phase Modeling) ist ein Modell im weiteren Sinne, d.h. eine fr die
Entscheidungsfindung hinreichende Verdichtung der Datenbasis auf die
wesentlichen Informationen. Eine nachfolgende Evaluation gegen bekannte
Geschftsflle (Phase Evaluation) kann wiederum dazu fuhren, dass das
bisherige Verstndnis fr die Geschftssituation erweitert und somit wiederum eine
verfeinerte Analyse auf einer nochmals verbesserten Datenauswahl vorgenommen
wird.

Abbildung: Cross-Industry Standard Process for


Data Mining

Thema
Big Data der Prsi, im Diamodell

Data Mining
Sobald ein Modell als hinreichend ausdrucksstark fr die Entscheidungsuntersttzung im Geschftsprozess
angesehen wird, kann es z. B. im Rahmen des Reportings oder als Modul in Mashups oder Dashboards visualisiert
werden.
Es ist dabei besonders wichtig zu beachten, dass diese Prozesssicht nicht nur akademischer Natur ist. Vielmehr
beinhaltet auch in der Praxis eine Analyse fast immer Versuch und Irrtum: Das Geschftsverstndnis bzw. ein
Datenmodell wird erst nach Betrachtung, Bewertung und Einordnung verschiedener (Teil-) Zwischenergebnisse
erreicht.
Umso wichtiger sind deshalb Werkzeuge, welche ein solches iteratives Vorgehen in allen Phasen des CRISPDM
unterstutzen. Die bereits beschriebenen interaktiv-explorative Visualisierungen sind dabei insbesondere in den Phasen
Data Understanding und Data Preparation von Bedeutung, wahrend Dashboards in der Deployment-Phase (eines fertig
entwickelten Modells) eingesetzt werden.
Typische Data-Mining- bzw. Statistik-Losungen, welche hauptsachlich in den Phasen Data Preparation und natrlich
dem Modeling zum Einsatz kommen, realisieren dagegen oftmals einen Black-Box-Prozess fur einen gegebenen
Datensatz und vorab festzulegende Parameter wird der komplette (und oftmals rechenintensive) Modellierungsprozess
durchlaufen und lediglich das Endergebnis graphisch dargestellt. Ein Fine Tunig (oder gar eine Neumodellierung
aufgrund zunchst falscher Annahmen) sind somit vergleichsweise langen Zyklen unterworfen. Derartige
Losungen skalieren daher schlecht und sind insbesondere im Big-Data-Umfeld nicht fr Anwendungen mit einem
Fokus auf den Velocity-Aspekt geeignet.

Thema
Big Data der Prsi, im Diamodell

Visualisierungspipeline
Fr die Realisierung komplexer Informationsvisualisierungen ist ein mehrstufiger Prozess notwendig.
Dieser wird als Visualisierungspipeline bezeichnet Haber R. B., McNabb D. A.: Visualization idioms
A conceptual model for scientific visualization systems. In Visualization in Scientific Computing,
IEEE Computer Society Press, 1990, S. 7493.

Abbildung: Visualisierungspipeline komplexe Informationsvisualisuerung als mehrstufiger


Prozess

Thema
Big Data der Prsi, im Diamodell

Visualisierungspipeline
Obwohl dieses Konzept deutlich vor dem Aufkommen des Themenkomplexes Big Data entwickelt
wurde, besitzt es nach wie vor Gltigkeit. Lediglich die auf den jeweiligen Stufen involvierten
Technologien haben sich teilweise gendert.
Der erste Schritt bei der Datenvisualisierung ist dabei der Einsatz von Filtern, um beispielsweise
Rohdaten in ein geeignetes Format zu konvertieren sowie fr die Visualisierung irrelevante
Datenpunkte oder Attribute zu entfernen. Auch die analytische Vorverarbeitung und die
Ableitung statistischer Mase und Aggregate werden im Sinne der Visualisierungspipeline dem Filtern
zugeordnet.
Auf dieser Stufe findet also ein Groteil der Informationsverdichtung statt so werden zum Beispiel
aus vielen Millionen Einzelmeldungen aus mehreren Produktionsanlagen einige hundert oder tausend
relevante Events .
Als die Visualisierungspipeline 1990 eingefhrt wurde, wurde auser in einigen Nischenanwendungen
fast ausschlielich direkt in-memory oder mit RDBMS-Backends gearbeitet, weshalb die Filterstufe
auch heute noch oft als integraler Bestandteil der jeweiligen Visualisierungslosung
betrachtet bzw. implementiert wird. Dies schrnkt jedoch die Skalierbarkeit bezglich des
Datenvolumens stark ein. Im Big-Data-Umfeld ist es daher vorzuziehen, entsprechende Technologien
der Daten-Bereitstellung und Analytischen Verarbeitung uber geeignete Schnittstellen zu integrieren.

Thema
Big Data der Prsi, im Diamodell

Visualisierungspipeline
In einem anschlieenden Abbildungsmodul (Mapper) werden die Daten dann in eine darstellbare, d.h. geometrische
Reprsentation berfhrt Punkte, Linien, Flachen (in 2D) bzw. Volumen (in 3D) in deren Eigenschaften (den
sog. visuellen Variablen) wie Position, Gre, Form und Farbe einzelne Datenattribute kodiert werden. Auf dieser
Stufe findet neben einer weiteren Informationsverdichtung (typischerweise auf wenige Dutzend bis einige tausend
Graphikprimitive) hauptsachlich eine Informationsgewichtung statt. Leuchtende Farben werden z.B. vor einem sonst
gedeckten Hintergrund eher wahrgenommen als Variationen der Form in einer groen Anzahl von
Einzelsymbolen.

Je nach Analyse- bzw. Kommunikationsziel ist es also notwendig, die visuelle Kodierung der Daten bzw. die
Visualisierungstechnik adquat auszuwahlen.
Im letzten Schritt der Visualisierungspipeline wird die erzeugte geometrische Reprsentation der Daten von
einem Darstellungsmodul (Renderer) in ein 2D-Pixelbild zur Ausgabe auf den verschiedenen Endgeraten (PC-Monitor,
Tablet, Smartphone) umgewandelt. Im Kontext von Big Data steht auf dieser Stufe vor allem die Frage nach der
technischen oder Display-Skalierbarkeit Bildschirmauflsung, Darstellungsverzgerung (und bei Mobilegeraten der
Energieverbrauch) mssen bercksichtigt werden.

Thema
Big Data der Prsi, im Diamodell

Benutzerinteraktion

Die Benutzerinteraktion stellt einen wichtigen und wesentlichen Freiheitsgrad bei der Analyse und Exploration von
Daten dar. Die Visulisierungspipeline erlaubt die Interaktion durch den Benutzer an jeder beliebigen Stelle. Vor
allem bei unbekannten Daten ist eine Erkenntnis ber die in den Daten vorhandene Information hufig erst durch
die interaktive Manipulation der Visualisierungsparameter aller Visualisierungsstufen mglich.

Die dafr erforderlichen, hohen Interaktionsraten setzen effiziente Algorithmen und Datenstrukturen sowie
entsprechende Verarbeitungskapazitten auf den darunter liegenden Schichten (Analytische Verarbeitung, DatenZugriff, Daten-Haltung) voraus.

Thema
Big Data der Prsi, im Diamodell

Multiple koordinierte Ansichten

Ein wichtiger Aspekt der Flexibilitt und (visuellen) Skalierbarkeit von Visualisierungswerkzeugen ist
die Fhigkeit, unterschiedliche Aspekte der untersuchten Daten darzustellen.
Es ist oftmals nicht zielfhrend, die relevanten Zielinformationen in ein einziges Bild zu kodieren, da
dies zu berladenen und schwer zu interpretierbaren Darstellungen fuhrt. Gute
Visualsierungslsungen bieten deshalb die Mglichkeit, unterschiedliche Teilaspekte in mehreren
parallelen Fenstern darzustellen, wobei diese jedoch miteinander koordiniert sind d.h., interaktive
Selektion, Hervorhebungen und Markierungen (Brushing) in einer Ansicht fuhren zur unmittelbaren
Anpassung aller weiteren verbundenen Ansichten (Linking). Auf diese Weise lassen sich

in den Daten enthaltene Muster bezglich eines Teilaspektes zuverlssiger und schneller
aufspren, und
komplexe multi-dimensionale Filter (Zoom and Filter) lassen sich durch die Kombination mehrerer
Einzelfilter aus verschiedenen Ansichten einfach und interaktiv definieren.

Thema
Big Data der Prsi, im Diamodell

Visualisierung
Die nchste Abbildung zeigt ein Beispiel dieses
Ansatzes fr die Analyse raumzeitlicher Daten.
Die Aspekte Raumbezug (2D-Karte) und
zeitliche Dynamik (Zeitgraph) werden jeweils in
einer eigenen Ansicht dargestellt, beide
Ansichten sind jedoch durch interaktive
Hervorhebungen und Selektion (per Maus)
miteinander verknpft.
Die Abbildung zeigt Aspekte von Raum und Zeit
von Begegnungen zwischen Rotwild (Beute) und
Luchsen (Jager) eine 2D-Kartendarstellung fur
den Raumbezug (oben links), eine
Zeitlinienansicht fr den Zeitbezug (unten) sowie
den kombinierten Raum-Zeit-Bezug im SpaceTime-Cube (oben rechts).

Abbildung: Beispiel fr multiple koordinierte


Ansichten

Thema
Big Data der Prsi, im Diamodell

Visuelle Analytik
Der Begriff Visuelle Analytik (VA) ( engl. Visual Analysis) bezeichnet eine allgemeine Methodik zur Analyse und
Erkenntnisgewinnung aus unterschiedlichsten Datenquellen und verschiedenen Anwendungsgebieten.
Es handelt sich bei der Visuellen Analytik also weder um die eine definitive Analysemethode, noch um einen
vllig neuen Ansatz. VA stellt vielmehr eine konsequente Weiterentwicklung und logische Konvergenz von Anstzen
aus den Disziplinen interaktive Visualisierung, Data Mining, Self-Service BI und maschinelles Lernen dar.
Das Hauptziel von VA-Anstzen ist dabei die Multiplikation des analytischen Potentials von Mensch und Computer
durch eine effektive Kombination interaktiver Visualisierungstechniken mit rechnergestutzter Datenanalyse.
Zu diesem Zweck kombiniert VA Methoden und Techniken aus den Disziplinen Statistik, Data Mining, maschinelles
Lernen und Modellierung einerseits sowie Visualisierung und Interaktionsdesign andererseits.

Thema
Big Data der Prsi, im Diamodell

Visuelle Analytik
Diese Kombination erlaubt eine synergetische Kooperation zwischen dem Analysten und dem Computer, in der
beide Seiten ihre jeweiligen Starken einbringen:

Rechenleistung des Computers fr automatische Verfahren (Statistik, Clusterverfahren, ) ber sehr groen
Datenmengen und/oder in Echtzeit, d.h. die enge Integration von Technologien aus den Ebenen Analytische
Verarbeitung und Daten-Zugriff, was seinerseits natrlich eine geeignete Dateninfrastruktur voraussetzt.

enschliche kognitive Fhigkeiten, insbesondere zur intuitiven Mustererkennung, Kreativitt, Flexibilitt und die
M
Befhigung zum Schlussfolgern sowie zum Querdenken bzw. zu Ad-hoc-Analogieschlen, sowie implizites
(domnenspezifisches) Hintergrundwissen. Insbesondere in letzterem sind heutige Expertensysteme auch nach
jahrzehntelanger Forschung massiv unterlegen.

Visuelle Reprsentationen sind das effektivste Kommunikationsmittel, um Information in das menschliche


Bewusstsein zu tragen und die menschlichen Fhigkeiten zur intuitiven Mustererkennung sowie zum Schlussfolgern
anzuregen. Interaktive Visualisierungen stellen somit einen hocheffizienten Zwei-Wege-Kommunikationskanal
zwischen Mensch und Maschine dar.

Thema
Big Data der Prsi, im Diamodell

Visuelle Analytik
VA-Ansatze sind deshalb im Allgemeinen gegenber klassischen (rein statistisch-analytischen) Verfahren berlegen
bei:

unbekannten, verrauschten, unvollstndigen und/ oder widersprchlichen Daten

komplexen Problemstellungen mit unscharf oder nur informell definierten Anforderungen

Untersuchung von Phnomenen in einem komplexen und/oder nur implizit gegebenen Kontext.

Schon das Sehen beinhaltet immer bereits eine Analyse!

An abstractive grasp of structural features is the very basis of perception and the beginning of all cognition.

Thema
Big Data der Prsi, im Diamodell

Visual Analytics Loop


Grundlage eines VA-Ansatzes ist dabei das konzeptuelle
Modell der Visual Analytics Loop
Analog zur Visualisierungspipeline werden auch hier
Daten in interaktive visuelle Reprsentationen berfhrt,
und analog zum Data Mining werden mittels analytischer
Verfahren Modelle der Daten erzeugt.
VA kombiniert diese beiden Aspekte, indem

Modelle nicht in einem monolithischen Black Box


Prozess erzeugt werden, sondern iterativ in mehreren
Schritten, mit interaktiver Methoden- und
Parameterauswahl bei jedem Schritt, und

nicht nur die Eingangsdaten, sondern auch die aktuellen


Modelle d.h. insbesondere auch die Teilergebnisse
aus Zwischenschritten des Modellierungsprozesses!
visualisiert werden; die Modellvisualisierung dient dabei
selbst als interaktives Interface fur die Paramtrisierung
des nchsten Modellierungsschritts.

Abbildung: Konzeptuelles Modell des Visual Analytics


Loop

Thema
Big Data der Prsi, im Diamodell

Visual Analytics
Der Analyst kann somit wie erwhnt jedes Zwischenergebnis bewerten, einordnen und den weiteren Analyseprozess
dementsprechend neu ausrichten (gerichtete Suche). Jeder Zwischenschritt erzeugt zudem neues oder
vertieftes Verstndnis ber das untersuchte Phnomen im Bewusstsein des Analysten, mehr als es die (visuelle)
Bewertung eines einzelnen Endergebnisses es je konnte.
Als zustzlicher Nutzen der iterativen visuellen Analyse knnen Zwischenergebnisse, die zu relevanten
Entscheidungen fr den weiteren Analyseverlauf gefhrt haben, als Schnappschusse (Checkpoints) gespeichert
werden. Ein daraus erzeugtes visuelles Analyse-Logbuch kann bei der spteren Kommunikation der Ergebnisse
helfen, einzelne Bewertungen belastbar und fr Dritte nachvollziehbar zu machen, und so potentiell die
Entscheidungsfindung zu verbessern und zu beschleunigen. Gute VA- und Self-Service BI Losungen sehen oft
Entsprechende Funktionalitt zum spteren Abspielen solcher Schnappschusse, oft als Storyboard, d.h. in einer vom
Analysten bestimmten Auswahl und Reihenfolge sowie individuell annotiert, vor.

Thema
Big Data der Prsi, im Diamodell

Data Analysis
Data Analysis (also known as Data Mining or Knowledge Discovery) researches methods to automatically extract valuable information from raw data by
means of automatic analysis algorithms [29,16,31]. Approaches developed in this area can be best described by the addressed analysis tasks. A
prominent such task is supervised learning from examples: Based on a set of training samples, deterministic or probabilistic algorithms are used to
learn models for the classification (or prediction) of previously unseen data samples.
A huge number of algorithms have been developed to this end such as Decision Trees, Support Vector Machines, Neuronal Networks, and so on. A
second prominent analysis task is that of cluster analysis [18,19], which aims to extract structure from data without prior knowledge being available.
Solutions in this class are employed to automatically group data instances into classes based on mutual similarity, and to identify outliers in noisy data
during data preprocessing for subsequent analysis steps. Further data analysis tasks include tasks such as association rule mining (analysis of cooccurrence of data items) and dimensionality reduction.
While data analysis initially was developed for structured data, recent research aims at analyzing also semi-structured and complex data types such as
web documents or multimedia data. It has recently been recognized that visualization and interaction are highly beneficial in arriving at optimal analysis
results. In almost all data analysis algorithms a variety of parameters needs to be specified, a problem which is usually not trivial and often needs
supervision by a human expert. Visualization is also a suitable means for appropriately communicating the results of the automatic analysis, which
often is given in abstract representation, e.g., a decision tree. Visual Data Mining methods [24] try to achieve exactly this.
https://hal.archives-ouvertes.fr/file/index/docid/272779/filename/VAChapter_final.pdf Seite 161

Thema
Big Data der Prsi, im Diamodell

Einordnung von Visualisierungswerkzeugen


Der bergang zwischen einfachen Visualisierungslosungen und fortgeschrittenen Visual Analytics-Frameworks
ist dabei fliesend. Nicht-interaktive Info-Grafiken eignen sich im Allgemeinen nur fr die Kommunikation eines
eng begrenzten Sachverhalts, lassen sich aber selbst von Endanwendern sehr schnell mit den allermeisten
Standardlosungen (z. B. Excel-Spreadsheet-Visualisierungen) erzeugen. Produkte, die Self-Service-BI-Losungen
bereitstellen, erlauben im Allgemeinen grere Datenmengen dank Anbindung an fast beliebige, skalierbare Back-Ends
sowie mehr Flexibilitt bei der Erstellung semi-interaktiver, aufgaben- bzw. anwendungsspezifischer Grafiken
und Dashboards (z. B. Tableau, Qlikview), richten sich typischerweise aber eher an erfahrene Anwender.
Werkzeuge zur explorativen visuellen Datenanalyse (EDA) bzw. visueller Analyse sind berwiegend spezialisierte
Frameworks, oft aus dem Forschungsumfeld, welche mehrere komplementre Visualisierungs- und Analysetechniken
hoher Komplexitt fr den professionellen Data Scientist bzw. den Visualisierungsexperten bereitstellen. Ein bekanntes
Beispiel fr diese Kategorie sind die Geo-Analysewerkzeuge der ArcGIS Spatial Analysis Workbench

Thema
Big Data der Prsi, im Diamodell

Bezug der VA-Methodik zum


CRISP-DM
Wahrend unterschiedliche Visualisierungstechniken einzelne
Aspekte des CRISP-DM adressieren, deckt die Visuelle
Analytik als Methodik den gesamten Prozess ab:

im Sinne der visuellen Exploration (EDA) wahrend der


Phasen Business Understanding und Data
Understanding

im Sinne des Visual Debuggings wahrend der Data


Preparation, des Modeling und der (visuellen) Evaluation,
sowie

im Sinne des (erweiterten) Visual Reportings zeitnaher,


belastbarer und nachvollziehbarer Bewertungen fr die
Entscheidungsuntersttzung.
Im Gegensatz zum klassischen Data Mining betont die
Visuelle Analytik dabei ausdrcklich eine iterative
Vorgehensweise in kleinen Teilschritten mit
Sofortiger Evaluation der erzielten Zwischenergebnisse, wie in
der nchsten Abbildung durch die zustzlichen
Ruckkoppelungspfeile angedeutet.

Abbildung: Bezug der VA-Methodik zum CRISPDM

Thema
Big Data der Prsi, im Diamodell

Real-time Intelligence
Das Real-time Intelligence ist insofern ein Spezialfall der Informationsvisualisierung bzw. visuellen
Analyse, als hier der Fokus primr auf dem Big-Data-Aspekt Velocity liegt: Es liegen quasi zu keinem
Zeitpunkt die aktuellsten Daten (im Sinne einer Datenbanktabelle) vor. Stattdessen erfolgt die
Visualisierung bzw. visuelle Analyse kontinuierlich auf den hereinkommenden
Streaming-Daten. Typischerweise wird dazu ein gleitendes Zeitfenster aus dem Datenstrom extrahiert
(z.B. die letzten X Messwerte aus einem Sensorkanal) und dieses grafisch dargestellt.
Durch das Streaming ndert sich der aktuelle Inhalt des beobachteten Ausschnitts fortwahrend, so
dass die Visualisierung effektiv eine Echtzeit-Animation der Daten vornimmt. Dies bedingt abhngig
von der Aktualisierungsrate des Datenstroms natrlich eine ausreichend schnelle Anbindung an das
Daten-Backend sowie eine entsprechend durchsatzstarke Visualisierungspipeline es besteht hierbei
also primr die Herausforderung der Volumen-Skalierbarkeit.

Thema
Big Data der Prsi, im Diamodell

Prdiktive Analytik
Ein weiterer Aspekt des Real-time Monitorings bzw. der konstanten Analyse gesammelter und
Aggregierter Datenstrome ist die Aktualitt der im Rahmen der (visuellen) Analyse extrahierten
Strukturen und Zusammenhange sowie der auf dieser Basis erstellten Vorhersagemodellen.
Eine Analyse kann prinzipiell immer nur auf einem Schnappschuss der Daten ausgefhrt werden.
Gleichzeitig knnen insbesondere Vernderungen des Marktumfelds allgemein (Kontext), aber auch
sukzessive nderungen des modellierten Geschftsprozesses selbst (z. B. durch Modernisierung von
Produktionsanlagen) dazu fuhren, dass Vorhersagemodelle mit der Zeit ungenauer werden oder neu
hinzu gekommene Konstellationen nicht adquat abdecken.
Prdiktive Analytik ist ein Ansatz, bei dem der Modellierungsschritt der Analyse auch nach der
Deployment- Phase, d.h. im Wirkbetrieb, in angemessenen zeitlichen Abstanden und
automatisiert durchgefhrt wird. Voraussagemodelle lassen sich so weiter trainieren und passen sich
fortlaufend neuen Situationen im Betriebsablauf an.

Thema
Big Data der Prsi, im Diamodell

Daten-Integration
Big Data stellt das Arbeitsfeld Daten-Integration vor neue Herausforderungen bietet allerdings mit
den Hadoop- und Event-Processing-Technologien gleichzeitig eine Plattform, diese
Herausforderungen komplementr zu etablierten Integrationslsungen zuknftig in den
Griff zu bekommen.
Faktoren wie hohe Datenvolumina und raten oder unvollstndige Schemata fhren insgesamt zu
einer Neudefinition der Daten-Integration: Weg vom Vorgehen des Extract-Transform-Load, hin zu
einem Extract-Load-Transform. ETL wird zum ELT.

Thema
Big Data der Prsi, im Diamodell

Daten-Konnektivitt
Die herkmmlichen Technologien zur Integration von Anwendungen und Daten sind fr Big-DataLsungen weiterhin notwendig und von Bedeutung. Diese Technologien sind heute im
unternehmensweiten produktiven Einsatz in verschiedenen Business-Intelligence-, SOA-,
Anwendungs- und B2B-Integrationsszenarien.
Eine Wiederverwendung in Big-Data-Architekturen ist notwendig, da die meisten werthaltigen
Unternehmensdaten heute in strukturierter Form in existierenden Anwendungen (z. B. ERP, CRM)
und Datenbanken vorliegen.
Des Weiteren sind die etablierten Technologien schrittweise in Richtung von Big Data Systemen und
Szenarien erweitert worden.

Thema
Big Data der Prsi, im Diamodell

Integrationstechnologien
Etablierte Integrationstechnologien sind in der Lage, folgende Datenquellen zu integrieren und sie
einer Big-Data-Umgebung zur Verfugung zu stellen:

Datenbank- und Dateien auf Basis von SQL (ODBC, JDBC) oder nativen Zugriffs- oder
Replikationsmethoden (z. B. Change Data Capture)

Relationale Datenbanksysteme (RDBMS), z. B. DB2, Oracle, SQL Server

Data-Warehouse-Datenbanken

Mainframe- und Midrange-Datenbanken, z. B. DB2, IMS,

CSV- oder XML-Dateien

Adabas, VSAM

Anwendungen auf Basis von API-Schnittstellen oder Adaptern

Eigenentwicklungen, z. B. Java, .NET, C++, Mainframe (z. B. COBOL)

Standardlsungen, z. B. SAP, Oracle, Microsoft

loud-Anwendungen SaaS (Software as a Service), z.


C

B. SalesForce, SAP Cloud

Middleware auf Basis von technologischen Standardschnittstellen

Standardschnittstellen, z. B. Web Services, REST API, Email, XML

Messaging-Systeme, z. B. JMS, Websphere MQ, webMethods

Elektronische Nachrichten auf Basis von B2BAdaptern und Schnittstellen

EDI und industrie-spezifische Formate, z. B. FIX, SWIFT, ACORD, HL7, HIPAA

Email-Systeme.

Thema
Big Data der Prsi, im Diamodell

Enterprise-Service-Bus-Technologien

Durch den Einsatz von Integration-Middleware knnen diese unterschiedlichen Datenquellen ber
standardisierte Schnittstellen zuganglich gemacht werden. Hier haben sich Enterprise-ServiceBus-(ESB-)Technologien fr die Echtzeit-Integration etabliert. Ein ESB (z. B. web-Methods,
webSphere, Talend) ist eine robuste, standardkonforme Plattform, die die gngigen Standards fr
den Datentransfer und fr Web Services unterstutzt, wie beispielsweise XML, SOAP, REST und
JMS. Adapter eines ESB ermglichen es, Daten aus bestehenden Anwendungen und Systemen
schnell, sicher und in Echtzeit auszutauschen, ohne dass die Anbindung an verschiedenen
Datenquellen jeweils individuell implementiert werden muss.
Adapter knnen mit Transformationsregeln kombiniert, mit anderen Adaptern orchestriert und in
Services eingebunden werden, um sie ber Standard-Schnittstellen bereitzustellen. Durch die
Erweiterungen eines ESB in Richtung einer Event Driven Architecture (EDA) ist man in der Lage,
neue Big-Data-Datenstrome und Ereignisse zu verarbeiten, dies wird z. B. durch die Integration
von CEP, In-Memory und Low-Latency-Messaging Middleware ermglicht.

Thema
Big Data der Prsi, im Diamodell

ETL-Plattformen
Die andere wesentliche Technologie zur Anbindung von verschiedenen Datenquellen sind
Datenintegrationsoder ETL-Plattformen. Im Unterschied zu einem ESB liegt bei ETL-Plattformen (z. B.
Infosphere, Informatica, SAS, Talend) der Fokus auf dem Transfer und der Transformation von groen
und komplexen Datenmengen, die hufig im Batch-Verfahren durchgefhrt werden.
Durch den Schwerpunkt auf Daten bilden bei ETL-Plattformen die Themen Datennormalisierung,
Datenqualitt und Metadaten eine strkere Rolle als bei einem ESB. Auch wenn sich ETL- und ESBPlattformen aufeinander zu bewegen und eine Abgrenzung zunehmend schwierig wird, empfiehlt sich
bei Integrationsszenarien mit hohen Anforderungen an die Echtzeit-Verarbeitung und an die
Applikationsanbindung (inkl. Datenvernderungen) der Einsatz eines ESB. Andere Technologien wie
Daten-Qualitt, Daten-Virtualisierung, Master Data Management (MDM), SOA-Governance, APIManagement, Business Process Management (BPM) oder spezialisierte Integrationslosungen (z. B.
Finanzmarkte) ergnzen diese Plattformen.

Thema
Big Data der Prsi, im Diamodell

Neue Konnektivitts-Anforderungen
Im Rahmen von Big Data kommen zu den existierenden Integrationslosungen neue Konnektivitts-Anforderungen hinzu:

Hadoop Zugriff auf Daten, die in Hadoop gespeichert sind oder die Integration von Datenquellen mit Hadoop HDFS und MapReduce, z. B. der
Import und Export von Daten aus relationalen Datenbanken mit Hilfe von Apache Sqoop.

NoSQL-Datenbanken (z. B. MongoDB, Apache Cassandra, CouchDB, Neo4J) NoSQL-Datenbanken stellen unterschiedliche APIs zur
Datensuche und vernderung bereit. In den meisten Fallen werden die Operationen auf Basis von Internet-Protokollen (z. B. HTTP, REST),
Dokument-orientierten Datenstrukturen (z. B. JSON) und APIs fr unterschiedliche Programmier- und Skriptsprachen (z. B. Java, C++, .NET,
JavaScript, PHP) angeboten.

Analytische Datenbanken (z. B. IBM Netezza, SAP HANA, Oracle Exalytics, Teradata) Die Integration erfolgt meistens uber Standard-SQLSchnittstellen (JDBC, ODBC), die zum Teil produktspezifisch erweitert wurden (z. B. Teradata SQL-H).

In-Memory-Datenhaltungssysteme (z. B. Terracotta BigMemory, Pivotal GemFire) Integration von In-Memory-basierten Datenspeichern, z. B.
auf Basis von APIs (z. B. Java Standard JSR107) oder Query-Schnittstellen.

Cloud-Datenhaltung (z. B. Microsoft Azure, Amazon RDS, Google BigQuery) Daten, die in Cloud-Datenbanken gespeichert sind, knnen durch
bereitgestellte APIs (z. B. REST) oder anbieterspezifische Schnittstellen verarbeitet werden.

Social Media (z. B.z. B. Facebook, Twitter) Die Integration mit Social-Media Plattformen basiert auf den jeweiligen APIs. Diese APIs sind
Plattformspezifisch und unterscheiden sich im Umfang der bereitgestellten Funktionalitt, der Datenstrukturen, der Limitierungen (z. B.
Datendurchsatz) und Identifizierungsmechanismen.

Unstrukturierte Daten (z. B. Texte, elektronische Dokumente, Log-Daten) Diese Daten werden meist ber herkmmliche Dateisysteme und
bermittlungsprotokolle (z. B. FTP) zur Verfugung gestellt. Elektronische Dokumente werden in Unternehmen in Dokumenten-ManagementSysteme verwaltet und ber zugehorige Schnittstellen bereitgestellt.

Multimedia-Daten, z. B. Audio und Video

Lokationsdaten, z. B. GPS Informationen von mobilen Endgeraten


Maschinen- und Industrie-spezifische Datenschnittstellen, z. B. Sensoren.

Thema
Big Data der Prsi, im Diamodell

Datenintegrationskomponenten im Kontext von Big


Data
Durch die Verwendung der etablierten Integrationsplattformen und die neuen Big-Data-Anforderungen last sich
die in der nchsten Abbildung dargestellte Big-Data-Integrationsarchitektur ableiten.

Abbildung: Etablierte und neue (grn) Datenintegrationskomponenten im Kontext von Big Data

Thema
Big Data der Prsi, im Diamodell

bermittlung von Daten


Hinter den genannten neuen Datenquellen verbergen sich unterschiedliche Datenstrukturen und
Datenvolumina, die in unterschiedlichen Geschwindigkeiten einer Big-Data-Plattform bereitgestellt
werden mssen. Es lassen sich hierbei folgende Kategorien ableiten, die sich zwischen MassenImport und Echtzeit-bermittlung von Daten bewegen:

Massen- bzw. Batch-Verarbeitung:


bertragung von groen Datenmengen ber Dateisysteme (FTP) oder Datenbank-Exporte
(Entlade-Routinen).

Datenstrme:
Das kontinuierliche Einlesen von Maschinendaten in Hadoop (z. B. mit Apache Flume) oder die
bermittlung von Nachrichten ber Messaging-Middleware (z. B. JMS) zu ESB und CEPPlattformen.

Thema
Big Data der Prsi, im Diamodell

Integration von unstrukturierten Daten

Es spielt keine Rolle, ob nun Massendaten (z. B. Tagesabzug aller Twitter Feeds) oder Datenstrome (z. B. neue
Eintrage einer Hotelbewertung in ein Reiseportal) verarbeitet werden der Inhalt eines Datensatzes kann je nach
Quellsystem unstrukturiert vorliegen. Um aus diesen semantisch noch nicht greifbaren Datenstzen Inhalte zu
erkennen, mssen diese mit geeigneten Werkzeugen vorab analysiert werden. Die Analyse der Rohdaten mit
Einbeziehung evtl. vorhandener Metadaten ergibt dann je nach Verwendungszweck einen Mehrwert wie negatives
Sentiment (ungeniebares Frhstck) fr ein bestimmtes Hotel. Technologien aus den Bereichen von
Suchmaschinen, maschinenlernender Systeme oder der knstlichen Intelligenz finden
hier ihre Anwendung.

Thema
Big Data der Prsi, im Diamodell

Hadoop-Integration mit Echtzeitdaten

Apache Flume (http://hortonworks.com/hadoop/flume/) ist eine Hadoop-Schnittstelle fr die effiziente


Erfassung, Aggregation und Transport von groen Datenstrmen in das HDFS. Es hat eine einfache
und flexible Architektur auf Basis von Datenflssen (data flows). Flume ermglicht die Integration von
Datenstrmen aus mehreren Quellen (z. B. Web-Logs), gleicht die Anlieferungsgeschwindigkeit mit
der Verarbeitungsrate ab, gewhrleistet die Datenbertragung und skaliert horizontal, um groe
Datenvolumina verarbeiten zu knnen.

Thema
Big Data der Prsi, im Diamodell

Hadoop-Integration mit relationalen Datenbanken

Apache Sqoop (http://hortonworks.com/hadoop/sqoop/) ist ein Werkzeug fr die effiziente bertragung


von Massendaten zwischen Hadoop und strukturierten Datenspeichern, wie relationalen
Datenbanken, konzipiert. Sqoop importiert Daten aus Datenbanken in strukturierter Form nach
Hadoop (z. B. HDFS, Hive, HBase). Sqoop kann auch verwendet werden, um Daten aus Hadoop zu
extrahieren, d.h. Daten konnen strukturiert in relationale Datenbanken und Data-WarehouseSystemen exportiert werden. Sqoop stellt Datenbank-Konnektoren bereit (z. B. Oracle, mySQL, SQL
Server) oder kann beliebige Datenbanken uber Standard-SQL-Schnittstellentechnologien (z. B. JDBC)
integrieren.

Thema
Big Data der Prsi, im Diamodell

Relationaler Datenzugriff auf


Hadoop mit HCatalog
Apache HCatalog ist eine tabellenorientierte Zugriffsschicht fur Hadoop, die es ermglicht, Daten zu lesen und
zu schreiben. HCatalog ist eine Abstraktionsschicht fr HDFS, um Hadoop-Daten ber eine relationale Datenstruktur
zuganglich zu machen. Die relationale Sicht wird mit Hilfe von Metadaten-Definitionen (Tabellen und Spalten)
bereitgestellt und kann dann ber Pig oder Hive verwendet werden. Somit knnen strukturierte Daten aus
Dateien oder relationalen Datenbanken einfach in eine Hadoop-Umgebung bertragen werden. Spezialisierte
Anbieter und Technologien, wie z. B. Hadapt, Facebook Presto oder Hortonworks Stinger ermglichen darber
hinaus einen interaktiven SQL-basierten Zugriff auf Hadoop.

Thema
Big Data der Prsi, im Diamodell

Grafische Entwicklungsumgebung fr
die Hadoop- Integration
Verschiedene Anbieter (z. B. Talend, Syncsort, Datameer) stellen grafische Entwicklungsumgebungen fr die Hadoop
Integration bereit (vgl. Abbildung). Diese Werkzeuge erlauben es, ohne tiefe Hadoop-Programmierkenntnisse Daten zu
integrieren und zu analysieren. Mit der Untersttzung von Teamkollaboration und definierten Betriebsverfahren erleichtern sie
hierbei typischerweise alle Phasen eines Integrationsprojektes (Design, Dokumentation, Deployment und Monitoring).

Abbildung: Graphische Entwicklung von Hadoop-Integrationsszenarien am Beispiel von Talend

Thema
Big Data der Prsi, im Diamodell

Data Ingestion von ETL zu ELT


Ausgangssituation
Schon im Umfeld des klassischen Data Warehousing der Pra-Big-Data-Ara spielte das Thema der Datenextraktion aus
unterschiedlichsten Quellen, der Transformation der Daten in die gewnschte Zielformate und das Laden in ein
Data Warehouse seit jeher eine gewichtige Rolle in Business-Intelligence-Projekten. Der Begriff Extract-TransformLoad (ETL) steht dabei einerseits fr die entsprechenden Softwareprozesse und andererseits fr eine breite Palette
von Werkzeugen, die diese Prozesse berhaupt erst mit vertretbarem Aufwand ermglichen.
Die Gestaltung der ETL-Workflows ist in vielen Fallen eine herausfordernde Aufgabenstellung: Daten aus
unterschiedlichsten Quellen zu integrieren, dabei durch Datenbereinigungen und Korrekturen die Qualitt der
gewonnenen Informationen sicher zu stellen und gleichzeitig enge Zeitfenster einzuhalten dies sind nichttriviale
Anforderungen. Die zufriedenstellende Losung dieser Aufgaben bedingt einige Voraussetzungen:

gute Kenntnisse der Quellsysteme,


sauber designte Datenstrukturen in den Ziel-Data-Warehouse-Systemen,
Erfahrung in der Gestaltung der Ladeprozesse und
nicht zuletzt Software-Werkzeuge, die gleichzeitig leistungsfhig und effizient in der Anwendung sind.

Daher ist es nicht weiter erstaunlich, dass die Implementierung der ETL-Strange in DWH-Projekten erfahrungsgem
leicht einen Anteil von bis zu 70% des Gesamtaufwands ausmachen kann.

Thema
Big Data der Prsi, im Diamodell

Kimball-Methodologie
Diese Situation wird dadurch vereinfacht, dass sich im Laufe der Zeit fr das ETL standardisierte Vorgehensweisen
herausgebildet haben, die allgemein anerkannt sind und die sehr gut zu den ebenfalls standardisierten
Datenmodellen passen, die in klassischen Data Warehouses eingesetzt werden. Einer der Vorreiter und
magebliche Mitgestalter dieser Standards ist Ralph Kimball. Kimball hat in den neunziger Jahren
Des letzten Jahrhunderts den Begriff der dimensionalen Modellierung geprgt, mit der sich Fragestellungen des Data
Warehouse Designs nahezu unabhngig vom Anwendungsgebiet sehr strukturiert losen lassen. Durch diese KimballMethodologie wurde unter anderem eine Vielzahl von Fachbegriffen geprgt, die heutzutage Allgemeingut sind, wie
Dimension, Fakt oder Langsam vernderliche Dimension (ein Historisierungsverfahren). Kimball hat aber
auch die Handhabung der ETL-Prozesse mageblich beeinflusst.
Der Einfluss dieser Grundlagenarbeiten geht so weit, dass heutzutage in diversen Datenbanksystemen und ETLTools
Optimierungen fr Kimball-Prozesse eingebaut sind. Ein Beispiel dafr ist die Untersttzung so genannter Star Join
Queries in Datenbankystemen das sind Abfragen, die auf Faktendaten in einem dimensionalen Datenbankschema
ausgefhrt werden. Ein weiteres Beispiel sind Funktionen fr die Verarbeitung langsam vernderlicher Dimensionen in
ETL-Tools.

Thema
Big Data der Prsi, im Diamodell

Data Warehouse Integration


In Data Warehouse-Umgebungen, die auf herkmmlichen RDBMS aufsetzen und in denen es um die Integration von
Daten geht, die aus verhltnismig einfach strukturierten Geschftsdatenquellen stammen, funktionieren diese
herkmmlichen Ladeprozesse und die entsprechenden Werkzeuge weiterhin sehr gut. bliche Datenquellen,
wie ERP- oder PMS-Systeme und eine Vielzahl individueller betrieblicher Softwaresysteme, liefern Daten in
strukturierten Formaten und berschaubaren Mengen.

Die Herausforderungen bei der Integration in ein Data Warehouse sind daher in erster Linie logischer und nicht
technischer Natur. Big Data verndert auch im Anwendungsgebiet ETL so manche liebgewonnene Vorgehensweise
und sorgt fr neue Herausforderungen, wie auch neue Chancen.

Thema
Big Data der Prsi, im Diamodell

ETL-Herausforderungen durch Big Data


Die Big-Data-Herausforderungen fr ETL-Prozesse liegen auf der Hand: Die teils sehr groen Datenmengen und vor
allem die Geschwindigkeit, mit der neue Daten generiert werden, erfordern eine hoch performante Plattform fr
ETL-Prozesse. Dies betrifft in erster Linie die Operationen des Bereinigens und des Umformens der Daten, um sie
fr Analysen zu erschlieen. Das ist das T in ETL: Transform. Software, die fr eine SMP-Ablaufumgebung,
also die Ausfhrung auf einzelnen Standardservern, entwickelt wurde, kann hier Probleme bekommen, ausreichend zu
skalieren.
Sollen beispielsweise Sensorik-Daten aus einer technischen Groanlage (z. B. einem Kraftwerk oder einem Windpark)
verarbeitet werden, dann kommen leicht mehrere hunderttausend Datensatze pro Sekunde als Eingangsmenge
zustande. Solch ein Datenvolumen kann von konventionellen ETL-Tools bei weitem nicht mehr online verarbeitet
werden. Die Daten werden daher einfach im ursprnglichen Format abgespeichert ein typisches Big-Data-Vorgehen.
Natrlich verschiebt sich durch dieses Verfahren das Integrationsproblem einfach nur zeitlich nach hinten: Irgendwann
mssen die gespeicherten Daten erschlossen werden und auch die Verarbeitung der ruhenden Datenbestande muss in
einem sinnvollen Zeitraum erledigt sein.

Thema
Big Data der Prsi, im Diamodell

ETL-Herausforderungen durch Big Data


Gleichzeitig stellen die neuen nicht-, semi- und multistrukturierten Datenquellen herkmmliche
Werkzeuge vor neue Herausforderungen. Klassische ETL-Werkzeuge, sind dafr entwickelt worden,
mit strukturierten Daten umzugehen. Fr diesen Anwendungsfall sind sie hoch optimiert. Die
Processing-Pipelines setzen voraus, dass die Input-Datenstrukturen przise definiert sind (Fixed
Schemas), was in einer Big-Data-Aufgabenstellung hufig nicht mglich ist. Selbst, wenn
Datenschemata prinzipiell vorhanden sind, so sind diese nicht selten unvollstndig definiert oder
inkonsistent.
Big-Data-ETL-Werkzeuge mssen daher Daten mit lose definierten und sich ndernden Schemata
verarbeiten knnen. Die Definition einer Datenstruktur kann hufig erst am Ende einer
Verarbeitungskette passieren

Thema
Big Data der Prsi, im Diamodell

Beispiel Sensorik-Daten

Diese Schwierigkeiten lassen sich wiederum gut am Beispiel von Sensorik-Daten nachvollziehen: Besteht die
Aufgabenstellung beispielsweise darin, Diagnosedaten von Kraftfahrzeugflotten zu analysieren, so hat man es
mit unterschiedlichsten Formaten aus den verschiedenen Steuergeraten und Wertespeichern der Aggregate zu tun.
Diese Formate sind hufig schlecht dokumentiert, je nach Zulieferer gibt es Varianten und je nach Firmware-Stand
eines Steuergerts knnen sich nderungen des Schemas von einem zum anderen Auslesezeitpunkt ergeben.

Eine weitere typische Klasse von Big-Data-Daten Social-Media-Daten sind sehr strukturiert, wenn es um die
Metainformationen geht (Datum, User, Standort etc.). Es werden gut dokumentierte, einfache XML- oder JSONFormate verwendet. Die Inhalte dagegen (Tweets, Posts, Blogeintrage) sind unstrukturierte Texte, die durch
Textanalyseverfahren erschlossen werden mssen. Bestenfalls erleichtern (Hash-)Tags diese Arbeit.

Thema
Big Data der Prsi, im Diamodell

Big-Data-Denkweise neuer Umgang mit Daten


Doch nicht nur die Datenmengen und Strukturen sind es, die ein Umdenken notwendig machen. Auch der Umgang mit Daten
ndert sich im Zuge der Big-Data-Denkweise. In der neuen Welt der Big Data Analytics mit ihren Methoden des Machine
Learnings, des Data Minings und der Predictive Analytics ist es wichtig, eine mglichst groe Menge des Rohstoffs Daten
vorzuhalten. Nur Daten, die ber einen lngeren zeitlichen Verlauf gesammelt wurden, ermglichen den Einsatz dieser
Verfahren.
Gleichzeitig wird bisweilen erst im Verlauf einer Analyse klar, welche der gesammelten Daten wichtig sind und zu einem
Ergebnis beitragen. Das notwendige exploratives Vorgehen bedingt, dass die Daten ungefiltert gesammelt werden.
Schlussendlich ist es banaler Weise viel einfacher, die Rohdaten zunchst unverndert auf einem preiswerten
Speichermedium abzulegen und die Strukturierung und Weiterverarbeitung dann durchzufhren, wenn die endgltige
Verwendung geklart ist.
In einem modernen Data Warehouse werden neben den strukturierten dimensionalen Daten, die klassisch behandelt
werden knnen, gezielt lose strukturierte Daten in einem Langzeitspeicher typischer Weise einem Hadoop-Cluster
vorgehalten, um diese bei Bedarf zu analysieren. In einem DWH fur ein Webshop-System beispielsweise konnten neben den
strukturierten Stamm- und Transaktionsdaten(Artikel, Kunden, Bestellungen etc.), die Logdaten der Webserver im Rohformat
gespeichert werden. Auf der Grundlage der Protokolldateien lassen sich dann regelmig durch Clickstream-Analysen
fortlaufende Optimierungsvorschlage fr das Webshop-Frontend ableiten. Dabei geht es um groe Datenvolumina, die
ausreichend schnell verarbeitet werden mssen, und um semistrukturierte Daten. Webserver sind etwas unordentlich,
was ihre Protokollierung angeht.

Thema
Big Data der Prsi, im Diamodell

Neudefinition der Daten-Integration


Die beschriebenen Faktoren hohe Datenvolumina und -Raten, unvollstndige Schemata, fehlende Notwendigkeit, in eine dimensionale Zielstruktur zu
laden fuhren insgesamt zu einer Neudefinition der Daten-Integration: Weg vom Vorgehen des Extract-Transform-Load, hin
zu einem Extract-Load-Transform (ELT). Obwohl der Begriff ELT der passende fr diese neue Art des Vorgehens ist, hat es sich doch eingebrgert,
beim althergebrachten ETL zu bleiben.
In einem Big-Data-Umfeld ist der Aufwand fr Extraktion (Extract) der Daten hufig vernachlssigbar. Sensorik-Daten werden bereits in groen Mengen
geliefert, Social Media-Dienste habe einfach abzufragende APIs, Webserver protokollieren die Benutzerzugriffe sehr umfangreich: Die Daten
liegen in Form von Textdateien bereits vor. Folgt man dem Paradigma des Speichere jetzt Verarbeite spter, dann reduziert sich das Laden der
Daten (Load) auf einen einfachen Transportvorgang. Eventuell sind dabei Netzwerk-Bandbreiten zu bercksichtigen.
Durch Komprimierungsverfahren, Caching und den Einsatz von Cloud-Diensten lassen sich aber auch groe Datenmengen und weite Entfernungen gut in
den Griff bekommen.
Die Transformationen schlielich werden aufwendiger. Die Verarbeitung wenig strukturierter Daten lasst sich schlechter optimieren und verbraucht
deutlich mehr Ressourcen (Prozessor, Speicher, IO). Selbst, wenn die Daten nicht in eine dimensionale Form gebracht mssen, weil es den
Anwendungsfall BI nicht gibt, so sind doch auch fr statistische und andere Datenanalysen oft umfangreiche Vorverarbeitungen (Extraktionen,
Bereinigungen, Filterungen, Ersetzung fehlender Werte etc.) erforderlich. In einer MPP-Umgebung, die viel Rechenleistung zur Verfugung stellt wie
ein ausreichend dimensionierter Hadoop-Cluster knnen diese Transformationen auch bei groen Datenmengen noch hinreichend schnell durchgefhrt
werden.

Thema
Big Data der Prsi, im Diamodell

Anforderungen an das neue ETL

Bevor es nachfolgend darum geht, wie Hadoop die Daten-Integration unterstutzen kann, folgt an dieser noch eine
kurze Definition der drei wichtigsten Anforderungen an das neue ETL. Um Big-Data-Anwendungsfalle optimal
zu unterstutzen, sollten mindestens diese Kriterien erfllt werden:

Performance:
Groe Datenvolumina und -Raten mssen hinreichend schnell verarbeitet werden knnen

Flexibilitt:
Nicht-, semi- und polystrukturierte Daten mssen einfach verarbeitet werden knnen.

Effektiv der Handhabung:


Die Datenaufbereitungsprozesse sollten mglichst durch komfortable integrierte Entwicklungsumgebungen
graphisch gestaltet werden knnen. Die Verwendung von Skriptsprachen ist nur dann sinnvoll, wenn (langfristig)
Entwickler-Know-how vorhanden ist.

Thema
Big Data der Prsi, im Diamodell

Hadoop-Sicht auf ETL: ELT


Die Aufbereitung groer, wenig strukturierter Datenmengen ist ein sinnvoller Anwendungsfall fr die Big-DataBasistechnologie Hadoop. Hadoops HDFS ist ein auf der Hand liegender Speicherort fr groe Datenmengen
sowohl fur Staging-Zwecke, wie auch als Langzeitspeicher. Damit befinden sich die Daten bereits in einer Umgebung,
in der potentiell hohe MPP-Verarbeitungskapazitten zur Verfugung stehen.
Eine hohe Rechenleistung zahlt sich gerade da aus, wo es nicht allein um groe Datenmengen geht, sondern gerade
auch um komplexe Aufbereitungsmethoden.

Die Extraktion von Informationen aus unstrukturierten Formaten, wie Texten oder Blobs (Bilder, Audiodateien) ist
rechentechnisch aufwendig und nimmt Prozessoren stark in Anspruch. Hier kann Hadoop seine Starke der linearen
Skalierbarkeit besonders gut ausspielen. Gibt es Aufgabenstellungen, die temporr eine hohe Rechenleistung
verlangen, dann lasst sich ein Hadoop-Cluster einfach durch neue Rechenknoten erweitern; besonders leicht geht das,
wenn Hadoop als Software as a Service genutzt wird. Das Transformieren der Daten in einem Hadoop-Cluster
nach der Extraktion und dem Laden (ELT) liegt also nahe.
Zustzlich existieren in Hadoop native Technologien, die sich fr diese Aufgabenstellung anbieten. Fr den
Anwendungsfall ETL sind die beiden Technologien Pig und Hive besonders interessant.
Beide Technologien wurden entwickelt, um Hadoop einfacher in der Anwendung zu machen und die Notwendigkeit zu
reduzieren, MapReduce-Jobs direkt in Java zu entwickeln.

Thema
Big Data der Prsi, im Diamodell

CRISP-DM

Thema
Big Data der Prsi, im Diamodell

Fortgeschrittene Visualisierung

Mchtiges und hochgradig flexibles


Werkzeug im Analyseprozess
Ergnzt die algorithmischen Verfahren der
Datenanalyse
Unsicherheit minimieren durch visuellen Check

Thema
Big Data der Prsi, im Diamodell

Daten-Integration

Die Big-Data-Denkweise impliziert einen neuen Umgang


mit Daten und eine Neudefinition der Daten-Integration.
Es findet ein Wandel vom Extract-Transform-Load zum
Extract-Load-Transform statt.

Thema
Big Data der Prsi, im Diamodell

Daten-Governance und
Sicherheit
Daten-Governance und -Sicherheit gewhrleisten, dass die verschiedenen Schritte von den Rohdaten
bis zur Gewinnung von Erkenntnissen fr die Entscheidungsvorbereitung in existierende
Technologien, Prozesse und Compliance-Vorgaben groer Unternehmen einbetten.

Bei den Themen Daten-Governance und Sicherheit gibt es beim bergang von BI zu Big Data
zahlreiche neue Aspekte. Gerade in diesem Bereich drfen keine Versumnisse zugelassen werden.

Thema
Big Data der Prsi, im Diamodell

Daten-Sicherheit
Bei der Umsetzung von Big-Data-Projekten sind die Themen Datenschutz und IT-Sicherheit stark in den
Vordergrund geruckt. Die Big-Data-Technologien bieten technologische Optionen an, um die Anforderungen im
Bereich der Sicherheit erfllen zu knnen.
Verschlsselung
Verschlsselungstechnologien werden zum einen im Bereich der Datenspeicherung (Data at Rest) in der Big-DataPlattform eingesetzt. Im Umfeld der Hadoop- und DWH-Plattformen werden heutzutage Verschlsselungsmglichkeiten
angeboten, die durch die Hersteller direkt oder in Kombination mit der Nutzung von Betriebssystem-Funktionalitten
realisiert werden knnen. Zum anderen ist aber auch der Einsatz von verschlsselten Kommunikationskanlen
zum sicheren Austausch von schtzenswerten Daten fr die im Fluss befindlichen Daten (Data in Motion) zu
implementieren, die meistens auf SSL/TLS-Funktionen oder unter VPN-Einsatz im Weitverkehrsbereich abgebildet
werden.
Multi-Mandantenfhigkeit
Big-Data-Technologie ist multi-mandantenfahig (auch mandantentauglich), wenn sie erlaubt, auf demselben
Server oder Cluster oder demselben Software-System z. B. Hadoop, mehrere Mandanten (Kunden oder
verschiedene Unternehmenseinheiten) zu bedienen, ohne dass diese gegenseitigen Einblick in ihre Daten, Jobs,
analytischen Modelle, Benutzerverwaltung und hnliches haben. Eine Big-Data-Plattform, die dieser Eigenschaft
gengt, bietet die Mglichkeit der disjunkten, mandantenorientierten Daten-Haltung, Jobausfhrung,
Visualisierung und Konfiguration sowie Entwicklung von Analytischen Applikationen und ihres Customizings.

Thema
Big Data der Prsi, im Diamodell

Data Masking
Beim Data Masking handelt es sich um eine Technologie fr die Anonymisierung bzw. Verfremdung von Daten,
die mittlerweile auch fr Big-Data-Systeme wie Hadoop verfugbar sind. Die eingesetzten Methoden sind somit
auch Masnahmen des Datenschutzes.
Data Masking unterscheidet sich von der Verschlsselung von Daten dadurch, dass es keine 1:1-Abbildung zwischen
Originaldaten und verfremdeten Daten geben muss.
Zudem bleiben die Daten meist lesbar. Data Masking bezieht sich nicht allein auf personenbezogene Daten und ist
daher weiter gefasst als die reine Anonymisierung und Pseudonymisierung von Personen- und Adressdaten.
Ziel des Verfremdens der Originaldaten ist die sogenannte Data Leakage Prevention (Verhinderung von Datenlecks).
Die Data-Masking-Technologie wird oft zur Verringerung des Risikos von Verstosen gegen die Daten-Sicherheit
in nicht produktiven Umgebungen oder zur Erstellung von Testdaten hherer Qualitt und Rationalisierung von
Entwicklungsprojekten eingesetzt.

Thema
Big Data der Prsi, im Diamodell

Custodian Gateways
Im Bereich der Verwertung und Vermarktung von persnlichen Daten ist es absolut notwendig, die
Datenverwertungsmodelle und Konzepte einer Governance zu unterlegen, um im Sinne des
Verbraucherschutzes, aber auch der Wirtschaft Mglichkeiten zur Verwertung digitaler Informationen
abzubilden.

In diesem Umfeld etablieren sich erste Treuhandmodelle und -konzepte

Thema
Big Data der Prsi, im Diamodell

Identitts- und Zugangs-Management


Um die Sicherheit von Big-Data-Plattformen und ihrer Softwarekomponenten zu gewhrleisten,
werden heute bliche Identitts- und Zugangs-Management-Losungen mit den Big-DataSoftwaretechnologien integriert.
Diese ermglichen die Speicherung und Verwaltung der Benutzer, Gruppen sowie die
Zugriffsprivilegien auf Daten, Applikationen, Gerate und Systeme. Hierzu werden meist
Unternehmens-LDAP Directories wie OpenLDAP und ADS genutzt sowie Identitts-ManagementSysteme zur zentralen Verwaltung und Lifecycle-Management von Benutzern, Gruppen, ihrer Rechte
und Zugriffsprivilegien eingesetzt.

Thema
Big Data der Prsi, im Diamodell

Daten-Governance
Unter Daten-Governance versteht man eine Kombination von Prozessen, Technologien und Wissen, mit der sich
nachhaltig wertvolle und qualitativ hochwertige Informationen gewinnen lassen. Zur Daten-Governance tragen
mehrere Disziplinen bei, die mit ihrem Zusammenwirken den Daten-Lebenszyklus vollstndigen abbilden. Fragen wie:

Woher kommen die Daten?


Was bedeuten diese Daten?
Wer tragt die Verantwortung fur diese Daten?
Handelt es sich um datenschutzrechtlich relevante Daten?

werden aus Sicht der IT und der Fachabteilungen beantwortet.


Durch die neue Datenvielfalt und die zunehmende Anzahl von Datenquellen in Big-Data-Projekten ist es notwendig, die Daten
eindeutig zu beschreiben. So knnen nutzenbringende Analysen durchgefhrt und Entscheidungen getroffen werden.
Metadaten sind Informationen ber Merkmale anderer Daten. Metadaten beschreiben die Daten auf technologischer und
fachlicher Ebene. Technische Metadaten sind z. B. der zugrundeliegende Datentyp (numerisch, alphanumerisch) oder ein
Ziffernformat (z. B. Kreditkartennummer). Fachliche Metadaten sind z. B. eindeutige betriebswirtschaftliche
Feldbeschreibungen. Metadaten knnen aber nicht nur Daten beschreiben, sondern auch Daten-Integrations- und
Datentransformations-Prozesse, um transparent zu machen, wie Daten entstanden sind bzw. verndert wurden.

Thema
Big Data der Prsi, im Diamodell

Data Lineage
Mit Data Lineage (Abbildung) oder der Datenabstammung beschreiben Metadaten den Prozess, aus
welchen ursprnglichen Daten ein aggregierter oder transformierter Wert entstanden ist.

Abbildung: Data Lineage Wo kommen die Daten her?

Thema
Big Data der Prsi, im Diamodell

Metadaten-Management-Systeme
Metadaten knnen in Metadaten-Management-Systemen verwaltet werden, d.h. Metadaten knnen gespeichert,
ausgetauscht, ausgewertet und visualisiert werden.
Metadaten-Management ist in klassischen Business- Intelligence-Plattformen eine etablierte Methodik mit bewahrten
Technologien.

Im Kontext von Big-Data-Losungen sind diese Technologien und Konzepte anzuwenden, aber auch zu erweitern, da z.
B. durch den explorativen Big-Data-Analyseansatz meist erst zu einem spteren Zeitpunkt Erkenntnisse ber Daten
und Datenzusammenhange gewonnen werden knnen.
Metadaten bilden eine wesentliche Grundlage fr die Datenqualitt. Datenqualittsprozesse helfen Unternehmen
primr dabei, nur auf sauberen Daten zu arbeiten, knnen aber zustzlich auch Plausibilitten und ComplianceRegeln abprfen und somit Risiken reduzieren.

Thema
Big Data der Prsi, im Diamodell

Datenqualitt
Die Datenqualitt kann in mehreren Schritten berprft werden (vgl. Tabelle), um die Glaubwrdigkeit, die Ntzlichkeit
und die Interpretierbarkeit zu verbessern.

Schritt

Erluterung

Mit Daten-Profiling werden Werkzeuge und Mechanismen zur Verfugung gestellt, die es erlauben,
schlechte Datenqualitt (Inkonsistenzen, Duplikate, etc.) mglichst automatisiert zu erkennen. Die
Prfungen werden anhand von vordefinierten oder individuell definierten Regeln und Metadaten
durchgefhrt.

Die Daten-Standardisierung und Daten-Bereinigung kann z. B. Rohdaten mit Hilfe von kommerziell
verfugbaren Referenzdaten angereichert oder ergnzt werden, z. B. mit Informationen aus externen
Quellen. Hierbei werden die Rohdaten exakt oder mit entsprechenden Nherungsalgorithmen (z. B.
Soundex, Fuzzy) gegen Referenzlisten (z. B. Verbots- bzw. Sanktionslisten) verglichen. Je nach
geschftlicher Bedeutung knnen oder mssen dann Bereinigungsmanahmen ergriffen werden. Nicht
immer sind automatisierte Bereinigungsverfahren (z. B. eine Konsolidierung im Kundenstamm) mglich,
hier mssen dann interdisziplinare Teams und Fachanwender eingebunden werden.

Die berwachung und Kontrolle der Datenqualitt besteht aus einer laufenden Messung, die Aussage
darber liefert, ob sich die Qualitt der Daten verbessert bzw. verschlechtert hat.

Thema
Big Data der Prsi, im Diamodell

Master Data Management


Master Data Management ist ein Konzept, um die Datenqualitt der Geschftsobjekte (z. B. Kunde,
Produkte, Lieferanten) eines Unternehmens kontinuierlich auf einem hohen Stand zu halten.
Der Einsatz von Master Data Management ist auch im Rahmen von Big-Data-Losungen vorteilhaft. So
reicht es z. B. nicht mehr aus, Kundendaten nur aus eigenen Unternehmensanwendungen zu
konsolidieren.
Vielmehr sind auch verfugbare Daten von Geschftspartnern oder aus sozialen Netzwerken
einzubeziehen.
Ein Multikanal-Vertrieb ist hierfr ein illustratives Anwendungsbeispiel: Er muss Millionen von KundenMasterobjekten mit anderen Informationen verknpfen bzw. anreichern; dazu gehren z. B. die
Kundenhistorien aus CRM-Anwendungen, die Nutzungsprofile aus Web-Logs oder die Kundenprofile
aus LinkedIn.

Thema
Big Data der Prsi, im Diamodell

Vernderungen in der Data Governance bei Big Data


Im Rahmen von Big Data andern sich einige der klassischen
Regeln und Prinzipen im Bereich der Data Governance
(vgl. Tabelle). Aufgrund der groen Datenmengen
ist es oftmals nicht mehr betriebswirtschaftlich
sinnvoll, bestmgliche Datenqualitt zu gewhrleisten
und exakte Ergebnisse aus den Datenanalysen zu erhalten.
Oft wird eine gewisse Unscharfe in Kauf genommen und
ist fr die jeweilige Fragestellung auch absolut vertretbar,
geht es doch nicht um Finanzbuchhaltung, sondern z. B.
Stimmungsanalysen von Kundenmeinungen, Lokalisierung
von Ereignissen oder Wahrscheinlichkeiten von
Vorhersagen. Ob nun 26-28% der Kunden die Farbe eines
neuen Produkts mgen oder ob es genau 27,87% sind,
macht keinen wirklichen Unterschied. Wahrend im klassischen
BI 2+2 immer 4 ergibt (und das Ergebnis ansonsten
falsch), ist ein Ergebnis von ~3.8 in vielen Fallen von Big
Data vertretbar.

Traditionelle Data Governance

Big Data Governance

Maximale Datenqualitt

Vertretbare Datenqualitt

Konkrete Antworten
Fest Definierte Fragen

Wahrscheinlichkeiten
Explorative Analyse

Proprietre Daten

ffentliche/Web Daten

Daten-Silos

Daten-See

Silo-Zugangs-Kontrolle

Granulare Zugangs-Kontrolle

Strukturierte Daten

Unstrukturierte Daten

Persistente Daten
ETL-Prozesse
Relationale Datenmodelle

Datenstrome
ELT-Prozesse
Schemafreie Datenmodelle

Tabelle: Neue Aspekte von Data Governance in Big-Data-Szenarien

Thema
Big Data der Prsi, im Diamodell

Big-Data-Lsungs-Architekturen und -szenarien


Herkmmliche Lsungen sind angesichts der mit Big Data assoziierten Herausforderungen (3 V)
sowohl aus technischer als auch aus betriebswirtschaftlicher Sicht eng limitiert.
Hadoop bietet eine Antwort auf diese Herausforderungen und hat sich daher als Kern einer modernen
Datenarchitektur und Ergnzung herkmmlicher Lsungen fest etabliert.
Aus dem Zusammenspiel von Hadoop und herkmmlichen Lsungen ergeben sich drei typische
Rollen fr Hadoop in einer Big-Data-Zielarchitektur Hadoop als:

reiswerter Langzeit-Parkplatz fr Daten,


p
Basis fr die Erforschung von Daten,
unternehmensweite Plattform.

Es gibt fr jedes Einsatzszenario die passende Architektur. Meist bestimmen der Datentyp sowie die
Anforderungen an die Verarbeitung die Auswahl der Bausteine in der Zielarchitektur.
Daher orientiert sich die Diskussion der Zielarchitekturen an den Datentypen der verschiedenen
Einsatz-Szenarien: Clickstream-Daten, Social-Media-Stimmungsdaten, Server-Logdaten,
Sensordaten, Maschine-zu-Maschine-Kommunikation, Standortdaten und Freitext-Daten.

Thema
Big Data der Prsi, im Diamodell

Warum eine neu entstehende Datenarchitektur fr Big

Data?

Herkmmliche Datenarchitekturen
Gegenwrtig nutzen die meisten Unternehmen mindestens eine analytische Anwendung zur
Untersttzung von Entscheidungen im tglichen Geschft. Stark vereinfacht sieht die Architektur
dieser Losungen so aus:

Daten liegen in strukturierter Form vor und stammen berwiegend aus transaktionalen
Unternehmensanwendungen wie ERP, CRM oder SCM.

ie Daten werden in relationalen Datenbanken oder Data Warehouses gehalten. Hierfr werden
D
Rohdaten meist mit dem bekannten Prozess Extract Transform Load umgewandelt. Nach
dieser Umwandlung werden die Rohdaten meist nach kurzer Zeit gelscht. Somit finden nur
strukturierte und verdichtete Daten Eingang in das Data Warehouse.

r die Aufgaben der Analytik und Visualisierung wird Standard-Software wie Business Objects,
F
Hyperion, Cognos eingesetzt, die fr das Zusammenwirken mit den transaktionalen
Anwendungen (in diesem Fall von SAP, Oracle und IBM) optimiert ist.

Thema
Big Data der Prsi, im Diamodell

Hadoop als Kern einer modernen Datenarchitektur


und Ergnzung herkmmlicher Lsungen
Herkommliche Losungen sind limitiert mit dem Ergebnis, dass die Datenmengen die verfugbaren
Budgets ubersteigen. Hadoop wurde als Werkzeug beschrieben, die Grenzen zu uberwinden:

adoop macht Skalierbarkeit bezahlbar. Datenhaltung auf Hadoop ist circa 20x gunstiger pro
H
Terabyte als Alternativen wie zum Beispiel traditionelle Speicherlosungen oder Enterprise Data
Warehouses.

Mit Hadoop ist es moglich, Daten erst zu speichern und spontan oder spater aufschlussreiche
Fragen zu stellen. Erst zum Zeitpunkt der Analyse werden die Daten strukturiert. Techniker
nennen dies Schema on Read.

Hadoop ist jedoch heute noch kein Ersatz fur die traditionellen Datenspeicher im
Unternehmenseinsatz, sondern dient als deren Erganzung.

Thema
Big Data der Prsi, im Diamodell

Hadoop
Aus den Hadoop-basierten Big-Data- Projekten, an denen im Jahre 2014 in zahlreichen deutschen Gros-Unternehmen
gearbeitet wurde, kristallisieren sich drei Modelle fur Zusammenarbeit zwischen Hadoop und herkmmlichen Losungen
heraus:
1. Hadoop als billiger Langzeit-Parkplatz fr Daten.
Daten aus unterschiedlichsten Quellen und mit unterschiedlichsten Formaten landen im Hadoop-Cluster, wo sie analog
zum ankommenden Rohl in einer Erdl-Raffinerie zu Zwischenprodukten verarbeitet werden. Der Prozess Extract
Transform Load bereitet die dann verdichteten Daten auf ihr Leben in einem Enterprise Data Warehouse vor. Die
Rohdaten verbleiben fr lange Zeit im kostengnstigen Hadoop- Cluster. Auch alte, schon verdichtete Daten aus dem
EDW werden am Ende ihrer Lebenszeit aus Kostengrunden wieder Richtung Hadoop ausgelagert. Somit wird Hadoop
ein aktives Archiv, die Daten bleiben anders als bei einer Lschung oder Auslagerung auf Band weiter im Zugriff.
Das Gros der Abfragen und Analysen erfolgt aber weiterhin in herkmmlichen Losungen.
2. Erforschung von Daten auf Hadoop.
Diese Phase wird sowohl in der Erdlindustrie, als auch in der Business-Intelligence-Gemeinschaft Exploration
genannt. Vielfaltige Analyse-Werkzeuge laufen direkt auf Hadoop und durchdringen das Datenmeer auf der Suche
nach Mustern und Zusammenhangen, bis sie schlielich in der Fahndung nach dem schwarzen Gold fndig werden.
3. Hadoop als unternehmensweite Plattform.
Die zweite Generation von Hadoop ermglicht es groen Unternehmen, einen firmenweiten Big-Data-Shared-Service
anzubieten.

Thema
Big Data der Prsi, im Diamodell

Zusammenspiel von Hadoop mit herkmmlichen


Lsungen
Die Komplementaritt von Hadoop mit herkmmlichen Lsungen verdeutlicht die folgende Abbildung.

Abbildung: Zusammenspiel von Hadoop mit herkmmlichen Lsungen (vereinfacht)

Thema
Big Data der Prsi, im Diamodell

Hadoop etabliert sich als unternehmensweite


Plattform
Schon in der ersten Generation hat sich Hadoop rasch zu einer vielversprechenden Plattform
entwickelt, um groe Datenmengen preiswert zu speichern und skalierbar zu verarbeiten.
Mit der zweiten Generation ermglicht Hadoop es nun groen Unternehmen, einen firmenweiten BigData-Shared-Service anzubieten also einen gemeinsamen Infrastruktur-Pool, auf dem verschiedene
interne und externe Kunden mit ihren oder mit gemeinsamen Daten arbeiten knnen.
Viele Unternehmen gehen dazu ber, Hadoop als einen unternehmensweiten Shared-Service
bereitzustellen oft als Daten-See bezeichnet. Der Wert eines solchen Hadoop-Daten-Sees
wachst exponentiell, je mehr Daten in diesem See landen und je mehr Anwendungen auf diesen
Daten-See zugreifen. Mehr und mehr Daten werden fr Jahrzehnte beibehalten

Thema
Big Data der Prsi, im Diamodell

Hadoop als unternehmensweite Plattform

Abbildung: Hadoop als unternehmensweite Plattform

Thema
Big Data der Prsi, im Diamodell

Hadoop
Die Reise in Richtung des Daten-Sees beginnt oft mit einer Anwendung bzw. einem
Einsatzszenario, das Hadoop in der Organisation verankert. Im Zeitverlauf kommen dann weitere
Anwendungsfalle hinzu, die zum Beispiel auf grere Kundennahe, Effizienzsteigerungen im Betrieb,
besseres Risiko-Management oder neue Geschftsmodelle zielen. Oft werden folgende Muster
sichtbar:

Wo Fachabteilungen die Reise in Richtung Hadoop angetreten haben, steht oft der Wunsch nach
einer 360-Grad-Sicht auf die Kunden im Vordergrund. Durch die Kombination von fragmentierten
Datenstzen bietet dabei Hadoop einen Mehrwert. Tiefe und zeitnahe Einblicke in das
Kundenverhalten werden mglich.

reibt im Unternehmen die IT-Abteilung de Hadoop- Einsatz, so stehen oft die Kosten der
T
Datenhaltung im Fokus. Hadoop senkt die EDW-Ausgaben und Speicherlosungen.

Thema
Big Data der Prsi, im Diamodell

Hadoop
Der Einsatz von Hadoop als unternehmensweite Plattform bringt eine Reihe von Vorteilen. Am
wichtigsten ist, dass grere Fragen gestellt werden knnen. Zu tieferen Einsichten gelangt man, weil
jeder autorisierte Benutzer mit dem Pool von Daten in vielfaltiger Weise interagieren kann. Mehr Daten
fuhren typischerweise zu besseren Antworten.

hnlich einer privaten Cloud-Infrastruktur bewirkt der Daten-See als Shared Service in der
Organisation zahlreiche Effekte:

hhere Geschwindigkeit in der Daten-Bereitstellung,


schnellere Lernkurve und verminderte Komplexitt im Betrieb.
konsequente Durchsetzung von Datenschutz und -sicherheit sowie Governance,
verbesserte Kapitaleffizienz im Vergleich zu dedizierten Clustern fr jedes Projekt.

Thema
Big Data der Prsi, im Diamodell

Fr jedes Einsatzszenario die passende Architektur

Fr eine moderne Daten-Architektur bildet Hadoop somit eine kardinal wichtige Grundlage. Auf
Hadoop sammeln sich riesige Datenmengen zum Beispiel aus sozialen Medien, Einkaufen im Internet,
Weblogs, Videos, Maschinen oder Sensordaten von Geraten. Diese neuen Datenquellen
weisen alle Merkmale von Big Data auf. Oftmals wurden diese Daten als minderwertige Assets oder
sogar als erschpfte Daten betrachtet, deren Speicherung und Auswertung zu teuer war. Aber es
sind genau diese Arten von Daten, die von der Datenanalyse zur Big-Data-Analyse fuhren mit vielen
Einblicken fr geschftliche Vorteile.
Sicher sind diese Arten von Daten streng genommen nicht wirklich neu, jedoch waren aus
heutiger Sicht nie sehr viele vorhanden. Es gibt sie schon seit geraumer Zeit Textdaten zum Beispiel
seit dem alten gypten. Mit Hilfe von Hadoop lernen Unternehmen, diese Arten von Daten als
wirtschaftliche, zugangliche und tgliche Quellen fur Einsichten und Wettbewerbsvorteile zu
betrachten aus Daten, die sie frher lschten, vernichteten oder auf Band speicherten.
Es gibt fr jedes Einsatzszenario passende Big-Data-Architekturen. Meist bestimmen der Datentyp
sowie die Anforderungen an die Verarbeitung die Auswahl der Bausteine in der Zielarchitektur.

Thema
Big Data der Prsi, im Diamodell

Lsungsszenarien mit Clickstream-Daten


Clickstream-Daten bieten Informationen von unschtzbarem Wert fr Internet-Vermarkter. Analysten berprfen
den Clickstream (Datenstrom) auf der Suche danach, welche Webseiten die Besucher aufrufen und in welcher
Reihenfolge. Diese Informationen entstehen aus einer Reihe von Mausklicks (dem Clickstream), die jeder Besucher
ausfuhrt. Die Clickstream-Analyse kann aufzeigen, wie Nutzer Produkte recherchieren und wie sie ihre
Online-Kaufe ttigen.

Clickstream-Daten werden oftmals eingesetzt, um die Produktrecherche und Kaufberlegungen der Besucher
einer Website zu verstehen. Mit Hilfe von Clickstream-Analysen knnen Online-Vermarkter Produktseiten und
verkaufsfordernde Inhalte optimieren und somit die Wahrscheinlichkeit erhhen, dass sich ein Besucher ber
die Produkte informiert und anschlieend auf Kaufen klickt. Dank umfangreicher Aufzeichnungen von realen
Verhaltensmustern knnen Online-Vermarkter die Wirksamkeit verschiedener Werbemittel und Calls-to-Action
beurteilen mit der Gewissheit, dass ihre Ergebnisse statistisch signifikant und reproduzierbar sind. So kann es bei
bestimmten Produkten sein, dass Videos Besucher hufiger zum Kauf anregen als Whitepaper. Bei einem
anderen Produkt ist es dafr mglich, dass ein Whitepaper ein besseres Ergebnis erzielt als ein Datenblatt.
Die Clickstream-Analyse gibt Aufschluss uber das Kundenverhalten wahrend des eigentlichen Kaufvorgangs.

Thema
Big Data der Prsi, im Diamodell

Verhaltensmuster in Verkaufsprozessen
Mit Hilfe von Verhaltensmustern aus Millionen
Verkaufsprozessen knnen Vermarkter
verstehen lernen, weshalb ganze
Kundengruppen einen Kaufvorgang an der
gleichen Stelle abbrechen. Sie knnen
auerdem sehen, welche Produkte Kunden
zusammen kaufen und dann Preis- und
Werbestrategien entwickeln, um die
Produktpakete zu verkaufen, die ihre Kunden
durch ihr Online-Verhalten definieren.
Clickstream-Daten sind jedoch nicht nur fr
Online-Handler von Konsumgtern geeignet. Die
Clickstream-Analyse kann von allen
Unternehmen genutzt werden, um zu erfahren,
wie gut ihre Website die Bedrfnisse ihrer
Kunden, Mitarbeiter oder verbundenen
Unternehmen erfllt.

Abbildung: Sankey-Diagramm Darstellung von


Besucheraktivitaten auf einer Webseite vor und nach einem
Event - Die Dicke der Linien ist proportional zu der Anzahl von
Besuchern, die diesen Weg genommen haben.

Thema
Big Data der Prsi, im Diamodell

Vorteile von Big Data


Mit Hilfe von Tools wie Omniture und Google Analytics sind Web-Teams bereits jetzt in der Lage, ihre
Clickstreams zu analysieren, Big Data fgt jedoch wichtige Vorteile hinzu.

Bei Big Data werden die Clickstream-Daten mit anderen Datenquellen wie z. B. CRM-Daten zu
Kundenstrukturen, Umsatzdaten von stationren Geschften oder Informationen zu
Werbekampagnen verknpft. Die Kombination mit zustzlichen Daten bieten hufig wesentlich
umfassendere Informationen als eine isolierte, KPI-basierte Analyse des Clickstreams.

ei den Mengen an Rohdaten ist eine einfache Skalierung des Big-Data-Systems kardinal wichtig.
B
Hadoop erlaubt die Speicherung der ber Jahre gesammelten Daten ohne exponentielle
Kostensteigerungen. Das bietet Anwendern die Mglichkeit, eine temporale Analyse oder einen
Jahresvergleich des Clickstreams zu erstellen. Anwender knnen auf der Basis einer Analyse von
Daten mehrerer Jahre tiefergehende Muster aufdecken, die der Wettbewerb mglicherweise
bersieht.

Zur datenschutzkonformen Erfassung der relevanten Interaktionen von Besuchern einer Webseite
bieten sich Pakete wie Celebrus oder Webtrends an. Alternativ knnen auch die Logfiles der
Webserver direkt ausgewertet werden.

Thema
Big Data der Prsi, im Diamodell

Lsungsszenarien mit Social Media


Stimmungsdaten

Die Analyse von Meinungen, Stimmungen oder Einstellungen zu Themen oder Produkten war lange Zeit traditionellen
Marktforschungsunternehmen vorbehalten. Die Popularitt von Social Media hat dazu gefhrt, dass online
groe Mengen von unstrukturierten Stimmungsdaten in Social-Media-Eintragen, Blogs, Online-Rezensionen und
Nutzerforen von den Nutzern selbst publiziert werden und fr die Analyse genutzt werden konnen.
Mit den traditionellen Marktforschungsinstrumenten wie Befragungen und Fokusgruppen wird gezielt eine
Stichprobe der Zielgruppe zu einem Thema befragt und von diesen Ergebnissen verallgemeinert. Die Analyse von
Stimmungsdaten setzt dagegen bei einer mglichst groen Datenmenge an und extrahiert hieraus die Inhalte,
die der Fragestellung zuzuordnen sind. Die Analyse von Stimmungsdaten kann dabei helfen, die ffentliche
Meinung zu einer bestimmten Fragestellung oder die Einstellung der Kunden gegenber einem Produkt
Kennenzulernen und die zeitliche Entwicklung zu verfolgen.
Stimmungsanalysen auf der Basis von Online-Daten haben vor allem den Vorteil, dass die Daten nicht aufwndig
erhoben werden mssen und immer auf dem neuesten Stand sind. Allerdings lassen sich bestimmte Faktoren
nicht mehr kontrollieren. Zum Beispiel ist es schwierig, Aussagen zur Reprsentativitt der Beitrage zu machen
und Effekte wie Meinungsbeeinflussung und Shit Storms richtig einzuschtzen.

Thema
Big Data der Prsi, im Diamodell

Lsungsszenarien mit Social Media


Stimmungsdaten
Zunchst mssen die qualitativen Daten extrahiert, strukturiert und angereichert werden, um ein quantifiziertes
Ergebnis zu bekommen. Dazu werden Inhalte daraufhin durchsucht, ob sie positive, neutrale oder negative
Bewertungen enthalten. Anbieter von Webanalysesystemen unterscheiden sich z. B. dadurch, welche Skalen sie
Einsetzen oder welche Arten von Stimmungen ausgewertet werden und ob die Analyse automatisch oder in
Kombination mit manuellen Auswertungstechniken durchgefhrt wird. Ein spezielles Sentiment Analysis Tool auf der
Basis von SAP HANA hat SAP auf den Markt gebracht.
Eine weitere technische Basis zur automatischen Stimmungsanalyse bietet Hadoop. Hadoop speichert und
verarbeitet riesige Mengen an komplexen, unstrukturierten Inhalten. Social-Media-Eintrage knnen mit Hilfe von
Apache Flume in das HDFS zum Echtzeit-Streaming geladen werden. Apache Pig und Apache Mahout ordnen die
unstrukturierten Daten und bewerten die Stimmungsdaten mit Hilfe von fortgeschrittenen Methoden fur Maschinelles
Lernen.
Nach der Bewertung der Meinungen knnen die Daten aus den Social Media mit anderen Datenquellen kombiniert
werden. Mit Hilfe des HDFS-Datenpools lassen sich CRM-, ERP- und Clickstream-Daten zusammenfuhren, um
Meinungen z. B. einem bestimmten Kundensegment zuzuordnen. Die Ergebnisse knnen anschlieend mit
Business-Intelligence-Tools wie Microsoft Excel, Platfora, Splunk oder Tableau veranschaulicht werden

Thema
Big Data der Prsi, im Diamodell

Anwendung der Hortonworks Data Platform fr die


Analyse von Twitter-Daten

Abbildung: Anwendung der Hortonworks Data Platform fr die Analyse von Twitter-Daten

Thema
Big Data der Prsi, im Diamodell

Analyse von Emotionen


Eine erweiterte Analyse ist die Ermittlung von Emotionen (www.emotionsradar.com) wie Freude,
Arger, Gefallen, Sorge. Die Verfahren und Komponenten der Analyse werden hier am Beispiel der
PKW-Diskussion skizziert.
Die Analyse extrahiert aus einem groen Nutzerforum (www.Motortalk.de) die in den Beitragen
geuerten Emotionen, um ein Stimmungsbild fr ein Fahrzeug und dessen Teilaspekte (Verbrauch,
Robustheit,) zu erschlieen. Auf dieser Basis knnen aus dem Benutzerforum quantitative Mase
z. B. fr die Produktzufriedenheit ermittelt werden.

Thema
Big Data der Prsi, im Diamodell

Emotionsanalyse
Im PKW-Beispiel wird der Ausgangstext
zusammen mit allen Annotationen in einem
UIMA-Dokument gespeichert. Mittels Apache
UIMA kann eine Sequenz von Buchstaben oder
Worten durch eine Annotation
gekennzeichnet werden, z. B. wird eine
Wortfolge als Nennung eines Autotyps annotiert.

Abbildung : Beispiel-Szenario Emotions-Analyse


bei PKW

Darber hinaus knnen auch Relationen


zwischen Annotationen im Text markiert werden,
z. B. Arger/<Automarke>/ <Fahrzeugtyp>/
Verbrauch. UIMA erlaubt einen schnellen Zugriff
auf diese Annotationen und kann sie als XMLDokument auslagern. Die Schritte bei der
Sprachverarbeitung und Analyse sind in der
nchsten Tabelle aufgelistet.

Thema der Prsi, im Diamodell

Sprachverarbeitung
Verarbeitungsschritt

Beispiel Emotions-Analyse

Download, Bereinigung und Normalisierung

Beitrage zu ausgewhlten Automarken downloaden, HTML-Code


entfernen.

Beitrage zu ausgewhlten Automarken downloaden, HTML-Code


entfernen.

Automarke, Datum, Diskussionsthread

Sprachenerkennung

nicht notwendig, da rein deutsch-sprachige Beitrage

Satzsegmentierung

im Einsatz

Wortstammreduktion

Lemmatisierung

POS-Tagging

(Wortartenerkennung) im Einsatz

Parsing

Koreferenzauflsung

Eigennamen-Erkennung

Orte und Personen (welche oft Aliasnamen haben)

Domnenspezifische Eigennamen

Automarken und typen, Einzelteile eines PKWs, Werkzeuge

Topic-Modell

im Einsatz

Phrasenextraktion

Ermittlung von Phrasen die Freude, Arger, Sorge ausdrucken

Relationsextraktion

Zusammenhang zwischen Auto/Autoteil und Emotionsausdruck

Tabelle: Schritte der Sprachverarbeitung am Beispiel Motortalk

Thema
Big Data der Prsi, im Diamodell

Emotionsanalyse
Das Ergebnis der Analyse ist ein berblick ber die aufgetretenen Emotionen im Zusammenhang mit
Einer bestimmten Automarke und/oder einem zugehrigen Bauteil. Auerdem lasst sich auch
erschlieen, wie hufig die entsprechenden Ausdrucke genannt wurden, was ein Indiz fr die
Relevanz eines bestimmten Themas ist.

Thema
Big Data der Prsi, im Diamodell

Losungsszenarien mit
Sensordaten
Beispiele fr Sensordaten
Von Khlschrnken und Kaffeemaschinen bis hin zu den Strom-, Warme- und Wasserzhlern in den Husern Sensordaten
sind allgegenwrtig. Eine wahre Flut von Sensordaten erzeugen:

Maschinen, die Fliebnder antreiben,


Mobilfunkmasten, die Telefonanrufe senden,
mobile Gerate wie Smartphones und Tablets und
Gadgets wie Google Glass oder Samsungs Gear Watch.

Vielfach ist es unmglich, dass Menschen diese Daten sammeln. Man stelle sich Messungen aus dem Inneren einer ErdlPipeline in der gefrorenen Tundra vor. Kein Mensch wre dafr zu gewinnen, aber Sensoren knnen die Messungen ohne
Pause, zuverlssig und kostengnstig vornehmen.
Sensoren erfassen auerdem Daten aus Natur, Wissenschaft oder Medizin. Beispiele sind:

Daten ber meteorologische Prozesse,


Daten ber Bohrmechanismen fr lquellen,
Bodendaten fr landwirtschaftliche Zwecke,
Vitalparameter von Patienten.

Thema
Big Data der Prsi, im Diamodell

Intelligentes Transport-Management
Ein bedeutendes Einsatzgebiet fr Big Data mit Sensordaten stellt das Intelligente Transport-Management dar. Hier
geht es um den Einsatz von Streaming-Technologie mit dem Ziel, Echzeit-Informationen ber Verkehrszustande zu
gewinnen und das Verkehrsmanagement in verkehrsreichen Stdten zu optimieren.
Als Datenquellen stehen Videos von Kameras an neuralgischen Verkehrspunkten, Sensoren in Fahrzeugen sowie im
Stadtbereich installierte Sensoren zur Verfugung. Die Auswertung dieser unterschiedlichen Quellen erzeugt ein
Echtzeit-Lagebild der Verkehrssituation. Mit Verkehrsanalyse-Modellen lasst sich die Verkehrsentwicklung
prognostizieren. Insgesamt wird so eine dynamische Verkehrsleitung ermglicht.

Thema
Big Data der Prsi, im Diamodell

Industrie 4.0
Machine-to-Machine (M2M) steht fr den automatisierten Informationsaustausch zwischen Sensoren/Aktuatoren
in Maschinen, Automaten, Fahrzeugen oder Containern untereinander oder mit einer zentralen Leitstelle.
M2M-Anwendungen bilden auch das Rckgrat fr das Internet der Dinge.
Im Internet der Dinge werden Objekte intelligent und knnen ber das Internet untereinander Informationen austauschen.
Ziel des Internets der Dinge ist es, die virtuelle mit der realen Welt zu vereinen. Die Event- und Datenvolumina, die in der M2Mund IoT-Umgebung entstehen, sind immens und steigen durch das Wachstum und die weitere Verbreitung von Sensoren
dramatisch an.

In die Losungswelt von M2M integrieren sich auch mehr und mehr Video- und Audio-Datenquellen, die im Bereich
Sicherheit oder in diagnostischen Verfahren Einzug halten. Die zeitnahe Auswertung dieser hochvolumigen und zum Teil
unstrukturierten Daten wird mehr und mehr in die Wertschpfungskette der Unternehmen integriert.
Deshalb sind Analyse-Verfahren fr Data in Motion zwingend erforderlich. Hier setzen sich Streaming- und Real-time AnalyticsVerfahren durch.

Thema
Big Data der Prsi, im Diamodell

Einsatz von Streaming-Technologie

Beim Streaming werden lang laufende, kontinuierliche Abfragen bzw. Analysen auf Datenstrmen aus der Produktion anstelle von einmaligen
Abfragen und Analysen auf gespeicherten Datenstzen durchgefhrt. Viele Sensordaten stehen im Kontext von aktuellen Situationen,
haben eine Unscharfe aufgrund Ihres zeitlichen und technischen Entstehens und mssen zeitnah in Korrelation mit anderen Informationen
gebracht werden, um die Wertschpfung aus Unternehmenssicht abzubilden.
Die durch die Sensorik in M2M-Applikationen erzeugten Events mssen nicht alle persistiert werden. Vielmehr ist im Bereich der Big-DataPlattformen die Filterung von relevanten Events und korrelierten Informationen zur Weiterverarbeitung und Speicherung ein wichtiges
Element der Beherrschbarkeit groer Datenmengen geworden.
Der Einsatz von Streaming-Technologien kann den TCO einer Big-Data-Losung signifikant reduzieren, da nur relevante Daten in den DataStores weitergeroutet, gespeichert und prozessiert werden mssen.
Des Weiteren geht es darum, aus den Datenstrmen in Real-Zeit (low latency) durch Analytische Funktionen und CEP-Prinzipien direkte
Auslser fr unternehmensrelevante Events und Prozessverarbeitungen zu entdecken und zu verarbeiten.

Thema
Big Data der Prsi, im Diamodell

Streaming Technologien
Streaming Technologien wie Storm, InfoSphere Streams oder z. B. GemFire erlauben es, aus den hochvolumigen Event-Datenstrmen direkt
unscharfe Events (Veracity) auszufiltern, relevante Datenkontexte analytisch zu ermitteln und daraus Business-relevante Ruckschlusse z. B. in
Echtzeit-Visualisierungs-Dashboards den Business- Bereichen zur Verfugung zu stellen.

Thema
Big Data der Prsi, im Diamodell

Sensoren liefern Big Data Hadoop ermittelt


ihren Wert
Zwei Probleme schrnken derzeit die Nutzung von Sensordaten ein:

ihr Umfang und

ihre Struktur.
Hadoop ist in der Lage, diese Probleme zu losen. Sensoren messen und bertragen kleine Datenmengen
effizient, allerdings sind sie immer in Betrieb. Mit zunehmender Anzahl an Sensoren und im Verlauf der
Zeit knnen sich die Bytes oder Kilobytes von jedem Sensor schnell zu Petabytes anhufen. Mit traditionellen
Datenspeicher-Plattformen stellt ein solcher Datenstrom ein Problem dar. Die Kosten zur Speicherung der Daten
knnen ein Unternehmen veranlassen, entweder die Sammlung von Daten einzuschrnken (durch Einschrnkung der
Anzahl der Sensoren) oder deren Speicherung zu begrenzen (durch Loschen von Daten ber einer bestimmten Menge
oder nach einem bestimmten Zeitraum).
Hadoop bietet eine effizientere und kostengnstigere Speicherung dieser Daten. Dank Hadoop verwandeln sich
groe Mengen an Sensordaten von einem Problem zu einem Vermgenswert.
Sensordaten sind zudem zum Zeitpunkt ihrer Erhebung in der Regel unstrukturiert und werden durch einen
mechanischen, sich wiederholenden Prozess generiert.
Apache Hive kann die Sensordaten in bereinstimmung mit ihren Metadaten (z. B. Zeit, Datum, Temperatur, Druck
oder Neigung) umwandeln. Die Daten werden dann in HCatalog in einem gelufigeren Tabellenformat prsentiert, auch
wenn die zugrunde liegenden Daten noch in ihrem ursprnglichen Format in HDFS vorhanden sind.

Thema
Big Data der Prsi, im Diamodell

Lsungsszenarien mit
Standortdaten
Standortdaten sind eine Untergruppe der Sensordaten, da das Gerat seinen Standort erkennt und Daten zu seinem
Langen- und Breitengrad in vorgegebenen Intervallen bermittelt. Kommerziell interessant wird diese spezielle
Form von Sensordaten mit der massenhaften Verbreitung von GPS-fhigen Geraten z. B. in Mobiltelefonen oder
Kameras, oder aber auch in professionellem Equipment in Fahrzeugen (OBUs On Board Units). Logistikunternehmen
bieten an, GPSTracker einer Sendung hinzuzufgen, um so als Endkunde den Versand einer Ware verfolgen zu
knnen.
Verbraucherorientierte Unternehmen wollen Standortdaten nutzen, um zu erfahren, wo sich potentielle Kunden
zu bestimmten Tageszeiten aufhalten sofern der Kunde der Verwendung der ortsbezogenen Informationen
zugestimmt hat. Personalisierte Werbung mit Ortsbezug wird hufig als Anwendungsfall genannt. Einem Nutzer
einer App auf dem Smartphone kann dann ein Rabatt-Gutschein bermittelt werden, sobald dieser sich vor
einer Filiale befindet.
Startups wie Waze nutzen Ortsinformationen, die ber die App auf Smartphones erfasst werden, zur
Verkehrsflussermittlung und zur Aktualisierung des Kartenmaterials, welches von dem Routenplaner genutzt wird.
Eine weiteres viel versprechendes Einsatzgebiet von Standortdaten bildet das Flotten-Management.
Logistikunternehmen, die Sendungen an Privathaushalte zustellen, knnen feingranulare Standortdaten, die in
regelmigen Zeitabstanden gesammelt werden, nutzen, um Fahrerrouten zu optimieren. So lassen sich Lieferzeiten
verkrzen und Kraftstoffkosten sowie Unfallrisiken vermindern. Logistikunternehmen mochten zu jeder
Tageszeit wissen, wo sich ihre mobilen Vermgenswerte befinden.

Thema
Big Data der Prsi, im Diamodell

Geofencing
Allgemein lassen sich ber diese Datenquelle -Themen adressieren wie

Verringerung des Leerlaufverbrauchs


Einhaltung von Vorschriften, die die Mindestruhezeit und die maximale Lenkzeit vorgeben,
Vorbeugung von Unfllen durch die Erkennung von unsicherem Fahrverhalten.

Das sogenannte Geofencing wird hierbei genutzt, um Bereiche zu definieren, an denen sich GPS-Sensoren, welche
z. B. an einer Wechselbrcke angebracht sind, zu einer bestimmten Zeit befinden drfen. Verlasst ein solcher
Sensor den definierten Bereich, wird ein Alarm ausgelost dies kann auch in Kombination mit anderen Sensoren
hinsichtlich Erschtterungen, Temperatur etc. erfolgen.
Versicherungen bieten heute hufig bei Flottenfahrzeugen an, das Fahrverhalten des Fahrzeuges zu berwachen.
Somit knnen Ereignisse wie heftiges Bremsen, extremes Beschleunigen etc. mit einem Ortsbezug gesehen werden
und entsprechenden Hufungspunkte und zeiten ermittelt werden. Dies kann dann wiederum zur mageschneiderten
Erstellung von Tarifen fuhren. Mit Car2Car-Kommunikation knnen lokationsbezogene Informationen dazu dienen,
Warnungen an nachfolgende Fahrzeuge zu senden.

Thema
Big Data der Prsi, im Diamodell

Geodaten
Die Verknpfung von bereits existierenden Daten mit
einem Ort (z. B. ber die Auflsung von Straennamen
zu einer Geolokation) ermglicht generell die
Formulierung von neuen Fragestellungen, die in sich
eine grere Unscharfe haben knnen.

Dies knnen Fragestellungen hinsichtlich des Umkreises


um einen Ort (z. B. einen Supermarkt) oder aber auch
Prognosen basierend auf Wetterinformationen sein, wo
sich eine Rauchwolke in einigen Stunden
hchstwahrscheinlich hin ausbreiten wird. Spezialisierte
Plattformen bieten hier leistungsstarke Algorithmen an,
um z. B. eine Ausbreitungsprognose mit Katasterdaten
zu kombinieren.
So knnen dann rechtzeitig Warnungen an Bewohner
Der betroffenen Gebiete herausgegeben werden (vgl.
nchste Abbildung). Simulationen von
berflutungsflchen sind mit Geodaten deutlich genauer
durchzufhren als z. B. auf Ebene der Postleitzahlen.

Abbildung: Simulationen von berflutingsflchen mit


Geodaten

Thema
Big Data der Prsi, im Diamodell

Lsungsszenarien mit FreitextDaten


Je nach Einsatzgebiet und betrachteter Datenquellen gibt es vielfaltige Einsatzbereiche fr Big-DataTechnologien auf natrlichsprachigen Texten.
Marketing und Marken-Pflege

Mittels Werkzeugen des Social Media Monitoring beobachten Marketing-Abteilungen Web-Seiten,


Blogs, Foren und andere Social Network-Kanale, um Informationen darber zu erhalten, welche
Meinungen und Ideen Kunden bzw. Anwender zu den Produkten und Dienstleistungen des
Unternehmens haben. Werden an dieser Stelle gezielt linguistische und semantische Technologien
genutzt, so ist eine qualitativ deutlich bessere Erschlieung und Durchdringung der Daten mglich. Im
Sinne des BI auf Text werden hier zunchst Entitaten und Strukturen in den Texten erkannt,
welche dann wiederum in vielfaltiger Art und Weise gruppiert und analysiert werden knnen, wie die
nchste Abbildung beispielhaft zeigt.

Thema
Big Data der Prsi, im Diamodell

Visuelle Datenexploration

Abbildung : Visuelle Datenexploration im Demonstrator Living Lab Big Data auf der CeBIT
2013; Quelle: www.iais.fraunhofer.de

Thema
Big Data der Prsi, im Diamodell

Stimmungsdaten
Im Umfeld der Marken-Pflege kann ein Zusammenhang zwischen Marken, Typen, Ausstttungmerkmalen
und Stimmungsdaten hergestellt werden. Texte werden angereichert um Annotationen, welche die gezielte
Auswahl und Analyse von Texten unterstutzen, und des weiteren Lese- und Interpretationshilfe sind. In
folgendem Beispiel sind technische Terme und Stimmungsdaten als erkannte Entitaten farblich
hervorgehoben:

Abbildung : Technische Terme und Stimmungsdaten in einem Forum-Beitrag aus dem motor-talk
Portal

Thema
Big Data der Prsi, im Diamodell

Anreicherung von Nachrichten


Anreicherung von Nachrichten
Unter anderem fr die Pressearbeit ist es enorm wichtig, dass schnell groe Mengen an Informationen erschlossen werden knnen. Hierfr ist
es notwendig, dass die Rohtexte automatisiert mit Hintergrundinformationen angereichert werden. So kann eine Vielzahl an Quellen beobachtet
werden, etwa die Webseiten von Print-Medien, Rundfunk- und Fernseh-Anbietern oder auch reine Nachrichtenportale. Die Meldungen werden
Mittels Verfahren (Text- und semantische Analyse; Sentiment-Analyse) analysiert und somit Informationen zu Personen, Orten, Organisationen,
Ereignissen etc. extrahiert. Ebenso werden zu den erkannten Entitaten weiterfhrende Informationen gesucht, etwa zugehrige Artikel bei
Wikipedia. Mit all diesen Fakten werden die Nachrichten angereichert, so dass dem Betrachter anhand der visuellen Darstellung eine schnelle
Erschlieung der Inhalte ermglicht wird.
Analyse von Service-Reports
Im Umfeld des Kundendienstes fallen meist viele Berichte an, die zwar in Teilen wohlstrukturiert sind (man denke an Gerate-Nummern oder
Messwerte), jedoch neben diesen weitere wertvolle Informationen in Freitext-Form enthalten, wenn etwa der Monteur im Rahmen der
Dokumentation der Service- und Reparatur-Arbeiten einen mehr oder weniger przisen Report verfasst, in dem er die Symptome,
den Fehler und die Schritte zur Fehlerbehebung beschreibt. Zieht man auerdem Fehlerbeschreibungen der Kunden selbst hinzu, etwa wenn
diese ber ein Web-Portal ihr Problem beschreiben, so fallen einerseits zwar vielfaltige Daten und Informationen an, die aber andererseits
ohne Big-Data-Techniken und semantische Analysen nicht wirklich erschlossen werden knnen. Linguistik und Semantik helfen an dieser
Stelle, die Texte aufzubereiten, Produktbezeichnungen zu erkennen, Problembeschreibungen zu vereinheitlichen und all diese
Information sinnvoll zu gruppieren und zu ordnen, so dass zum Beispiel Erkenntnisse und hufige Fehler und Schwachstellen abgeleitet werden
knnen.

Thema
Big Data der Prsi, im Diamodell

Wettbewerbs- und Innovations-Management

In Zeiten immer krzerer Innovations-Zyklen ist ein professionelles Innovations-Management fr Unternehmen


berlebenswichtig. Hierzu zahlen interne Prozesse und eine Kultur, um neue Ideen zu fordern, aber ebenso die
aktive Beobachtung des jeweiligen Marktes in Bezug auf Fragen wie:
Welche neuen Trends gibt es?
Was machen meine Wettbewerber?
Gibt es neue Player im Markt?
Was wnschen sich meine Kunden?

Hierzu sind intensive Recherchen vor allem auf ffentlichen Quellen notwendig, wobei im besten Falle Inhalte
aus dem sogenannten Deep Web, also etwa Patent-Datenbanken, einbezogen werden sollten. Wichtig hierbei
ist einerseits ein enger Fokus auf das jeweilige Anwendungsgebiet; andererseits mssen Signale mglichst frh
erkannt werden, bevor sie allgemein bekannt werden.
An dieser Stelle sind Big-Data-Technologien notwendig, um insbesondere Quellen im Internet zu berwachen und
die immens groen Datenmengen zu bewltigen. Darber hinaus kommen semantische Verfahren zum Einsatz,
welche auf einem Wissensmodell ber die relevanten Produkte und Technologien, bekannte Wettbewerber, Partner
und Kunden und hnlichen Informationen bestehen.
Basierend darauf erschliet Semantik Zusammenhange, kann Trends aufzeigen oder auf neue Marktteilnehmer
hinweisen, indem zum Beispiel erkannt wird, dass ein bisher unbekanntes Unternehmen in relevanten Markten
operiert bzw. Meldungen ber interessante Technologien verffentlicht.

Thema
Big Data der Prsi, im Diamodell

Risiko-Management und Compliance


Versicherungsgesellschaften besitzen riesige Mengen an unstrukturierten, textbasierten
Schadensfalldaten. Sie haben auerdem Zugriff auf andere, strukturierte und unstrukturierte
Datensatze (ffentlich und privat), die sie mit Schadensfalldaten kombinieren knnen, um ihre
Risikobeurteilung zu verbessern oder Missbrauchsfalle aufzudecken.

Thema
Big Data der Prsi, im Diamodell

Lsungsszenarien mit Video- und


Sprachdaten
Auswertung von Medien-Archiven
In Medienarchiven werden mittlerweile groe Mengen an Inhalten gespeichert, deren Erschlieung ohne Methoden
der Sprachverarbeitung kaum mehr mglich ist. Dies knnen zum Beispiel Archive der Medienanstalten, Inhalte
aus dem Bereich eLearning oder auch andere Audio- und Video-Inhalte sein. Als ein Beispiel-Szenario wurde
eine News-Discovery-Applikation entwickelt, welche umfangreiche Video-Archive, zum Beispiel aus Debatten
und Ausschusssitzungen des Deutschen Bundestages, analysiert und auswertet.
Nachdem mittels Transkription die Audio- und Video-Daten in Text konvertiert wurden, werden wiederum in der
Sprachverarbeitung angewandt, wobei hier zustzliches Wissen in Form einer Ontologie ber Mitglieder des
Bundestages, Parteienzugehrigkeit etc. genutzt wird.
Im Ergebnis ist es nicht nur mglich, gezielt einzelne Video-Beitrage zu suchen, sondern auch Auswertungen
zu Schwerpunkten und Positionen der Parteien, der Aktivitt der einzelnen Abgeordneten, Meinungsfhrern
etc. vorzunehmen

Thema
Big Data der Prsi, im Diamodell

Erschlieung von Video-Archiven

Abbildung: Inhaltliche Erschlieung von Video-Archiven

Thema
Big Data der Prsi, im Diamodell

Big Data und Business Intelligence

Evolution von Business Intelligence zu Big Data


Seit vielen Jahren ist Business Intelligence (BI) in Unternehmen etabliert; BI-Werkzeuge und Architekturen
befinden sich in den meisten Unternehmen im Einsatz.
Hufig sind umfangreiche Investitionen in BI-Systeme geflossen, die durch das Aufkommen von Big Data nach
Mglichkeit nicht entwertet werden sollten.
Anforderungen an eine kombinierte Business-Intelligence-/Big-Data-Architektur
In vielen Unternehmen sind BI-Systeme im produktiven Einsatz, die auf einem Reporting-Werkzeug und relationalen
Datenbanken aufsetzen. In diesen Systemen sind zahlreiche Geschftsregeln definiert und umfangreiche
Datenbestande zusammengefhrt, die als Data Warehouse bezeichnet werden. Ein Data Warehouse
kann auch einen wichtigen Bestandteil einer Big-Data-Architektur bilden, denn Big-Data-Analysen bentigen
oft den Zugriff auf eine integrierte Datenbasis des Unternehmens.

Thema
Big Data der Prsi, im Diamodell

Business-Intelligence-/Big-Data-Architektur
Seit einigen Jahren rucken nun neue Datenquellen in den Blick von Analysten, die sich mit den bestehenden
BI-Architekturen nicht oder zumindest nicht effizient Verarbeiten lassen. Der Gedanke liegt nahe, BIArchitekturen nach Mglichkeit so weiter zu entwickeln, dass auch neue Datenquellen erschlossen werden knnen.

Abbildung : Anforderungen an eine kombinierte Business-Intelligence-/Big-DataArchitektur

Thema
Big Data der Prsi, im Diamodell

Business-Intelligence-/Big-DataArchitektur
Am Markt ist gegenwrtig keine singulre Technologie sichtbar, die diesen Nutzeranforderungen entsprechen konnte.
Diese Situation lasst sich am besten an einem Beispiel aus der Praxis verdeutlichen, bei dem die Aktivitten von
Kunden auf der Webprsenz eines Unternehmens mit Hilfe von Weblog-Daten analysiert werden sollen.
Diese Informationen werden entweder direkt von dem Webserver im laufenden Betrieb protokolliert oder es wird
spezieller Code in die Webseite eingefugt, der Interaktionen an einen Erfassungsserver sendet.
Bei Webseiten mit einer hohen Besucherzahl (z. B. Webshops ) entstehen dabei Daten im Bereich von GB bis zu TB
pro Tag. Hufig sind diese Daten in einem technischen Format abgespeichert, das sich fr die Analyse in einer auf eine
relationale Daten-Haltung setzenden BI-Architektur nicht eignet.
Es ist auch nicht sinnvoll, den Rohdatenstrom in ein relationales Modell zu zwangen, wenn noch keine Klarheit ber die
zu stellenden Fragen herrscht. Von Interesse konnten z. B. die Pfade sein, ber die Nutzer hufig auf der Webseite
navigieren sind sie bekannt, so kann in die Navigation mit personalisierten Angeboten direkt eingegriffen werden.
Als ein weiteres Hindernis fr relationale BI-Architekturen kommt hinzu, dass sich solche Anfragen nicht auf einfache
Weise in der quasi-Standardabfragesprache SQL formulieren lassen.

Thema
Big Data der Prsi, im Diamodell

Komponenten einer hybriden, integrierten


Architekturen
Die alleinige Speicherung von Rohdaten ber einen Zeitraum von mehreren Jahren in einem Data Warehouse
ist konomisch nicht sinnvoll. Das gilt insbesondere dann, wenn fr BI-Anwendungen aufgrund der PerformanceAnforderungen eine In-Memory-Datenbank zum Einsatz kommt.
Sinkenden Preisen fr Hauptspeicher stehen wachsende (Roh-)Datenmengen gegenber, was kommerziell die
Archivierung von Rohdaten in einer In-Memory-Datenbank ausschliet.
Komponenten einer hybriden, integrierten Architekturen
Die sinnvolle Antwort auf die dargestellten Anforderungen sind hybride Architekturen, die eine kosteneffiziente
Integration von BI und Big Data in einer integrierten Architektur verbinden. Bei der TCO-Betrachtung spielen neben den
Kosten fr Anschaffung und Betrieb einer solchen Architektur auch der Schulungsaufwand, die Einsatzbreite sowie die
Zeit fr Datenexperimente eine wichtige Rolle. Am Beispiel der Weblog-Daten werden im Folgenden die
Einsatzbereiche mglicher Komponenten einer solchen hybriden Architektur vorgestellt.

Thema
Big Data der Prsi, im Diamodell

Komponente 1: Erfassung, Speicherung und


Vorverarbeitung
Es ist oft erforderlich, Weblog- oder andere Rohdaten unter neuen Gesichtspunkten zu analysieren.
Fr solche Situationen ist es von Vorteil, Rohdaten mglichst lange speichern zu knnen. Es wird
dann mglich, unstrukturierte Rohdaten erst zur Laufzeit einer Analyse mit einer sinnvollen
semantischen Struktur zu belegen. Dieser als Late Binding bezeichnete Ansatz unterscheidet Big Data
wesentlich von klassischer Business Intelligence, bei der die Rohdaten zunchst in ein definiertes
Schema transformiert werden.
Fr die Erfassung, Speicherung und Vorverarbeitung von Rohdaten bieten sich Hadoop oder hnliche
verteilte Dateisysteme an. Durch die eingebaute Replikation von Daten knnen so auch grte
Datenmengen auf Standard-Servern langfristig und ausfallsicher in der Rohform gespeichert werden.
Das Hadoop-Okosystem sieht auch die Mglichkeit vor, Vorverarbeitungsschritte Batch- orientiert zu
absolvieren.

Thema
Big Data der Prsi, im Diamodell

Komponente 2: Explorative Analyse und


Mustererkennung
Stehen die Rohdaten in einem Hadoop-Cluster zur Verfugung, so knnen Analysten oder Data Scientists
mit diesen Daten experimentieren und sie mit anderen Datenquellen zu kombinieren, um auf diese Weise neue
Erkenntnisse aus den Daten zu gewinnen. Dafr stellt Hadoop zahlreiche Werkzeuge bereit. In der Praxis zeigt sich
jedoch, dass nur wenige Nutzer in Unternehmen die dafr bentigten Kenntnisse besitzen oder
erwerben wollen.

Aus dieser Situation gibt es einen Ausweg. Der erste Schritt im Late-Binding-Ansatz zur Verarbeitung von
unstrukturierten Rohdaten sieht vor, den Daten eine Struktur aufzuprgen. Danach liegen strukturierte Daten
vor, die sich effizient mit relationalen Datenbanken analysieren lassen. Eine Vorverarbeitung kann also in
Hadoop angestosen und in einer relationalen Datenbank weitergefhrt werden. Alternativ arbeitet die relationale
Datenbank ebenfalls massiv-parallel und bietet in SQL eine MapReduce
Implementierung mit vorgefertigten Analysealgorithmen an. Beiden Anstzen ist gemeinsam, dass die Komplexitt der
neuen Hadoop-Technologie vor dem Anwender verborgen wird: Er muss lediglich einen erweiterten Satz von SQLFunktionen erlernen.
Die geschilderten Vorgehensweisen erweitern den Kreis von Nutzern deutlich, die in Hadoop gespeicherte, groe
Datenmengen analysieren knnen. Auerdem knnen die in einem Unternehmen genutzten Werkzeuge zur
Visualisierung weiter verwendet werden, was den Einstieg enorm erleichtert. Die von Hadoop bereitgestellten
Werkzeuge wie Hive werden zugig weiter entwickelt, um ihren Einsatz komfortabler zu gestalten.

Thema
Big Data der Prsi, im Diamodell

Komponente 2: Explorative Analyse und


Mustererkennung
Viele Anwender werden es ungeachtet dieser Fortschritte vorziehen, in der bekannten Welt der massiv-parallelen, relationalen
Datenbanksysteme zu verbleiben. Hier sind die Laufzeiten von Anfragen deutlich geringer. Experimente mit Daten sind
schneller beendet, und so ist in krzerer Zeit klar, ob ein gewhlter Ansatz ziel fhrend ist. Die Time to Insight ist ein mageblicher Faktor in
TCO-Betrachtungen. Neue Entwicklungen senken die Einsatzbarrieren fr Hadoop weiter:
So bietet die Hadoop-Komponente Hcatalog seit kurzem ein Teil des Hive-Projektes die Mglichkeit, auf Daten in Hadoop aus anderen
Werkzeugen heraus zuzugreifen und dabei auch Filter zu setzen (Beispiel: Nutzung der Weblog-Daten der letzten drei Monate).
Der direkte Durchgriff auf in Hadoop gespeicherte Daten ist von groer Bedeutung, da im Falle von Big Data das einfache Kopieren von Daten
ohne Bercksichtigung von Filterkriterien sehr viel Zeit beanspruchen kann. Zustzlich muss das jeweilige Zielsystem ebenfalls ber
entsprechende Speicherkapazitten verfugen.
Fr die explorative Analyse von Daten ist der Zugriff auf integrierte und qualittsgesicherte z. B. in einem Data Warehouse vorgehaltene
Unternehmensdaten wesentlich. In Weblog- und anderen Rohdaten sind hufig Identifikatoren wie Produktnummern enthalten. Fr eine
prdiktive Analyse ist dies vollkommen ausreichend. Fr die Interpretation von Ergebnissen muss man z. B. wissen:

welches Produkt sich hinter einer Identifikationsnummer verbirgt,


ob das Produkt Gegenstand einer Werbekampagne war,
welchem Teil des Webshops das Produkt an welchem Tag zugeordnet war (z. B. Kleidung oder Kleidung und Sale),
ob Lieferprobleme verzeichnet wurden,
in welchen Zustndigkeitsbereich (z. B. Produktmanagement) das Produkt fallt,
zu welcher Kategorie das Produkt gehrt.

Das bedeutet: Der Durchgriff in ein Data Warehouse ist in dieser Phase der Analyse entscheidend, um eine Big-Data-Analyse im
Gesamtkontext aller relevanten Unternehmensdaten bewerten zu knnen.

Thema
Big Data der Prsi, im Diamodell

Komponente 3: Untersttzung von


Geschftsprozessen und BI
Bisher wurden die Komponenten 1 und 2 einer hybriden BI-Big-Data-Architektur betrachtet. Sie dienen primr der Erfassung und Analyse von groen,
nicht-relationalen Daten. Die dritte Komponente einer solchen Architektur setzt die Aufgabe um, die Ergebnisse von Big-Data-Analysen in die
Geschftsprozesse einflieen zu lassen. Hierfr ist ein Data Warehouse prdestiniert, fuhrt es doch bereits viele Daten aus Geschftsprozessen in einer
Plattform zusammen. Die aus Big Data gewonnenen Erkenntnisse knnen durch die Einbettung in das logische Datenmodell in den Gesamtkontext des
Unternehmens gestellt werden.
Relationale Datenbanken, die architektonisch fr einen analytischen Data Warehouse Workload ausgelegt sind, erlauben in einer gesicherten Art und
Weise Tausenden Nutzern den Zugriff auf die Big-Data-Erkenntnisse, denn analytische Modelle etc. sind fr ein Unternehmen schtzenswerte
Daten.
Auerdem lasst sich das Ergebnis einer Big-Data-Analyse kosteneffizient in einer fr Data Warehousing optimierten Datenbank ablegen und vielfaltig
nutzen. Diese hybriden BI- und Big-Data-Systeme verfugen ber Methoden zur Feinjustierung der Allokation von Systemressourcen zu Anfragen und
bewegen Daten in Abhngigkeit von der Zugriffsfrequenz vollautomatisch zwischen den unterschiedlichen Speichermedien (wie Hauptspeicher, SSDs
und HDDs-Aarbeitung) innerhalb des Systems.
So wird eine maximale Performance beim Zugriff auf die Daten gewhrleistet. Und es entfallt die Notwendigkeit, manuell Duplikate zu erstellen, die dann
z. B. in eine dedizierte In-Memory-Datenbank kopiert werden mussten.
Auf diese Weise knnen BI und Big Data in einer hybriden Architektur unter Ausnutzung von neuen Technologien wie In-Memory-Computing
zusammengefhrt werden. So wird ein angemessener TCO-Wert erreicht, wie er beim Einsatz von nur einer der beiden Technologien nicht
mglich wre.

Thema
Big Data der Prsi, im Diamodell

Empfehlungen zur Umsetzung und


Datenkultur
Im Kontext einer hybriden BI-/Big-Data-Architektur wird hufig die Frage gestellt, welche Plattform sich fr eine
gegebene Aufgabe eignet.

Abbildung: Komponenten einer hybriden BI-/Big-Data-Architektur

Thema
Big Data der Prsi, im Diamodell

Komponenten einer hybriden BI-/BigData-Architektur


Die Antwort ist von vielen Faktoren abhngig. Grundstzlich sollte eine hybride Architektur einen hohen Grad von
Vereinheitlichung aufweisen, so dass die Frage, welche Technologie grundstzlich fr einen Anwendungsfall zu
verwenden ist, bei der Anbindung einer neuen Datenquelle zunchst keine Rolle spielt.
Darber hinaus bestimmt auch der aktuelle Stand des Analyseprozesses, welche Technologie zunchst Verwendung
findet. Zu Beginn der Datenexploration hangt noch viel mehr von den Erfahrungen der Akteure ab, welche
Technologie am schnellsten die mglichen Antworten liefert. Hat sich eine Idee als erfolgsversprechend erwiesen,
so sollte dann eine Operationalisierung erfolgen, d.h. die Umsetzung nach den Standards des Unternehmens.
Auf diese Weise werden zwei Aufgaben gelost:

schnelle Erprobung von neuen Datenquellen und neuen Ideen auf ihren Mehrwert hin, ohne dass zu diesem
Zeitpunkt bermig viel auf Standards zu achten wre;
gleichzeitig ist dieser Prototyp eine genaue Spezifikation, die als Nukleus die Umsetzung nach den gltigen
Standards sowie die Wartung der Losung im Produktivbetrieb erleichtert.

Ziel sollte es daher sein, flexibel zwischen den Technologien der hybriden BI-/Big-Data-Architektur whlen zu
knnen. Dafr muss die Konnektivitt der Systeme untereinander gegeben sein, um auch groe Datenmengen aus
Quellen unterschiedlichen Typs miteinander verknpfen und effizient verarbeiten zu knnen.

Thema
Big Data der Prsi, im Diamodell

Datenkultur
Eine hybride BI-/Big-Data-Architektur stellt eine nicht zu unterschatzende technologische
Herausforderung dar. Ihre Bewltigung reicht aber nicht aus. Ein langfristiger Erfolg setzt die
Etablierung einer fordernden Datenkultur im Unternehmen voraus, die sich in drei Facetten
widerspiegelt:

Alle Daten sind als wichtig anzusehen. Nicht selten wird die Bedeutung von Daten erst in einem
zuknftigen Kontext deutlich.
Innovation setzt ganzheitliches Denken voraus, das Impulse aus einer Zusammenfhrung von
Daten in einer hybriden Architektur erhalten kann.
Vertrauensvolle Zusammenarbeit im Team ist ein Eckpfeiler fr die Etablierung einer Datenkultur.

Big Data bedeutet also mehr als die drei V (Volume, Velocity, Variety), mehr als Technologie und auch
mehr als ein bestimmter Use Case. Es sind die Mitarbeiter, die eine Datenkultur ausbilden und die
Technologien und Werkzeuge einsetzen, um aus Daten wirtschaftlichen Nutzen zu generieren.

Thema
Big Data der Prsi, im Diamodell

Beispiel - Ebay
Bereits seit vielen Jahren setzt Ebay auf eine hybride Architektur, um neue datengetriebene
Produkte zu entwickeln. Ein bedeutender Erfolgsfaktor hat sich dafr die Verfugbarkeit von Daten fr
viele Mitarbeiter erwiesen.
Besonders hervorzuheben ist: Die Nutzerkreise sind nicht auf eine Plattform beschrankt. Die Grenzen
zwischen klassischer BI und Big Data sind fliesend. Eine strikte Trennung zwischen beiden Welten
fhrt letztlich zu doppelter Daten-Haltung und erschwert konsistente Antworten.

Thema
Big Data der Prsi, im Diamodell

Big-Data-Architektur bei Ebay

Abbildung: Big-Data-Architektur bei Ebay, Stand 2011; Quelle: http://www-conf.slac.stanford.edu/xldb2011/talks/xldb2011_tue_1055_TomFastner.pdf


Mittlerweile ist die eBay-Hadoop-Installation auf 365 PB und 50.000 Server gewachsen.

Thema
Big Data der Prsi, im Diamodell

Vielfltige Datentypen auf


Hadoop
Es lohnt, sich die Sprengkraft von Hadoop genau vor Augen zu halten: Hadoop kommt mit jedem Datentyp klar auch
mit unstrukturierten Daten, dem am schnellstens wachsenden und vielleicht wichtigsten Datentyp.
Die relationalen Datenbanken knnen unstrukturierte Daten nicht verarbeiten. Wo eine relationale Datenbank eine
vorher definierte, fixierte Struktur fr die Speicherung von Daten voraussetzt, bentigt Hadoop lediglich eine Struktur
zum Zeitpunkt der Analyse der Daten.
Das bedeutet, dass ein Unternehmen strukturierte und unstrukturierte Daten erst einmal speichert und erst spter
beliebige Fragen zur Analyse stellen kann.
Hadoop bietet eine unvergleichliche Flexibilitt bei der Sammlung, Speicherung und Analyse groer Datenmengen
egal, ob es sich um Daten von Produktionsprozessen, Sensoren, Kundentransaktionen, von mobilen Endgeraten oder
Social-Media-Plattformen handelt.
Gleichermaen wichtig ist die Fhigkeit von Hadoop zur Parallelverarbeitung und Skalierung. Mit dem Hadoop
Framework werden Nutzer, die sich intensiv mit Hadoop befassen, bei der Speicherung und Transformation von
Daten kaum an Grenzen stoen, und so unterstutzt Hadoop die Wettbewerbsfhigkeit von Unternehmen im Big-DataZeitalter.

Thema
Big Data der Prsi, im Diamodell

Vielfltige Datentypen auf Hadoop


Es lohnt, sich die Sprengkraft von Hadoop genau vor Augen zu halten:
Hadoop kommt mit jedem Datentyp klar auch mit unstrukturierten Daten, dem am schnellstens
wachsenden und vielleicht wichtigsten Datentyp. Die relationalen Datenbanken knnen unstrukturierte Daten
nicht verarbeiten.

Wo eine relationale Datenbank eine vorher definierte, fixierte Struktur fr die Speicherung von Daten
voraussetzt, bentigt Hadoop lediglich eine Struktur zum Zeitpunkt der Analyse der Daten.
Das bedeutet, dass ein Unternehmen strukturierte und unstrukturierte Daten erst einmal speichert und erst
spter beliebige Fragen zur Analyse stellen kann. Hadoop bietet eine unvergleichliche Flexibilitt bei der
Sammlung, Speicherung und Analyse groer Datenmengen egal, ob es sich um Daten von
Produktionsprozessen, Sensoren, Kundentransaktionen, von mobilen Endgeraten oder Social-MediaPlattformen handelt.
Gleichermaen wichtig ist die Fhigkeit von Hadoop zur Parallelverarbeitung und Skalierung. Mit dem
Hadoop Framework werden Nutzer, die sich intensiv mit Hadoop befassen, bei der Speicherung und
Transformation von Daten kaum an Grenzen stoen, und so unterstutzt Hadoop die Wettbewerbsfhigkeit
von Unternehmen im Big-Data-Zeitalter.

Thema
Big Data der Prsi, im Diamodell

Ein neuer Prozess: von ETL zu ELT


Hadoop verfolgt einen neuen Ansatz beim Umgang mit Daten. Traditionell werden die Quelldaten aus den Vorsystemen in einer Staging Area
zunchst geladen, um dann in einem weiteren Schritt validiert und bereinigt zu werden, bis die verdichteten Daten schlielich ber
eine ODS-Schicht in das eigentliche EDW gelangen. Im Big-Data-Kontext stellt sich die Verarbeitung jedoch anders da.
Hier werden die Ausgangsdaten aus den Vorsystemen 1:1 im Original Format im Hadoop Distributed File System (HDFS) dreifach redundant
gespeichert.
Die Bearbeitung der Rohdaten ist natrlich auch in dem Big-Data-Kontext notwendig. Um aus den polystrukturierten Daten brauchbare
Erkenntnisse gewinnen zu knnen, ist auch hier eine Transformation notwendig, allerdings erst zum Zeitpunkt der Analyse. Daher nennt
man den Prozess in Hadoop Extract, Load, Transform, im Gegensatz zum klassischen Extract, Transform, Load. Bei Hadoop werden die
Transformationsprogramme uber das MapReduce Verfahren auf alle verfugbaren Compute-Knoten des Hadoop-Clusters verteilt, ausgefhrt
und massiv-parallel in ein Zielverzeichnis abgelegt.
Dieser Prozess lauft als Stapelverarbeitung ab und skaliert automatisch mit steigender Anzahl der Compute-Nodes. Im klassischen EDW
werden die Daten auf einem vorgelagerten Extraktions/Transformations/Lade Server verarbeitet. Damit dieser ETL-Server seine Aufgaben
erfllen kann, mssen die Daten aus den Quellen ausgelesen werden und anschlieend wieder in der Relationalen Datenbank
(RDBMS) abgelegt werden. Dieser Roundtrip ist bei steigenden Datenmengen der kritische Pfad fr die gesamte Laufzeit.
Allerdings ist die Software rund um diesen ETLServer sehr ausgereift und benutzerfreundlich. Im Kontext von Hadoop stehen unterschiedliche
Script Sprachen wie Pig und Hive bzw. Scoop zur Verfugung, deren Einsatzfelder nicht immer klar abgegrenzt sind. Auch erste graphische
Tools sind verfugbar, aber diese bieten noch nicht den Funktionsumfang kommerzieller ETL-Software. So sei Talend erwhnt als einer der
ersten Open-Source-ETL-Implementierungen. Derzeit besteht mit Hadoop die Gefahr, dass die entwickelten ETL-Prozesse im Laufe der Zeit
unbersichtlich und undurchsichtig werden, wie dies bereits bei frheren, nicht ETL-Server unterstutzten EDW Implementierungen der Fall
gewesen ist.

Thema
Big Data der Prsi, im Diamodell

Beispiel aus der Praxis


Hervorzuheben ist, dass Hadoop ein EDW nicht ersetzt. Vielmehr schafft Hadoop Raum, damit der Nutzer
sein EDW mehr fr Analysen und damit fur starker wertschopfende Aufgaben nutzt.

Die Nutzer knnen die installierte EDW-Kapazitat besser einsetzen und so zustzliche EDW-Investitionen
verschieben. Allein die Kosteneinsparungen sind bereits sehr berzeugend.
So kostet die Speicherung von Daten im Volumen von einem Terabyte in einem traditionellen EDW circa
$20,000 bis $80,000. Es gelang in dem Unternehmen, diese Kosten mit einem Hadoop-Cluster auf weniger
als ein Zwanzigstel zu reduzieren.
Von dieser Summe entfallt ein Viertel auf Hardware, ein weiteres Viertel auf Software und die verbleibende
Hlfte auf Services. Die Ergebnisse sprechen fr sich. Die ber einen Zeitraum von fnf Jahren flligen
Zahlungen an den Hersteller des vorhandenen EDW sanken von $65m auf $35m, wobei ein Groteil der
verbliebenen $35m auf Wartungskosten fr das EDW entfielen.
Zustzlich stieg die EDW-Performance auf das Vierfache, da das EDW nun starker auf besonders
wertschopfende interaktive Aufgaben fokussiert werden konnte und die restlichen Aufgaben einem HadoopCluster bertragen wurden.

Thema
Big Data der Prsi, im Diamodell

Big Data an ihrem Ursprung lassen


Eine ganze Reihe von Big-Data-Szenarien beruhen auf internen Daten, wie zum Beispiel Sensordaten
von Fertigungsstraen oder Videodaten von Sicherheitssystemen. In diesem Falle sprechen drei
Grunde dafr, die Daten und ihre Verarbeitung im eigenen Rechenzentrum zu belassen:

Die Daten sind zu sensibel, um sie einem Verlustrisiko auszusetzen, zum Beispiel Testserien oder
Wartungsdaten von Maschinen oder auch Lage- oder Patientendaten.

ie Daten sind zu umfangreich und zu volatil, um sie schnell genug in eine Cloud-Umgebung och
D
zu laden, zum Beispiel bei Sensordaten.

u hohe organisatorische Hurden innerhalb des Unternehmens verzgern eine rechtzeitige


Z
Verlagerung der Daten in die Cloud.

Thema
Big Data der Prsi, im Diamodell

Big Data in der Cloud


In sozialen Medien ist nur ein Bruchteil der Daten relevant zum Beispiel fr die Sentimentanalyse. 20
% aller Tweets beinhalten einen Link, den man ffnen muss um den Kontext zu verstehen.
Riesige Volumina externer Daten mssen gefiltert, formatiert und fr die weitere Analyse vorbereitet
werden. Nach der Analyse muss hufig nur das aggregierte Ergebnis gespeichert werden (zum
Beispiel der Klout Score in 4.3.7).
Selten bentigt man die Datenquelle fur Audit oder weitere Analyse. Alle Tweets der letzten zwei
Jahre bentigen 0,5 PetaByte Speicher. Es ist wenig sinnvoll fr ein Unternehmen, diese Rohdaten in
seinem Rechenzentrum zu speichern.

Thema
Big Data der Prsi, im Diamodell

Big Data in der Cloud


Abhngig vom Anwendungsfall gibt es somit auch gute Grunde, warum Big Data in entsprechenden Fallen in der
Cloud verbleiben sollte:

Big Data erfordert ein ganzes Spektrum neuer Technologien, Fertigkeiten und Investitionen. Jedes Unternehmen
muss sich fragen, ob es das wirklich alles in seinem Rechenzentrum braucht und entsprechend investieren will?

ig Data beinhaltet oft riesige Mengen externer Daten. Ist es wirklich sinnvoll, diese Daten innerhalb der
B
Unternehmes-Firewall zu speichern und zu verwalten?

J e nach Anwendungsszenario wird mglicherweise technisches Know-how (z. B. im Bereich Data Science)
bentigt, das im eigenen Unternehmen schwierig aufzubauen ist.

Big Data erfordert eine Vielzahl von Dienstleistungen. Anwender werden sich eher auf die differenzierte Analyse
groer Daten konzentrieren wollen und weniger auf deren Verwaltung.

Folgerichtig bieten eine Reihe von Anbietern Losungen fr Big Data in der Cloud.

Big-Data-Plattformen bieten diverse Dienste von der Speicherung groer Datenmengen bis zu dynamisch
buchbarer Rechenkapazitt fr schnelle Analysen und Simulationen. Das Ergebnis wird in der Cloud gespeichert,

nachdem der Rechencluster heruntergefahren wird. Kombinationen bieten zum Beispiel Amazon mit S3 und EMR
oder Microsoft mit Azure und HD Insight.

Big Data Services konzentrieren sich auf die Vorbereitung, Anreicherung oder Verknpfung verschiedener
Datenquellen, ihre Analyse und einfacher Visualisierung (zum Beispiel Microsoft Power BI).

Thema
Big Data der Prsi, im Diamodell

Stratosphere: Beitrag der europaischen Forschung zur


Big-Data-Plattformentwicklung
Stratosphere (www.Stratosphere.eu) ist ein skalierbares Datenanalysesystem der nchsten Generation, welches durch
eine sogenannte deklarative Spezifikation einem Data Scientist die einfache Erstellung von komplexen
Datenanalyseprogrammen ermglicht und diese Programme durch automatische Parallelisierung, Optimierung und
Hardwareadaption hochskalierbar verarbeitet.
Stratosphere als Open-Source-Plattform fur Big Data Analysis auf hochparallelen Clustern ist aus einem gemeinsamen
Forschungsprojekt der Technischen Universitt Berlin, des Hasso-Plattner-Instituts an der Universitat Potsdam und der
Humboldt-Universitt Berlin sowie weiterer Partner in Europa im Rahmen der Information und Communication
Technology Labs (ICT Labs) des Europaischen Instituts fr Innovation und Technologie (EIT) hervorgegangen.
Stratosphere integriert sich nahtlos in Big-Data-Infrastrukturen, die auf dem Hadoop-System basieren und
unterstutzt u.a. das Dateisystem von Hadoop (HDFS) und dessen Ressourcenmanager (YARN), ersetzt jedoch
die Programmierabstraktion und die Laufzeitumgebung durch ein erweitertes MapReduce-Programmiermodell,
das sogenannte PACT-Modell. In diesem Modell knnen in Java und Scala neben klassischen MapReduceProgrammen auch komplexere Operatoren zum Verbinden von Datenstrmen sowie zur Ausfhrung von iterativen
Algorithmen angesprochen werden, was die Erstellung von skalierbaren Data Mining und Predictive Analytics erheblich
vereinfacht.

Thema
Big Data der Prsi, im Diamodell

Stratosphere
Stratosphere bietet Schnittstellen fur relationale Datenbanken (JDBC) und Graph-Analyse
(Pregel/Spargel) an und unterstutzt im PACT-Modell komplexe Algorithmen (Maschinelles Lernen,
Graph Mining, Text Mining, etc.), welche in klassischen MapReduce-Systemen oder in
relationalen Datenbanken (SQL) nicht bzw. nur mit viel Programmieraufwand oder nicht skalierbar
realisiert werden knnen.
Stratosphere als Datenanalysesystem der nchsten Generation ist als ein Software Stack aus
Komponenten angelegt, welcher die in-situ Analyse von Daten aus unterschiedlichen Datenquellen
ohne Erfordernis von ETLProzessen ermglicht

Thema
Big Data der Prsi, im Diamodell

Stratosphere Software Stack

Abbildung: Stratosphere Software Stack

Thema
Big Data der Prsi, im Diamodell

Stratosphere
Auf der obersten Ebene bietet Stratosphere
Programmierschnittstellen in den Programmiersprachen
Java und Scala an, in denen Datenanalyseprogramme
gem des PACTModells spezifiziert werden knnen.

map

reduce

Join

Cross

Union

Iterate

Iterate
delta

Cogroup

Abbildung: Stratosphere-Operatoren

Durch die Verwendung dieser popularen Sprachen ist


eine groe Menge an Entwicklern in der Lage,
Datenanalyseprogramme zu erstellen. Darber hinaus
stellt Stratosphere mit Meteor und Spargel weitere
Progammierschnittstellen bereit.
Meteor ist eine erweiterbare Skriptsprache fr einfache
Datenanalyseaufgaben. Spargel bietet das populare
knoten-zentrierte Programmiermodell fr
graphstrukturierte Daten an. Stratosphere parallelisiert
diese Analyseprogramme automatisch und optimiert ihre
Ausfhrung in Abhngigkeit von Systemumgebung,
Workload und Eigenschaften der zu analysierenden
Daten.

Thema
Big Data der Prsi, im Diamodell

Stratosphere
Hierzu werden neuartige Verfahren der Codeanalyse, Codegenerierung und Datenbankoptimierung angewendet,
die im Rahmen der Hochtechnologieforschung speziell fur Stratosphere entwickelt wurden.
Durch diese Optimierungen knnen auch Nutzer ohne Systemprogrammiererfahrung das System effizient nutzen.
Stratospheres PACT-Programmiermodell erweitert zudem das von Hadoop bekannte MapReduce-Modell durch neue
Operatoren und gibt damit Data Scientists einen umfangreichen Werkzeugkasten zur Losung von
Datenanalyseproblemen auf Big Data

Die neben map und reduce zustzlichen Operatoren im PACT-Modell ermglichen die einfache Spezifikation von
komplexen Datenanalyseprogrammen, wie sie im Data Mining, Maschinellen Lernen und komplexer Statistik
blich sind (z. B. Regression, Clustering, Graph-Analyse). Die Operatoren join, cross, union, und cogroup erlauben
dabei die Verknpfung, Verbindung oder Korrelation von mehreren Datenstrmen, welche in map/reduce-Systemen
wie Hadoop nur mit groem Aufwand mglich sind. Insbesondere hervorzuheben sind die Operatoren iterate und
iterate-delta, da diese Stratosphere von den meisten anderen kommerziellen und nichtkommerziellen
Systemen unterscheiden:
Algorithmen des Data Minings, des maschinellen Lernens und der Graph-Verarbeitung erfordern hufig, dass die Daten
mehrfach durchlaufen werden. Stratosphere unterstutzt mit iterate und iteratedelta hierzu nativ skalierbare iterative
Algorithmen und kann diese im Gegensatz zu Hadoop, SQL-Datenbanken oder neueren Systemen wie Spark
automatisch parallelisieren und effizient auf Rechenclustern verarbeiten.
Neben den erweiterten Operatoren ist Stratosphere auch in der Lage, komplexe Datenflusse abzubilden. Wahrend
bei Hadoop MapReduce ein vorgegebener Datenfluss von Map nach Reduce vorgegeben ist, ist Stratosphere in der
Lage, Daten in vielfaltiger Weise zwischen den Operatoren zu senden.

Thema
Big Data der Prsi, im Diamodell

Stratosphere
Die folgende Abbildung zeigt einen Datenfluss der aus mehreren mappern, reducern und einem join operator besteht.
Diese Datenflusse erlauben es, mit Stratosphere auch komplexe Daten-Integrationsaufgabe auszufuhren.
Insgesamt sind seit 2008 mehr als 15 Mann-Jahre Forschung und Entwicklung in das Stratosphere-Open-Source-System
eingeflossen.
Stratosphere wird derzeit von einer aktiven europaischen Open Source Community weiterentwickelt und wird bereits in mehreren
Anwendungen eingesetzt, zum einen im Kontext von Verbundprojekten gefordert durch das BMWi, das BMBF und die EU, zum
anderen in direkten Partnerschaften von Unternehmen mit Stratosphere.

Ferner ist das Stratosphere-System Bestandteil des Smart Data Innovation Lab (www.sdil.de) sowie die strategische FlaggschiffPlattform zur Datenanalyse des Europaischen Instituts fur Technologie (EIT). Das Stratosphere-System ist unter der Apache 2.0
Lizenz verfugbar. Weitere Informationen mit Anwendungsbeispielen, umfangreiche Dokumentation und Technologie-Whitepapers,
sowie ein Installations-Image fur verschiedene virtuelle Maschinen der Source-Code des Systems und Kontaktinformationen finden
sich unter http://www.stratosphere.eu

Abbildung: Stratosphere Moglichkeit komplexer Datenflusse

Thema
Big Data der Prsi, im Diamodell

Big Data und Open Source


Strategische Weichenstellungen
In drei bis fnf Jahren wird ein Groteil aller
neuen Daten nicht in traditionellen, sondern in
neuen Speicherlosungen wie z. B. Hadoop und
Object Storage landen. Open-Source-Losungen
wie Hadoop spielen somit eine wichtige
Rolle im Big-Data-Okosystem.
Fr einige Bausteine einer Big-Data-Losung sind
neben den reinen Open-Source-Lsungen auch
kommerzielle Losungen am Markt, die auf
Open-Source aufsetzen

Baustein

Lsungen

Hadoop

Hortonworks, Cloudera

ETL & Analyrics

Talend, Pentaho,
Jaspersoft

Data Vizualisation

Ggplot2, OpenDX

Tabelle : Kommezielle Lsungen (Auswahl) auf OpenSource-Basis

Thema
Big Data der Prsi, im Diamodell

Chancen und Risiken von Hadoop


Bei einem genaueren Blick auf die Chancen und Risiken von Hadoop wird ersichtlich, dass sich das konsequente
Vertrauen auf Open Source durchaus lohnen kann. So lasst sich z. B. ein Vendor Lock-In die zwingende Bindung
an einen Hersteller verhindern. Zudem last sich wertvoller Spielraum bei Betriebskosten, strategischen
IT-Investitionen und einem Innovationstempo bewahren, welches in der Regel wesentlich hoher ist als bei proprietren
Losungen.

Als historisches Beispiel sei hier Linux genannt: Nachdem Linux eine kritische Masse erreicht hatte, war der Fortschritt
hier viel rascher als in den von einzelnen Anbietern kontrollierten Unix-Silos. Der grte Teil der Arbeit an und um Linux
wird weiterhin von der Nutzergemeinde erledigt. Wer ins Jahr 2014 springt, wird viele Parallelen zu Hadoop erkennen.
Der genaue Marktanteil der Hadoop- beziehungsweise Object-Storage-Losungen lasst sich schwer voraussagen.
Aber kaum ein Experte zweifelt am generellen Trend, dass dem Open-Source-Emporkommling Hadoop glanzende
Zeiten bevorstehen. Denn angesichts des Hypes rund um Big Data durfte es nur eine Frage der Zeit sein, bis
mehr und mehr Unternehmen entsprechende Losungen einsetzen.
Bei Open Source hat der Anwender immer die Auswahl, die Entwicklung, den Betrieb und die Wartung einem
anderen Hersteller anzuvertrauen, oder dies zumindest im Prinzip auch selber zu bernehmen.

Thema
Big Data der Prsi, im Diamodell

Hadoop
Zur Auswahl der passenden Open-Source-Losung ist noch eine weitere Betrachtung sinnvoll: In der Hadoop-OpenSource-Gemeinschaft arbeiten mehrere hundert Entwickler an verschiedenen Projekten, die sich modular in eine
Gesamt-Losung einfugen. Bei diesen Entwicklern muss man zwischen

Reviewern,

Contributoren und

Committern
unterscheiden.
Committer sind die erfahrensten Mitglieder der Gemeinschaft, die sich um die Koordination kmmern und die Richtung
und Roadmap formulieren, so dass am Ende die verschiedenen Projekte wie Bausteine zusammenpassen. Sie sind
auerdem die letzte Instanz zur Qualittssicherung neuer Software.
Wer sehen will, wie stark sich ein Hersteller in die Open-Source-Gemeinde um Hadoop einbringt, sollte sich die Zahl
der Committer in der jeweiligen Belegschaft anschauen. Die Analogie vom Markt fr Server-Betriebssysteme, aber
auch fr relationale Datenbanken, zeigt, dass sicher auch fur Hadoop-Distributionen nicht beliebig viele Vendoren
gleichermaen am Markt partizipieren werden, sondern dass sich vermutlich zwei bis drei dominante Anbieter
herauskristallisieren werden. Die besten Chancen haben die Hadoop-Distributionen all jener Firmen, die ihr
Engagement fr dieses Big-Data-Betriebssystem auch dadurch ausdrucken, dass eine signifikante Zahl ihrer
Angestellten als Committer aktiv in der Gemeinde mitarbeitet. Als Fazit ergibt sich: Unternehmen sollten sich gut
berlegen, wo und wie sie Open-Source-Technologie in ihrer Big-Data-Strategie verwenden wollen; ignorieren sollte
man Open Source auf keinen Fall.

Thema
Big Data der Prsi, im Diamodell

Risiken bei Big-Data-Anwendungen


Wie in allen Bereichen des tglichen Lebens, bestehen im Zusammenhang von Big-Data-Anwendungen gewisse
Risiken und Gefahren. Oft sind dies Gefahren, die selbstverstndlich geworden sind, beispielsweise die Mglichkeit
eines Datenverlustes oder gar eines Datendiebstahls. Das Verstndnis der Gefahr selbst macht diese zwar nicht
minder gefhrlich, doch sorgt sie dafr, dass sich Anwender und Anbieter darauf vorbereiten knnen.
Die Risiken, die Big-Data-Projekte mit sich bringen, sind nicht zu vernachlssigen. Mitunter sind es neue Risiken,
weshalb es wichtig ist, sich die Risiken und Gefahren in der Theorie bewusst zu machen. Dieses Kapitel des Big-DataLeitfadens soll deshalb nicht vom Umgang mit Big Data abschrecken, sondern uber die neuen Risiken aufklaren.
Zudem gibt es eine Anzahl von Herausforderungen auf der technischen und administrativen Seite (Datenschutz,
Bandbreite in der Datenbertragung, juristische Themen etc.), derer sich die Anwender und Anbieter bewusst sein
mssen.
Zu den Gefahren, die sich trotz der Perspektiven, die sich durch den Einsatz und die Verwendung von Big-DataTechnologien und -Techniken erffnen, gehren vor allem die Schdigung der Reputation bis hin zu deren Verlust. Es
kann zu einem Vertrauensbruch zwischen Geschftspartnern sowie zwischen Unternehmen und Kunde kommen.
Imageschaden sind als Folgen vorhergehenden falschen Handelns zu sehen. Sie sind mitunter das Resultat
menschgemachter Fehler. Da Fehler oft aus unzureichendem Wissen entstehen, ist es umso wichtiger, die Risiken zu
kennen. Bereits bekannte Risikofelder, wie die allgemeine IT-Sicherheit werden sich, im Zusammenspiel mit der weiter
zunehmenden Technologie-Abhngigkeit sowie der zunehmenden Komplexitt von Systemen, weiter ausweiten.
Die mit den verschiedenen Bereichen der Entwicklung und Anwendung von Big-Data-Technologien verknpften
Gefahren stellen regelrechte Stolperfallen bei der Umsetzung von Big-Data-Szenarien dar.

Thema
Big Data der Prsi, im Diamodell

Risikobereiche bei Big Data

Abbildung: Risikobereiche bei Big Data

Thema
Big Data der Prsi, im Diamodell

Risikobereiche bei Big Data


Die effiziente Umsetzung eines Big-Data-Projektes erfordert Kompetenzen in den Bereichen des Data
Managements, des Data Warehousings, der Datenbanken, der IT-Infrastruktur, der Skriptsprachen,
des Enterprise-Content-und Document-Managements sowie der Business
Intelligence.

Auerdem werden Fachkompetenzen im Bereich des Datenschutzes bentigt. Je besser es gelingt,


diese Kompetenzen in Form eines Projektteams oder einer speziellen Data-Science-Fachabteilung
abzudecken, desto geringer fallen die Risikowahrscheinlichkeiten der aufgezeigten Risiken aus. Fr
gewhnlich existieren die notwendigen Kompetenzen verteilt innerhalb eines Unternehmens und
mssen fr Big Data aggregiert werden.

Thema
Big Data der Prsi, im Diamodell

Data-Compliance-Risiken
Big-Data-Technologien bergen insbesondere ein Risiko hinsichtlich der Einhaltung von gesetzlichen
Vorgaben zum Datenschutz. Die Einhaltung der gesetzlichen, unternehmensinternen und
vertraglichen Regelungen stellt fr die Compliance eine betrchtliche Herausforderung dar. Unter dem
Begriff der Data Governance versteht man das Compliance-Risiko, welches sich aus dem Erheben,
Sammeln, Speichern, Loschen und Verndern sowie der Weitergabe, dem Zugriff auf und der
Auswertung von Daten ergibt.
Viele Daten und deren Server fallen nicht nur in den Interessenbereich nationaler Institutionen,
sondern stehen sowohl mit europischen, als auch mit internationalen Einrichtungen in
wechselseitiger Abhngigkeit. Der geltende Rechtsrahmen muss zu jeder Zeit klar sein.
Unternehmen, die nicht nur nationalen, sondern auch internationalen Raum ttig sind, mssen diesen
Aspekt bercksichtigen. Es drfen weder Annahmen bezglich des rechtlichen Rahmens noch
Ruckschlusse von einer nationalen Regelung auf eine andere getroffen werden. Die Unwissenheit
ber die jeweiligen nationalen Regelwerke schtzt nicht vor den Folgen eines Verstoes. Daher
ist es wichtig, genauestens informiert zu sein.

Thema
Big Data der Prsi, im Diamodell

Nationale Rahmenbedingungen
Datenschutzgesetze dienen dazu, personenbezogene Daten zu schtzen. Innerhalb Deutschland ist
dabei das Ziel, jedem Menschen das Recht auf informationelle Selbstbestimmung zuzusichern,
welches bereits im Volkszahlungsurteil jedem Burger zugesichert wurde.
Innerhalb des Bundesdatenschutzgesetzes (BDSG) ist aus diesem Grund ein grundstzliches Verbot,
der Erhebung, Verarbeitung und Nutzung personenbezogener Daten definiert ( 4). Laut Gesetz ist die
Verwendung dieser Daten nur dann erlaubt, wenn ein spezieller gesetzlicher Erlaubnistatbestand
existiert oder eine explizite Einwilligung der betroffenen Person vorliegt.

Thema
Big Data der Prsi, im Diamodell

Nationale Rahmenbedingungen
Neben dem Prinzip des Verbots mit Erlaubnisvorbehalt sind innerhalb des BDSG weitere Grundsatze
fr den Umgang mit personenbezogenen Daten definiert. Zum einen ist das der Grundsatz der
Zweckbindung. Dieser besagt, dass Daten generell nicht ohne einen konkreten Zweck erhoben und
verarbeitet werden drfen und schliet somit eine wahllose Ansammlung von Daten
weitestgehend aus.
Ergnzend besagt der Grundsatz der Datenvermeidung und Datensparsamkeit, dass bei der
Datenerhebung anlsslich eines konkreten Zwecks geprft werden muss, welche Daten zu dessen
Erfllung tatsachlich bentigt werden, um sicher zu stellen, dass keine berflssigen Daten erhoben
werden. Daten, welche zu einem bestimmten Zweck erhoben wurden, drfen grundstzlich nicht ohne
das Einholen weiterer Einwilligungen fr andere Zwecke weiterverwendet werden.
Gleiches gilt fr Daten, welche zur Erfllung einer Vertragsbeziehung erhoben wurden. Letztlich findet
sich im BDSG der Grundsatz der Transparenz. Dieser besagt, dass jeder Betroffene ber die
Rahmenbedingungen der Datenerhebung informiert werden sollte. Der Betroffene sollte also ber den
Zweck, den Ort und die Dauer der Speicherung sowie alle beteiligten Parteien informiert werden.
Die unachtsame Ansammlung von Daten ber den Gebrauchszeitraum hinaus birgt die Gefahr, fr
regelwidrige Speicherung und Handhabung von Daten belangt zu werden. Es ist daher zwingend
notwendig, genau zu berprfen, welche Arten von Daten erhoben und verarbeitet werden sollen und
welche bereits vorliegen.

Thema
Big Data der Prsi, im Diamodell

Sonderregelungen
Darber hinaus sieht das BDSG in einigen Fallen Sonderregelungen vor.
Fr die Datenerhebung zur Erfllung der eigenen Geschftszwecke finden sich innerhalb des
Paragraph 28 einige Ausnahme-Regelungen, welche die Erhebung in speziellen Fallen erlauben.

Auerdem erlaubt ist die Nutzung von Daten aus ffentlich zuganglichen Quellen (29). Im Sinne
dieser Regelung gelten Daten als ffentlich zuganglich, wenn sie fr einen beliebigen Personenkreis
zuganglich sind.
Allerdings muss vor der Erhebung eine Abwgung der schutzwrdigen Interessen des Betroffenen
gegen die Interessen der verantwortlichen Stelle vorgenommen werden.
Darber hinaus definiert das BDSG fur die Datenerhebung zu Werbezwecken spezielle
Anforderungen und sieht nur wenige Ausnahmen vor, welche die Erhebung ohne explizite Einwilligung
erlauben.

Thema
Big Data der Prsi, im Diamodell

Verwendung personenbezogener Daten


Eine weitere Ausnahmeregelung stellt die Verwendung personenbezogener Daten in anonymisierter oder
pseudonymisierter Form dar. Dabei gilt es, alle Informationen aus den Daten zu entfernen, die einen
Personenbezug herstellen. Auch durch die Kombination von Daten aus unterschiedlichen Quellen kann
ein Personenbezug bestehen kann.
Werden Daten zur Anonymisierung aggregiert, muss daher sichergestellt sein, dass eine ausreichende
Menge an Daten gelscht wird, so dass keine Ruckschlusse auf Einzelsachverhalte mehr mglich sind.
Wird eine Pseudonymisierung durchgefhrt, gilt es, alle personenbezogenen Daten durch Pseudonyme
zu ersetzen. Nach dem Willen des Gesetzgebers ist die Verwendung der Daten in
dieser Form zulssig, wenn auch durch die Anreicherung der Daten mit weiteren Informationen kein
Personenbezug hergestellt werden kann. Von besonderer Bedeutung ist dieser Punkt gerade dann, wenn
die aufbereiteten Daten an Dritte weitergegeben werden sollen.
Das ebenfalls im Zusammenhang mit Big-Data-Projekten zu beachtende Telemediengesetz (TMG)
definiert fr die Verwendung von bestimmten Online-Tracking-Daten die Anforderung, dass der Betroffene
vorab informiert werden und ihm die Mglichkeit eingerumt werden muss, die Erhebung abzulehnen.
Laut TMG muss dies unabhngig davon geschehen, ob die Daten mit oder ohne Namen
verwendet werden. Zustzlich regelt das Telekommunikationsgesetz (TKG), die Anforderungen fr die
Erhebung und Verwendung von Standortdaten aus GPS, GSM und WLAN-Netzen. Laut TKG drfen
diese Daten grundstzlich nur anonymisiert oder auf Basis einer Einwilligung des Betroffenen verwendet
werden.

Thema
Big Data der Prsi, im Diamodell

Urheberrechtsgesetz im Kontext von


Big Data
Letztlich spielt auch das Urheberrechtsgesetz im Kontext von Big Data eine Rolle.
Innerhalb des UrhG sind Regelungen und Gesetze zu Datenbanken enthalten.
Es wird eine Unterteilung in die eigentliche Datenbank und das Datenbankwerk vorgenommen.
Im Sinne des UrhG ist das Datenbankwerk ein Sammelwerk, dessen Elemente systematisch oder
methodisch angeordnet und einzeln mit Hilfe elektronischer Mittel oder auf andere Weise zuganglich
sind (Paragraf 4 Abs. 2 UrhG) und fallt somit zumeist unter den Urheberrechtsschutz.

Thema
Big Data der Prsi, im Diamodell

Internationale Rahmenbedingungen
Erfolgt die Datenerhebung oder bermittlung ber nationale Grenzen hinaus, finden entweder die nationalen
Regelungen des jeweiligen Landes oder inter- bzw. supranationale Gesetze ihre Anwendung. Grundstzlich ist zu
beachten, dass in jedem Fall vorhergehend geprft werden muss, ob die Datenverwendung in Deutschland
zulssig ist und erst im Anschluss daran, die bermittlung in das jeweilige Empfngerland.
Innerhalb der Europaischen Union ist der Datenschutz als Grundrecht in der Charta verankert. Besondere Bedeutung
kommt in der Anwendung vor allem den folgenden beiden Richtlinien zu:

1. Die Richtlinie 95/46/EG zum Schutz natrlicher Personen bei der Verarbeitung personenbezogener Daten und zum
freien Datenverkehr
2. Die Richtlinie 2002/58/EG ber die Verarbeitung personenbezogener Daten und den Schutz der Privatsphre in der
elektronischen Kommunikation.
Der Datenaustausch zwischen Mitgliedstaaten der EU kann aufgrund der Richtlinien zumeist reibungslos ablaufen.
Die von der EU vorgegeben Richtlinien im Gegensatz zu Verordnungen stellen dabei Aufforderungen an die Lnder
dar, nationale Gesetze aufzusetzen oder anzupassen.
Der Datenschutz aller Nicht-EU-Staaten wird an dieser Vorgabe gemessen. Liegt keine nationale Regelung fr den
Datenschutz vor oder wird das vorliegende Datenschutzgesetz als nicht ausreichend eingestuft, muss vorhergehend zu
jedem Datenaustausch der Datenschutzbedarf der betroffenen Parteien geprft werden. Als unsichere Drittstaaten, in
die keine personenbezogenen Daten aus Deutschland bertragen werden drfen, gehren unter anderem Japan,
Indien, China und die USA.

Thema
Big Data der Prsi, im Diamodell

Sozialrisiko
Ferner wirft die Anwendung von Big-Data-Technologien neue wert- und moralbezogene sowie ethische Fragen auf, welche
unter dem Begriff Sozialrisiko zusammengefasst werden knnen. Die Auswertung von Unmengen an Daten aus bisweilen
oftmals kritischen Quellen, wie beispielsweise sozialen Netzwerken, vermittelt innerhalb der Bevlkerung den Eindruck, von
Staaten und Unternehmen umfassend berwacht zu werden. Sptestens wenn Firmen personalisierte Werbung verschicken,
welche klar macht, dass die Vorlieben und Gewohnheiten der jeweiligen Empfnger bekannt sind, wenn also der persnliche
Bezug offenkundig wird, steigt das Misstrauen an, da das Gefhl bestrkt wird, unter permanenter Beobachtung zu stehen.
Wenn Kunden sich Fragen stellen mssen wie: Woher wissen die denn das?, oder: Was wissen die noch? kann auch
die Kundenbindung Schaden nehmen. Durch derartige Aspekte, verursacht das Thema Big Data selbstverstndlich auch
kontrovers gefhrte, ffentliche Diskussionen, welche die Notwendigkeit einer kritischen Auseinandersetzung aller Seiten mit
der Materie verdeutlichen. Die Streitparteien vertreten oftmals antagonistische Interessen, doch es sollte immerzu versucht
werden, einen Ausgleich und Konsens zwischen den Informationsinteressen der Unternehmen und dem Recht auf
informationelle Selbstbestimmung der Betroffenen zu finden. Es ist dabei notwendig, den Nutzen, der fr den Betroffenen durch
die Freigabe und Verwendung der Daten entstehen kann, dagegen aufzuwiegen, wie viel er von sich preisgeben muss.

Thema
Big Data der Prsi, im Diamodell

Datenrisiken
Neben den Risiken, welche aus regelwidrigem Verhalten im Sinne des juristischen Rahmens resultieren, bestehen
auch auf technischer Ebene bestimmte Risiken, die zu beachten sind. Auch diese Risiken ergeben sich aus der
Erhebung und Weiterverarbeitung von Daten.
Zum einen besteht dabei ein Risiko, in Hinblick auf die Gewhrleistung der Daten-Sicherheit. Zum anderen bergen die
Daten selbst durch ihre Qualitt bestimmte Risiken.
TCP/IP als Basis des Internets ist jedoch (potentieller Verlust von Datenpaketen, fehlende Echtzeit-Fhigkeit)
nicht geeignet, sehr groe, sensible Datenmengen zu bertragen. Komplexe Big-Data-Szenarien bentigen
gegebenenfalls zustzliche Technologien fr eine schnelle zuverlssige bertragung von Daten.
Die unternehmensweit gltigen Verfahren fr Datenschutz, Anonymisierung und Pseudonymisierung mssen
auf Datenvolumina im Multiterabytes-Bereich und Petabytes-Bereich angepasst werden. Die derzeit genutzten
Technologien sind oftmals nicht fr enorm groe Datenmengen geeignet, wie sie in komplexen Big-Data-Szenarien
anfallen werden.

Thema
Big Data der Prsi, im Diamodell

Sicherheit der Daten


In einer Zeit, in der Unternehmen groe Datenmengen automatisch ansammeln und zwischen vernetzten Speichern
weltweit transportieren, sind effiziente Strategien zur Zugriffsbeschrnkung unbedingt notwendig, um die
groe, potentielle Angriffsflache abzusichern. Angreifer werden versuchen die Daten zu loschen und zu manipulieren
sowie sie zu kopieren, um sie an Dritte weiter zu reichen oder fr anderweitige Zwecke zu verwenden. Die Daten mssen
also gesichert werden. Gleichzeitig muss der Zugriff durch Berechtigte gewhrleistet bleiben. Bereits beim Ansammeln der
Daten werden Unternehmen hierbei mit folgenden Fragen konfrontiert:

Wozu sollen die Daten erhoben werden?


Welche Art von Daten sollen erhoben werden?
Wie sollen Daten erfasst werden?
Wie knnen sie sicher gespeichert werden?
Wie knnen sie und vor unberechtigten Zugriffen Dritter geschtzt werden?
Welche ergnzenden Datenfelder sind dazu ntig?
Welche Schutzmechanismen und -strategien mssen angewandt werden?

Jederzeit ist sicherzustellen, dass die Daten vor Strungen und Eingriffen von auen geschtzt sind. Eine tragende
Rolle spielt hierbei eine effektive Verschlsselung der Daten.
Ein weiterer essenzieller Faktor ist der Schutz der Daten vor unbefugten Zugriffen. Um dies gewhrleisten zu knnen,
sind effiziente Zugriffsbeschrnkungen notwendig.
Das Resultat ineffizienter Zugriffbeschrnkungen und Sicherheitsregularien knnen beispielsweise Geheimnisverrat,
Erpressung oder der Verlust wichtiger Geschftsdaten sein.

Thema
Big Data der Prsi, im Diamodell

Qualitt der Daten


Abgesehen vom Risiko der Schutzwrdigkeit von Daten, bergen diese zudem selbst ein gewisses Risiko.
Innerhalb der Anwendung entscheidet die Qualitt der Ausgangsdaten darber, inwiefern nachfolgende
Analysen fr das Unternehmen wertvolle Ergebnisse erzeugen knnen. Wird die Qualitt der Daten in
frhen Stadien der Modellfindung falsch eingeschtzt, steigt das Risiko von Fehlinterpretationen.
Datenqualitt im herkmmlichen Sinne beschreibt oft nur die Prfung der Vollstndigkeit von Datenstzen
(beispielsweise Verfugen alle Adressen ber eine gltige Postleitzahl? oder Stimmen Postleitzahl
und Postanschrift berein? oder die reine Vermeidung von Duplikaten.
Da fr Big-Data-Projekte auch Daten aus externen Datenquellen und Social-Media hinzugezogen werden,
mssen die Losungen einen technischen Ansatz zur Implementierung von Expertenwissen bzw.
Domnenwissen liefern.

Darber hinaus mssen die Big-Data-Losungen die Plausibilitt von Daten prfen. Beispielgebend sei hier
die Analyse einer bestimmten Wahrnehmung oder Stimmung zu einem Produkt oder Sachverhalt in Social
Media genannt:

Thema
Big Data der Prsi, im Diamodell

Qualitt der Daten


Stimmen die Daten oder wurden bewusst falsche Meinungen publiziert. Handelt es sich um ein nachhaltiges
Stimmungsbild oder um eine Momentaufnahme? Stammen die Aussagen zu einer Stimmung von einer relevanten
Benutzergruppe?
Das gilt auch fr die Prfung von Daten aus externen Quellen hinsichtlich einer mglichen Manipulation. Erforderlich sind
technische und methodische Losungen fr die Verschlsselung sowohl der lagernden als auch der in Bewegung befindlichen
Daten.
Ein wichtiger Aspekt der der Datenqualitt ist die Analyse-Ergebnisse knnen nur dann einen Mehrwert erzeugen, wenn die
Analysen auf Basis korrekter Daten angewendet wurden. Die Datenintegritt.kann von verschiedenen Faktoren abhngig sein,
unter anderem von der Aktualitt der Daten sowie der Beschaffenheit der Quelle und der bertragungsart. Damit verknpft
Spielt auch die Authentizitt der Daten eine Rolle.
Ein weiterer Aspekt ist die Konsistenz der erhobenen Daten. Verluste bei der bertragung, der Speicherung, versehentliches
oder absichtliches Loschen, knnen dazu fuhren, dass die Daten in ihrer Gesamtheit nicht mehr vollstndig sind.
Darber hinaus spielt die Verfugbarkeit der Daten eine entscheidende Rolle. Innerhalb des Systems muss daher
sichergestellt sein, dass die Daten im System zu jeder Zeit, mit relativ geringem Aufwand und in korrekter Form,
von den befugten Personen abgerufen und verwendet werden knnen.

Thema
Big Data der Prsi, im Diamodell

Definitions- und Aussagerisiko


Auf der Grundlage einer zielorientierten Fragestellung, der statistisch-mathematischen Modelle und
deren struktureller Vorgaben, werden aus der Menge der gesammelten Daten die zur
Untersuchung geeigneten ausgewhlt.
Auf diesem Weg von der konkreten Fragestellung ber die Auswahl des Modells, bis hin zur
Implementierung der Big-Data-Anwendung.
Die einzelnen Prozessschritte bauen dabei aufeinander auf, und sie drfen nicht separat betrachtet
werden. Innerhalb des Prozesses sind zwei Risiken zu separieren: das Modellbildungsrisiko und das
Interpretationsrisiko.

Thema
Big Data der Prsi, im Diamodell

Modellbildungsrisiko

Abbildung: Vom Modell zur Aussage: mgliche Risiken auf diesem Weg

Thema
Big Data der Prsi, im Diamodell

Modellbildungsrisiko
Ein bergreifendes Risiko besteht innerhalb der Modellbildung durch die unbedingt notwendige Einhaltung von DatenschutzRichtlinien und Gesetzen. Beispielsweise sollte schon innerhalb der Formulierung der Fragestellung eine Vorstellung dafr
vorliegen, welche Daten rechtskonform erhoben und verarbeitet werden drfen, so dass das erhoffte Ergebnis letztendlich auch
zu erhalten ist. Durch das Aufsetzen einer Fragestellung, welche keinen Personenbezug erwartet, kann auch dem Risiko einer
unzureichenden Anonymisierung oder Pseudonymisierung der Daten entgangen werden. Die Fragestellung sollte mglichst
konkret gestellt werden, um einen genauen Erwartungshorizont fr das Ergebnis aufzuzeigen, und moralisch-ethische Aspekte
ebenso wie unternehmerische Aspekte bercksichtigen.
Der Teilprozess der Modell-Auswahl umfasst die Auswahl geeigneter statistisch-mathematischer Modelle sowie die Auswahl
der Analysetechniken und -verfahren. Fr keine Big-Data-Fragestellung existiert eine Pauschallosung.
Standards, welche sich mit der Zeit fr klassische BI-Losungen entwickelt und bewahrt haben, knnen im Kontext von Big Data
mitunter keine effiziente Anwendung finden. Innerhalb der Entwicklung knnen erste Probleme auftreten, die durch fehlerhafte
Definitionen innerhalb der vorherigen Schritte induziert wurden. Wird die Entwicklung als eigenstndiger Prozess gesehen,
welcher nicht durch bereits getroffene Entscheidungen beeinflusst wird, kann es zudem dazu kommen, dass Modellannahmen
keine Einbeziehung finden und in der spteren Anwendung nicht erfllt werden. Inkonsistenzen
und Qualittsmangel innerhalb der zugrunde liegenden Daten, Fehler innerhalb des Modells, sowie Sicherheitslcken, welche
Manipulationsrisiken erzeugen, zeigen sich sptestens innerhalb der Anwendung.
Vermehrt werden Analysen direkt in die Prozessablaufe integriert. Vor allem in diesem Zusammenhang, spielen die Risiken
eine groe Rolle. Die Ergebnisse derartiger Analysen werden zumeist, direkt im weiteren Prozessverlauf angewandt, ohne eine
zwischengeschaltete berprfung oder Interpretation durch den Menschen. Stellen diese Analysen den zugrunde liegenden
Sachverhalt nicht korrekt dar, kommt es unweigerlich zu Fehlern im Prozessablauf.

Thema
Big Data der Prsi, im Diamodell

Interpretationsrisiko
Wurde die Wahl eines Projektes erfolgreich innerhalb der Anwendung umgesetzt oder steht die Entwicklung des Modells kurz
vor einem erfolgreichen Abschluss, ist es kein weiter Weg mehr bis hin zur Ergebnisinterpretation sowie den zu erzielenden
Schlussfolgerungen.
Doch selbst wenn alle bisherigen Annahmen korrekt waren, das Modell zutreffend ausgewhlt, entwickelt und angewendet
wurde, knnen sich innerhalb der Auswertung und Auslegung der Ergebnisse neue Probleme und Fehler offenbaren.
Viele Modelle schaffen es zwar, komplexe Zusammenhange fachgem und fehlerlos zu ermitteln, verfugen aber nicht ber
eine leicht verstndliche Darstellung.
Derartige Modelle sind in hohem Mae anfllig fr Fehlinterpretationen durch Laien. Insbesondere kausale Zusammenhange
werden gerne gefunden, obwohl die zugrundeliegenden Analysen derartige Ruckschlusse mglicherweise berhaupt nicht
zulassen. In der Folge entstehen fehlerhafte Aussagen. Dass solche Fehler auch ber lngere Zeit nicht in Vergessenheit
geraten, wird beispielsweise an Hand der im Buch Freakonomics dargestellten Falle ersichtlich.
Big Data kann (wie die meisten statistischen Modelle) zunchst nur fr denjenigen einen Nutzen und ein verwertbares
Ergebnis erzeugen, der die Regeln der Interpretation kennt. Bei regelmigen Analysen mussen Definitionen fr die
Verwertung und Interpretation des Ergebnisses erstellt werden. Existierende Definitionen, mssen berprft werden.
Unabhngig von unbewussten Fehlern innerhalb der Analyse und Interpretation knnen Ergebnisse und Aussagen bewusst
verflscht werden. Derartiger Missbrauch ist besonders kritisch, da er sowohl schwer zu erkennen ist.

Thema
Big Data der Prsi, im Diamodell

Faktoren der Risikovermeidung


Um den benannten Risiken begegnen zu knnen, ist es in erster Linie wichtig, den potentiellen Fehlerquellen kontinuierlich
Beachtung zu schenken. Viele Fehler entstehen durch unachtsames oder unberlegtes Handeln. Bisherige Standards und
bewahrte Systeme, Modelle oder Entscheidungen, finden innerhalb des Big-Data-Kontextes oft keine direkte Umsetzung bzw.
Anwendung mehr. Werden alle mglichen Risikofaktoren (vor allem auch das Bauchgefhl bei der Fragestellung und bei der
Interpretation) angemessen beachtet und Entscheidungen und deren Auswirkungen gegeneinander abgewogen, kann ein
sicherer Umgang mit Big Data gewhrleistet werden. Die Abbildung zeigt einen berblick ber die Faktoren,
die innerhalb der Risikovermeidung eine Rolle spielen.

Abbildung: Faktoren der Risikovermeidung

Thema
Big Data der Prsi, im Diamodell

Faktor: Daten
us den Umstanden und dem Zweck der Datenerhebung, sowie aus Vertragen oder Gesetzen
A
ergeben sich oftmals spezielle Lschfristen fr die betreffenden Daten. Es bestehen also Vorgaben ber
deren Aufbewahrungszeitraum. Die Einhaltung dieses Mindesthaltbarkeitsdatums sollte unbedingt
gewhrleistet werden.

Die Qualitt der Daten sollte grndlich, hinsichtlich ihrer Konsistenz, Aktualitt und Korrektheit geprft
werden

Durch das Einbringen fiktiver Daten in Form von Hashwerten ber einzelne Datensatze oder Datenbanken,
kann die eindeutige Identifizierung eines Datensatzes und dessen Integritt berprft und somit
gewhrleistet Werden (Stichwort: Daten-DNA). Es lasst sich so das Herkunftssystem der Daten ermitteln
sowie prfen, ob ein Datensatz ein Original oder eine Kopie ist.

Um die unrechtmige Datenweitergabe oder Datendiebstahl aufdecken zu knnen, ist die Anreicherung
der im System erhobenen Datensatze mit geflschten bzw. unechten Datenstzen empfehlenswert.

Thema
Big Data der Prsi, im Diamodell

Faktor: Data Management


ie Datenschutzgesetze sollten regelmig berprft und entsprechende
D
Risikovermeidungsmanahmen festgelegt werden. Zum Beispiel durch Hinweisgebersysteme,
Anonymisierung und Aggregation, Pseudonymisierung sowie durch Schulungen der Mitarbeiter.

Eine Datenlandkarte mit Metainformationen der Daten im System kann ersichtlich machen, ob Daten
von nderungen an ueren Bedingungen betroffen sind oder ob kein Handlungsbedarf besteht.

Daten sollten im System nur endgltig gelscht werden knnen. Lschungen die Daten nur scheinbar
aus der Datenbank entfernen und sie im Hintergrund archivieren bergen ein hohes Risiko.
Lschprotokolle verbessern die Nachweisbarkeit von Lschungen.

Um eine Big-Data-konforme Verwaltung der Daten umsetzen zu knnen, muss zu jeder Zeit und mit
geringem Aufwand auf die eigenen Daten zugegriffen werden knnen.

Thema
Big Data der Prsi, im Diamodell

Faktor: Organisation
ngemessene Ressourcen, in Form von Budget, Expertise, Arbeitskraft und Zeit gewhrleisten
A
Compliance.

Eine eigene Data-Science-Fachabteilung verbessert die Compliance und reduziert Risiken. Innerhalb
dieses Daten-Gremiums sollten Personen aus dem Betriebsrat und der IT, der
Datenschutzbeauftragte und der Chief Data Officer vertreten sein.

Es sollten klare Formulierungen bezglich der geregelten Verantwortlichkeiten und Aufgaben sowie
der bestehenden Schnittstellen, Zugriffsrechten und Nutzungsregeln existieren.

Die Nutzer sollten ber die Funktionsweise der im Modell verwendeten Analyse-Algorithmen
aufgeklart werden. Ein allgemeines Verstndnis der Anwendung beugt Fehlinterpretationen vor.

Erkenntnisse der internen berwachung sollten regelmig kommuniziert werden. Besondere


Aufmerksamkeit sollte Hinweisen auf Verste zukommen. Die bestehenden Sanktionen sollten
allgemein bekannt sein.

Thema
Big Data der Prsi, im Diamodell

Faktor: Prozess
urch eine externe berwachung des Prozesses der Datenwertschpfung knnen Datenmissbrauch
D
und Ergebnismanipulation vermieden werden.

Bestndige Begleitung des Projektprozesses durch den Betriebsrat sowie durch einen
Datenschutzbeauftragten um kontinuierlich die Rechtskonformitt zu berprfen.

Strenge Kontrollen und Prfungen des Ablaufs knnen Schwachstellen innerhalb der internen
Prozesse aufdecken. Aus den Ergebnissen der Prfung knnen berarbeitete Prozessplanungen
aufgesetzt werden.

Thema
Big Data der Prsi, im Diamodell

Faktor: Kunden als Betroffene


er Mehrwert der fr einen Anwender entsteht, welcher seine Einwilligung zur Nutzung seiner
D
persnlichen Daten erteilt, sollte deutlich artikuliert werden.
Der Kunde sollte genauestens ber Art und Umfang der Verwendung informiert werden. Durch die
Darstellung des persnlichen Nutzens und die genaue Auskunft, kann das Vertrauen des Kunden
durch die Transparenz bestrkt werden.

Ohne eine explizite Einwilligung, d.h. ohne Legitimation sollte keine Datenspeicherung und
verarbeitung stattfinden.

Personenbezogene Daten sollten immer nur zweckbezogen angefordert und gespeichert werden. Laut
dem BDSG gelten zum einen die Zweckbindung und zum anderen die Datensparsamkeit, weshalb
niemals mehr Daten als unbedingt notwendig gespeichert werden sollten.

Thema
Big Data der Prsi, im Diamodell

Methodische Herausforderungen
Big Data verkrpert vor allem eine Kombination vieler verschiedener, technologischer Architekturen. OnlineTransaktionsverarbeitung und Online Analytical Processing verschmelzen.
Data Warehouses und BI-Losungen erhalten mit innovativen, dem Bereich Big Data zuzurechnenden
Technologien (In-Memory Computing, Complex Event Processing, neue Datenbank-Architekturen) neue
Aspekte.
Die Herausforderung besteht in der Kombination der bisherigen mit den neuen Technologien und der
berwindung der traditionellen Trennung von transaktionaler und analytischer Online-Verarbeitung.
Das erfordert neben den Technik-Investitionen vor allem organisatorische Manahmen und einen
Kulturwandel in den Unternehmen bis hin zur Neudefinition von Rollen und Verantwortlichkeiten.
Anwender, die bereits mit Data Warehousing und Business Intelligence vertraut sind, werden auf dem Weg
zur Verarbeitung sehr groer Datenmengen zunchst einzelne Analyseaufgaben durch neue Technologien
ersetzen oder ergnzen.
Auch die Kombination von Stapelverarbeitung und Online-Verarbeitung stellt eine Herausforderung dar, die
in einem Big-Data-Projekt mit methodischen und technischen Manahmen adressiert werden muss.

Thema
Big Data der Prsi, im Diamodell

Technische Herausforderungen

Mit den neuen Technologien ist die Skalierbarkeit der vorhandenen Systeme zu prfen. Werden groe
Datenmengen aggregiert und zunchst im eigenen Rechenzentrum gespeichert und verarbeitet, erschpft
sich die Skalierbarkeit von Standardsystemen (Storage und Server) im Terabytes- und im PetabytesBereich. Oft mssen dann weitere Systeme mithin weitere Rechenzentren geplant, installiert und in die
Unternehmensprozesse integriert werden. Hier werden Erfahrungen und Losungen bentigt, die bislang im
Supercomputing typisch sind.
Dabei ist wiederum offen, wie weit die bereits genutzten und auch die neu hinzugekommen SoftwareLosungen dieses Wachstum mittragen, denn oft ist die Parallelisierung innerhalb einzelner Systeme schon
eine enorme Herausforderung fr die Systembetreuer in den Anwenderunternehmen.
Echtes Disaster-Recovery (Wiederherstellung von Systemen und Daten im Katastrophenfall) kann im
Petabytes-Bereich derzeit nicht mit akzeptablem finanziellen Aufwand realisiert werden. Die Anwender
mssen also sehen, dass sie mit den vorhandenen Technologien eine grtmgliche Hochverfgbarkeit,
auch gegen logische Fehler, erreichen. Die hardwareseitigen Hochverfgbarkeitsmechanismen (RAID,
Snapshot-Technologien) mssen durch Datenspiegelungsverfahren ergnzt werden.

Thema
Big Data der Prsi, im Diamodell

Technische Herausforderungen
Auch die Deduplizierung von Daten spielt eine Rolle. Kontraproduktiv im Sinne der Erschlieung von derzeit
noch in den groen Datenmengen verborgenen Informationen wre es, auf eine Reduzierung der zu
administrierenden und zu sichernden Daten zu setzen.
Die Erfahrungen aus dem Supercomputing zeigen auch, dass die Performance des gesamten Systems und
auch die Performance zwischen den Servern, innerhalb des SANs und im Weitverkehrsnetz genauer
betrachtet werden muss. Es wird knftig eine Herausforderung sein, den Datendurchsatz auch im PetabytesBereich nicht nur auf der verarbeitenden Seite, sondern auch bei der Ein- und Ausgabe zu erreichen.
Dementsprechend muss auch die Leistungsfhigkeit des Netzwerks (LAN und WAN). Dieser
Problematik werden sich auch die Telekommunikationsanbieter stellen mssen.
Die Netzwerkauslastung wird auch bei der Verteilung der Berechnungsergebnisse eine Rolle spielen, da viele
Big-Data-Szenarien den Nutzen darin ziehen, dass die Berechnungsergebnisse (im Gegensatz bzw. in
Erweiterung zu klassischen Business-Intelligence-Losungen an grere Benutzergruppen, z. B. ganze
Vertriebsmannschaften verteilt werden).

Thema
Big Data der Prsi, im Diamodell

Technologien zur Umsetzung rechtlicher


Anforderungen
Zuerst wird der Frage nachgegangen, wie Garantien ber den Datenschutz in die Datenanalyse
integriert werden knnen. Ein Patentrezept kann nicht angeboten werden; es werden jedoch Anstze
diskutiert, die sich als sinnvoll herauskristallisiert haben.
Eine wichtige Frage im Zusammenhang mit der Verwertung persnlicher digitaler Daten ist noch
Gegenstand der Forschung: Wie kann ein Modell zur Verwertung persnlicher digitaler Daten
aussehen, das Dateninhaber, Datenverwerter sowie Dienstleister der Datensicherung,
Datenaufbereitung sowie des Datenschutzes zusammenfhrt?
Als eine mgliche Antwort auf die Herausforderungen im Umgang mit persnlichen digitalen Daten
wird die Etablierung einer Deutschen Daten-Treuhand vorgestellt.
Von groem Interesse sind auch erste Erfahrungen bei der Implementierung von Open-DataAnstzen.

Thema
Big Data der Prsi, im Diamodell

Privacy Preserving Data Mining


Einer der grten Risikofaktoren fr Big-Data-Projekte liegt in den Anforderungen hinsichtlich des Datenschutzes. Hemmnisse
liegen nicht nur in rechtlicher Anforderungen hinsichtlich personenbezogener Daten etwa aus Bundesdatenschutzgesetz und
EU-Datenschutzrichtlinie. Auch die Angst vor schlechter PR (Stichwort: Datenkrake) oder die Angst, geschftskritische Daten
fr Analysen herauszugeben etwa fur eine branchenweite Betrugserkennung knnen eine Big-Data-Idee trotz klar
erkennbarem Nutzen blockieren.

Wahrend die Sicherheit von kritischen Daten beim Big Data im Sinne der reinen Speicherung von Daten durch Standard-ITSicherheitsansatze erfllt werden kann, liegt die Situation beim Big Data im Sinne der Analyse und Nutzbarmachung dieser
groen Datensatze anders. Hier existiert in vielen Fallen gerade das Interesse, die Ergebnisse der Analyse ffentlich zu
machen, zum Beispiel indem als Ergebnis einer klinischen Studie neue Behandlungsmglichkeiten
identifiziert werden, Erkenntnisse zu Risikofaktoren in Versicherungsvertragen zur Preiskalkulation genutzt werden oder in der
Fraud Detection neue Betrugsmuster zur Betrugsabwehr eingesetzt werden sollen.
Durch immer mehr und immer hochdimensionalere Daten wird es hier immer einfacher mglich, sehr individuelle Muster zu
finden, die auf kleine Untergruppen von Fallen angepasst sind. Dadurch steigt die Gefahr, dass sich unabsichtlich aus
publizierten Mustern und Ergebnissen Informationen ber einzelne Personen zurckschliesen lassen.

Thema
Big Data der Prsi, im Diamodell

Privacy Preserving Data Mining


Als Beispiel: das Muster junge Kunden verursachen hhere Schaden in der KFZ-Versicherung ist
sicherlich vllig unkritisch und publizierbar.
Aber aus dem Muster Porschefahrer unter 20 Jahren mit Wohnsitz in der PLZ 53727 verursachen hufiger Schaden
ber 1 Mio. Euro lassen sich mit hoher Wahrscheinlichkeit personenbezogene Informationen zurckschieben
gerade wenn andere Informationsquellen wie Lokalnachrichten aus dem Internet zur Verfugung stehen.
Das Privacy-Preserving Data Mining beschftigt sich mit der Frage, wie Garantien ber den Datenschutz in die
Datenanalyse integriert werden knnen. Aufgrund der Komplexitt der Fragestellung gibt es dabei kein Patentrezept,
verschiedene Ansatze haben sich aber als sinnvoll herauskristallisiert.

Thema
Big Data der Prsi, im Diamodell

Ansatz Anonymize-and-Mine
Beim Ansatz Anonymize-and-Mine werden Daten zuerst anonymisiert (bzw. pseudonymisiert). Dies
geschieht, indem gezielt Informationen weggelassen werden, bis klar definierte Anonymitatskriterien
erfllt sind.
Die gebruchlichsten Anonymitatsmae sind hier die k-Anonymitat, l-Diversitat und t-Closeness.
Geeignete Tools dafr sind frei verfugbar. Der Vorteil dieses Ansatzes ist, dass einmal anonymisierte
Daten bedenkenlos weiterverarbeitet werden knnen, die kritischen Informationen sind ein fr allemal
zerstrt.
Der Nachteil ist, dass dies ungerichtet erfolgt und dabei auch Informationen, die fr eine
Analyse sehr relevant sein konnten, zerstrt werden knnen. Gerade bei sehr hochdimensionalen
Daten typisch fr Big Data ist dies ein sehr schwieriges Problem.
Als Beispiel: wenn das Data Mining auf sehr hochdimensionalen Versicherungsdaten herausfindet,
dass nur Alter und Wohnort fr das Risiko relevant sind, ist eine Anonymisierung einfach. Wird
allerdings vorher anonymisiert ist es sehr einfach mglich, dass gerade Alter und Wohnort aus den
Daten entfernt werden, da sie zusammen mit wenigen anderen Daten eine Identifikation erlauben.

Thema
Big Data der Prsi, im Diamodell

Ansatz Mine-and-Anonymize
Der Ansatz Mine-and-Anonymize geht die entgegengesetzte Richtung: die Datenanalyse erfolgt auf
nichtanonymisierten Daten, erst fr das Ergebnis werden Datenschutzgarantien gegeben. Dies erfolgt
entweder durch ein geeignetes Post-Processing Ergebnisse, die vorgegebenen Privacy-Kriterien
widersprechen, werden herausgefiltert oder durch den direkten Einbau der Kriterien in den DataMining-Algorithmus.
Dadurch ist die Umsetzung dieses Ansatzes eher kompliziert fr jedes Data-Mining-Verfahren und
jede Datenschutzanforderung muss eine eigene Implementierung erfolgen aber dadurch sind hier
auch die besten Ergebnisse zu erwarten.

Thema
Big Data der Prsi, im Diamodell

Secure Distributed Computing


Ein Ansatz, der sich gerade bei verteilten Daten eignet, ist das Secure Distributed Computing. Typische Einsatzfalle sind, wenn
mehrere Unternehmen bei der Datenanalyse kooperieren wollen etwa um Betrugsmuster zu finden ohne ihre eigenen Daten
herauszugeben oder die verschiedenen Informationen ber dieselben Personen an mehreren Stellen getrennt gespeichert sind
und aus Sicherheitsgrnden keine kombinierte Datenbank in Betracht kommt.
Mittels spezieller kryptographischer Techniken lassen sich Data-Mining-Algorithmen umsetzen, die dieselben Ergebnisse
erzeugen wie bei einer klassischen Analyse auf einem kombinierten Datensatz, ohne dass die einzelnen Daten exportiert
werden mssen oder erschliebar sind. Auch hier sind hochqualitative Ergebnisse zu erwarten, bei der Umsetzung handelt es
sich aber wiederum um Speziallosungen, die zudem aufgrund der eingesetzten kryptographischen Verfahren sehr
laufzeitintensiv sind.
Zusammengefasst lasst sich sagen, dass das Privacy-Preserving Data Mining sehr gute Ansatze liefert,
Datenschutzanforderungen mit mathematischen Garantien zu erfllen. Aufgrund der Komplexitt der Fragestellungen sollten
diese Fragestellungen aber auf jeden Fall direkt zu Beginn eines Big-Data-Projektes adressiert werden, um effektive Losungen
zu finden.

Thema
Big Data der Prsi, im Diamodell

Custodian Gateways und ihre Einsatzmglichkeiten bei


Big-Data-Anwendungen
Aktuell ist die werbetreibende Industrie der grte Adressat derartiger Datenverwertungsmodelle. Das
Individuum partizipiert an der Verwertung seiner Daten hingegen in der Regel nur mittelbar durch
unentgeltlich zur Verfugung gestellte Informationen oder Anwendungen (Dienste).
In der Bevlkerung zeichnet sich jedoch ein wachsendes Bewusstsein fr den Wert persnlicher
digitaler Daten ab, so dass davon auszugehen ist, dass die Burger in Zukunft verstrkt nur dann eine
wirtschaftliche Verwertung ihrer persnlichen Daten gestatten werden, wenn sie an
den Ertragen angemessen beteiligt werden.
Eine groe Herausforderung liegt daher u.a. in der differenzierten monetren Bewertung persnlicher
digitaler Daten. Hinzu kommen Aspekte der Daten-Sicherheit und des Verbraucherschutzes.
Ebenso sind Aspekte und Potentiale der Steuer- und Wirtschaftspolitik zu bercksichtigen; so kann ein
gezielter Aufbau von Verwertungsstrukturen zur Steigerung der nationalen Wortschpfung beitragen,
Indem Individuen und Inhaber persnlicher digitaler Daten dabei unterstutzt werden, ihre Rechte an
deren Verwertung auszuben, die Verwertung selber zu optimieren sowie ihr wirtschaftliches Potential
gezielt und individuell zu nutzen.

Thema
Big Data der Prsi, im Diamodell

Custodian Gateways und ihre Einsatzmglichkeiten bei


Big-Data-Anwendungen
Folglich ist ein Modell zur Verwertung persnlicher digitaler Daten, an dem sowohl Dateninhaber, Datenverwerter als auch
Dienstleister der Datensicherung, Datenaufbereitung sowie des Datenschutzes beteiligt sind, zu entwickeln. Die Ziele der neuen
Datenverwertung sind jedoch nicht allein mit neuen technischen Losungen zu erreichen.
Voraussetzung fr die Gestaltung bzw. Steuerung einer solchen persnlichen digitalen Datenwirtschaft (PDD) ist es, zwischen
den diversen Stakeholdern ein Level Playing Field auszutarieren. Der Begriff bezieht sich auf den sich gegenwrtig
intensivierenden Kampf um die Gewinne aus persnlichen Daten (battle for share), der durch Marktteilnehmer
ohne marktbeherrschende Position hervorgerufen wird.

Diese Tendenzen gehen von Individuen, Nutzer-Communities und Konzernen aus allen mglichen Branchen sowie auch der
Regierung aus. Damit erlangt die persnliche digitale Datenwirtschaft eine erhebliche gesamtwirtschaftliche Bedeutung, die bei
der Erstellung der volkswirtschaftlichen Gesamtrechnung in Betracht gezogen werden muss. Als logische Folge dieses
Prozesses mssen nderungen in der Besteuerung, bei den rechtlichen und ordnungspolitischen Rahmenbedingungen usw.
vorgenommen werden.
Eine mgliche Antwort auf die Herausforderungen im Umgang mit persnlichen digitalen Daten ist die Etablierung einer
Deutschen Daten-Treuhand (DEDATE) in Form einer ffentlichrechtlichen Krperschaft. Sie fungiert zum einen als
Steuerungseinheit, welche Spielregeln fr die Nutzung und Verwertung der Daten, unter Bercksichtigung der Bedrfnisse der
Marktteilnehmer, festlegt.
Zum anderen gewhrleistet sie die Einhaltung der vom Individuum gewahrten Nutzungsrechte und nimmt ggf. die
Nutzungsentgelte entgegen, welche an die Individuen ausgeschttet werden. Vorteil eines solchen Modells ist die codierte
Speicherung und kontrollierte Nutzung der persnlichen Daten. Der Datentreuhnder (Custodian) verfolgt keine wirtschaftlichen
Interessen durch die Verwertung der Daten, sondern muss allein seiner Aufgabe der Datenspeicherung und -sicherung gerecht
werden.

Thema
Big Data der Prsi, im Diamodell

DEDATE

Abbildung: DEDATE als Koordinations- und Steuerungseinheit des


Marktes fr persnliche digitale Daten

Thema
Big Data der Prsi, im Diamodell

Custodian Gateways und ihre Einsatzmglichkeiten bei


Big-Data-Anwendungen
Dadurch kann auch folgenden Herausforderungen im Zuge der Verwertung persnlicher digitaler Daten begegnet
werden:

Aushhlung und Missbrauch ziviler und kommerzieller Rechte der Dateneigentmer,


Etablierung von unserisen oder kriminellen Akteuren auf dem Markt der Datenerfassung und -verwaltung,
Verhinderung eines Marktgleichgewichts auf dem Markt fr persnliche digitale Daten und der Ausschpfung der
Innovations- und Wertschpfungspotentiale dieser Daten bei Behinderung oder Blockade des Zugriffs auf
freigegebene persnliche digitale Daten aus wirtschaftlichen Interessen, wenn der Datenverwalter gleichzeitig
Verwertungsinteressen verfolgt und
Einfhrung einheitlicher Verwertungsregeln fr alle persnlichen digitalen Daten ohne Bercksichtigung von deren
Sensitivitt, des Verwertungskontextes und des Verwerters (ffentlich oder privat).

Zudem kann ein Treuhandmodell der codierten Datenspeicherung und sicheren Datenverwaltung

die Anonymitt der Nutzer gewhrleisten,


der unterschiedlichen Sensitivitt der einzelnen Datenarten gerecht werden,
den Kontext der Datennutzung kontrollieren und
zwischen der Datenverwertung durch ffentliche Instanzen und kommerzielle Nachfrager unterscheiden.

Thema
Big Data der Prsi, im Diamodell

Custodian Gateways und ihre Einsatzmglichkeiten bei


Big-Data-Anwendungen
Smart Meter (Intelligente Zahler) sind an das Kommunikationsnetz angebunden und ermglichen es
Energieversorgungsunternehmen, die Zhlerstande von Kunden fr Strom, Gas, Wasser und Warme aus der Ferne abzurufen.
Zustzlich bietet Smart Metering in der Regel weitere Funktionalitten wie die Erfassung von dezentral eingespeister Energie
(z. B. durch die husliche Photovoltaik-Anlage), die automatisierte Weiterverarbeitung der Daten, die Mglichkeit der
Fernsperrung oder Leistungsbegrenzungen. Seit 2010 sind die Netzbetreiber in Deutschland gesetzlich verpflichtet, in allen
Neubauten, bei Totalsanierungen und Letztverbrauchern mit einem Jahresverbrauch groer 6 000 Kilowattstunden Smart Meter
einzubauen.
Am Beispiel des Smart Metering soll aufgezeigt werden, dass die Entwicklung einer Treuhander-Plattform fur persnliche
(Energie-)Daten (Custodian Gateway Administrator) nicht nur Auswirkungen fr die Internetwirtschaft mit sich bringt, sondern
auch fr traditionelle Industrie-und Dienstleistungsunternehmen.
Durch die Erfassung von umfangreichen Verbrauchsdaten der Energiekunden bei Smart Metering verfugen die
Energieversorger ber Daten, die auch fr andere Unternehmen von Interesse sein knnen. Viele Aktivitten im Haushalt sind
mit dem Verbrauch von Energie verbunden. So knnen durch die Auswertung der Energieverbrauchsdaten Kundenprofile
generiert werden.
Neben der primr angestrebten Optimierung der Netzauslastung und Energieversorgung mit Hilfe der Energieverbrauchsdaten
ergibt sich fr Energieversorgungsunternehmen ein mgliches neues Geschftsmodell im Bereich des Handels mit anfallenden
Kundendaten.

Thema
Big Data der Prsi, im Diamodell

Datenschutzfreundliche Technologien: Verteilte Rollen


Das Datenschutzrecht regelt den Umgang mit personenbezogenen Daten, d.h. Einzelangaben ber eine bestimmte oder
bestimmbare Person. Nach Ansicht der deutschen Datenschutzbehrden sollen auch IP-Adressen personenbezogene Daten
sein.
Diese Rechtsansicht hat weitreichende Folgen fr die Analyse des Surfverhaltens im Internet, denn im Datenschutzrecht gilt das
sogenannte Verbotsprinzip. Daten drfen nur verarbeitet werden, wenn ein Gesetz dies erlaubt oder der Betroffene zugestimmt
hat. Webanalytics sind dann nur unter engen Voraussetzungen zulssig.
Die Befugnisse zur Analyse der Daten lassen sich erweitern, wenn man verhindert, dass die Daten einen Personenbezug
erhalten. Dazu kann man die Daten anonymisieren, was aber die Analyse erschwert. Eine andere Mglichkeit besteht darin, die
Informationen auf verschiedene Personen zu verteilen.
Wenn ein Unternehmen nur ber einen Teil der Informationen verfugt und damit die Daten nicht einer Person zuordnen kann, sind
die Daten fr dieses Unternehmen nicht personenbezogen.
Wie sieht so etwas in der Praxis aus? Web Analytics funktioniert blicherweise so, dass der Betreiber einer Website eine
Analytics-Anwendung einsetzt oder mit einem Analytics-Anbieter zusammenarbeitet und ihm die Daten zuleitet. Wenn WebsiteBetreiber und Analytics-Anbieter vollen Zugriff auf die Nutzerdaten haben, insbesondere die IP-Adresse, liegt eine Verarbeitung
personenbezogener Daten vor. Dann bestehen hohe rechtliche Anforderungen an die Zulssigkeit.

Thema
Big Data der Prsi, im Diamodell

Datenschutzfreundliche Technologien: Verteilte Rollen


Arbeitet man mit verteilten Rollen, erweitern sich die Mglichkeiten. Ein Beispiel ist die Anwendung PT 2.0 der nugg.ad AG,
die sogar von der Datenschutzaufsicht Schleswig-Holstein zertifiziert worden ist. Der Website-Betreiber und der AnalyticsAnbieter, nugg.ad, setzen eine unabhngige dritte Stelle ein, den sogenannten Anonymizer.
Dieser Anonymizer erhalt zwar die IP-Adresse des Nutzers der Website, er gibt diese Information aber nicht an nugg.ad und
den Betreiber der Website weiter. Stattdessen liefert er auf Grund statistischer Auswertungen nur Empfehlungen ber
nutzerbezogene Werbung. Der Anonymizer protokolliert auch keine Nutzungsdaten, auch im Nachhinein ist es daher nicht
mglich, Informationen mit IP-Adressen zu verknpfen.
Diese Rollenverteilung fuhrt dazu, dass jeder Beteiligte immer nur einen Teil der Informationen kennt. Wenn kein Beteiligter in
der Lage ist, die Daten einer bestimmten Person zuzuordnen, liegen keine personenbezogenen Daten vor. Das
Datenschutzrecht ist nicht anwendbar.
Die technischen Manahmen mssen durch vertragliche Vereinbarungen begleitet werden. Der Anonymizer ist
Auftragsdatenverarbeiter von nugg.ad und Unterauftragnehmer des Betreibers der Website. Zwischen den
Beteiligten bestehen vertragliche Vorkehrungen, die einen Zugriff auf die Datenverarbeitung des Anonymizers
verhindern.
Dieses Konzept, durch Rollenverteilung den Personenbezug von Daten zu vermeiden, lasst sich auch auf andere
Konstellationen bertragen. Gerade im Bereich der medizinischen Forschung gibt es mehrere Anwendungsbeispiele.
Das Konzept steht und fallt damit, eine unabhngige Stelle mit der Verwaltung der Daten zu beauftragen und sichere
vertragliche Regelungen zu schaffen, die auch einer berprfung durch die Datenschutzbehrde standhalten.

Thema
Big Data der Prsi, im Diamodell

ransparenz gegenber Betroffenen:


T
Best Practices aus Open-Data-Projekten
Das Berliner Open-Data-Portal wird von Experten als die fhrende Anwendung in Deutschland eingeschtzt.
2010 gestartet, verzeichnet es mittlerweile bis zu 20.000 Zugriffe pro Monat.
Basierend auf den ersten Erfahrungen der Verwaltung und der Burger bei der Implementierung von Open-DataAnstzen, wie z. B. in Berlin, sind folgende Schlusse zu ziehen:

Das politische Bekenntnis zu offenen Daten sowie Bestimmung eines Gesamtverantwortlichen fr offene Daten
auf Seiten der Verwaltung ist ein wesentlicher Ankerpunkt zur erfolgreichen Einfhrung eines Open-Data-Portals.

Entscheidend fr das Funktionieren von Open-Data-Portalen sind vor allem auch die Definition von Richtlinien zur
Auswahl der Daten sowie wohldefinierte Prozesse fr das Datenportal.

Die ffentliche Verwaltung sollte mit Start des Projektes eine generelle Informationsstrategie festlegen.

inheitliche und klare Lizenz- und Nutzungsbestimmungen und der direkte Zugang zu den AGBs sind ein weitere
E
Hauptbestandteil fr das Aufsetzen eines solchen Projektes. Hauptaugenmerk bei der Nutzung der Daten sollte
auf der Nachvollziehbarkeit der Daten gelegt werden.

Thema
Big Data der Prsi, im Diamodell

Transparenz gegenber Betroffenen:


Best Practices aus Open-Data-Projekten

Die stabile und langfristige Bereitstellung und kontinuierliche Qualittssicherung der Daten muss ein
Schwerpunkt bei der Kommunikation mit den ffentlichen Datenlieferanten sein.

utzung von klaren Standards fr das Datenportal und dessen Sicherheit (Kompatibilitt der Daten zu
N
anderen Portalen, etc.) sind Voraussetzung fr ein erfolgreiches Projekt.

Auf der technischen Seite liegen die Herausforderungen insbesondere bei den historisch gewachsenen
Strukturen der unterschiedlichen Datenbestande. So gilt, weit fortgeschrittene Harmonisierungsprojekte, wie
bei den Geodaten, mit anderen Fachgebieten zusammenzufuhren. Datenkonverter sind zu entwickeln,
Metadatensatze abzugleichen, Attribute festzulegen und die notwendigen Aufbereitungs- und
Verarbeitungsprozesse zu definieren.
In der Praxis bedeutet das, dass Datensatze, die bisher nicht maschinenlesbar waren, verffentlicht werden
mssen. Datensatze, die bereits online sind, werden zumeist in XML zur Verfugung gestellt, damit sie von
Dritten verwendet, bei Bedarf angereichert und verffentlicht werden knnen.

Die einzelnen Fachportale werden weiter bestehen und die Datensatze pflegen. Nur dort knnen die Daten
gut gepflegt und bearbeitet werden, so dass eine Open-Data-Portal sich am besten in einem ContentManagement- System (CMS) abbilden lasst.

Thema
Big Data der Prsi, im Diamodell

Herausforderungen im Betrieb
von Big-Data-Lsungen
Im Betrieb geht es darum, Big-Data-Lsungen effizient und zuverlssig zu installieren, verwalten, erweitern und verndern. Es
gilt, das Zusammenspiel der verschiedenen Technologien ber alle Ebenen einer Lsung hinweg (physische Infrastruktur,
Daten-Haltung und -bereitstellung, analytische Verarbeitung, Visualisierung, Daten-Integration, Governance und DatenSicherheit) zu beherrschen.
Der Betrieb von Big-Data-Losungen konfrontiert Unternehmen mit einer ganzen Reihe von Herausforderungen. Das
Okosystem aus Big-Data-Technologien und Anbietern ist fragmentiert, entwickelt sich aber mit hoher Geschwindigkeit. Outof-the-Box-Losungen sind rar, da Losungen meist auf die speziellen Anforderungen des Unternehmensumfeldes zugeschnitten
werden. Die Situation verstrkt sich auerdem durch den Mangel an Big-Data-Spezialisten und Architekten in vielen
Unternehmen.
Aus diesem Grunde richten viele Anwender auch ihre Blicke auf die spezialisierten Service Provider, die ihre Big- DataLsungen managen und betreiben. Entscheidend fr das Losungsdesign und die Auswahl von Technologie-Partnern sind die
Geschftsanforderungen und die Einsatzgebiete, die eine groe Auswirkung auf das operationale Modell der Losung haben.
Unternehmen stehen heute vor der Wahl, zusammen mit einem Spezialanbieter und seiner Ende-zu-Ende-Technologie fr ein
begrenztes Spektrum von Einsatzgebieten zu beginnen oder alternativ . eine gesamtheitliche Big-Data-Plattform zu etablieren,
die vom Leistungsspektrum her verschiedene Mandanten und Use Case-Anforderungen unterschiedlichster Art auf Basis einer
Universal-Plattform bedient.
Auf dem Weg zu einer Big-Data-Plattform sind zahlreiche Entscheidungen zu fallen und Herausforderungen zu bewltigen.
Dafr sollen Anregungen vermittelt werden, wie man durch die Komplexitt der Architektur, Technologie und der operationalen
Implikationen fr die gegebenen Geschftsanforderungen navigieren kann.

Thema
Big Data der Prsi, im Diamodell

etrieb einer unternehmensweiten


B
Hadoop-Plattform
Jede Komponente des Big-Data-Technologie-Baukastens hat spezifische, operationale und
betriebliche Implikationen, die einzeln betrachtet werden sollen.

Abbildung: Taxonomie von Big-Data-Technologien

Thema
Big Data der Prsi, im Diamodell

Physische Infrastruktur
Aus Sicht einer operationalen Architektur sind
berlegungen zur physischen Infrastruktur
anzustellen und Fragen zu klaren, die es
ermglichen, eine passende Umgebung
im IT-Umfeld des Unternehmens zu definieren.

Thema
Big Data der Prsi, im Diamodell

Deployment-Modell
Welches grundlegende Deployment-Modell ist aus Sicht des Unternehmens das richtige? Heute bietet sich ein breites Spektrum an:

Offpremise-Option in einer Public-Cloud-Umgebung auf Basis eines mandantenfhigen Hadoop-as-a-Service Modelles. Die operationale
Verantwortung liegt beim Cloud- bzw. Big-Data-Service-Anbieter.
Onpremise Option auf Basis einer auf das Unternehmen zugeschnittenen Hadoop-Umgebung im eigenen Rechenzentrum.

Fr ein Deployment im eigenen Rechenzentrum gibt es mehrere Mglichkeiten, die Infrastruktur im Rechenzentrum zu gestalten:

um einen werden im Markt heute Appliance-basierte Losungen fr Hadoop angeboten, bei denen in sich optimierte Hardware- und SoftwareZ
Komponenten eine standardisierte Plattform bilden.

alternativ

Rechenzentren knnen auf Basis von kommerziellen oder Open-Source-basierten Hadoop-Distributionen, fr die heute geeignete HardwareReferenzarchitekturen und Deployment-Modelle vorhanden sind, eine Abbildung auf die standardisierte Infrastruktur des eigenen Rechenzentrums
vornehmen und dort schon im RZ befindliche Hardware-Bausteine (Enterprise Grade oder Commodity) nutzen.
Auf jeden Fall sollten folgende Fragen berprft bzw. auch architekturell entschieden werden:

auft die Big-Data-Plattform in virtualisierten Umgebungen (z. B. VMware)?


L
Lauft die Plattform ebenfalls in Cloud-Instanzen wie z. B. Amazon, vCloud, Azure?
Welche Appliance-Konfigurationen sind sinnvoll einsetzbar (speziell fur BI Use Cases)?
Welche Betriebssystem-Umgebung ist im RZ relevant?
Welche modernen Netzwerkarchitekturen werden unterstutzt?
Wie unterstutzt die Umgebung Netzwerk-Isolation im VLAN/VXLAN Kontext?
Wie sieht es mit dem IPV6-Support aus und welche zuknftigen Software-Defined Networking Standards sind zu etablieren?

Thema
Big Data der Prsi, im Diamodell

Daten-Lokationsanforderungen
Welche Daten-Lokationsanforderungen sind mit Blick auf die rechtlichen und regulatorischen
Anforderungen in der Plattform zu erfllen?
Zwei wichtige Fragen stellen sich vermehrt beim Deployment im Rechenzentrum, sowohl bei
kommerzieller als auch bei Open-Source-Software nmlich die Frage der Virtualisierung und die
Auswahl der richtigen Speicherarchitektur.
Beide sind elementar fr die Ausprgung der physischen Infrastruktur einer Hadoop Umgebung.

Thema
Big Data der Prsi, im Diamodell

Betrieb des Hadoop-Clusters


Wird der Hadoop Cluster direkt auf der Server-Infrastruktur (bare-metal) oder virtualisiert betrieben?
Vor allen Dingen in produktiven Umgebungen laufen die meisten Hadoop-Implementierungen heutzutage direkt auf den
Servern Virtualisierung wird aber mehr und mehr eingesetzt, um flexibler und agiler zu werden,
unterschiedliche Fehler-Domanen besser in den Griff zu bekommen sowie unterschiedliche Hardware-Pools zur
Separierung von Entwicklungs- und Produktionsclustern zu gestalten.
Auerdem eignet sich der Virtualisierungsansatz fr die explorativen Analysen der Data Scientists, bei denen stndig
vernderte Algorithmen die Daten analysieren und hier die Hadoop-Cluster sehr dynamisch bereitgestellt werden knnen.
Virtualisierung generiert einen geringen Performance-Overhead und zustzliche finanzielle Kosten, hilft aber bei
drei Fragestellungen und Anforderungen:

Isolation von RZ-Ressourcen, um Kapazittsreserven bereitzustellen und die unterschiedlichen Workload-Anforderungen


von mehreren Mandanten und Abteilungen besser abzubilden. So kann verhindert werden, dass sich Ressourcenintensive Jobs negative ber Mandantengrenzen hinweg bemerkbar machen. (Hadoop hat heute nur ein paar
eingeschrnkte Mglichkeiten dieses auch ohne Virtualisierung abzubilden).

Isolation von unterschiedlichen Versionen, die dem Unternehmen die Mglichkeit einrumt, parallel unterschiedliche
Betriebssysteme, Anwendungen und Distributionsversionen zu betreiben. Das ist vor allen Dingen in Test/Entwicklungsumgebungen oder in der Produktion bei unterschiedlichen Anforderungen (High-Performance- oder LowCost-Betrieb) wichtig.

Security Isolation strikte Datenisolation und Privacy Compliance zwischen Usern bzw. Gruppen.

Thema
Big Data der Prsi, im Diamodell

Speicher
Sollten Unternehmen ihren Hadoop-Cluster auf teuren Enterprise-Grade Speicher-Netzen (Network Attached Storage)
oder eher auf Commodity Servern mit Direct Attached Storage (integrierte Direct Access Storage Devices (DASD))
abbilden?
Viele Hadoop-Cluster-Implementierungen laufen derzeit auf Commodity Servern. In diesem Bereich verfolgen die
Vendoren verschiedene Ansatze, um mit etwas hheren Investitions- die Betriebskosten der Infrastruktur zu
vermindern.
Beim Network Storage handelt es sich um spezialisierte Speicher-Arrays, die fr Hadoop Workloads und deren
spezielle Bandbreitenanforderungen optimiert sind (Beispiel: NetApps Engenio E Series Storage). Die Anschaffungskosten
pro Terabyte sind hoher als bei White Box Servern (White Box Server werden aus standardisierten Komponenten von
Integratoren oder Providern assembliert und nicht unter einem Marken-Namen vertrieben.), aber die Total Cost of Ownership
kann niedriger sein, wenn die Einkaufsabteilung geschickt agiert, da fr Enterprise-Grade Speicher gilt:

Sie liefern eine bessere Datennutzung und geringere Replikationsausprgungen im Hadoop Distributed File System.
Abbildung von 1.3 2 Kopien der Daten im Gegensatz zum im Standard Hadoop blichen Default von 3 Kopien der
Daten im Direct Attached Storage
Sie zeichnen sich durch eine verbesserte Managebarkeit und Performance aus. Auerdem erlaubt der Einsatz von
prventiven Maintenance-Verfahren eine bessere Balancierung des Clusters.
Es erffnen sich Einsparungsmglichkeiten im gesamten Software-Stack einschlielich der Hadoop-Lizensierungen, so
dass die Cluster effizienter aufgebaut werden knnen.
Es bieten sich bessere Mglichkeiten der Re-Balancierung des Compute- und Storage-Verhltnisses. Je nach Workload
gibt es unterschiedliche Anforderungen der Compute- und IO-Kapazitt.

Thema
Big Data der Prsi, im Diamodell

Daten-Zugriff
Seinen traditionellen Fokus hat Hadoop im Bereich des effizienten Batch-Processings von MapReduce-Workloads.
Hadoop entwickelt sich in Richtung interaktiver und Near-Time-orientierter Einsatzbereiche sehr schnell weiter. Fr
Aufgaben aus dem Bereich Big Data Analytics auf Basis strukturierter Daten kommen heute hufig In-MemoryLosungen zum Einsatz.
Dagegen empfiehlt sich fr Aufgaben der Big Data Analytics auf unstrukturierten und semi-strukturierten Daten das
Hadoop-Modell mit seiner optimierten Scaleout-Architektur. Die Erweiterung von Hadoop um SQLZugriffsmglichkeiten
ermglicht es mittlerweile, auch Aufgaben mit strukturierten Daten sehr effizient und mit hoher Geschwindigkeit im
Daten-Integrationsbereich der Big-Data-Architektur zu verarbeiten.
Folgende Fragen sind zu beantworten, um Anforderungen aus der Datenverarbeitung an die Plattform abzubilden:

Welche Typen von Analytics (Machine Learning, Statistical Analysis. Predictive Analytics) werden fur die Verarbeitung
bentigt?
Wie schnell mssen Entscheidungen umgesetzt werden? (Latenz der Entscheidung)
Ist eine Multi-Step-Verarbeitung der Daten notwendig, bevor sie gespeichert werden? Multi-Step-Verarbeitung steht fur
die mehrfache Analyse und Auswertung der Datenstrome innerhalb eines Verarbeitungsjobs so kann z. B. nach einer
Text-Analyse noch eine Social-Media-Analyse und dann eine GPS/Wetter-Datenanalyse stattfinden.
Sind Stream Computing und CEP notwendig? Sind spezifische zeitkritische SLAs einzuhalten? Ist ein partieller
Datenverlust akzeptabel?
Wie hufig werden Daten gendert und abgefragt? Realtime vs. Batch
Wie eng sind die Daten im Hadoop Cluster mit existierenden, relationalen Daten verknpft und gekoppelt?
Welche nicht-relationale Datenbank passt zu den Unternehmensanforderungen? Hbase and Cassandra arbeiten nativ
auf dem HDFS, wahrend Couchbase und MongoDB auf eigenen Datenkopien arbeiten.

Thema
Big Data der Prsi, im Diamodell

Daten-Integration
Im Bereich Daten-Integration sind folgende Fragestellungen
wichtig:

Welche Datenquellen (intern vs. extern, Social/People vs. Maschinen-generierter Daten) bieten eine Wortschpfung fr
das Unternehmen und die Einsatzbereiche?
Welche Datenschutz-Vorschriften gelten fr die mit Social-Media-Werkzeugen generierten bzw. personenbezogenen
Daten?
Welche Datenvolumina sind zu bearbeiten und welche Datenstrukturen sind relevant?
Welche Latenzanforderungen bestehen fr die Daten?

Zur Integration von Datei-basierten Applikationen eignet sich NFS, um darber die Daten in einen Hadoop-Cluster zu laden.
Hingegen nutzen Web-basierte Applikationen und Services eher einen Zugriff auf Hadoop uber REST APIs und WebHDFSMechanismen. Fr die Integration von Hadoop-Clustern in die BI-Landschaften der Unternehmen
stehen SQL-basierte Zugriffs-Schnittstellen zur Verfugung.
Auf diesem Wege knnen BI-Tools uber ODBC/JDBC-Zugriffe die in Hadoop gespeicherten Daten nutzen.
Bei der SQL-Schnittstelle ist zu beachten, welche SQLANSI-Standards unterstutzt werden, damit die BI-Tools effizient
eingesetzt werden knnen.

Thema
Big Data der Prsi, im Diamodell

IT-Sicherheit
Im Bereich IT-Sicherheit sind folgende Fragestellungen
relevant:

aten-Isolation:
D
Wie werden Daten-Nodes in einer mandantenfhigen Hadoop-Struktur voneinander isoliert?
Access Management:
Welche Zugriffskontrollmechanismen werden von den Hadoop Systemen unterstutzt und sind relevant
Kerberos oder LDAP Support
Security Auditing und Monitoring:
Wer hat nderungen auf den Hadoop-Filesets oder in der System-Plattform vorgenommen? Welche
Softwarelosung unterstutzt eine durchgehende Security-Audit-Funktionalitt ber Hadoop und die anderen
Unternehmens-Datenbanken hinweg?
Datenverschlsselung:
Welche Verschlsselungsmglichkeiten sind auf den Data Nodes verfugbar? Wird eine transparente
Entschlsselung on-the-fly ermglicht?

Thema
Big Data der Prsi, im Diamodell

IT-Sicherheit

Thema
Big Data der Prsi, im Diamodell

Bewertung von Betriebskriterien fr


Hadoop

Tabelle: Bewertung von


Betriebskriterien fr Hadoop, basierend

Thema
Big Data der Prsi, im Diamodell

Betrieb einer unternehmensweiten Stream-basierten


Real-time-Analytics-Plattform
Neben den Big-Data-Architektur-Elementen fr Data at Rest, die die wichtigen Data-Store- und Analytics-Plattformen
auf der Basis von Hadoop und die EDW-Plattformen umfassen, kommen in Big-Data-Einsatzfallen vermehrt
Anforderungen zum Tragen, bei denen es um Data in Motion geht. Hier geht es um immensen Datenmengen,
Real-time-Verarbeitung und -Analytics.
Hierbei kommen Streaming-Technologien zum Einsatz, die es ermglichen, im Low-Latency-Bereich (im s
Bereich) auf Daten-Events zu reagieren, diese miteinander zu korrelieren, zu aggregieren, CEP sowie analytische
Operationen gegen strukturierte, semi- und unstrukturierte Daten vorzunehmen, z. B.:

extdateien, Tabellenkalkulationen, Grafiken, Video- und Audioaufzeichnungen


T
E-Mail, Chat und Instant Messaging, Webdatenverkehr, Blogs und Social Networking-Websites
Finanztransaktionen, Daten aus dem Kundenservice, Daten aus polizeilich eingesetzter Suchsoftware, Systemund Anwendungsprotokolle
Satellitendaten, GPS-Daten, Sensorprotokolle, Daten aus Kartenlesegeraten und Zugriffsdaten.

Stream-Computing-Plattformen sind von ihrer Eigenschaft und Struktur her Applikationsserver-Container mit hoher InMemory-Compute- und -Analyse-Fhigkeit z. B. durch Einsatz von Text Analytics, statistischen Analysen, R-basierter
Analytics und Operatoren zum Parsen, Filtern und Aggregieren von Daten. In den Runtime-Containern der StreamComputing-Plattform werden Daten ber standardisierte Konnektoren direkt aus dem Netzwerk, ber Message
Queues, ber direkte Connectivity mit den API-Services der Social Networks, Anbindungen an Data Warehouses oder
auch durch File Ingestion in die operative Auswertungslogik eingebracht.

Thema
Big Data der Prsi, im Diamodell

Betrieb einer unternehmensweiten Stream-basierten


Real-time-Analytics-Plattform
Die immer weiter steigenden Anforderungen an die Auswertung von Events , die z. B. aus der steigenden Anzahl
von Sensoren (Internet of Things), Mobile Apps sowie GPS-Informationen und Instrumentierung von Fahrzeugen
und Maschinen stammen, machen es notwendig, diese Datenvolumina in Echtzeit zu analysieren und nur solche
Daten in die Data-Store-Technologien zu bertragen, die eine zeitlich lngere Relevanz oder weitere Verarbeitungsund Analytics-Funktionen bentigen.

Aus diesem Grunde werden Streaming-Technologien zum einen als High-Volume Data Ingest Service und zur
Vorverarbeitung zu den Big Data Stores eingesetzt. Zum anderen ermglichen sie Real-time-Analysen, wenn im
Einsatz Low-Latency-Anforderungen zu erfllen sind.
Typische Anwendungsbeispiele bilden:

Financial Services:
Einsatz im Bereich High Volume Trading, Real-time Trade Monitoring und Fraud Detection.
Telekommunikation:
Einsatz im Bereich Real-time Call Detail Record Auswertung mit Mobile Advertisement, Fraud Detection,
dynamische Netzwerk-Optimierung.
Security:
Einsatz im Bereich Real-time Video/Audio berwachung

Thema
Big Data der Prsi, im Diamodell

Betrieb einer unternehmensweiten Stream-basierten


Real-time-Analytics-Plattform
Ergebnisdaten, die zur Speicherung oder Weiterverarbeitung anstehen, werden ber Standard-Konnektoren
und Adapter in Richtung Enterprise Service Bus, Data Warehouse oder in ein Filesystem geschrieben.
Die Streaming Runtime Container selbst enthalten keine eigenen Persistenz-Layer ber ihre In-Memory
Speicherbereiche hinaus.
An dieser Stelle sollen die operationalen Implikationen und Themenstellungen beispielhaft fr die IBM InfoSphere
Streams-Plattform dargestellt werden, um die wesentlichen Optionen und Randbedingungen fr den Einsatz einer Realtime- Analytics-Plattform zu skizzieren.

Thema
Big Data der Prsi, im Diamodell

Big-Data-Expertise und -Know-how


Um das Potenzial von Big Data zu erschlieen, ist Wissen aus Analytik, IT und dem jeweiligen Fachbereich gefragt. Bislang
gibt es nur wenige Fachkrfte, die diese Kompetenzen kombinieren. Solche Data Scientists werden jedoch dringend gesucht.
In den USA gehren sie schon zu den meistgesuchten technisch-wissenschaftlichen IT-Fachleuten, und eine Studie von
McKinsey sagt fr die USA eine Lcke von ber 50% fr die 2018 voraus. In einer Fraunhofer-Potenzialstudie wnschen sich
95% der Befragten Best Practices und Schulung als Frdermanahme. Data Scientists vereinen die Rollen als Impulsgeber,
Ideengeber, Lsungsarchitekt, Umsetzer, Analyst, Kommunikator, berzeuger.
Mit den Mglichkeiten zur Speicherung und Verarbeitung von Big Data wachst die Nachfrage nach Fachleuten, die
solche Daten analysieren, um sie in Wert zu setzen. Sie analysieren groe Datenmengen jenseits von Excel, Business
Intelligence Tools und gngigen Statistikpaketen. Mit wissenschaftlichen Datenanalysemethoden entwickeln sie Modelle zur
Informationsextraktion und Prognose fr Big-Data-Anwendungen. Sie sind Analysten mit IT-Kompetenzen und Fachleute in
ihrem Anwendungsbereich Aufgabe der Big-Data-Analysten ist es, geschftsrelevante
statistische Erkenntnisse aus den Daten zu gewinnen.
Zunchst allerdings werden sie sich mit den Daten vertraut machen und sie mit explorativen Methoden untersuchen.
Datenschutz und Datenqualitt stellen wichtige Anspruche, fr die sie geeignete Manahmen finden mssen. An BusinessAnalysten werden aus dem Betrieb laufend neue Fragen herangetragen werden, die sie mit ad-hoc-Anfragen und weiteren
Analysemethoden zu beantworten suchen. Fr sich wiederholende Anfragen, Reports und Dashboards werden sie Skripte
erstellen. Ein weiteres Einsatzgebiet ist die Entwicklung von statistischen Modellen fr die automatisierte Datenanalyse.
Solche Modelle dienen dazu, Informationen, Relationen und Metadaten zu extrahieren, irrelevante Daten herauszufiltern,
Bewertungen zu berechnen, Prognosen zu erstellen oder Entscheidungen zu treffen. Selbstverstndlich mssen Data
Scientists die klassischen Methoden von Statistik und Data-Mining beherrschen. Ihre besondere Kompetenz erlangen sie
dadurch, dass sie weitere Verfahren anwenden knnen, wo die klassischen versagen: Im Umgang mit hohen Datenvolumina
(verteilte Speicherung), strukturell komplexen Daten (NoSQL-Datenbanken) und der realzeitnahen Verarbeitung.

Thema
Big Data der Prsi, im Diamodell

Atos IT Solutions and Services


Kontaktinformationen
Atos IT Solutions and Services GmbH
Otto-Hahn-Ring 6 | 81739 Munchen
Tel. +49 (0) 211 399 0 | de-info@atos.net
http://de.atos.net/de-de/home/unsere-leistung/business-integration-solutions/data-and-informationmanagement.
html

ber Atos
Atos SE (Societas europaea) ist ein internationaler Anbieter von IT-Dienstleistungen mit einem Jahresumsatz fur
2012 von 8,8 Milliarden Euro und 77.000 Mitarbeitern in 47 Landern. Der globale Kundenstamm des Unternehmens
profitiert von einem umfangreichen Portfolio, das drei Bereiche umfasst: Beratung und Technologie-Services,
Systemintegration und Managed Services sowie BPO- und transaktionsbasierte Hightech-Services durch Worldline.
Mit seiner umfassenden Technologie-Expertise und tiefgreifendem Branchenwissen unterstutzt der IT-Dienstleister
Kunden in folgenden Marktsegmenten: Produzierendes Gewerbe, Handel, Dienstleistungen; Offentliche
Verwaltung, Gesundheits- und Transportwesen; Banken und Versicherungen; Telekommunikation, Medien und
Versorgungsunternehmen.

Thema
Big Data der Prsi, im Diamodell

Atos IT Solutions and Services


Big-Data-Lsungen
Big Data ist ein Schwerpunkt Thema bei Atos. Atos hilft Unternehmen effiziente Strategien fur einen erfolgreichen
Einstieg in das Thema zu finden, die richtigen technologischen Entscheidungen zu treffen und existierende
Geschaftsprozesse zu modernisieren oder neue, innovative Geschaftsmodelle zu entwickeln. Das Portfolio
umfasst zudem Beratung und Technologie-Services, Systemintegration sowie Outsourcing-Dienstleistungen. Als
weltweiter IT-Partner des Internationalen Olympischen Komitees ist Atos fur die Gesamtleitung der TechnologiePartner verantwortlich.
Einsatz-Szenarien
Das IT-Unternehmen Atos hat die Leitung des Big Data Public Private Forum-Projekts, kurz BIG, ubernommen.
Im Zentrum der Diskussion soll dabei die Verarbeitung und Bedeutung von Big Data fur die Wirtschaft stehen. Die Integration,
Analyse und Nutzung dieser Daten wiederum kann zur Entwicklung neuer, innovativer Produkte
und Services beitragen etwa eines Verkehrsumleitungssystems, das aktiv wird, wenn bei bestimmten Wetterbedingungen
erhohte Luftschadstoffwerte auftreten.
Big-Data-Technologien
Atos setzt als herstellerunabhangiger Integrationsanbieter auf aktuelle Big-Data-Technologien, die sich vor allem
aus BI-Systemen, veranderten NoSQL-Datenbanksystemen und Speichersystemen rekrutieren.

Thema
Big Data der Prsi, im Diamodell

Empolis Information Management


Kontaktinformationen
Empolis Information Management GmbH
Europaallee 10 | 67657 Kaiserslautern
Tel.: +49 (0) 631 68037-0 | info@empolis.com
www.empolis.com

Big-Data-Lsungen
Empolis Smart Information Management Losungen befhigen Unternehmen und Organisationen, die exponentiell
wachsende Menge strukturierter und unstrukturierter Daten zu analysieren, zu interpretieren und automatisiert zu
verarbeiten. Sie nutzen damit ihr Wissenskapital, um unternehmenskritische Geschftsprozesse zu optimieren.
Entscheider, Mitarbeiter und Kunden erhalten so stets situations- und aufgabengerecht genau die Information, die fur
sie relevant ist.
Dabei werden die in einem Component Content Management System erstellten und verwalteten Inhalte mit dem
in einem Knowledge Management System hinterlegten oder generierten Wissen ber Produkte, Kunden, deren
Profile, Lieferanten uvm. zu intelligenten, smarten Inhalten kombiniert, um so einen Mehrwert aus Information
zu schaffen.
Empolis stellt seine bewahrten Losungen auch als Software as a Service (SaaS) zur Verfugung. Alle notwendigen
Komponenten der jeweiligen Applikation ob Datenbank, ausgefeilte Suchverfahren oder spezifische Applikationslogik
sind in die Empolis Smart Cloud ausgelagert und werden in einem hochmodernen Data Center von Empolis betrieben
gem den strengen Bestimmungen des deutschen Datenschutzgesetzes.

Thema der Prsi, im Diamodell

Empolis Information Management


Einsatz-Szenarien

Smart Documentation: Effiziente Technische Dokumentation

Smart Publishing: Intelligentes Publizieren ber smtliche Kanale

Experience Management: Systematische Wiederverwendung und Erweiterung des Unternehmenswissens

Service Resolution Management: Optimale Wissensversorgung des Service Center zur schnellen Problemlosung

Smart Diagnostics: Effiziente Diagnose von Gertestrungen und Reparatur

Competitive Intelligence: Automatisierte Wettbewerbsbeobachtung

Decision Intelligence: Entscheidungsuntersttzung durch umfassendes Wissen


Big-Data-Technologien
Empolis verfugt ber mehr als 25 Jahre Erfahrung im Information Management. Das Empolis Content Lifecycle System
(CLS) und das Empolis Information Access System (IAS) blicken auf mehr als zwei Jahrzehnte ihrer Versionshistorie
zurk. Empolis bietet Losungen, die sowohl technologisch als auch operational ber den State-of-the-Art hinausgehen
egal ob es dabei um Skalierbarkeit, semantische Verfahren, Text Mining oder Informationsextraktion geht.
Auf der Basis des hochskalierenden IAS verfugt Empolis fr eine Vielzahl von Anwendungsfallen ber optimal
angepasste Analyseverfahren fr unstrukturierte Inhalte. Beispielsweise ist Empolis-Technologie in der Lage, einen
Tag Traffic auf Twitter in weniger als 20 Minuten oder die deutsche Version der Wikipedia in drei Minuten semantisch
zu annotieren und zu verarbeiten. Neben statistischen Algorithmen umfasst dies auch die massiv-parallele Auswertung
mit linguistischen Verfahren zur Informationsextraktion. Diese wiederum bilden die Grundlage fur Empolis Smart
Information Management R Losungen, die mit Hilfe der inhaltlichen Analyse die unstrukturierten Inhalte in maschinell

Thema
Big Data der Prsi, im Diamodell

EXASOL
Kontaktinformationen
EXASOL AG
Neumeyerstrase 48 | 90411 Nurnberg
Tel.: +49 (0) 911 23991 0 | info@exasol.com
www.exasol.com
Big-Data-Lsungen
EXASOL ist der Hersteller der relationalen In-Memory-Datenbank EXASolution. Sie wurde speziell fur EnterpriseData-Warehouse-Anwendungen, Big Data und umfangreiche Analytics-Prozesse entwickelt.
Die auf In-Memory-Technologie basierende Datenbank wird fr zeitkritische komplexe Analysen groer Datenmengen,
umfassende Datenrecherchen, Planungen oder Reportings eingesetzt.
Durch die Integration von Geodaten, Big-Data-Quellen und unstrukturierten Daten erffnet EXASolution zustzliche
Auswertungsdimensionen, die noch effizientere und Ad-hoc-Analysen zulassen.
Die Easy-to-manage-Datenbank lasst sich einfach in bestehende IT-Infrastrukturen integrieren und erfordert geringeren
Administrationsaufwand bei niedrigeren Investitions- und Betriebskosten.

Thema
Big Data der Prsi, im Diamodell

EXASOL
Einsatz-Szenarien
Die Hochleistungsdatenbank EXASolution ist in unterschiedlichsten Branchen einsetzbar: im
Einzelhandel, fur Webanalysen-Anbieter, Versicherungen, E-Commerce-Unternehmen,
Telekommunikationskonzerne oder auch im Energiesektor. Alle Organisationen mit einem groen
Datenaufkommen knnen von den Vorteilen einer massiv-parallel arbeitenden In-Memory-Datenbank
profitieren.
CRM-Auswertungen, strategische Simulationen, Scoring- und Rankingberechnungen,
Prozessorientierte Datenaufbereitung sowie Real-time und Click-Stream-Analysen bilden dabei die
typischen Anwendungsszenarien.
Auch Geoinformationen und unstrukturierte Daten lassen sich schnell auswerten.

Thema der Prsi, im Diamodell

EXASOL
Big-Data-Technologien
EXASolution durchbricht mit seinen effizienten Losungsmodellen aus dem Bereich des High Performance Cluster
Computings die bisherigen Leistungsbarrieren eines Data Warehouse. Die einzigartige Kombination der In-MemoryTechnologie mit einer Shared-Nothing-Architektur unter Einsatz von innovativen Kompressionsalgorithmen hilft
Unternehmen neue analytische Herausforderungen zu meistern. Intelligente Algorithmen verteilen die Daten
selbststndig innerhalb eines Clusters und fuhren automatisch die notwendigen Optimierungsschritte on-thefly
durch.
Die automatische Anpassung des selbstlernenden Systems an Nutzungsgewohnheiten der Anwender und die
Verwendung von gngigen Business-Intelligence- und Data-Mining-Anwendungen erhhen die Akzeptanz bei
den Fachabteilungen.
Eigens erstellte Algorithmen, Methoden u. a. aus den Programmiersprachen R, Python und Lua oder
MapReduce-Algorithmen konnen zudem flexibel und hochperformant in einem Cluster ausgefhrt werden,
um beliebige Anforderungen umsetzen zu knnen. Grose Datensammlungen werden so zu wertvollem
Unternehmenswissen.

Thema
Big Data der Prsi, im Diamodell

Experton Group
Kontaktinformationen
Experton Group AG
Carl-Zeiss-Ring 4 | 85737 Ismaning
Tel.: +49 (0) 89 923331-0 | Fax: +49 (0) 89 923331-11
info@experton-group.com
www.experton-group.de
ber Experton Group
Die Experton Group ist das fhrende, voll integrierte Research-, Advisory- und Consulting-Haus fr mittelstndische und groe Unternehmen, das
seine Kunden durch innovative, neutrale und unabhngige Expertenberatung bei der Maximierung des Geschftsnutzen aus ihren ICT Investitionen
mageblich unterstutzt.
Die Experton Group erbringt Marktuntersuchungen, Beratungsleistungen, Assessments, Benchmarking, Konferenzen, Seminare und Publikationen im
Umfeld der Informations- und Kommunikationstechnologie.
Das Leistungsspektrum umfasst hierbei Technologie, Geschftsprozesse, Management sowie M&A.
Auch rund um Big Data unterstutzt die Experton Group Anbieter und Anwender von Informations- und Kommunikationstechnologien mit Analysen,
Workshops und Beratungsdienstleistungen.
Die Experton Group AG wurde am 01. Juli 2005 von sehr erfahrenen Marktforschungs- und Beratungsexperten gegrndet. Die Experton Group
Gesellschaften arbeiten mit ber 80 festen und freien Mitarbeitern zusammen. Diese bringen Erfahrungen aus ihrer Beschftigungszeit
bei IDC, Input, Techconsult, Forrester, Gartner und META Group mit.
Der Vorstand der Experton Group AG setzt sich aus Jurgen Brettel (Vorsitzender) und Andreas Zilch zusammen.
Der globale Research und die Gesellschaften im Mittleren Osten werden von Luis Praxmarer geleitet. Research Partner der Experton Group sind
Experture (USA), Everest Group (USA) und Evalueserve (Indien).
Die Experton Group AG hat ihren Sitz in Ismaning und Niederlassungen in Frankfurt, Kassel und St. Gallen/Schweiz.

Thema
Big Data der Prsi, im Diamodell

Forrester Research
Kontaktinformationen
Forrester Germany GmbH
Eschersheimer Landstrase 10 | 60322 Frankfurt am Main
Tel.: +49 (0)69 959 298 0 | hkisker@forrester.com
www.forrester.com
ber Forrester Research
Forrester Research ist ein globales Beratungs- und Marktforschungsunternehmen, das Marketing- Strategie- und Technologie
Management-Experten in 13 strategischen Schlsselrollen unterstutzt. Diese stehen regelmig vor komplexen Geschftsund Technologie-Entscheidungen durch das sich stark verndernde Verhalten von Kunden, Partnern und
Konsumenten. Um die Chancen der Vernderung besser verstehen und strategisch nutzen zu knnen, stellt Forrester
herstellerunabhngige Beratung basierend auf proprietrem Research, Consumer-und Business-Daten sowie
Veranstaltungen, Online-Communities und Peerto-Peer-Executive-Programme zur Verfugung. Dies sichert Entscheidern und
Unternehmen heute und in der Zukunft ihren Geschftserfolg.
Big Data Lsungen
Big Data ist ein Schwerpunkt Thema bei Forrester Research. Forrester hilft Unternehmen effiziente Strategien fr einen
erfolgreichen Einstieg in das Thema zu finden, die richtigen technologischen Entscheidungen zu treffen und existierende
Geschftsprozesse signifikant zu verbessern oder neue, innovative Geschftsmodelle zu entwickeln.

Thema der Prsi, im Diamodell

Fraunhofer-IAIS
Kontaktinformationen
Fraunhofer-Institut fr Intelligente Analyse- und
Informationssysteme IAIS
Schloss Birlinghoven | 53757 Sankt Augustin
bigdata@iais.fraunhofer.de
www.iais.fraunhofer.de/bigdata.html
Ansprechpartner:
Dr. Stefan Ruping, Tel.: +49 (0) 2241 14 3512
Dr. Dirk Hecker, Tel.: +49 (0) 2241 14 1509
Big-Data-Lsungen
Das Fraunhofer IAIS zahlt zu den fhrenden anwendungsorientierten Forschungsinstituten in den Bereichen Data Mining,
Maschinelles Lernen, Information Retrieval und Semantische Technologien. Mit ihrem umfangreichen Know-how aus Forschung
und praktischer Anwendung begleitet es Unternehmen auf dem Weg zum optimalen Einsatz von Big Data Analytics.
Es identifiziert das Potenzial von Big-Data in Unternehmen so detailliert, dass die Kunden anschlieend direkt
mit konkreten Projekten starten knnen.
Gemeinsam mit Ihren Fachabteilungen entwickelt es neue Nutzungs-und Geschftssitzen fur Datenbestande. Dazu
analysieren sie Prozesse und ermitteln genutzte und ungenutzte Daten. Ergnzend liefern sie einen berblick
ber am Markt verfugbare und offene Datenquellen.
Mit ihren Schulungen und Coachings fur Data Scientists helfen sie beim Aufbau von Know-how. Es begleitet Sie bei der
konzeptionellen Ausarbeitung und technischen Umsetzung Ihrer Ideen. Machbarkeit und Wirtschaftlichkeit sind gleichermaen
wichtig wie Datenschutz und Sicherheit.

Thema
Big Data der Prsi, im Diamodell

Fraunhofer-IAIS
Einsatzszenarien
Es fhrt Projekte in verschiedenen Branchen und Unternehmensbereichen durch:

Automatisierte Erkennung von Betrugsmustern in Kreditkartentransaktionen und Abrechnungsdaten

Prognosen fr Absatz-, Sortimentsplanung und Personaleinsatzplanung im Handel

Analyse von Kundendaten fr die individuelle Ansprache

berwachung von Social- und Online-Medien fr die Marktforschung

Analyse von Mobilittsdaten fr die Standortplanung und bewertung

Anonymisierung und Erschlieung von Mobilfunkdaten fr neue Geschftsmodelle

Qualittssicherung und Ursachenanalyse von Funkabbruchen in Telekommunikationsnetzen

Prventive Wartung und berwachung von vernetzten Geraten

urzfristige Bedarfsprognosen und vorausschauende Steuerung in der Energiebranche


K
Prognosen fr die logistische Planung .
Analyse von medizinischen Daten fr die individuelle Behandlung
Integration von Unternehmensdaten fr Corporate Intelligence

Thema der Prsi, im Diamodell

Fraunhofer-IAIS
Big-Data-Technologien
Es setzt hochleistungsfhige Verfahren des maschinellen Lernens und semantische Technologien in skalierbaren
Big-Data-Architekturen ein:

Machine Learning und Data Mining: Datenvorverarbeitung, Modellentwicklung und -validierung, Lernverfahren auf
Datenstrmen in Echtzeit, Privacy Preserving Data Mining

emantic Technologies: Inhaltliche Strukturierung von groen Dokumentenmengen, semantische Klassifikation,


S
Informationsextraktion, Textanalyse, Linked Data, Knowledge Representation

obility Analytics: Analyse von Trajektorien, Ermittlung von Kontakt und Besuchsfrequenzen, Ereignissen und
M
Wegemustern in Mobilittsdaten, datenschutzkonforme Methoden

Multimedia Pattern Recognition: Dokumentanalyse, Sprach- und Audioanalyse, Bild- und Videoanalyse

isual Analytics: Interaktive visuelle Exploration, visuelles Debugging und visuelles Reporting fur komplexe
V
Datenbestande

ig Data Architecture: Skalierbare Systeme, parallele Workflows, MapReduce, No-SQL-Datenbanken,


B
Datenstrome.

Thema
Big Data der Prsi, im Diamodell

Fujitsu
Kontaktinformationen
FUJITSU Technology Solutions GmbH
Mies-van-der-Rohe-Strasse 8 | 80807 Mnchen
Tel.: 01805 372 100 | cic@ts.fujitsu.com
www.fujitsu.com/de/about/local/contacts-de/index.html
www.fujitsu.com/fts/solutions/high-tech/bigdata/
ber Fujitsu
Fujitsu ist der fhrende japanische Anbieter von Informations-und Telekommunikations-basierten (ITK)
Geschftslsungen und bietet eine breite Palette an Technologieprodukten, -losungen und -Dienstleistungen.
Mit ber 170.000 Mitarbeitern betreut das Unternehmen Kunden in mehr als 100 Lndern. Fujitsu nutzt seine ITKExpertise, um die Zukunft der Gesellschaft gemeinsam mit ihren Kunden zu gestalten.
Im Geschftsjahr 2012 erzielte Fujitsu Limited mit Hauptsitz in Tokio einen konsolidierten Jahresumsatz von 47
Milliarden US-Dollar.

Thema
Big Data der Prsi, im Diamodell

Fujitsu
Big-Data-Lsungen
Fujitsu unterstutzt smtliche fr Big Data relevante Infrastrukturkonzepte: Hadoop Cluster mit Fujitsu-spezifischen
Erweiterungen, eine CEP-Engine, IMDB-Appliances auf Basis SAP HANA und integrierte IMDG-Losungen auf Basis
Terracotta BigMemory.
Somit kann abhngig von Situation und Anforderungen stets der geeignete Technologiemix eingesetzt werden, um fur den
Kunden die optimale Losung zu finden. Die fr die Infrastruktur erforderlichen Produkte, wie Server, Speichersysteme,
Netzkomponenten und Zugangsgerate werden ebenfalls von Fujitsu bereitgestellt. Big-Data-Infrastrukturen von Fujitsu
beinhalten Software und Middleware von Fujitsu selbst, aus der Open-Source-Welt und von Partnern wie SAP oder Software
AG. Sie sind aber auch offen fr Produkte fhrender ISVs.
Ebenso wichtig wie Produkte und Infrastrukturkonzepte ist das Serviceangebot von der Prozess- und Infrastrukturberatung,
ber das Design der optimalen Infrastruktur, die Implementierung, die Integration in die bestehende IT-Landschaft bis hin zum
ganzheitlichen Support.
Fr all diese Leistungen werden auch attraktive Finanzierungsoptionen angeboten. Darber hinaus ist Fujitsu bekannt fr
seine flexiblen Sourcing-Modelle. Kundenspezifische Losungen knnen vom Kunden entweder in Eigenregie oder von Fujitsu
betrieben und verwaltet werden. Big-Data-Services werden auch aus der Fujitsu-Cloud bereitgestellt.

Thema der Prsi, im Diamodell

Fujitsu
Einsatz-Szenarien
Fujitsu bietet Big-Data-Infrastrukturlosungen, die unabhngig von Branche und Unternehmensgre eingesetzt werden
knnen. Beispiele von erfolgreich realisierten Projekten sind bei Energieversorgern die frhzeitige Erkennung und
berbrckung von Versorgungsengpassen. Im Einzelhandel wurden Lsungen zur Optimierung der Anordnung der Artikel in
den Regalen umgesetzt, die den Verkaufserfolg steigern. Im ffentlichen Sektor werden Big-Data-Losungen zur
Verbrechensbekmpfung eingesetzt, in der Landwirtschaft bieten unsere Lsungen Untersttzung zur verbesserten
Erntemenge und -qualitt.
Big-Data-Technologien
Fujitsu bietet fr Big Data die komplette Bandbreite der Technologien z. B. verteilte Parallelverarbeitung, Complex Event
Processing, In-Memory Datenbanken, In-Memory Data Grid und sorgt mit Consulting und Services fr kundenoptimierte
Umsetzungen.

Thema
Big Data der Prsi, im Diamodell

Hewlett-Packard
Kontaktinformationen
Hewlett-Packard GmbH
Herrenberger Str. 140 | 71034 Boblingen
Tel.: +49 (0) 7031 14-0 | firmen.kunden@hp.com
www.hp.com/de
Big-Data-Lsungen
HP bietet den Kunden ein komplettes End-to-End Portfolio inklusive Services zur Definition, Beratung, Implementierung und Betrieb von kompletten BigData-Losungen als auch Hardware, Software und Appliances an.
HP Big-Data-Services beinhalten die Definition der Big Data Use Cases, die Losungskonzeption, die Definition der Kernparameter, die Pilotierung der
Big-Data-Losung, die Implementierung und die berfhrung vom Pilotprojekt in den Produktivbetrieb entweder beim Kunden oder ber ein Cloud
Modell.

Uber den HP Big Data Discovery Experience (HP BDDE)-Service bietet HP den Unternehmen einen uerst attraktiven Einstieg fr die Verprobung
von Big-Data-Anwendungsfallen an. Uber einen sofort verfugbaren Pilotierungsservice lasst sich testen, ob eine Investition in Big Data zur Steigerung
des Unternehmensumsatzes aussichtsreich ist. Die durchschnittliche Dauer einer Pilotimplementierung ist 12 Wochen.
Falls sich Anwendungsfalle erhrten lassen, knnen diese extrem schnell in die Produktion umgesetzt werden. Test- und Produktionsumgebung haben
denselben Aufbau.
Weiterhin gehren vordefinierte Services wie z. B. HP Information Fabric for Risk, Compliance, and Insight , eine Kombination aus Hardware,
Software und Service fr das End-to-End Management von Informationen jeglicher Datentypen (strukturiert, unstrukturiert) im Unternehmen
zum Angebot von HP.

Thema der Prsi, im Diamodell

Hewlett-Packard
Einsatz-Szenarien
HP untersttzt Kunden bei der Definition der Big Data Use Cases und bei der Bewertung des Nutzenaspektes der BigData-Anwendungsfalle fr das Business. HPs Angebot unterstutzt Unternehmen in Industrien jeglicher Art. Beispiele
sind u.a. Warranty Analytics, Analysen ber das Reiseverhalten, Big Data Analytics fr die Landwirtschaft, Brand
Awareness, Fanverhalten bei Sportveranstaltungen. Die Big-Data-Innovationen gehen auch einher mit anderen
Innovationen von HP beispielsweise der von HP LABs entwickelten Sensoren-Technologie (HP CeNSE Central
Nervous System of the Earth) fr den Aufbau eines Sensoren-Netzwerks. Dieses misst mit extremer Empfindlichkeit
seismologische Daten bzw. Erschtterungen und wird u.a. in der lindustrie fr die bessere Datenerfassung- und
Bewertung der lreserven bzw. mglicher lvorkommen genutzt.
Weiterer Anwendungsfall: Ein Netzwerk von Sensoren kann Daten ber Erschtterungen an Straen oder groer
Brcken liefern. Eine Million Sensoren, die 24 Stunden am Tag laufen, liefern mehr als 20 Petabytes Daten innerhalb
von 6 Monaten, die es bei Bedarf schnell auszuwerten und sinnvoll einzusetzen gilt. Wofr die HP Big-Data-AnalyticsLsungen prdestiniert sind.

Thema
Big Data der Prsi, im Diamodell

Hewlett-Packard
Big-Data-Technologien
Die HP Big Data Analytics Plattform (HAVEn) fur die Erfassung, Bewertung (Meaning Based Computing), Analyse und die
jeglicher Datentypen ob strukturiert, unstrukturiert, Video, Audio, Fotos, Text, Daten aus sozialen Netzen etc. konnen
verarbeitet werden. Die Big Data Analytics Platform besteht aus einer vorintegrierten Kombination aus Hadoop, Vertica,
Autonomy und HP Security Technologien (Arcsight Logger). Mehr als 700 Adapter stehen fur die Einspeisung der Daten in
die Big-Data-Analytics-Plattform zur Verfugung. Basierend auf der Plattform werden Zusatzlosungen und Dienstleistungen
von HP und HP Partnern angeboten, z. B. HP BDDE oder HP Operations Analytics zur Analyse IT-spezifischer Daten. Die
Softwarelosungen von HP Vertica und HP Autonomy fur die Analyse und schnelle Verarbeitung groer Datenmengen werden
auch als Einzellosungen angeboten.
HP Hardware und Applicances: Zum HP-Hardware- und Applicances-Angebot fr den Betrieb von Big-Data-Umgebungen
gehren Server, Speichersysteme, Netzwerke inklusive Systemen fr die In-Memory-Verarbeitung als auch vordefinierte
Lsungen wie z. B. HP Appliance Systems for Hadoop, SAP HANA oder Microsoft PDW.

Thema der Prsi, im Diamodell

Hortonworks
Kontaktinformationen
Hortonworks
Maximilianstrasse 35A | 80539 Mnchen
Tel.: +49 89 24218 0 | fniedermaier@hortonworks.com
www.hortonworks.com
Big-Data-Lsung
Hortonworks Data Platform (HDP) ermglicht es Unternehmen, Daten in jedem beliebigen Format und in voller Grose
kostengnstig zu speichern und auf vielfaltige Weise zu verarbeiten.
HDP ist die einzige 100%ige Open-Source-Distribution von Apache Hadoop im Markt. Somit vermeiden Kunden jedwede
Bindung an einen Hersteller. Alle Innovationen von Hortonworks werden zu 100% als Open Source Software bereitgestellt.
Das Roadmap ist jederzeit unter http://hortonworks.com/labs ffentlich. Hortonworks treibt die Entwicklung von Apache
Hadoop ganz wesentlich.
Mehr als die Halfte des Codes der verschiedenen Apache Hadoop Module stammt von Hortonworks. Das Kernteam bei
Hortonworks umfasst die ursprnglichen Hadoop Architekten und Entwickler von Yahoo. Hortonworks beschftigt zusammen
mit seinem Investor Yahoo mehr als die Hlfte aller Apache Hadoop Committer. Die Hortonworks Data Platform ist die
stabilste und zuverlssigste Distribution von Apache Hadoop auf dem Markt.
Jedes Release wird getestet und zertifiziert auf ber 45.000 Servern im Wirkbetrieb bei Yahoo. Hortonworks bietet Kunden
Schulungen, Beratung sowie Support fur Hadoop.

Thema
Big Data der Prsi, im Diamodell

Hortonworks
Einsatz-Szenarien:
Hortonworks Data Platform (HDP) findet sowohl fur strukturierte als auch fr unstrukturierte Daten Anwendung, sowohl fr
Stapelverabeitung als auch fr interaktive Analysen. Hufig benutzen Kunden HDP im Zusammenhang mit neuen Datentypen
wie zum Beispiel Clickstream-Daten, Social Media Stimmungsdaten, Server-Logdaten, Sensordaten, Maschine-zu-MaschineKommunikation, Standortdaten und Freitext-Daten.
Technologien:
Hortonworks unterstutzt die meisten Apache Hadoop Module. Besonders stolz ist es darauf, Innovationen in den Bereichen zu
treiben, die es Kunden ermglichen, Hadoop als unternehmensweiten Shared Service einzusetzen. Hierzu zahlen
insbesondere:

Yarn als Betriebssystem fur Hadoop, mit dem verschiedenste analytische Anwendungen gleichzeitig laufen knnen
Ambari als Betriebsmodell, womit Hadoop nativ oder aus Tools wie Microsoft Systems Center provisioniert und gesteuert
werden kann
Knox fr Sicherheit, gerade auch in multimandantenfhigen Umgebungen
Tez fur interaktive Verarbeitung
Storm fr die schnelle Verarbeitung von groen Datenstrmen in Echtzeit

Dank der engen technischen Integration mit Microsoft, Teradata, SAP, Rackspace, SAS und anderen Herstellern eignet sich
die Hortonworks Data Platform gut fr den Einsatz zusammen mit existierenden Losungen.

Thema der Prsi, im Diamodell

IBM
Kontaktinformationen
IBM Deutschland GmbH
IBM-Allee 1 | 71139 Ehningen
www.ibm.com
Ansprechpartner: Dr. Mark Mattingley-Scott, scott@de.ibm.com
Big-Data-Lsungen
IBM hat eine unternehmensorientierte Big-Data-Plattform entwickelt, auf der Sie das gesamte Spektrum der
geschftlichen Herausforderungen im Bereich Big Data in Angriff nehmen knnen. Die Plattform vereint konventionelle
Technologien, die sich gut fr strukturierte Routineaufgaben eignen, mit neuen Technologien, die auf hohe
Geschwindigkeit und Flexibilitt ausgerichtet sind und sich hervorragend fr die Ad-hoc-Datenuntersuchung,
-erkennung und die unstrukturierte Analyse anbieten. Die integrierte IBM-Plattform umfasst vier zentrale
Funktionen:

Hadoop-basierte Analyse,

Stream-Computing,

Data Warehousing sowie

Informationsintegration und governance


sowie unterstutzende Plattformservices wie

Visualisierung und Erkennung zur Untersuchung groer, komplexer Datasets

Anwendungsentwicklung

Systemmanagement: berwachung und Management von Big-Data-Systemen, um sichere, optimierte Leistung zu


erreichen

Beschleuniger: Schnellere Wertschpfung mit analyseorientierten und branchenspezifischen Modulen.

Thema
Big Data der Prsi, im Diamodell

IBM
Einsatzszenarien
Die IBM Big-Data-Plattform und ihre Komponenten werden heute zur Umsetzung von innovativen, analytischen Lsungen in
Industrie- und Cross-Industrie Use Cases eingesetzt.
Das Losungsspektrum deckt die komplette Bandbreite der Verarbeitung und Analyse von strukturierten, semi- und
unstrukturierten Daten ab.
Es werden damit Anwendungsbereiche adressiert wie Netzwerk-Analysen, Betrugserkennung, Security Intelligence,
Informations-Discovery, Suche und intelligente Daten-Exploration, Real-time Event- und Datenstrom-Analysen, Social Media
Analysen, DWH Offload /Archiv-Szenarien im Data-Warehouse-Umfeld, Video Surveillance, Smart-Grid-/Smart-MeterSteuerung und Optimierung sowie in IT-zentrischen Szenarien im Bereich der Log und Cloud Analytics.
Big-Data-Technologien
IBM BigInsights ist die Enterprise-fahige Hadoop-Distribution incl. integrierter Analyse-Bausteine zur Text-Analyse, Machine
Learning und fur statistische Analysen. IBM InfoSphere Streams ist die Real-time Streams Computing Plattform incl. seiner
integrierten, analytischen Funktionen. SPSS bietet Predictive Analytics Funktionen fur Streaming, Hadoop und DWHUmgebungen an. Mit DB2 BLU verfugt IBM uber eine hoch-skalierbare In-Memory DB als Erweiterung der DB2 Plattform. Der
InfoSphere Data Explorer ist eine Losung zur effizienten Datenexploration und semantischen Suche. IBM Cognos steht fr
Business Analytics- und Performance Management-Losungen, mit denen Unternehmen ihre Geschftsleitung planen,
berwachen, analysieren und besser steuern knnen.

Die Puredata-System-Familie bietet optimierte Appliances fr Hadoop, DWH-basierte Umgebungen und Analytics.

Thema der Prsi, im Diamodell

Microsoft
Kontaktinformationen
Microsoft GmbH
Konrad-Zuse-Strase 1 | 85716 Mnchen
Tel.: +49 (0) 89 3176 0 | hans.wieser@microsoft.com
www.microsoft.com/bigdata
Big-Data-Lsungen
Microsoft schpft aus der eigenen Erfahrung als Betreiber von Big-Data-Plattformen wie Skype, Bing und Xbox.
Die integrierte Plattform vereinfacht den Einsatz von Big Data und die intuitive Erstellung fundierter Prognosen in
Echtzeit.

Mit Power BI fur Office 365 knnen Anwender mit vertrauten Werkzeugen wie Excel Daten aus eigenem Bestand oder
der Cloud intuitiv erfassen, visualisieren und verteilen, Abfragen in natrlicher Sprache formulieren und Echtzeitdaten
auf jedem mobilen Endgert nutzen.
Parallel Data Warehouse erlaubt die parallele Verarbeitung massiver Datenbestande in modernen Echtzeit-ROLAP
Szenarien. Dabei bindet Polybase transparent verteilte Hadoop-Daten in die SQL-Abfragen ein.
Mit Azure und speziell dem HD Insight Service knnen Anwender kostengnstig in Minutenschnelle massive
Rechenkapazitt fur Hadoop nutzen. Die einfache Nutzung ermglicht die Beschleunigung von Innovationszyklen zum
Beispiel bei Entwicklung und Test neuer Produkte.
Uber den Azure Marketplace bietet Microsoft darber hinaus Anwendern die Mglichkeit, ihre Daten mit frei verfugbaren
und kommerziellen Datenquellen anzureichern

Jede der genannten Losungen harmoniert mit dem Microsoft Produktportfolio, ergnzt aber auch ideal Ihre organisch
gewachsene IT in Ihrem Rechenzentrum oder in der Cloud.

Thema
Big Data der Prsi, im Diamodell

Microsoft
Einsatz-Szenarien
Das umfassende Losungsportfolio ermglicht es Microsoft, jeden der in diesem Leitfaden beschriebenen Anwendungsfalle fr Big Data zu adressieren,
z. B.

Erfassung von Echtzeitdaten, zum Beispiel in Industrieanlagen zu vorausschauenden Wartung,

Verdichtung und Verknpfung in hybriden Data Warehouses, zum Beispiel zur Historisierung von Daten und zur Bedienung regulativer
Anforderungen,

bis zur kooperativen Visualisierung und Mustererkennung sowie Verdichtung von Daten, z. B. zur Analyse sozialer Netzwerke.
Eine Auswahl von Anwendungsfallen finden Sie unter www.microsoft.de/sql bzw. www.microsoft.com/de-de/server/sqlserver/2012/kundenreferenzen.aspx
Big-Data-Technologien
Mit dem SQL Server verfugt Microsoft ber die meistverbreitete relationale Datenbank am Markt. Die aktuelle Version 2014 beschleunigt durch die
Nutzung von In-Memory-Technologie, Spaltenspeicherung, Kompression und innovativen Lockverfahren sowohl schreibende als auch lesende Zugriffe
um das 10-100fache auf der gleichen Hardware. SQL Server beinhaltet bereits alle klassischen Data-Warehouse-Technologien fr ETL, Datenqualitt,
Berichtswesen, OLAP.
Die MPP-Technologie des Parallel Data Warehouse (PDW) richtet sich an Anwendungsfalle mit extrem hohen Datenmengen oder geringer Toleranz fr
Antwortzeiten. PDW bietet gleichzeitig die Mglichkeit, Hadoop Knoten im eigenen Rechenzentrum zu betreiben, zum Beispiel fr sensible Daten.
Power BI ergnzt die Plattform um intuitive analytische Funktionen durch die Module Power Query zur Exploration von Daten, Power Pivot zur
Verknpfung und Modellierung sowie Power View und Power Map fr Visualisierung und Interpretation.
Azure bietet eine flexible, elastische Plattform zur Bereitstellung von Rechenleistung und Speicherkapazitt fur jede der beschriebenen Technologien,
permanent, saisonal der im K-Fall.

Thema der Prsi, im Diamodell

SAP
Kontaktinformationen
SAP Deutschland AG & Co. KG
Hasso-Plattner-Ring 7 | 69190 Walldorf
Tel.: +49 (0) 6227 7-77206 | mark.von.kopp@sap.com
www.sapbigdata.com
Big-Data-Lsungen
SAP kombiniert neue und innovative Big Data Geschftsanwendungen mit Echtzeit Analysen und fundierten Vorhersagen.
Dies basiert auf einer offenen und voll integrierten fhrenden technischen Plattform, der SAP HANA Plattform fr Big Data.
Flankierend und ergnzend bietet SAP dazu ein komplettes Big Data Losungsportfolio:

SAP HANA stellt eine wegweisende Echtzeitplattform fr Analytik und Anwendungen dar. Wahrend der IT-Bereich
vereinfacht wird, stellt die Plattform leistungsstarke Funktionen bereit. Dazu gehren eine deutlich verbesserte
Verarbeitungsgeschwindigkeit, die mgliche Verarbeitung groer Datenmengen sowie Prognose- und Text-MiningFunktionen. Diese Echtzeitplattform kombiniert hohe Transaktionsvolumina mit Analysefunktionen, um so Lsungen zu
schaffen, die Ihre Unternehmensleistung erhht.
Bei der Losung SAP Predictive Analysis handelt es sich um ein Tool fr die statistische Analyse und das Data Mining,
mit dem sich Vorhersagemodelle erstellen lassen, durch die Sie verborgene Einsichten gewinnen und Abhngigkeiten
in Ihren Daten erkennen und so mglicherweise Voraussagen ber zuknftige Ereignisse machen knnen.

Thema
Big Data der Prsi, im Diamodell

SAP
Zudem bietet der SAP Event Stream Processor (SAP ESP) kontinuierliche Business Intelligence fr eine schnelle und
intelligente Entscheidungsfindung und Geschftsfhrung. Auch wenn die Flut eingehender Daten manchmal berwltigend ist
SAP Event Stream Processor verwandelt diese auf jedes Unternehmen einstromenden Geschftsmitteilungen in
aussagekrftige Informationen. Dabei werden irrelevante Daten verworfen, Daten aus verschiedenen Quellen kombiniert und
Ereignisse im Kontext anderer Ereignisse untersucht, um festzustellen, was wichtig ist.
Diese Aufgaben werden bei sehr hohen Geschwindigkeiten, in Echtzeit und fr groe Mengen eingehender Daten
durchgefhrt. So knnen Unternehmen schneller auf sich ndernde Bedingungen reagieren, Bedrohungen und Opportunities
erkennen, sobald sie auftauchen und fundiertere Entscheidungen durch umfassende und zeitnahe Informationen treffen.
SAP Data Services bietet fr Sie abschlieend eine verlssliche Informationsgrundlage, um operative und analytische
datenbezogene Vorhaben zu unterstutzen. Sie erzielen wesentliche Vorteile durch folgende Mglichkeiten:

Schpfen Sie das Potenzial Ihrer Daten voll aus, indem Sie unabhngig von Datentyp, Datendomne oder Datenquelle
den Zugriff auf entscheidende Daten fur alle wichtigen Geschftsprozesse ermglichen.

tellen Sie mglichst verlssliche Informationen mit hherer Genauigkeit und Zuverlssigkeit der Daten fr
S
Entscheidungs- und Geschftsprozesse bereit.

ptimieren Sie die Betriebsablaufe und senken Sie die Gesamtbetriebskosten, indem Sie nur eine Anwendung fr
O
mehrere Datenverwaltungsprozesse unterhalten.

Thema der Prsi, im Diamodell

SAP
Einsatz-Szenarien
Modernste Geschftsanwendungen wie die SAP Customer Engagement Intelligence Lsungen helfen Ihnen, Marketing
und Vertrieb ber alle Kanale zu konsolidieren, zu optimieren und in Echtzeit zu berwachen und zu
steuern. Dabei werden insbesondere die in Zukunft stark wachsenden Daten aus sozialen Medien, aus
Kassensysteme, aus dem Web und aus Geo-Daten auf einzigartige Weise mit intuitiven Benutzeroberflachen und
schlanken sowie auch mobil nutzbaren Transaktionen kombiniert.
Nutzen Sie die neuen Mglichkeiten von Big Data auch im Bereich Betrugserkenung und vermeidung mit SAP Fraud
Management. Erkennen Sie Betrug, decken ihn auf, und nutzen Sie Muster und Korrelationen aus den verschiedenen
Datenquellen, um in Zukunft Betrug zu verhindern.
Mit der SAP Big Data Losung SAP Demand Signal Management werden Sie zudem ein wirklich angebots- und
nachfrageorientiertes Unternehmen.
Erfassen Sie externe Markt- und Verbrauchsdaten und kombinieren Sie diese mit Ihren internen Daten und Analysen,
um in Echtzeit auf Ihre Lieferkette einzuwirken und diese mit prdikativen Analysen in vorher nicht gekanntem
Ausmae zu steuern.

Thema
Big Data der Prsi, im Diamodell

SAP
Durch die neuartige Kombination von Produktionsdaten mit zahlreichen weiteren Geschftsdaten aus den Bereichen
Controlling, Finanzen und Service haben Sie ber die SAP Operational Equipment Effectiveness Lsung nun die
Mglichkeit, Grunde fr mangelnde Anlagenauslastung, Qualittsschwankungen und Produktionsfehler frhzeitig zu erkennen
und zu analysieren. Damit erreichen Sie eine hhere Produkt- und Produktionsqualitt und eine bessere Nutzung Ihrer
Produktionsanlagen.
Uber die herausragenden Eigenschaften der SAP HANA Plattform knnen Sie zudem die intelligente Auflsung von Daten und
Informationssilos erreichen sowie in Echtzeit externe Daten wie Maschinendaten berechnen, filtern und analysieren.
Die umfangreichen Mglichkeiten zur Entwicklung eigener Anwendungen auf der SAP HANA Plattform und die Bereitstellung
von professionalen Beratungsdienstleistungen, die von der Datenmodellierung bis hin zur Entwicklung neuer Programme
reichen, helfen Ihnen zudem, individuelle und auf Ihre Bedrfnisse zugeschnittene Losungen zu entwickeln, die Ihnen auch in
Zukunft einen Vorsprung im Wettbewerb gewhrleisten.

Thema der Prsi, im Diamodell

SAP
Big-Data-Technologien
Das SAP Big Data Portfolio verknpft die innovative SAP HANA Plattform mit den modernsten Werkzeugen zu Daten-Sicherheit, zur Daten-Integration,
zur Visualisierung und zur Echtzeit Einbettung von Daten und Analysen in Geschftsprozesse- und -anwendungen.
SAP Lumira und die SAP Business Objects BI Suite stellen konsistente und fr die verschiedenen Zielgruppen angepasste Werkzeuge fr die Anzeige
und Auswertung von Big Data zur Verfugung.

Der SAP Event Stream Processor ermglicht ein Bearbeiten und Bewerten von Ereignissen aus Maschinendaten, sozialen Medien und weiteren
Sensoren in Echtzeit. SAP Data Services stellen neben der Integration von Daten aus Umsystemen auch ein zuverlssiges Datenqualittsmanagement
und Informationsmanagement sicher.
Ihren Erfolg stellt SAP zudem neben der Integration und Kombination von frei am Markt verfgbarer und erprobter Open Source Software fr
statistische Berechnungen und wirtschaftliche Speicherlosungen von sehr groen Datenmengen zudem uber ein weltweit agierendes und
fhrendes Partnernetzwerk sicher.
SAP bietet somit eine komplettes Portfolio an Technologien fr Ihren Geschftserfolg im Umgang und der Nutzung von Big Data: Sichere und
zertifizierte Hardware und Infrastruktur der zahlreichen Technologiepartner, eine hauptspeicher-basierte offene technologische
Plattform, Integration verschiedenster Datenquellen und Datentypen, modernste analytische Bibliotheken, intuitive Benutzeroberflachen und
Werkzeuge zur Darstellung und Analyse bis hin zu konkreten Anwendungen fr die unterschiedlichsten Fachbereiche und Industrien.

Thema
Big Data der Prsi, im Diamodell

SAS
Kontaktinformationen
SAS Institute GmbH
In der Neckarhelle 162 | 69118 Heidelberg
Tel.: +49 (0) 6221 415 123
info@ger.sas.com
Ansprechpartner:
Dr. Dirk Mahnkopf
Unternehmensinformationen
SAS ist Marktfhrer bei Business-Analytics-Software und der weltweit grte unabhngige Anbieter im Business-Intelligence-Markt. Nach einer
aktuellen Studie des Marktforschungsinstituts Lunendonk steht SAS auch in Deutschland deutlich an erster Stelle des Business Intelligence-Marktes.

Der weltweite Umsatz von SAS lag im Jahr 2012 bei 2,87 Milliarden US-Dollar, in Deutschland konnte SAS einen Umsatz von 134,6 Millionen Euro
verzeichnen. An ber 60.000 Standorten in 135 Lndern wird die SAS Software eingesetzt darunter in 90 der Top-100 der Fortune-500-Unternehmen.
25 Prozent seines Jahresumsatzes hat SAS letztes Jahr in Forschung und Entwicklung investiert.
SAS beschftigt weltweit ca. 13.400 Mitarbeiter, in Deutschland sind 550 Mitarbeiter ttig. Die deutsche Niederlassung wurde 1982 in Heidelberg
gegrndet. Fr die optimale Betreuung der Kunden in Deutschland befinden sich weitere regionale Standorte in Berlin, Frankfurt am
Main, Hamburg, Kln und Mnchen. Die internationale Zentrale des Unternehmens befindet sich in Cary, North
Carolina (USA).
Einsatz-Szenarien
Die Softwarelosungen von SAS unterstutzen Unternehmen, aus ihren vielfaltigen Geschftsdaten eine konkrete Informationsbasis fr strategische
Entscheidungen zu gewinnen. In Zusammenarbeit mit seinen Kunden und aus den langjhrigen Projekterfahrungen hat SAS Softwarelosungen
fr eine integrierte Unternehmenssteuerung entwickelt. Diese Losungen kommen im Bereich Kundenbeziehungsmanagement, Risikosteuerung,
strategisches Personalmanagement, Finanzcontrolling und IT-Gesamtsteuerung erfolgreich zum Einsatz.

Thema der Prsi, im Diamodell

SAS
Big-Data-Technologien
SAS Schlsseltechnologien unterstutzen Kunden bei Big Data Projekten.

Datenmanagement. SAS bietet umfassende Integrations-und Management-Funktionalitten zu Hadoop und anderen


Big-Data-Datenbanken. Fur SAS ist Big Data darber hinaus mehr als eine Diskussion in Verbindung mit Technologien
wie Hadoop, NoSQL usw. SAS arbeitet mit einem umfassenderen Ansatz fr Datenmanagement/Data Governance und
bietet eine Strategie und Lsungen an, mit denen beliebige Datenmengen effektiv verwaltet und genutzt werden knnen.

High-Performance Analytics. Datenanalyse mit Hilfe leistungsfhiger mathematisch-statistischer Verfahren gehrt seit
jeher zu den besonderen Starken von SAS.

High-Performance Datenvisualisierung. Die Kombination aus Datenvisualisierung und In-Memory-Verarbeitung mit


Features wie Prognosen on-the-fly und Szenarioanalysen, automatischer Diagrammerstellung und Bedienung per Dragand-Drop ermglicht einen intuitiven Zugang zu den Daten.

Flexible Bereitstellungsoptionen. Nutzen Sie SAS Losungen in Ihrer bestehenden IT-Infrastruktur oder als Service aus
der Cloud.

Bei der Konzeptionierung, Entwicklung, Implementierung und Schulung leisten die SAS Professional Services Untersttzung.
Sie vereinen Consulting, Customer Support und Education unter einem gemeinsamen Dach und stehen Kunden in allen
Phasen ihrer Projekte zur Seite: vom Startup-Gesprch ber die Beratung fr das konkrete Projekt bis hin zur
Softwareimplementierung sowie Schulung und SAS Zertifizierung der Mitarbeiter.

Thema
Big Data der Prsi, im Diamodell

SEMANTIS
Kontaktinformationen
SEMANTIS GmbH
Oliver Roser
Postfach 120548 | 69067 Heidelberg
Tel.: +49 6221 6560484 | ro@semantis.de
www.semantis.de
Big-Data-Lsung(en)
SEMANTIS stellt Big Data Analysis in den Fokus, indem vorhandene Ressourcen und neue Losungen effizient gekoppelt
werden. Besser und schneller zu Entscheidungen finden? Es bert Sie, bauen Ihre Kompetenz im Bereich visuelle
Datenanalyse auf und realisieren Projekte.
Semantis nutzt fr

Visualisierung, Analyse und Prsentation: Tableau Software Produkte.

Datenbestande Ihrer SAP-Anwendung (ECC/ERP) oder Ihren individuell via Akka angereicherten Big Data
Datenbestande: SAP HANA In-Memory-Datenbank.

Individuelle Losungen Akka & Scala.


SEMANTIS bietet hierfr u. a.

als einziger Partner in Europa Geodatenbanken fr Tableau zur Visualisierung Ihrer Daten in der Karte an (z. B. NielsenBezirke, PLZ- Gebiete, Baublocke und viele andere).

als Partner von Typesafe Inc. die Typesafe Subscription an, welche Entwicklung und Produktivbetrieb abdeckt, sowie
Schulungen und Beratung rund um die Reactive Platform.

Thema der Prsi, im Diamodell

SEMANTIS
Einsatz-Szenarien
Tableau Software ist die Losung, wenn es um schnellstmgliche visuelle Analyse und kollaborative
Entscheidungsfindung geht. Angereichert mit Kartenmaterial von SEMANTIS sind Sie in der Lage alle Facetten
von Tableau Software zu nutzen. Kunden von Tableau Software sind u. a. Siemens Energy Sector
(Deutschland), Exxon, Ferrari, Merck und eBay.
SAP HANA in Memory wird als ERP/ECC-(OLTP) Datenbank der SAP Kunden oder alternativ in vielfaltiger Art
als dedizierte Big Data Datenbank genutzt.
Der Typesafe Stack (Akka, Scala, etc.) von Typesafe Inc. implementiert die Prinzipien des Reactive Manifesto.
Akka ist ein Framework mit den Schwerpunkten Skalierbarkeit und Robustheit sowie der Fhigkeit,
Berechnungen transparent in einem Cluster zu verteilen. Einsatzgebiete reichen von Twitter (skaliert durch
Scala) ber LinkedIn (nutzt Akka) bis zu Klout (dt.).

Thema
Big Data der Prsi, im Diamodell

SEMANTIS
Big-Data-Technologien
SEMANTIS verknpft die innovativen
Technologien von Tableau, SAP und Typesafe,
damit Sie schon heute die Standards von
Morgen nutzen knnen.
Hierbei setzen wir auf hohe Expertise, z. B. beim
ersten weltweiten SAP HANA Online-Training
der SAP AG haben unsere teilnehmenden
Mitarbeiter unter den Top 500 Absolventen von
uber 40.000 IT-Professionals
abgeschlossen.

Thema der Prsi, im Diamodell

Software AG
Kontaktinformationen
Software AG
Uhlandstr. 12 | 64297 Darmstadt
Tel.: +49 (0)6151 92-0 | webinfo@softwareag.com
www.softwareag.com
Die Software AG (FRA: SOW) hilft Unternehmen, ihre Geschftsziele schneller zu erreichen. Mit den Technologien des
Unternehmens fur Big Data, Integration und Geschftsprozessmanagement. Seit mehr als 40 Jahren steht das Unternehmen
fr Innovationen, die sich am Nutzen fr den Kunden ausrichten. Mit den Produktfamilien Adabas und Natural, webMethods,
Terracotta, Apama, ARIS und Alfabet ist das Unternehmen fhrend in 15 Marktsektoren. Die Software AG beschftigt ca.
5.300 Mitarbeiter in 70 Lndern und erzielte 2012 einen Umsatz von 1,05 Milliarden Euro.
Big-Data-Lsungen
Die Software AG unterstutzt mit ihren Losungen fr Intelligente Geschftsoperationen (Intelligent Business Operations IBO)
und Big-Data-Management Unternehmen dabei, operative Geschftsablaufe in Echtzeit zu analysieren und zu optimieren
sowie neue Geschftsmodelle zu erschlieen.
Die Grundlage fr die branchenspezifischen Lsungen bildet eine hochperformante und skalierbare In-Memory-ComputingPlattform, die es ermglicht, groe Datenmengen:

im Hauptspeicher mit schnellem Zugriff zu verwalten,


effizient und flexibel zu importieren, exportieren und zwischen Systemen auszutauschen,
in Echtzeit zu analysieren, sowohl ad-hoc (data at rest) als auch kontinuierlich (data in motion), um wertvolle
Informationen abzuleiten,
bedarfsgerecht und zeitnah zu visualisieren und schlielich gezielt Manahmen einzuleiten.

Thema
Big Data der Prsi, im Diamodell

Software AG
Die Daten knnen dabei den unterschiedlichsten Datenquellen entspringen, seien es transaktionale oder analytische Daten,
historische Daten aus Datenbanken, BI-Systemen oder Hadoop, Prozessinformationen, oder etwa Live-Datenstrome von
Sensoren, Tweets oder mobilen Endgeraten. Der Kern der Softwareplattform integriert und erweitert bereits im Markt fhrende,
hochgradig innovative Produkte fur das In-Memory-Datenmanagement (Terracotta BigMemory), das High-Speed Messaging
(Terracotta Universal Messaging) sowie die Echtzeitdatenanalyse und -visualisierung (Apama Complex Event Processing und
Presto).
Einsatz-Szenarien
Die IBO- und Big-Data-Management-Plattform der Software AG unterstutzt die schnelle Entwicklung und Bereitstellung von
Big-Data-Losungen in verschiedenen Branchen und Industrien. Derzeit finden sich Anwendungen vorrangig in den folgenden
Bereichen:

Elektronischer Handel: Algorithmic Trading, Trade Surveillance, Anti-Money Laundering

Customer Experience Management: Analyse des Kundenverhaltens mit personalisierten Echtzeitinteraktionen

Betrugserkennung, vermeidung, und Risikomanagement in Echtzeit

Gewinnung von Live-Einblicken in operative Geschftsablaufe, z. B. zur Supply Chain Visibility oder dem End-zu-EndMonitoring von Geschftsprozessen

Beschleunigung und Skalierung transaktionaler Anwendungen: Verbesserung von Zugriffszeiten auf Datenbanken,
Mainframe Offloading
Sensordatenmanagement: z. B. im Umfeld von Industrie 4.0, Preventive Maintenance, Smart Grids/Energy Management

Thema
Big Data der Prsi, im Diamodell

Software AG
Big-Data-Technologien
Hinter der Terracotta In-Memory-Datenmanagement-Technologie der Software AG, die basierend auf der Open Source
Bibliothek ehcache den De-facto-Standard fur Java Caching definiert, steht eine groe Gemeinde von mehr als 2,1 Millionen
Entwicklern in ber 190 Lndern und mit ber 500.000 Enterprise-Installationen. Kombiniert wird diese Technologie zum
Datenmanagement mit marktfhrenden Technologien fur das Complex Event Processing sowie Universal Messaging, deren
Nutzen und berlegenheit unter anderem durch die groe Kundenbasis im anspruchsvollen Finanzumfeld nachgewiesen
wurde. Durch die enge Integration dieser innovativen Technologien, die teilweise das Ergebnis jahrelanger Forschung sind,
entsteht eine hocheffiziente, robuste, aber trotzdem flexible Softwareplattform, mit der Big-Data-Losungen schnell und
zuverlssig entwickelt werden knnen.
Neben dem skalierbaren Hochleistungskern verfugt die IBO- und Big-Data-Plattform ber eine Anbindung an die webMethodsSuite, um einerseits Daten aus dem webMethods-Umfeld wie z. B. dem Enterprise Service Bus oder der
Geschftsprozessmanagement-Suite effizient analysieren und andererseits Geschftsprozesse dynamischer und intelligenter
gestalten zu knnen.
Der Fokus der Plattform liegt im Bereich der Echtzeit-Informationsgewinnung, um im richtigen Moment die richtige
Entscheidung einleiten zu knnen. Das HadoopOkosystem, Werkzeuge zur nachgelagerten Datenanalyse sowie Data-MiningAnsatze sind komplementr zu sehen, wobei die Softwareplattform bereits ber verschiedenste Anbindungs- und
Integrationsmglichkeiten wie etwa Hadoop-Konnektoren verfugt. Sie ist unabhngig von spezieller Hardware einsetzbar,
allerdings kooperiert die Software AG mit strategischen Partnern wie etwa Fujitsu zur Bereitstellung entsprechender
Hardwareinfrastrukturen bei Bedarf.

Thema
Big Data der Prsi, im Diamodell

Talend Germany
Kontaktinformationen
Talend Germany GmbH
Stefan Lipp
Servatiusstrasse 53 | 53175 Bonn
Tel.: +49 (0) 228 76 37 76 0 | info@talend.com
www.talend.com
Big-Data-Lsungen
Mit den marktfhrenden Losungen von Talend knnen Kunden die Time-to-Value eines jeden Integrationsprojektes durch
einen einfachen Prozess beschleunigen und die Konsistenz des Integrationsprozesses ber alle Projekte und Integrationsarten
hinweg sicherstellen. Talend for Big Data lauft als einzige Integrationslosung vollstndig innerhalb von Hadoop und nutzt die
Mglichkeiten der durch Open Source initiierten Innovationen, um die neuesten Versionen der Big-Data-Plattformen wie
Hadoop 2.0/YARN und NoSQL zu unterstutzen.
Von kleinen Projekten bis hin zu unternehmensweiten Installationen maximiert die hochgradig skalierbare Talend-Plattform fur
Daten-, Anwendungs- und Geschftsprozessintegration den Wert von Informationen in einer Organisation und optimiert ber
ein nutzenbasiertes Subskriptionsmodell den Return on Investment. Die flexible Architektur von Talend eignet sich fr
Big-Data-Umgebungen und lasst sich leicht an zuknftige IT-Plattformen anpassen. Alle Talend-Produkte teilen sich einen Satz
leicht bedienbarer Werkzeuge, so dass sich auch die Fhigkeiten der Entwickler in den Teams skalieren lassen. Mehr als 4.000
Unternehmen weltweit nutzen Losungen und Services von Talend. Das Unternehmen hat Hauptniederlassungen in
Nordamerika, Europa und Asien und betreibt ein globales Netz aus Technik- und Servicepartnern.

Thema der Prsi, im Diamodell

Teradata
Kontaktinformationen
Teradata GmbH
Dachauer Strase 63 | 80335 Munchen
Tel.: +49 (0)89 12009-694
Marketing.CentralEurope@Teradata.com
www.teradadata.de
Teradata Big Data Analysen seit 35 Jahren
Teradata (NYSE: TDC) gegrndet 1979 ist ein weltweit fhrender Anbieter von analytischen Datenplattformen, Marketingund Analyseanwendungen sowie Beratungsleistungen. Die innovativen Losungen von Teradata unterstutzen Unternehmen
dabei, ihre Daten so zu integrieren und zu analysieren, dass sie mehr Wissen ber ihre Kunden erlangen, bessere
Entscheidungen treffen und wettbewerbsfhiger werden. Mit rund 10.000 Mitarbeitern in 77 Lndern betreut Teradata mehr als
2.500 Kunden, zu denen Top-Unternehmen aus allen wichtigen Branchen gehren. Teradata zeichnet sich durch ethisches
Handeln und zukunftsweisendes Denken aus und wird von Medien und Analysten wegen seiner Technologiekompetenz,
Stabilitt und Kundenorientierung anerkannt.
Mit den bernahmen von Aprimo (2011) und eCircle (2012), und deren Integration, hat Teradata seine Position als ein
fhrender Anbieter auf dem Markt fr Integriertes Marketing Management, Marketing Ressource Management, digitales
Marketing und Media Services weiter ausgebaut. Die Anwendungen von Teradata versetzen Marketingexperten damit in die
Lage, konsistente Kampagnen personalisiert und zugleich ber alle Kanale integriert durchzufhren.
Features
Umsatz 2012: $ 2,67 Milliarden

Thema
Big Data der Prsi, im Diamodell

Teradata
Schwerpunkte
Integriertes Data Warehousing, Big Data-Analysen, integriertes Marketing Management und weitere Marketing- und
Analyseanwendungen sowie Beratungsleistungen.
Einsatz-Szenarien

Operations: Losungen fr Master Data Management, SAP Integration, Supply-Chain Management & Logistics

Risk & Finance: Finance & Performance Management, Enterprise Risk Management, Tax & Revenue Management

Business Strategy & Analytics: Lsungen fur Big Data Analytics, Business Intelligence, Data Governance, Demand Planning
und Data Mining & Analytics

Marketing: Lsungen fur integriertes Marketing Management, Marketing Operations, Multi-Channel


Kampagnenmanagement, Digital Messaging, Marketing Analytics & Customer Data Management

Big-Data-Technologien
Mit der neuen Teradata Unified Data Architecture knnen MapReduce-basierte Big Data Losungen wie Aster, Hadoop und
Teradata einfach zu einer einheitlichen und leistungsfhigen Analyseumgebung zusammengefasst werden. Durch den Einsatz
von Teradata Intelligent Memory wird die Performance von In-Memory-Technologien kostenoptimiert in der Teradata Systemwelt
verfugbar.

Thema der Prsi, im Diamodell

TU Berlin - DIMA
Kontaktinformationen
Prof. Dr. Volker Markl
Fachgebiet Datenbanksysteme und
Informationsmanagement (DIMA)
Einsteinufer 17, Sekr. EN 7 | 10587 Berlin
Tel.: +49 (0) 30 314 23555 | sekr@dima.tu-berlin.de
ww.dima.tu-berlin.de
Big-Data-Lsungen
STRATOSPHERE als Flagschiffprojekt des Fachgebiets ist eine von der DFG geforderte Forschergruppe, in der fnf Fachgebiete an drei Universitten
in Berlin und Potsdam die skalierbare Analyse von groen Datenmengen in Echtzeit untersuchen. Das im Projekt entwickelte System Stratosphere
ist eine open-source Plattform zur Analyse von groen Datenmengen mit geringer Latenz, welches weit ber die Funktionalitt und Performance von
den derzeit blichen Systemen fr Big Data Analytics hinausgeht.
Einsatz-Szenarien
Stratosphere wird derzeit von mehreren Unternehmen, Universitten und Forschungsinstitutionen im Kontext von Big Data Analytics evaluiert/eingesetzt,
(z. B. Telekom, Internet Memory Research, INRIA, KTH Stockholm, Universitt Trento, SZTAKI Budapest) und ist als skalierbare
Datenanalyseinfrastruktur Bestandteil des Smart Data Innovation Lab.
Big-Data-Technologien
DIMA fuhrt Forschungsarbeiten in den Gebieten Technologie von Informationssystemen, Textmining, Informationsmarktplatze, Business Intelligence,
Informationsmodellierung und Datenbanktheorie durch. Dabei stehen im Bereich der Technologie Modelle und Methoden der massiv-parallelen
Informationsverarbeitung, robuste Anfrageoptimierung sowie neue Rechnerarchitekturen fr das Informationsmanagement im Fokus der aktuellen
Forschung.

Thema
Big Data der Prsi, im Diamodell

T-Systems
Kontaktinformationen
T-Systems International GmbH
Hahnstrase 43d | 60528 Frankfurt
Tel.: + 49 (0) 69 20060-0 | info@t-systems.com
www.t-systems.de/bigdata
Big-Data-Lsungen
Die smarten Big Data Losungen von T-Systems vereinen bewahrte BI-Ansatze mit neuen Technologien. Die
Schwerpunkte diesen smarten Daten-Managements sind:

Enterprise Business Intelligence: Diese Losungen sind Grundlage fr operative und strategische Entscheidungen.
High Performance Business Intelligence: Auf Basis dieser Losungen knnen Unternehmen ihre Massendaten in
Echtzeit verarbeiten.
Emerging Technologies, Hadoop und NoSQL: Diese Technologien sind Grundlage fr die Verarbeitung extrem
hochvolumiger, unstrukturierter Daten.

Ganz gleich was Ihre Herausforderung bei der Analyse von Daten sind, smartes Data Management stellt sicher, dass
die richtige Losung zur Umsetzung Ihrer Anforderungen bereitgestellt wird.
Einsatz-Szenarien
T-Systems bietet Ihnen Systemlosungen, die je nach Anforderung jedes V optimal abdecken und die Sie beim
Angang Ihrer Herausforderungen individuell unterstutzen. Ob Sie durch Volume, Velocity oder Variety herausgefordert
werden, T-Systems erschliet das entscheidende V den Value. Horizontal und alle Branchen.

Thema
Big Data der Prsi, im Diamodell

Beispiele fur innovative Einsatz-Szenarien von


T-Systems:

Thema der Prsi, im Diamodell

T-Systems
Entsprechend Ihrer individuellen Herausforderungen entwickelt T-Systems mageschneiderte Big-Data-Losungen als
Grundlage fr nachhaltige Prozessoptimierungen.
Big-Data-Technologien
End-to-End: T-Systems bietet smtliche Big-Data- Services von Beratung, Potenzialanalyse, Strategieentwicklung
ber Realisierung bis zu Hosting und kontinuierlicher Optimierung Ihrer Big-Data-Losungen aus einer Hand. Langjhriges
Branchen-Know-how und groe Implementierungskompetenz ermglichen die sichere, individuelle Umsetzung auch komplexer
Big-Data-Losungen.
Best-of-Breed: Als produktunabhngiger Systemintegrator mit umfangreichem Know-how der Big-Data-Tools der fhrenden
Anbieter knnen Sie sich bei T-Systems auf erstklassige Losungen verlassen, die entsprechend Ihrer individuellen
Anforderungen konzipiert werden.
Cloud: Jede Big Data Losung bietet es dynamisch aus der T-Systems Cloud an, so dass Sie Ihre Services ganz nach
aktuellen Bedarf sicher und auf Basis klar definierter KPIs beziehen knnen.

Thema
Big Data der Prsi, im Diamodell

PwC
Kontaktinformationen
PwC AG
Florian Buschbacher
Big Data & Data Analytics
Friedrichstr. 14 | 70174 Stuttgart
Tel.: +49 (0) 711 25034 3345
florian.buschbacher@de.pwc.com
www.pwc.de
Big-Data-Lsungen
Mit ihren Digital-Transformation-Ansatz bieten es Ihnen einen integrierten Beratungsansatz, zugeschnitten auf Ihre Branche, der Sie dabei unterstutzt,
Wachstumspotentiale in der sich weiter entwickelnden digitalen Welt zu identifizieren und auszuschpfen.
Auf Basis Ihrer digitalen Fitness hilft PwC Ihnen dabei, die Dynamiken der digitalen Wirtschaft und Bedrfnisse Ihrer Kunden zu verstehen sowie die
damit verbundenen Chancen, aber auch Risiken erfolgreich anzugehen.
Die Data Analytics Experten von PwC helfen Ihnen Big Data von der Unternehmensstrategie abgeleitete Ziele umzusetzen. Sie sind spezialisiert auf
die Entwicklung, Implementierung und Prfung hochkomplexer Algorithmen, der Analyse strukturierter, unstrukturierter und polystrukturierter
Daten sowie Datenstrome und beraten umfassend zu Themen des Data Managements.
Einsatz-Szenarien
Strategieentwicklung, Strategieumsetzung, digitale Transformation, Know Your Customer Analytics, Fraud Detection Analytics, Management Analytics,
Business Analytics, Risk Analytics

Big-Data-Technologien
PwC ist als unabhngiger Berater in der Lage, zu unterschiedlichsten Technologieansatze mit tiefem Expertenwissen zu beraten. Ihr Verstndnis zu
Systemen, Kontrollen und Prozessen sowie regulatorischer Anforderungen erlaubt es PwC, die richtigen Technologien und Tools auszuwhlen und fr
Sie mageschneidert zu implementieren.

Thema
Big Data der Prsi, im Diamodell

Commercial Data Mining


Software
This chapter discusses selected commercial software for data mining, supercomputing
data mining, text mining, and web mining. The selected software are compared with
their features and also applied to available data sets.
The software for data mining are SAS Enterprise Miner, Megaputer PolyAnalyst 5.0, PASW (formerly
SPSS Clementine), IBM Intelligent Miner, and BioDiscovery GeneSight.
The software for supercomputing are Avizo by Visualization Science Group and JMP Genomics from
SAS Institute.
The software for text mining are SAS Text Miner and Megaputer PolyAnalyst 5.0.
The software for web mining are Megaputer PolyAnalyst and SPSS Clementine .

Thema der Prsi, im Diamodell

Commercial Data Mining Software Introduction


In the data mining community, there are three basic types of mining: data mining, web mining,
and text mining.
In addition, there is a special category called supercomputing data mining, which is today used for high performance data
mining and data intensive computing of large and distributed data sets.
Much software has been developed for visualization of data intensive computing for use with supercomputers, including that for
large-scale parallel data mining.
Data mining primarily deals with structured data.
Text mining mostly handles unstructured data/text.
Web mining lies in between and copes with semi-structured data and/or unstructured data.
The mining process includes preprocessing, patterns analysis, and visualization. To effectively mine data, a software with
sufficient functionalities should be used.
Currently there are many different software, commercial or free, available on the market. A comprehensive list of
mining software is available on web page of KDnuggets (http:// www.kdnuggets.com/software/index.html).
This chapter discusses selected software for data mining, supercomputing data mining, text mining, and web mining that are not
available as free open source software.

Thema
Big Data der Prsi, im Diamodell

Commercial Data Mining Software Introduction


The selected software for data mining are SAS Enterprise Miner, Megaputer PolyAnalyst 5.0, PASW (formerly
SPSS Clementine), IBM Intelligent Miner, and BioDiscovery GeneSight.
The selected software for text mining are SAS Text Miner and Megaputer PolyAnalyst 5.0.
The selected software for web mining are Megaputer PolyAnalyst and SPSS Clementine.
The software for supercomputing are Avizo by Visualization Science Group and JMP Genomics from SAS Institute.
Avizo is 3-D visualization software for scientific and industrial data that can process very large datasets at interactive speed.
JMP Genomics from SAS is used for discovering the biological patterns in genomics data.
These software are described and compared as to the existing features and algorithms for each and also applied to different
available data sets. Background on related literature and software are also presented. Screen shots of each of the selected
software are reported as are conclusions and future directions.

Thema der Prsi, im Diamodell

Data Mining Software


The research is to compare the five selected software for data mining including SAS Enterprise Miner,
Megaputer PolyAnalyst 5.0, PASW Modeler/ formerly SPSS Clementine, IBM Intelligent Miner, and
BioDiscovery GeneSight. The data mining algorithms to be performed include those for neural networks,
genetic algorithms, clustering, and decision trees. As can Be visualized from the following Table , SAS
Enterprise Miner , PolyAnalyst 5, PASW, and IBM Intelligent Miner offer more algorithms than GeneSight.
Table Data Mining Software
ALGORITHMS

GeneSight

PolyAnalyst

SAS Enterprie Miner

PASW Modeler/SPSS
Clementine

IBM Intelligent
Miner

Neutral Networks

X (add on)

Decision Trees

Regression Analysis

Statistical Analysis

Cluster Analysis

Self-Organizing Map
(SOM)
Link/Associatio
Analysis

Thema
Big Data der Prsi, im Diamodell

Data Mining Software - BioDiscovery


GeneSight
GeneSight is a product of BioDiscovery, Inc. of El Segundo, CA that focuses on cluster analysis using two main techniques
of hierarchical and partitioning for data mining of microarray gene expressions. Figure 1 shows the k-means clustering
of global variations using the Pearson correlation.
This can also be done by self-organizing map (SOM) clustering using the Euclidean distance metric for the first three
variables of aspect, slope and elevation. Figure 2 shows the two-dimensional self-organizing map (SOM) for the
eleven variables for all of the data using the Chebychev distance metric.

Thema der Prsi, im Diamodell

Data Mining Software - BioDiscovery


GeneSight

Fig. K-means clustering of global variations with the Pearson correlation using GeneSight

Thema
Big Data der Prsi, im Diamodell

Megaputer PolyAnalyst 5.0


PolyAnalyst 5 is a product of Megaputer Intelligence, Inc. of Bloomington, IN and contains
sixteen (16) advanced knowledge discovery algorithms.

Fig. Self-organizing map (SOM) with the Chebychev distance metric using GeneSight

Thema der Prsi, im Diamodell

Megaputer PolyAnalyst 5.0


Following Figures shows input data window for the forest cover type data in PolyAnalyst 5.0. The
link diagram given, illustrates for each of the six (6) forest cover types for each of
the 5 elevations present for each of the 40 soil types. It provides the bin selection rule
for the variable of selection. The Decision Tree Report indicates a classification probability
of 80.19% with a total classification error of 19.81%. Per PolyAnalyst output the decision
tree has a tree depth of 100 with 210 leaves, and a depth of constructed tree of 16, and a
classification efficiency of 47.52%.

Thema
Big Data der Prsi, im Diamodell

Megaputer PolyAnalyst 5.0

Fig. Input data window for the forest cover type data in PolyAnalyst 5.0

Thema der Prsi, im Diamodell

Megaputer PolyAnalyst 5.0

Fig. Link Diagram for each of the 40 soil types using PolyAnalyst 5.0

Thema
Big Data der Prsi, im Diamodell

Megaputer PolyAnalyst 5.0

Fig. Bin selection rule for the forest cover type data using PolyAnalyst 5.0

Thema der Prsi, im Diamodell

SAS Enterprise Miner


SAS Enterprise Miner is a product of SAS Institute Inc. of Cary, NC and is based on the
SEMMA approach that is the process of Sampling (S), Exploring (E), Modifying (M), Modeling
(M), and Assessing (A) large amounts of data. SAS Enterprise Miner utilizes a workspace
with a drop-and-drag of icons approach to constructing data mining models. SAS Enterprise
Miner utilizes algorithms for decision trees, regression, neural networks, cluster analysis, and
association and sequence analysis.
Figure 6 shows the workspace of SAS Enterprise Miner that was used in the data mining
of the human lung dataset. Figure 7 shows a partial view of the decision tree diagram obtained
by data mining using SAS Enterprise Miner as specified for a depth of 6 from the initial node
of NL279. Figure 8 shows a 2x3 Self-Organized Maps (SOM) that provides results in the form of an
interactive map that illustrates the characteristics of the clusters and importance of each
variable. Especially it shows the normalized means for the clusters of the variables and cluster
proximities respectively. Figure 8 shows that the normalized means for the cluster proximities
of the gene type variables are scattered and not uniform.

Thema
Big Data der Prsi, im Diamodell

SAS Enterprise Miner

Fig. Workspace of SAS Enterprise Miner for human lung project

Thema der Prsi, im Diamodell

SAS Enterprise Miner

Fig. . Decision Tree for specified depth of 6 from Node ID=1

Thema
Big Data der Prsi, im Diamodell

SAS Enterprise Miner

Fig.. SOM two-dimensional cluster proximities for the forest cover data

Thema
Big Data der Prsi, im Diamodell

PASW Modeler/ Formerly SPSS Clementine


PASW (Predictive Analytics Software) Modeler (formerly Clementine) makes it easy to discover insights in your data with a
simple graphical interface. The PASW base model performs decision lists, factor and principle component analysis, linear
regression, CHAID (Chisquared Automatic Interaction Detector) which is one of the oldest tree classification methods.
Add-on modules to the PASW base model are available for neural networks, time series forecast models, clustering, and
sequential association algorithm, binomial and multinomial logistic regression, and anomaly detection.
Some of the key features of PASW Modeler include the ability to incorporate all types of
data including structured (tabular), unstructured (textual), web site, and survey data. PASW
Modeler has several data-cleaning options and also visual link analysis for revealing meaningful
association in the data.

PASW Modeler is able to perform data mining within existing databases and score millions of records in a
matter of minutes without additional hardware requirements. Through multithreading, clustering, embedded
algorithms, and other techniques, the user of PASW Modeler can conserve resources and control
information technology costs while delivering results faster. PASW Modeler offers many features that
provide faster and greater return on your analytical investment. Automated modeling, for example, helps you
quickly identify the best performing models and combine multiple predictions for the most accurate results
(SPSS 2009a).
The next Figure shows the workspace of PASW Modeler with the result file that can be written to a
database, an Excel spreadsheet, or other. Figure 10 is a screen of PASW Modeler for selection of the fields to be included and
excluded for the cluster analysis. Figure 11 is a screen of PASW Modeler where on the left is the available clusters for
selection for performing cluster comparisons as shown on the right.

Thema der Prsi, im Diamodell

PASW Modeler/ Formerly SPSS Clementine

Fig. Workspace of PASW Modeler (SPSS 2009a)

Thema
Big Data der Prsi, im Diamodell

PASW Modeler/ Formerly SPSS Clementine

Fig.. Screen of PASW Modeler for selection of the fields to be included and excluded for the cluster analysis (SPSS 2009b)

Thema der Prsi, im Diamodell

IBM DB2 Intelligent Miner


IBM DB2 Intelligent Miner for Data performs mining functions against traditional DB2 databases or flat files.
IBMs data mining capabilities help you detect fraud, segment your customers, and simplify market basket
analysis. IBMs in-database mining capabilities integrate with your existing systems to provide scalable, high
performing predictive analysis without moving your data into proprietary data mining platforms. It also has
capabilities to access data in other relational Database Management Systems (DBMSs) using ODBC (Open
Database Connectivity Standard). IBM Intelligent Miner performs functions of association rules, clustering,
prediction, sequential patterns, and time series. IBM Intelligent Miner for Text performs mining activities
against textual data, including e-mail and Web pages.
In April 2008, IBM D2 Intelligent Miner was replaced with IBM InfoSphere Warehouse 9.7 that incorporates
Intelligent Miner Modeling and Text Analytics within the Departmental and Enterprise full versions.
The next figures show the graphics view for an overview of the relevant clusters, their size, and their fields.
Each row in the table of the figute describes one cluster by showing how the field values are distributed for
the records in this cluster. It shows the Tree Node Distribution View that includes the tree, the appending
node IDs, and the distribution of field values in the nodes.

Thema
Big Data der Prsi, im Diamodell

IBM DB2 Intelligent Miner

Fig.. Screen of PASW Modeler where on the left are the available clusters for selection for performing Cluster comparisons as
shown on the right. (SPSS 2009b)

Thema der Prsi, im Diamodell

IBM DB2 Intelligent Miner

Fig.. The Graphics View of the Clustering Visualize (IBM 2004)

Thema
Big Data der Prsi, im Diamodell

IBM DB2 Intelligent Miner

Fig.. The Tree Node Distribution View of the Classification Visualizer (IBM 2004)

Thema der Prsi, im Diamodell

Supercomputing Data Mining Software


Features
Data
Acquisition

Data
Analysis

Results
Reportting

Avizo

JMP

Data Import
Image segmentation

X
x

X
X

Slicing and clipping


Analyze large microarrays
Surface rendering
Volume rendering
Scaler and vector
visualization
Molecular data support
Matlab bridge
Geometric Models
Surface reconstruction
Geometric models

Visual presentation
Scripting

X
x

Speciall editions for Avizo


earth, wind, fire, grren

For genetic data

Unique features

X
X
X
X
X

X
X
X
X
X
X
X
x

X
X
X

Table Supercomputing Data Mining Software

Thema
Big Data der Prsi, im Diamodell

Supercomputing Data Mining


Software
Supercomputing data mining is used for highly calculation intensive tasks such as problems
involving quantum mechanical physics, weather forecasting, molecular modeling, and
physical simulations. The selected software for supercomputing are Avizo by Visualization
Science Group and JMP Genomics from SAS Institute.

Shown in the next Table, Avizo is a general supercomputing software with unique editions specifically
for earth, wind, fire, and environmental data while JMP Genomics is specialized specifically for genetic
data.

Thema
Big Data der Prsi, im Diamodell

Data Visualization using Avizo

Fig. Four views of a human skull in single screen of 3D visualization by Avizo

Thema
Big Data der Prsi, im Diamodell

Data Visualization using Avizo

Fig. Avizo workspace for the 3D visualization of a motor in a front view

Thema
Big Data der Prsi, im Diamodell

Data Visualization using Avizo

Fig. The atomic structure of 14 atoms having 13 bonds and 1 residue

Thema
Big Data der Prsi, im Diamodell

Data Visualization using Avizo

Fig. 3-D Visualization of Molecular structure using Avizo with oblique slice

Thema
Big Data der Prsi, im Diamodell

Data Visualization using Avizo

Fig.. The airflow around a wing component such as found on aircraft

Thema
Big Data der Prsi, im Diamodell

Data Visualization using JMP


Genomics
JMP Genomics is statistical discovery software that can uncover meaningful patterns in high
throughput genomics and proteomics data. JMP Genomics is designed for biologists, biostatisticians,
statistical geneticists, and those engaged in analyzing the vast stores of data that are common in
genomic research. Using data of characteristics for patients diagnosed with adenocarcinoma cancer,
The next figure shows correlation analysis of 5 principal components for correlations with their
respective scatterplot matrices presented by grouping by columns.
It shows 3D scatterplot of 2 principle components. The Figure shows model accuracy comparison for
each cross-validated model after 50 iterations for the dependent variable of grade. It shows almost
equal distributions of data type for training data for true grade variable, with the corresponding
actual probabilities, quartiles, and correct prediction frequencies.
The Figure also shows the contingency analysis of predicted class by grade true data type of training
as shown in the mosaic plot and contingency table. Figure 23 shows a complete heat map and
dendrogram.

Thema
Big Data der Prsi, im Diamodell

Data Visualization using JMP


Genomics

Fig. Correlation of 5 principal components with respective scatterplot matrices

Thema
Big Data der Prsi, im Diamodell

Data Visualization using JMP


Genomics

Fig.. 3D scatterplot of 2 principle components

Thema
Big Data der Prsi, im Diamodell

Data Visualization using JMP


Genomics

Fig. Model accuracy comparison for each crossvalidated model

Thema
Big Data der Prsi, im Diamodell

Data Visualization using JMP


Genomics

Fig.Distributions of data type for training data for true grade variable

Thema
Big Data der Prsi, im Diamodell

Data Visualization using JMP


Genomics

Fig. Heat map and dendogram

Thema
Big Data der Prsi, im Diamodell

Text Mining Software


Some of the popular software currently available for text mining include SAS Text Miner
and Megaputer PolyAnalyst. Both software provide a variety of graphical views and analysis
tools with powerful capabilities to discover knowledge from text databases (shown in the next Table.
The main focus here is to compare, discuss, and provide sample output for each as visual
comparisons. As a visual comparison of the features for both selected text mining software,
the authors of this chapter constructed in the Table, where essential functions are indicated as being
either present or absent with regard to data preparation, data analysis, results reporting, and
unique features. As the Table shows, both Megaputer PolyAnalyst and SAS Text Miner have
extensive text mining capabilities.

Thema
Big Data der Prsi, im Diamodell

SAS Text Miner


SAS Text Miner is actually an add-on to SAS Enterprise Miner with the inclusion of an extra
icon in the Explore section of the tool bar . SAS Text Miner performs simple
statistical analysis, exploratory analysis of textual data, clustering, and predictive modeling
of textual data.

SAS Text Miner uses the drag-and-drop principle by dragging the selected icon in the
tool set to dropping it into the workspace. The workspace of SAS Text Miner was constructed
with a data icon of selected animal data that was provided by SAS in their Instructors Trainer
Kit as shown in the next Figures show the results of using SAS Text Miner with individual
plots for role by frequency, number of documents by frequency, frequency by weight, attribute by
frequency, and number of documents by frequency scatter plot. It shows Concept Linking
Figure as generated by SAS Text Miner using SASPDFSYNONYMS
text file.

Thema
Big Data der Prsi, im Diamodell

SAS Text Miner


Features
Data
Preparation

Text parsing and extraction


Define dictionary
Automatic Text Cleaning

Data Analysis

Categorization
Filtering
Concept Linking
Text Clustering
Dimension reduction
techniques

Results
reporting

Interactive Results Window


Support for multiple
languages

SAS Text Miner

Megaputer PolyAnalyst

X
X

X
X
X

X
X
X
X
X

X
x

X
x

Tabelle Text Mining Software

Thema
Big Data der Prsi, im Diamodell

SAS Text Miner

Fig.. Workspace of SAS Text Miner for Animal Text

Thema
Big Data der Prsi, im Diamodell

SAS Text Miner

Fig.. Interactive Window of SAS Text Miner for Animal Text

Thema
Big Data der Prsi, im Diamodell

SAS Text Miner

Fig. Concept Links for Term of statistical in SAS Text Miner using SASPDFSYNONYMS
text file (Woodfield, 2004)

Thema
Big Data der Prsi, im Diamodell

Text mining software - Megaputer PolyAnalyst

Previous work by the authors Segall and Zhang (2006) have utilized Megaputer PolyAnalyst for data mining. The new
release of PolyAnalyst version 6.0 includes text mining and specifically new features for text OLAP (on-line analytical
processing) and taxonomy based categorization which is useful for when dealing with large collections of unstructured
documents as discussed in Megaputer Intelligence Inc. (2007). The latter cites that taxonomy based
classifications are useful when dealing with large collections of unstructured documents such as tracking the number of
known issues in product repair notes and customer support letters.
According to Megaputer Intelligence Inc. (2007), PolyAnalyst provides simple means for creating, importing, and
managing taxonomies, and carries out automated categorization of text records against existing taxonomies.
Megaputer Intelligence Inc. (2007) provides examples of applications to executives, customer support specialists, and
analysts. According to Megaputer Intelligence Inc. (2007), executives are able to make better business decisions upon
viewing a concise report on the distribution of tracked issues during the latest observation period.
This chapter provides several figures of actual screen shots of Megaputer PolyAnalyst version 6.0 for text mining.
These are Figure for workspace of text mining of Megaputer PolyAnalyst, Figure is Suffix Tree Clustering
Report for the text cluster of (desk; front), and Figure is screen shot of Link Term Report of hotel customer survey
text. Megaputer PolyAnalyst can also provide screen shots with drill-down text analysis and histogram plot of text
analysis.

Thema
Big Data der Prsi, im Diamodell

Text mining software Megaputer PolyAnalyst

Fig. Workspace for Text Mining in Megaputer PolyAnalyst

Thema
Big Data der Prsi, im Diamodell

Text mining software Megaputer PolyAnalyst

Fig.. Clustering Results in Megaputer PolyAnalyst

Thema
Big Data der Prsi, im Diamodell

Text mining software Megaputer PolyAnalyst

Fig.. Link Term Report using Text Analysis in Megaputer PolyAnalyst

Thema
Big Data der Prsi, im Diamodell

Web Mining Software


Two selected software are reviewed and compared in terms of data preparation, data analysis,
and results reporting. As shown in the next table below, Megaputer PolyAnalyst has
unique feature of data and text mining tool integrated with web site data source input, while
SPSS Clementine has linguistic approach rather than statistics based approach, Table gives a
visual interpretation of the differences and similarities among both selected software as shown
below.

Thema
Big Data der Prsi, im Diamodell

Web Mining Software


Features

Data

Data extraction

Preparation

Automatic Data Cleaning

Data
Analysis

User segmentation
Detect users sequences
Understand product and content
affinities (link analysis)
Predict user propensity to
convert, buy, or churn
Navigation report
Keyword and Search Engine

Megaputer PolyAnalyst

SPSS Clementine

X (web site as data source input)


X

Import server files

X
X

X
X
X
X

x
Results
Reporting

Uniques features

Interactive Results Window


Support for multiple languages
Visual presentation

X
X

X
X

Data and text mining tool


integrated with web site data
source input

Linguistic approach rather than


statistics based approach

Table Web Mining Software

Thema
Big Data der Prsi, im Diamodell

Web Mining Software Megaputer PolyAnalyst


Megaputer PolyAnalyst is an enterprise analytical system that integratesWeb mining together with data and text mining
because it does not have a separate module for Web mining. Web pages or sites can be inputted directly to Megaputer
PolyAnlayst as data source nodes.
Megaputer PolyAnlayst has the standard data and text mining functionalities such as Categorization, Clustering,
Prediction, Link Analysis, Keyword and entity extraction, Pattern discovery, and Anomaly detection. These different
functional nodes can be directly connected to the web data source node for performing web mining analysis. Megaputer
PolyAnalyst user interface allows the user to develop complex data analysis scenarios without loading data in the
system, thus saving analysts time. According to Megaputer (2007), whatever data sources are used, PolyAnalyst
provides means for loading and integrating these data. PolyAnalyst can load data from disparate data sources including
all popular databases, statistical, and spreadsheet systems. In addition, it can load collections of documents in html,
doc, pdf and txt formats, as well as load data from an internet web source. PolyAnalyst offers visual on-the-fly
integration and merging of data coming from disparate sources to create data marts for further analysis. It supports
incremental data appending and referencing data sets in previously created PolyAnalyst projects.
The next Figures are screen shots illustrating the applications of Megaputer PolyAnalyst for web mining to available
datasets. Figure shows an expanded view of PolyAnalyst workspace. Figure shows screen shot of PolyAnalyst
using website of Arkansas State University (ASU) as the web data source. Figure shows a keyword extraction report
from a web page of undergraduate admission of website of Arkansas State University (ASU).

Thema
Big Data der Prsi, im Diamodell

Web Mining Software - Megaputer PolyAnalyst

Fig. PolyAnalyst workspace with Internet data source

Thema
Big Data der Prsi, im Diamodell

Web Mining Software - Megaputer PolyAnalyst

Fig. PolyAnalyst using www.astate.edu as web data source

Thema
Big Data der Prsi, im Diamodell

Web Mining Software - Megaputer PolyAnalyst

Fig.. Keyword extraction


report

Thema
Big Data der Prsi, im Diamodell

Web Mining Software - SPSS


Clementine
Web Mining for Clementine is an add-on module that makes it easy for analysts to perform
ad hoc predictive Web analysis within Clementines intuitive visual workflow interface. Web
Mining for Clementine combines both Web analytics and data mining with SPSS analytical
capabilities to transform raw Web data into actionable insights. It enables business decision
makers to take more effective actions in real time. SPSS (2007) claims examples of automatically
discovering user segments, detecting the most significant sequences, understanding
product and content affinities, and predicting user intention to convert, buy, or churn.

Thema
Big Data der Prsi, im Diamodell

Web Mining Software - SPSS


Clementine

Fig. SPSS Clementine


workspace

Thema
Big Data der Prsi, im Diamodell

Web Mining Software - SPSS


Clementine

Fig. Decision rules for


determining clusters of web
data

Thema
Big Data der Prsi, im Diamodell

Web Mining Software - SPSS


Clementine
SPSS (2007) claims four key data mining capabilities: segmentation, sequence detection,
affinity analysis, and propensity modeling. Specifically, SPSS (2007) indicates six Web analysis
application modules within SPSS Clementine that are: search engine optimization, automated
user and visit segmentation, Web site activity and user behavior analysis, home page
activity, activity sequence analysis, and propensity analysis.
Unlike other platforms used for Web mining that provide only simple frequency counts
(e.g., number of visits, ad hits, top pages, total purchase visits, and top click streams), SPSS
(2007) Clementine provides more meaningful customer intelligence such as: likelihood to convert by
individual visitor, likelihood to respond by individual prospect, content clusters by customer value,
missed crossed-sell opportunities, and event sequences by outcome.
Next Figures are screen shots illustrating the applications of SPSS Clementine for web mining to
available data sets. Figure shows the SPSS Clementine workspace. Different user modes can be
defined including research mode, shopping mode, search mode, evaluation mode, and so on.
Decision rules for determining clusters of web data are demonstrated in Figure. Figure exhibits
decision tree results with classifiers using different model types (e.g., CHAID, logistic, neural).

Thema
Big Data der Prsi, im Diamodell

Web Mining Software - SPSS


Clementine

Fig.. Decision tree results

Thema
Big Data der Prsi, im Diamodell

Commercial Data Mining Software Conclusion


Comparing five data mining software, Biodiscovery GeneSight focuses on cluster analysis and is able to
provide a variety of data mining visualization charts and colors. BioDiscovery GeneSight have less data
mining functions than the other four do. SAS Enterprise Miner, Megaputer PolyAnalyst, PASW, and IBM
Intelligent Miner employ each of the same algorithms as illustrated in Table 1 except that SAS has a separate
software SAS Text Miner for text analysis. The regression results are comparable for those obtained using
these software. The cluster analysis results for SAS Enterprise Miner, Biodiscovery
GeneSight, and Megaputer PolyAnalyst each are unique to each software as to how they represent their
results.
In conclusion, SAS Enterprise Miner, Megaputer PolyAnalyst, PASW, and IBM Intelligent Miner offer the
greatest diversification of data mining algorithms. This chapter has discussed commercial data mining
software that is applicable to supercomputing for 3-D visualization and very large microarray databases.
Specifically it illustrated the applications of supercomputing for data visualization using two selected software
of Avizo and JMP Genomics. Avizo is a general supercomputing software and JMP Genomics is a special
software for genetic data. Supercomputing data mining for 3-D visualization with Avizo is applied to diverse
applications such as the human skull for medical research, and the atomic structure that can be used for
multipurpose applications such as chemical or nuclear.
We have also presented, using JMP Genomics, the data distributions of condition, patient, frequencies, and
characteristics for patient data of adenocarcinoma cancer.

Thema
Big Data der Prsi, im Diamodell

Commercial Data Mining Software Conclusion


The figures of this chapter illustrate the level of visualization that is able to be provided by these two
softwares. Comparing two text mining software, both Megaputer PolyAnalyst, and SAS Text Miner have
extensive text mining capabilities. SAS Text Miner is an add-on to base SAS Enterprise Miner by inserting an
additional Text Miner icon on the SAS Enterprise Miner workspace toolbar. SAS Text Miner tags parts of
speech and performs transformations such as those using Singular Value Decompositions (SVD) to generate
term-document frequency matrix for viewing in the Text Miner node.
Megaputer PolyAnalyst similarly is a software that combines both data mining and text mining, but also
includes web mining capabilities. Megaputer also has standalone Text Analyst software for text mining.
Regarding web mining software, PolyAnalyst can mine web data integrated within a data mining enterprise
analytical system and provide visual tools such as link analysis of the critical terms of the text. SPSS
Clementine can be used for graphical illustrations of customer web activities as well as also for link analysis
of different data categories such as campaign, age, gender, and income.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining
Summary. The Weka workbench is an organized collection of state-of-the-art machine learning
algorithms and data preprocessing tools. The basic way of interacting with these methods
is by invoking them from the command line. However, convenient interactive graphical user
interfaces are provided for data exploration, for setting up large-scale experiments on distributed
computing platforms, and for designing configurations for streamed data processing.
These interfaces constitute an advanced environment for experimental data mining. The system
is written in Java and distributed under the terms of the GNU General Public License.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining
Introduction
Experience shows that no single machine learning method is appropriate for all possible learning
problems. The universal learner is an idealistic fantasy. Real datasets vary, and to obtain
accurate models the bias of the learning algorithm must match the structure of the domain.
The Weka workbench is a collection of state-of-the-art machine learning algorithms and
data preprocessing tools. It is designed so that users can quickly try out existing machine
learning methods on new datasets in very flexible ways. It provides extensive support for the
whole process of experimental Data Mining, including preparing the input data, evaluating
learning schemes statistically, and visualizing both the input data and the result of learning.
This has been accomplished by including a wide variety of algorithms for learning different
types of concepts, as well as a wide range of preprocessing methods. This diverse and
comprehensive set of tools can be invoked through a common interface, making it possible for users to
compare different methods and identify those that are most appropriate for the problem at
hand.
The workbench includes methods for all the standard Data Mining problems: regression,
classification, clustering, association rule mining, and attribute selection. Getting to know the
data is is a very important part of Data Mining, and many data visualization facilities and data
preprocessing tools are provided. All algorithms and methods take their input in the form of a
single relational table, which can be read from a file or generated by a database query.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining
Exploring the Data
The main graphical user interface, the Explorer, is shown in Figure 66.1. It has six different
panels, accessed by the tabs at the top, that correspond to the various Data Mining tasks
supported. In the Preprocess panel shown in Figure 66.1, data can be loaded from a file
or extracted from a database using an SQL query. The file can be in CSV format, or in the
systems native ARFF file format. Database access is provided through Java Database Connectivity,
which allows SQL queries to be posed to any database for which a suitable driver
exists. Once a dataset has been read, various data preprocessing tools, called filters, can be
appliedfor example, numeric data can be discretized. In Figure 66.1 the user has loaded a
data file and is focusing on a particular attribute, normalized-losses, examining its statistics
and a histogram.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining

Fig.. The Explorer Interface

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining
Through the Explorers second panel, called Classify, classification and regression algorithms
can be applied to the preprocessed data. This panel also enables users to evaluate
the resulting models, both numerically through statistical estimation and graphically through
visualization of the data and examination of the model (if the model structure is amenable to
visualization). Users can also load and save models.
The third panel, Cluster, enables users to apply clustering algorithms to the dataset.
Again the outcome can be visualized, and, if the clusters represent density estimates, evaluated
based on the statistical likelihood of the data. Clustering is one of two methodologies
for analyzing data without an explicit target attribute that must be predicted. The other one
comprises association rules, which enable users to perform a market-basket type analysis of
the data. The fourth panel, Associate, provides access to algorithms for learning association
rules.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining
Attribute selection, another important Data Mining task, is supported by the next panel.
This provides access to various methods for measuring the utility of attributes, and for finding
attribute subsets that are predictive of the data. Users who like to analyze the data visually are
supported by the final panel, Visualize. This presents a color-coded scatter plot matrix, and
users can then select and enlarge individual plots. It is also possible to zoom in on portions of
the data, to retrieve the exact record underlying a particular data point, and so on.
The Explorer interface does not allow for incremental learning, because the Preprocess
panel loads the dataset into main memory in its entirety. That means that it can only be used for
small to medium sized problems. However, some incremental algorithms are implemented that
can be used to process very large datasets. One way to apply these is through the command-line
interface, which gives access to all features of the system. An alternative, more convenient,
approach is to use the second major graphical user interface, called Knowledge Flow. Illustrated
in the next Figure , this enables users to specify a data stream by graphically connecting
components representing data sources, preprocessing tools, learning algorithms, evaluation
methods, and visualization tools. Using it, data can be processed in batches as in the Explorer,
or loaded and processed incrementally by those filters and learning algorithms that are capable
of incremental learning.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining

Fig.. The Knowledge Flow Interface

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining
An important practical question when applying classification and regression techniques is
to determine which methods work best for a given problem. There is usually no way to answer this
question a priori, and one of the main motivations for the development of the workbench
was to provide an environment that enables users to try a variety of learning techniques on a
particular problem. This can be done interactively in the Explorer. However, to automate the
processWeka includes a third interface, the Experimenter, shown in Figure 66.3. This makes
it easy to run the classification and regression algorithms with different parameter settings on a
corpus of datasets, collect performance statistics, and perform significance tests on the results.
Advanced users can also use the Experimenter to distribute the computing load across multiple
machines using Java Remote Method Invocation.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining

Fig. The Experimenter Interface.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining - Methods and Algorithms
Weka contains a comprehensive set of useful algorithms for a panoply of Data Mining tasks.
These include tools for data engineering (called filters), algorithms for attribute selection,
clustering, association rule learning, classification and regression. In the following subsections
we list the most important algorithms in each category. Most well-known algorithms are included,
along with a few less common ones that naturally reflect the interests of our research
group.
An important aspect of the architecture is its modularity. This allows algorithms to be
combined in many different ways. For example, one can combine bagging! boosting, decision
tree learning and arbitrary filters directly from the graphical user interface, without having to
write a single line of code. Most algorithms have one or more options that can be specified.
Explanations of these options and their legal values are available as built-in help in the graphical
user interfaces. They can also be listed from the command line. Additional information and
pointers to research publications describing particular algorithms may be found in the internal
Javadoc documentation.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining - Methods and Algorithms

Classification

Implementations of almost all main-stream classification algorithms are included. Bayesian


methods include naive Bayes, complement naive Bayes, multinomial naive Bayes, Bayesian
networks, and AODE. There are many decision tree learners: decision stumps, ID3, a C4.5
clone called J48, trees generated by reduced error pruning, alternating decision trees, and
random trees and forests thereof. Rule learners include OneR, an implementation of Ripper
called JRip, PART, decision tables, single conjunctive rules, and Prism. There are several
separating hyperplane approaches like support vector machines with a variety of kernels, logistic
regression, voted perceptrons, Winnow and a multi-layer perceptron. There are many
lazy learning methods like IB1, IBk, lazy Bayesian rules, KStar, and locally-weighted learning.
As well as the basic classification learning methods, so-called
meta-learning schemes enable users to combine instances of one or more of the basic algorithms
in various ways: bagging! boosting (including the variants AdaboostM1 and LogitBoost), and stacking. A method called FilteredClassifier allows a filter to be paired up with a
classifier. Classification can be made cost-sensitive, or multi-class, or ordinal-class. Parameter
values can be selected using cross-validation.

Regression
There are implementations of many regression schemes. They include simple and multiple
linear regression, pace regression, a multi-layer perceptron, support vector regression, locally weighted
learning, decision stumps, regression and model trees (M5) and rules (M5rules). The
standard instance-based learning schemes IB1 and IBk can be applied to regression problems
(as well as classification problems). Moreover, there are additional meta-learning schemes that
apply to regression problems, such as additive regression and regression by discretization.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining - Methods and Algorithms
Clustering
At present, only a few standard clustering algorithms are included: KMeans, EM for nave Bayes
models, farthest-first clustering, and Cobweb. This list is likely to grow in the near future.

Association rule learning


The standard algorithm for association rule induction is Apriori, which is implemented in the
workbench. Two other algorithms implemented in Weka are Tertius, which can extract first-order rules,
and Predictive Apriori, which combines the standard confidence and support statistics into a single
measure.

Attribute selection
Both wrapper and filter approaches to attribute selection are supported. A wide range of filtering
criteria are implemented, including correlation-based feature selection, the chi-square
statistic, gain ratio, information gain, symmetric uncertainty, and a support vector machinebased
criterion. There are also a variety of search methods: forward and backward selection,
best-first search, genetic search, and random search. Additionally, principal components analysis
can be used to reduce the dimensionality of a problem.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining - Methods and Algorithms
Filters
Processes that transform instances and sets of instances are called filters, and they are classified
according to whether they make sense only in a prediction context (called supervised)
or in any context (called unsupervised). We further split them into attribute filters, which
work on one or more attributes of an instance, and instance filters, which manipulate sets of
instances.
Unsupervised attribute filters include adding a new attribute, adding a cluster indicator,
adding noise, copying an attribute, discretizing a numeric attribute, normalizing or standardizing
a numeric attribute, making indicators, merging attribute values, transforming nominal
to binary values, obfuscating values, swapping values, removing attributes, replacing missing
values, turning string attributes into nominal ones or word vectors, computing random
projections, and processing time series data. Unsupervised instance filters transform sparse
instances into non-sparse instances and vice versa, randomize and resample sets of instances,
and remove instances according to certain criteria.
Supervised attribute filters include support for attribute selection, discretization, nominal
to binary transformation, and re-ordering the class values. Finally, supervised instance filters
resample and subsample sets of instances to generate different class distributionsstratified,
uniform, and arbitrary user-specified spreads.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining - Methods and Algorithms
System Architecture
In order to make its operation as flexible as possible, the workbench was designed with a modular,
object-oriented architecture that allows new classifiers, filters, clustering algorithms and
so on to be added easily. A set of abstract Java classes, one for each major type of component,
were designed and placed in a corresponding top-level package.
All classifiers reside in subpackages of the top level classifiers package and extend a
common base class called Classifier. The Classifier class prescribes a public interface for
classifiers and a set of conventions by which they should abide. Subpackages group components
according to functionality or purpose. For example, filters are separated into those that
are supervised or unsupervised, and then further by whether they operate on an attribute or
instance basis. Classifiers are organized according to the general type of learning algorithm,
so there are subpackages for Bayesian methods, tree inducers, rule learners, etc.
All components rely to a greater or lesser extent on supporting classes that reside in a
top level package called core. This package provides classes and data structures that read
data sets, represent instances and attributes, and provide various common utility methods. The
core package also contains additional interfaces that components may implement in order to
indicate that they support various extra functionality. For example, a classifier can implement
the WeightedInstancesHandler interface to indicate that it can take advantage of instance
weights.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining - Methods and Algorithms
A major part of the appeal of the system for end users lies in its graphical user interfaces.
In order to maintain flexibility it was necessary to engineer the interfaces to make it as
painless as possible for developers to add new components into the workbench. To this end,
the user interfaces capitalize upon Javas introspection mechanisms to provide the ability to
configure each components options dynamically at runtime. This frees the developer from
having to consider user interface issues when developing a new component. For example, to
enable a new classifier to be used with the Explorer (or either of the other two graphical user
interfaces), all a developer need do is follow the Java Bean convention of supplying get and
set methods for each of the classifiers public options.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining - Applications
Weka was originally developed for the purpose of processing agricultural data, motivated by
the importance of this application area in New Zealand. However, the machine learning methods
and data engineering capability it embodies have grown so quickly, and so radically, that
the workbench is now commonly used in all forms of Data Mining applicationsfrom bioinformatics
to competition datasets issued by major conferences such as Knowledge Discovery
in Databases.
New Zealand has several research centres dedicated to agriculture and horticulture, which
provided the original impetus for our work, and many of our early applications. For example,
we worked on predicting the internal bruising sustained by different varieties of apple
as they make their way through a packing-house on a conveyor belt (Holmes et al., 1998);
predicting, in real time, the quality of a mushroom from a photograph in order to provide
automatic grading (Kusabs et al., 1998); and classifying kiwifruit vines into twelve classes,
based on visible-NIR spectra, in order to determine which of twelve pre-harvest fruit management
treatments has been applied to the vines (Holmes and Hall, 2002). The applicability
of the workbench in agricultural domains was the subject of user studies (McQueen et al.,
1998) that demonstrated a high level of satisfaction with the tool and gave some advice on
improvements.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining - Applications
There are countless other applications, actual and potential. As just one example, Weka
has been used extensively in the field of bioinformatics. Published studies include automated
protein annotation (Bazzan et al., 2002), probe selection for gene expression arrays (Tobler
et al., 2002), plant genotype discrimination (Taylor et al., 2002), and classifying gene expression
profiles and extracting rules from them (Li et al., 2003). Text mining is another major
field of application, and the workbench has been used to automatically extract key phrases
from text (Frank et al., 1999), and for document categorization (Sauban and Pfahringer, 2003)
and word sense disambiguation (Pedersen, 2002).
The workbench makes it very easy to perform interactive experiments, so it is not surprising
that most work has been done with small to medium sized datasets. However, larger
datasets have been successfully processed. Very large datasets are typically split into several
training sets, and a votingcommittee structure is used for prediction. The recent development of the knowledge
flow interface should see larger scale application development, including online learning from
streamed data.
Many future applications will be developed in an online setting. Recent work on data streams (Holmes et al.,
2003) has enabled machine learning algorithms to be used in situations where a potentially infinite source of
data is available. These are common in manufacturing industries with 24/7 processing. The challenge is to
develop models that constantly monitor data in order to detect changes from the steady state. Such changes
may indicate failure in the process, providing operators with warning signals that equipment needs recalibrating or replacing.

Thema
Big Data der Prsi, im Diamodell

Weka-A Machine LearningWorkbench for Data


Mining summing up the Workbench
Weka has three principal advantages over most other Data Mining software. First, it is open
source, which not only means that it can be obtained free, butmore importantlyit is maintainable,
and modifiable, without depending on the commitment, health, or longevity of any
particular institution or company. Second, it provides a wealth of state-of-the-art machine
learning algorithms that can be deployed on any given problem. Third, it is fully implemented
in Java and runs on almost any platformeven a Personal Digital Assistant.

The main disadvantage is that most of the functionality is only applicable if all data is held
in main memory. A few algorithms are included that are able to process data incrementally or
in batches (Frank et al., 2002). However, for most of the methods the amount of available
memory imposes a limit on the data size, which restricts application to small or mediumsized
datasets. If larger datasets are to be processed, some form of subsampling is generally
required. A second disadvantage is the flip side of portability: a Java implementation may be
somewhat slower than an equivalent in C/C++.

Thema
Big Data der Prsi, im Diamodell

Data mining software source


http://www.kdnuggets.com/software/index.ht
ml
http://www.sas.com/content/dam/SAS/en_us/
doc/factsheet/sas-enterprise-miner101369.pdf
http://www.sas.com/de_de/insights/analytics/
data-mining.html

Thema
Big Data der Prsi, im Diamodell

Big-Data-Einsatzszenarien und
-Lsungsarchitekturen
In konkreten Einsatzszenarien bestimmen in der Regel der Datentyp sowie die Anforderungen an die Verarbeitung
die Auswahl der Bausteine in der Zielarchitektur. Daher orientieren die Zielarchitekturen an den Datentypen der
verschiedenen Einsatz-Szenarien: Clickstream-Daten, Social-Media-Stimmungsdaten, Server-Logdaten, Sensordaten,
Maschine-zu-Maschine-Kommunikation, Standortdaten und Freitext-Daten.
In der Unternehmenspraxis fuhrt der Weg Big Data nicht selten uber den Ausbau von Aktivitaten im Business
Intelligence und Hybrid-Architekturen.

Thema
Big Data der Prsi, im Diamodell

Synergien zwischen Big Data, Cloud Computing,


In-Memory Computing, Open Source
Als Basis fr die Darstellung von Big-Data-Technologien in diesem Leitfaden leistet die entwickelte
Taxonomie gute Dienste.
Es gibt jedoch wichtige Entwicklungen, die eine ganze Reihe von Komponenten aus dem Baukasten
betreffen dazu gehoren Cloud Computing, In-Memory Computing und Open Source.

Thema
Big Data der Prsi, im Diamodell

Cloud Computing
Die Cloud bietet eine Vielzahl von Werkzeugen, um die Nutzung von Big Data zu
vereinfachen, zu beschleunigen sowie die Kosten und Risiken zu verringern.

Thema
Big Data der Prsi, im Diamodell

In-Memory Computing

In-Memory Computing umfasst eine Anzahl von Technologien, die sich in unterschiedlichen BigData-Komponenten wiederfinden. Durch die Verlagerung der Datenverarbeitung von der
Festplatte in den Rechner-Hauptspeicher (In-Memory) knnen Big-Data-Visualisierungen, Analysen oder-Transaktionen massiv beschleunigt werden.

Somit kann der geschftliche Mehrwert schneller erbracht werden.

Parallel dazu hat Moores Law5 zu drastischen Preis-Performance-Verbesserungen in der


Geschwindigkeit der traditionellen Datenspeicherung und -verarbeitung gefhrt. In diesem
Zusammenhang stellen In-Memory-Losungen, bei denen die Daten-Haltung und -verarbeitung
komplett im Arbeitsspeicher stattfindet, eine inzwischen erschwingliche Alternative fr Szenarien
mit hohen Performanz-Ansprchen dar.

Thema
Big Data der Prsi, im Diamodell

Open-Source
Unternehmen sollten sich auerdem gut berlegen, wo und wie sie Open-Source-Technologie in ihrer
Big-Data-Strategie einsetzen wollen; ignorieren sollten sie Open Source nicht.

Thema
Big Data der Prsi, im Diamodell

Mobile Endgerte und Internet of Things

Ein weiterer wichtiger Trend fr die verbreitete Nutzung von Big-Data-Szenarien sind die fortschreitenden
technischen Mglichkeiten mobiler Endgerate und deren Verknpfung. Das Internet der Dinge kommt mit groen
Schritten auf uns zu. Die Verbreitung von mobilen Endgeraten und deren Nutzung wird weiter zunehmen. Auf
der einen Seite fuhrt dies zu einer Explosion zustzlicher Datenquellen, die z. B. ortsspezifische Daten sammeln
und weitergeben, zum anderen aber auch Daten fr den mobilen Einsatz verarbeiten und zur Verfugung
stellen mit immer grerer Effizienz. Viele Hersteller bieten heute Datenanalysen auf mobilen Endgeraten an,
wesentlich weniger Hersteller reizen derzeit die Mglichkeiten ortsspezifischer Analysen aus.
Doch nicht nur mobile Endgerate tragen zur wachsenden Datenflut und -vernetzung bei. Immer mehr Produkte und
Produktionsanlagen erzeugen, versenden und analysieren Daten von der vernetzten Pumpe bis hin zu intelligenten
Windkraftanlagen. Big Data verndert den industriellen Sektor und treibt die Industrialisierung 4.0 voran.

Thema
Big Data der Prsi, im Diamodell

Text Analyse
Andere, neue Datenquellen wie z. B. Soziale Netzwerke sind fr eine ganze Reihe von Big-DataSzenarien von groer Wichtigkeit. Moderne Textanalyse erlaubt es, aus den Datenstrmen sozialer
Netzwerke relevante Informationen wie z. B. Meinungsbilder zu Produkten herauszufiltern
und zu verarbeiten.

Thema
Big Data der Prsi, im Diamodell

Prdiktive Analytik
Andere Analysetechniken fr die Planung und Vorhersage von Ereignissen wie z. B. Predictive Analytics haben sich so
weiter entwickelt, dass sie auch von Anwendern ohne tiefe mathematisch-statistische Kenntnisse eingesetzt werden
knnen.

Thema
Big Data der Prsi, im Diamodell

Trends bei den Anwendern


So spielt etwa in Banken die statistische Analyse von Kreditausfallrisiken eine wichtige Rolle bei der Bewertung
von Krediten und dient dabei zunehmend zur Ableitung differenzierter Preismodelle. Im Versicherungswesen werden
Schadenshufigkeiten und Schadenssummen durch statistische Verteilungen nachgebildet und zur Grundlage von
Tarifierungsmodellen gemacht.
In der Industrie sind statistische Fragestellungen sehr hufig in der Qualittssicherung
zu finden. Regressionsmodelle helfen beispielsweise, Ursachen fr Probleme einzugrenzen und wichtige
Einflussquellen zu identifizieren. Simulationsverfahren fr Warteschlangen-Probleme und Verfahren zur optimalen
zeitlichen Planung von Ressourcen kommen im Projektmanagement zum Einsatz.

Thema
Big Data der Prsi, im Diamodell

Data science
Wer die neuen Big-Data-Technologien bestmglich nutzen will, sollte sich auf mathematisch-statistisches
Know-how zur korrekten Datenmodellierung sttzen knnen; dieses Wissensgebiet wird als Data Science bezeichnet.
Hersteller bemhen sich die Anforderungen in diesem Bereich durch vorpaketierte Losungen zu reduzieren, knnen die
Data Scientists jedoch nicht gnzlich ersetzen. Daher wird die Verfugbarkeit von ausgebildeten Krften mit DataScience-Kenntnissen im Markt eine entscheidende Rolle bei der Adaption von Big-Data-Technologien und deren
betriebswirtschaftlichem Einsatz spielen.

Thema
Big Data der Prsi, im Diamodell

Schlussfolgerungen fr die deutsche Wirtschaft und die offentliche


Verwaltung
Daten werden auch fr viele Branchen auerhalb der Informationswirtschaft zu einem Differenzierungsmerkmal
und Asset werden. Fr Unternehmen ist es heute selbstverstndlich, die Mglichkeiten von Internet und
Smartphone zur Untersttzung von Geschftsprozessen zu nutzen.
Vollkommen analog wird es in Kurze normal sein, Big-Data-Analysen zur Untersttzung von Entscheidungsprozessen
einzusetzen. So wird der Einsatz von Big Data in vielen Industrien zu einem entscheidenden Erfolgsfaktor werden, und
Unternehmen ohne entsprechende Kunden-, Produkt-, oder Prozessinformationen drohen Nachteile in
Wettbewerbsfhigkeit.

Thema
Big Data der Prsi, im Diamodell

Big Data und die Politik


Die Akzeptanz und Nutzung von Big Data steht und fallt mit den gesetzlichen Rahmenbedingungen, die
diese Nutzung regeln. Aufgeschreckt durch immer neue Medienberichte ber Datenskandale schwanken Konsumenten
und Burger zwischen der Angst vor Missbrauch ihrer persnlichen Daten und den Annehmlichkeiten
individuell zugeschnittener Angebote und Dienstleistungen durch Unternehmen und Verwaltungen.
Hier muss die Politik die entsprechenden gesetzlichen Regelungen vorgeben, die klarstellen, wer welche Daten wann
und zu welchem Zweck verwenden kann und in welchen Fallen der Kunde bzw. Burger ber bestimmte
Verwendungszwecke informiert bzw. sein Einverstndnis eingeholt werden muss. Diese Regelungen dienen nicht nur
dem Schutz der Privatsphre der Kunden bzw. Burger, sie geben auch der Industrie die Investitionssicherheit, BigData-Technologien zu implementieren und neue, innovative Geschftsmodelle voran zu treiben. Fehlende klare
gesetzliche Regelungen knnen die Ausbreitung von Big Data in Deutschland stark hemmen und die
Wettbewerbsfhigkeit der deutschen Industrie negativ beeinflussen. Hier ist die Politik dringend gefragt, ihren Teil zum
Erfolg von Big Data in Deutschland beizutragen.

Thema
Big Data der Prsi, im Diamodell

Management der Big-Data-Risiken

Die Risiken, die Big-Data-Projekte mit sich


bringen, sind nicht zu vernchlassigen. Mitunter
handelt es sich um neue Risiken. Deshalb ist
es wichtig ist, sich die Risiken
und Gefahren bewusst zu machen.

Thema
Big Data der Prsi, im Diamodell

Rechtliche Anforderungen umsetzen

Eine besondere Herausforderung in Big-Data-Projekten stellen personenbezogene Daten dar.


Technologieexperten, Rechts- und Organisationswissenschaftler stellen gemeinsam berlegungen an, wie Big-DataAnalysen rechtskonform durchgefhrt werden knnen .
Es gibt bereits Ansatze, mit denen Garantien ber den Datenschutz in die Datenanalyse integriert werden knnen.
Eine wichtige Frage im Zusammenhang mit der Verwertung persnlicher digitaler Daten ist noch Gegenstand
der Forschung: Wie kann ein Modell zur Verwertung persnlicher digitaler Daten aussehen, das Dateninhaber,
Datenverwerter sowie Dienstleister der Datensicherung, Datenaufbereitung sowie des Datenschutzes zusammenfuhrt?
Als eine mgliche Antwort auf die Herausforderungen im Umgang mit persnlichen digitalen Daten wird die Etablierung
einer Deutschen Daten-Treuhand vorgestellt. Diskutiert werden auch Konzepte, durch Rollenverteilung den
Personenbezug von Daten zu vermeiden. Von groem Interesse fr Big-Data-Projekte sind auch Erfahrungen bei der
Implementierung von Open-Data-Anstzen.

Thema
Big Data der Prsi, im Diamodell

Herausforderungen im Betrieb von Big-DataLsungen

Im Betrieb geht es darum, Big-Data-Losungen effizient und zuverlssig zu installieren, verwalten, erweitern und
verndern. Es gilt, das Zusammenspiel der verschiedenen Technologien ber alle Ebenen einer Losung hinweg von
der physischen Infrastruktur, ber die Daten-Haltung und -bereitstellung, die analytische Verarbeitung, die
Visualisierung und die Daten-Integration bis hin zur Governance und Daten-Sicherheit zu beherrschen.

Thema
Big Data der Prsi, im Diamodell

Neue Qualifikationsprofile zgig herausbilden

Bei der Adaption von Big-Data-Technologien und deren


betriebswirtschaftlichem Einsatz wird die Verfugbarkeit
von ausgebildeten Krften mit Data-Science-Kenntnissen
eine entscheidende Rolle spielen.
Wissen aus Analytik, IT und dem jeweiligen Fachbereich
ist gefragt. Bislang gibt es nur wenige Fachkrfte, die
diese Kompetenzen kombinieren. Solche Data Scientists
werden von Unternehmen dringend gesucht. Sie vereinen
die Rollen als Impuls- und Ideengeber, Losungsarchitekt,
Umsetzer, Analyst, Kommunikator und berzeuger. Es
existieren bereits einige Schulungskonzepte fr Data
Scientists.

Thema
Big Data der Prsi, im Diamodell

Wettbewerbsvorteil durch BIG DATA @ Automotive

Research & Development


Planning & Sourcing
Kernpro
-zesse

Production

Search / Dokumentenanalyse, Machine Data Analytics,


Frhwarnsysteme, Real Time Monitoring, nutzungsgetriebene Bedarfsplanung
Realtime Monitoring, nutzungsgetriebene Produktionsplanung,

Marketing & Sales

Competitive Intelligence, Sentiment Analysis, Gamification,

Customer Services

360o Kundensicht, Churn-Rate-Reduktion, Mass Customization,

After Sales
Quality Management
Querschni
ttsthemen

Integrierter Datenpool aus Test-, Entwicklungs- und Nutzungsdaten, Analytical

Financial Services

Connected Car

360o Produktsicht, Optimierung Lagerhaltung, Predictive Mileage,


Real-Time Quality Assurance, Vorhersage von Ausfllen,
Fraud Detection, nutzungsbasierte Abrechnung und Finanzangebote,
Risk Management, Realtime Monitoring, Ressourcenplanung

Schwarm- und Geodaten-Analyse, Mobilittsplanung, Car

Sharing/nutzungsabhngige Verfgbarkeitsplanung,
Innovations &
New
Data Driven Business, BIG DATA Lab, Netzeffektanalysen,

Business
Modells
Source: BIG DATA @ Automotive: Die Daten sind da! Was nun? 2014 Mieschke Hofmann und Partner Gesellschaft fr Management- und IT-Beratung mbH, BITKOM Big Data Summit, Alf Porzig & Uwe Trost

Thema
Big Data der Prsi, im Diamodell

Big Data mit Methodik


innovativem Mehrwert
TREIBER

METHODIK

ERGEBNIS

BIG DATA Landscape


Neue Technologien
bieten neue
Mglichkeiten

Prozessgetrieben
Mglichkeiten
eingrenzen,

Fachliche Bewertung
Nutzen / Kosten-Analyse,
Heatmap, Priorisierung,

Neue und alte


Datenquellen
Strukturierte und
unstrukturierte Daten,
Streams,

Design Thinking
Ideen aufbauen, New
Business Models,

Technologisches
Clustering
Variety: Unstrukturierte
Daten, wechselnde
Quellen,
Volume: Speicherung
groer Datenbestnde,

Velocity: Realtime,
unternehmenskritische
Prozesse,
Connected Car / Mobility
Services
Nutzungsdaten, neue
Business Models,

BIG DATA Lab


Aus den Daten lernen,
Data driven Innovation,
Innovation Loops

Source: BIG DATA @ Automotive: Die Daten sind da! Was nun? 2014 Mieschke Hofmann und Partner
Gesellschaft fr Management- und IT-Beratung mbH, BITKOM Big Data Summit, Alf Porzig & Uwe Trost

Thema
Big Data der Prsi, im Diamodell

Hadoop von Batch bis Realtime Big Data


Technologisches Clustering
Realtime

Streaming

In Memory

Online

NoSQLDatenbanken /
Hadoop

SQLDateneinheiten

Batch

Hot Data

Cold Data
Unstrukturierte Daten

Strukturierte Daten

Thema
Big Data der Prsi, im Diamodell

Fully loaded Cost per RAW


Terabyte Deployed (US$ '000s)
SAN

180

36

EDW/MPP

80

20

18
12

Engineered System(Bsp.: Oracle

20
10

NAS

1
0,25

HADOOP

0,3
0,1

Cloud Storage

0
Max

50

100

150

200

Min

Quelle: BITKOM

Thema
Big Data der Prsi, im Diamodell

Hadoop von Batch bis Realtime Open Source kann das


funktionieren?
Beispiele fr Open Source Projekte

Android
Betriebssyste
m

Verkaufte
Smartphones

Marktanteil

1. Android

249,6 Mio.

84,6%

2. iOS

35,2 Mio.

11,9%

3. Windows
Phone

8 Mio.

2,7%

4. Blackberry

1,9 Mio.

0,6%

5. Andere

0,5 Mio.

0,2%

Smartphone-Betriebssysteme im zweiten Quartal


2014 auf dem Weltmarkt (Quelle: Strategy
Analytics)

Linux
Der Marktanteil von
verkauften Linux-ServerSystemen lag im zweiten
Quartal 2013 bei 23,2%
(Wikipedia)
In 2012 wurden 32% 55% aller Webseiten auf
einem Linux-Server
gehostet (Wikipedia)
Thema
Big Data der Prsi, im Diamodell

Wettbewerbsvorteil durch Big Data - Connected Car und


Mobility Services
Von Einzelprojekten zu integrierten Lsungen

Die Fragestellungen gehen in Richtung Social Media, Textmining, Sentiment Analyse, predictive
Analytics und juristische Rahmenbedingungen.

Der Kunde und das Auto stehen im Fokus

Source: BIG DATA @ Automotive: Die Daten sind da! Was nun? 2014 Mieschke Hofmann und Partner Gesellschaft fr Management- und IT-Beratung mbH, BITKOM Big Data Summit, Alf Porzig &
Uwe Trost

Thema
Big Data der Prsi, im Diamodell

Wettbewerbsvorteil durch Big Data - Connected Car und


Mobility Services
Zustzliche Fragestellungen gehen in Richtung Datentransfer (Schnittstellen, Master
Data Management, Bandbreiten, Netzabdeckung, Verfgbarkeiten, Speicherung etc.).

Die Daten selber geraten in den Fokus Datengetriebene Prozesse

Thema
Big Data der Prsi, im Diamodell

Wettbewerbsvorteil durch Big Data Connected Car und Mobility Services

Neue Business Modells

Neue
Business
Models

Thema
Big Data der Prsi, im Diamodell

Wettbewerbsvorteil durch Big Data Connected Car und Mobility Services


Von Low hanging Fruits bis hin zu
Wertschpfungsnetzen
Viele Mglichkeiten - viele Fragen
- Welche Daten werden gespeichert?
- Wo werden die Daten gespeichert?
- Wem gehren die Daten?
- Wie wird Data Governance geregelt?
- Wie wird Datenschutz geregelt?
-

Neue
Business
Models

BI-Strategie als Wegweiser durch die


Komplexitt!

Thema
Big Data der Prsi, im Diamodell

Wettbewerbsvorteil durch Big Data - Connected Car und


Mobility Services
Strategisch vorgehen heit mit Methode ans Ziel kommen

Komplexitt

BIG DATA Use Cases

BIG DATA Adoption

F&E u. Konstruktion ->


Eingangslogistik -> Produktion ->
Sales & Marketing -> AusgangsLogistik -> After sales

Use Cases as-is


-Fokus Kunde
- Marktnachfrage
- After Sales Services
-Fokussierung Qualitt
- Predictive Maintenance
- RTQA
- BI Supply Chain

Ersten Projekterfolgen / - aktivitten


zum Trotz, der BIG DATA Hype ist
noch nicht mit Masse in den
Unternehmen angekommen!

Neue Wertschpfungsarchitekturen
- Mobilittsdienstleistungen
- eMobility
- Konvergenz durch Daten
Wertschpfungsnetze

Adoption erfolgt Schritt fr Schritt.

Use Cases to-be


-Fokus Kunde
- Ausbau Connected car, Mobility
-Fokus Felddaten
- Nutzungsprofile
-Fokus Produktion / Industrie 4.0
--

Aber: Bei einigen Unternehmen


werden Grundlagen gelegt, das
Thema strukturiert und strategisch
adressiert.

Source: BIG DATA @ Automotive: Die Daten sind da! Was nun? 2014 Mieschke Hofmann und Partner Gesellschaft fr Management- und IT-Beratung mbH, BITKOM Big Data Summit,
Alf Porzig & Uwe Trost

Thema
Big Data der Prsi, im Diamodell

Lernen von den Automotive Industry-Leaders- Die


Substanz hinter dem Hype

BI Reifegrad

BI Strategy @ Automotive
BIG DATA ist auf der
Vorstandsagenda
BIG DATA Use Cases werden
erfat, bewertet und
klassifiziert.
Interdisziplinre Mitarbeit
ArchitekturTechnologiemustern
BIG DATA in der Organisation
verankert
BI-Programm driven by BIG
DATA
Thema
Big Data der Prsi, im Diamodell

Planung

Analyse

Konzeption

Einfhrung

Kontrolle

Strategische Manahmen
Technologie
Architektur

Business

Organisation
Prozesse

Infrastruktur

Steuer- und
Analysemodelle

BI-Governance

Hybride Architekturen

Geschftsprozessintegrati
on

BI-CC

Technologie-Portfolio

BI-Portfolio

BI-Servicemanagement

Datenmanagement

Mobile Nutzung

Entwicklung

Sicherheit

Data Governance

Sourcing

Strategische Ziele
Kommunikation

Begleitende Manahmen

Change Management

Source: BIG DATA @ Automotive: Die Daten sind da! Was nun? 2014 Mieschke Hofmann und Partner Gesellschaft fr Management- und IT-Beratung mbH,
BITKOM Big Data Summit, Alf Porzig & Uwe Trost

Thema
Big Data der Prsi, im Diamodell

Key Take Aways


Start small, but start now BI Strategy by BIG
DATA

Start BI Programm
driven by BIG DATA

- Transparenz
- Erhebung BIG DATA
Potentiale
- Bewertung BIG DATA
Quellen
- Im BIG DATA Lab
aus Daten lernen

- Positionierung / IstAnalyse

- Enablingphase: SkillAufbau, ToolInfrastrukturaufbau

- Start BIG DATA PoC

- Strategische Optionen
fr Architektur /
Technologie und
Organisation /
Prozesse

- Position paper BIG


DATA

- Priorisierung &
Klassifizierung BIG
DATA Use Cases
/finan. Impakt)

- Schaffung organischer
Rahmenbedingungen
- Invest in Analytics und
explorative
Datenanalyse

- Leitplanken BIG DATA


Programm

BIG DATA Readiness

BI-Strategy driven by BIG DATA

BI Programm driven by BIG


DATA

Source: BIG DATA @ Automotive: Die Daten sind da! Was nun? 2014 Mieschke Hofmann und Partner Gesellschaft fr Management- und ITBeratung mbH, BITKOM Big Data Summit, Alf Porzig & Uwe Trost

Thema
Big Data der Prsi, im Diamodell

Wettbewerbsvorteil durch Big Data Impulse, Beispiele fr Anwendungsszenarien Sensorik im Auto Connected Car - Berichterstattung von der Strasse

Mit Connected Car kommt ein Rckkanal zum Nutzungsverhalten, wie in anderen
Branchen z.B. mit Clickstream- oder Kassenbonanalysen seit langem blich

Mit Connected Car werden bewhrte Analysen aus anderen Branchen adaptiert

Thema
Big Data der Prsi, im Diamodell

Big Data Impulse, Beispiele fr Anwendungsszenarien


Crowdsourcing Low Hanging Fruits

Usability

Produktentwicklung
Die besten Ideen finden

Marktforschung aber BIG!

Thema
Big Data der Prsi, im Diamodell

Big Data Impulse, Beispiele fr Anwendungsszenarien


Crowdsourcing Darf es ein bisschen mehr sein?

- Anreicherung um weitere Datenquellen (GPS, Wetter, Hhe, )


- Geografische Besonderheiten (z.B. Stau, Temperaturen, Luftfeuchtigkeit,)
- Besonderheiten bzgl. der Fahrzeugkonfiguration

- BIG Forschungslabor fr die Automobilindustrie


- Berichterstattung in Real Time von der Strae
Thema
Big Data der Prsi, im Diamodell

Big Data Impulse, Beispiele fr AnwendungsszenarienMassendaten aus dem Auto


-

Beispiel: Nutzungsdaten fr Scheinwerfer


- Das Innenleben wird in verschiedenen Modelle eingesetzt
- Funktioniert er in allen Varianten einer Plattform / eines
Baukastens?
- Gibt es geographische Besonderheiten?
- Gibt es konfigurationsabhngige Besonderheiten?
Mit BIG DATA beliebig viele Nutzungsdaten in beliebig vielen
Mrkten analysieren
Thema
Big Data der Prsi, im Diamodell

Big Data Impulse, Beispiele fr AnwendungsszenarienReduzierung der Rckrufquote


Rckrufquote 1. Halbjahr 2014
Mitsubishi
Land Rover
Hyundai
VW
BMW
Honda
Nissan
Daimler
Mazda
FCA
Ford

Subaru
Tesla
Toyota
General Motors

0%

200%

400%

600%

800%

1000%

1200%

1400%

1600%

1800%

Rckrufquote := Zahl zurckgerufener Autos / Zahl insgesamt verkaufter Autos


Quelle: Statista

Weniger Rckrufe durch gezielte Segmentierung der betroffenen Modelle


Probleme erkennen, bevor sie eintreten

Thema
Big Data der Prsi, im Diamodell

Big Data Impulse, Beispiele fr Anwendungsszenarien- Vorausschauendes


Auto

Beispiel: Das Auto wei, was nach der nchsten Kurve kommt
-

Daten ber die Straenverhltnisse

Dynamische Einstellungen von Fahrwerk, Antrieb etc. bevor ESP, ASR


aktiv werden

Automatisierte Entscheidungsprozesse

Warnung an den Fahrer, bevor die Gefahrenstelle erreicht wird

Optimierung des Spritverbrauchs anhand aktueller Parameter (Wetter,


Verkehr,)
Mehr Sicherheit mit BIG DATA
Thema
Big Data der Prsi, im Diamodell

Big Data Impulse, Beispiele fr AnwendungsszenarienGamification

Beispiel: Wettbewerb Wer hat den niedrigsten


Verbrauch auf der Strecke?
-

Aufbau von Communities


Kundenbindung mit der Marke
Testdaten fr die spritsparendes Fahren
Kontaktpunkte fr Marketing

Mit BIG DATA nher an den Kunden


Thema
Big Data der Prsi, im Diamodell

Big Data Impulse, Beispiele fr AnwendungsszenarienMobilittsplanung


Beispiel: Routenplanung unter Einbeziehung
anderer Verkehrsmittel

Car Sharing Communities


Zugfahrplan
Flugplan
Nchste Tankstelle / Ladestation
Nchster Rastplatz / Supermarkt

Erweiterte Services mit BIG DATA


Thema
Big Data der Prsi, im Diamodell

Big Data Impulse, Beispiele fr AnwendungsszenarienMobilitt


Beispiel: Mitfahrzentrale
- Das Auto wei, ob noch ein Platz frei ist
- Das Auto wei, welche Route geplant ist

- Automatisierte Abwicklung ist mglich


Erweiterte Services mit BIG DATA

Thema
Big Data der Prsi, im Diamodell

Big Data Impulse, Beispiele fr AnwendungsszenarienWertschpfungsnetze

Mehrwert durch Anreicherung


-

Wetterbericht
Straenbericht
Reiseplanung
Touristik
Kommunen

Mit BIG DATA zustzlichen Mehrwert schaffen

Thema
Big Data der Prsi, im Diamodell

BIG DATA im Kontext von Industrie 4.0


historische Einordnung

Quelle: 2013 Mieschke Hofmann und Partner Gesellschaft fr Management- und IT-Beratung mbH

Paradigmenwechsel:

- Das intelligente Produkt gibt den Takt an


- Wandlung zur dezentralen, (teil-)autonomen Produktion
Thema
Big Data der Prsi, im Diamodell

BIG DATA ist der Kit, der


Industrie 4.0 zusammenhlt
Eine Auswahl an Anwendungsszenarien
- Fertigungsmaschinen kommunizieren untereinander und mit intelligenten
Produkten
- Fertigungssteuerung als Cloud Service
- Fernwartung
- Maschinendaten werden werkebergreifend verwendet
- Maschinendaten werden unternehmensbergreifend genutzt
- Massenindividualisierung
- Produktion und Produktentwicklung rcken zusammen (3D-Drucker)
- Integration externer Datenquellen (z.B. Verkehrsinformationen in Logistik,
Wetterdaten in Produktion, )
-
In fast allen Szenarien wird Wert aus groen Datenmengen geschpft.
BIG DATA
Thema
Big Data der Prsi, im Diamodell

Automobilhersteller Ganzheitliche Qualittsanalyse


durch integrierte Daten
Quelle: BITKOM LF Big Data 2012, Seite 75; Anwender Anonymisiert; Anbieter T-Systems International GmbH
Problem Nur wenige Experten haben einen wirklich kompletten berblick ber alle verfgbaren Daten zu einem Fahrzeug von der Entwicklung ber die
Produktion bis hin zum After-Sales-Service. Es gibt keine umfassende Verantwortlichkeit fr alle Daten entlang der gesamten Wertschpfungskette.
Heterogene IT-Umgebungen sorgen immer wieder fr zeitraubende Datenrecherchen. Die Bereitstellung und Analyse dieser Informationen kann
nachhaltig zur Qualittssteigerung sowie Fehlerfrherkennung fhren. Allerdings nimmt die anfallende Datenmenge durch immer neue
und komplexere elektronische Komponenten zu, so dass eine zeitnahe Bereitstellung der Daten eine Herausforderung darstellt.
Lsung . Schaffung einer einheitlichen Schnittstelle fr die mehr als 2.000 internen Nutzer bei verschiedensten Funktionen und Analysen
. Sammlung aller Datenquellen in einem zentralen Data Warehouse
. Herstellung der Konsistenz aller Daten und klarer Verantwortlichkeiten
. Optimierung der Analyseuntersttzung mit integrierten Frhwarnsystemen
. Standardisierung der Analyse und des Reportings in den Bereichen After Sales und Technologie, um Synergien zu schaffen.
Big-Data-Merkmale Volume: ca. 10 Terabyte mit deutlich steigender Tendenz.
Velocity: Kontinuierliches Datenwachstum sowie die permanente Aktualisierung der Daten fhren zu einem hohen Bedarf fr hoch performante
Abfragen.
Variety: Dauernde Anpassung der Dateninhalte durch neue Software-Stnde sowie immer neue elektronische Steuerkomponenten fhren zu neuen
Datenstrukturen. Die umfangreichen technischen Daten liegen oftmals nur semistrukturiert vor Nutzen . Den Entscheidungstrgern stehen nun alle
Qualittsinformationen ber die Fahrzeuge sowie die korrespondierenden Analysewerkzeugen zur Verfgung.
. Steigerung der Kundenzufriedenheit
. Profitabilittssteigerung durch Fehlerfrherkennung
. Qualittssteigerung durch Ausschlieen von Fehlerquellen
. Homogene Datenquellen, allseits verfgbare Daten sowie die Integration von Analyse, Textmining und Reporting verkrzen die Zeiten fr die
Fehlererkennung und -korrektur bei den Fahrzeugen.
Lessons learnt . Variety ist die grte Herausforderung, da sich die Datenstrukturen hufig ndern oder erweitert werden. Transparente Prozesse sind
notwendig, um die Datenvielfalt zu beschrnken. Data Governance bietet die Grundlage fr ein transparentes und strukturiertes Datenmanagement.
. Die mit Volume und Velocity verbundenen Herausforderungen knnen durch Hardware- und Softwareoptimierungen bewltigt werden, whrend dem die
durch stndig neue Anforderungen gekennzeichnete Variety durchaus kritisch werden kann.

Thema
Big Data der Prsi, im Diamodell

Telematics: How Big Data Is Transforming the Auto


Insurance Industry

http://www.sas.com/offices/europe/germany/do
wnload/files/pdf/BA_WP_Big_Data_Telematic
s_Insurance.pdf

Thema
Big Data der Prsi, im Diamodell

Big Data - Fazit


-

BIG DATA ist keine Option BIG DATA ist ein Muss, eine Grundvoraussetzung

Ergnzt die bestehende BI-Landschaft und lst sie nicht ab!

Bietet Mehrwert entlang der gesamten Wertschpfungskette

Technologien bieten dem Business groe Chancen

Wchst mit dem Bedarf

Lsst sich strukturieren und bleibt trotzdem flexibel

Wird durch strukturiertes und methodisches Vorgehen zum Erfolg

BIG DATA ermglicht:


Flexibilitt
Schaffung neuer Unternehmenswerte
Sicheres Entscheiden
Prozessautomatisierung
Kostensenkung

Thema
Big Data der Prsi, im Diamodell

Big Data vs. Data Mining


Data Mining

Big data

A close
Up view

The big
picture

Lots of relationships

Lots of detail

Thema
Big Data der Prsi, im Diamodell

Big Data vs. Data Mining


What about the data
In the information?

DATA MINING

What the information is comprised


of, and all the related dataor vice versa!

Thema
Big Data der Prsi, im Diamodell

Data Mining
How people are
related in a
limited number
of slow moving
fields

Thema
Big Data der Prsi, im Diamodell

Big Data

Thema
Big Data der Prsi, im Diamodell

Big Data

Thema
Big Data der Prsi, im Diamodell

Big Data vs Data Mining

Thema
Big Data der Prsi, im Diamodell

Big Data vs Data Mining

Thema
Big Data der Prsi, im Diamodell

Big Data vs Data Mining

Thema
Big Data der Prsi, im Diamodell

Big Data vs Data Mining

Thema
Big Data der Prsi, im Diamodell

Big Data vs Data Mining

Thema
Big Data der Prsi, im Diamodell

Big Data vs Data Mining

Thema
Big Data der Prsi, im Diamodell

Big Data

Thema
Big Data der Prsi, im Diamodell

Big Data and Mobile Device

Thema
Big Data der Prsi, im Diamodell

Smart

Thema
Big Data der Prsi, im Diamodell

Datenanalyseverfahren

Beim Data Mining unterscheidet man


zwischen symbolischen Systemen, in
welchen das Wissen, d. h. die vorliegenden
Regeln, ausdrcklich reprsentiert werden
und subsymbolischen Systemen, in welchen
die Regeln verborgen bleiben.

1.

Die Regressionsanalyse und der


Entscheidungsbaum als Vertreter der
symbolischen Systeme wurden ausgewhlt,
da es sich um einfache und praktikable Data
Mining Verfahren handelt.

Die Neuronalen Netze wurden verwendet,


um die Ergebnisse der symbolischen
Verfahren abzusichern.

Man verwendet zur Beschreibung eines


Zusammenhangs zwischen der abhngigen
Variable y und der (oder den) unabhngigen
Variablen x unterschiedliche Funktionen. Diese
unterscheiden sich in ihrer Komplexitt. Lineare
Funktionen sind dabei die einfachsten funktionalen
Zusammenhnge. In diesem Fall wird angenommen,
dass das interessierende Merkmal y gut durch
eine lineare Kombination anderer Merkmale x erklrt
werden kann (lineare Regression). Die Gewichtung der
Einflsse der erklrenden Merkmale wird dabei
aus Daten geschtzt. Ein lineares Regressionsmodell hat
den Vorteil, dass es zum Beispiel mittels kleinster
Quadrate exakt berechnet werden kann.

Regressionsanalyse durch Funktionen

Das Ziel der Regression ist die Ausgabe einer


oder mehrerer Zielwerte in Bezug zu
multidimensionalen Eingangsvariablen. (vgl.
multivariate Verfahren)

Thema
Big Data der Prsi, im Diamodell

Datenanalyseverfahren
Das Modell der linearen Regressionsanalyse kann
allgemein mit den Parametern w0, , wD wie folgt
formuliert werden:
y (x, w) = w0 + w1x1 + + wDxD
Es werden hier fnf unterschiedliche
lineare Regressionsmodelle verwendet.
-

Simple Linear Regression


Linear Regression
Least Median Square
Support Vector Machine zur Regressionsanalyse
Response Surface Methode

1.1 Simple Linear Regression

Simple Linear Regression learns a linear regression


model based on a single attribute it chooses the one
that yields the smallest squared error . Die daraus

1.2 Linear Regression


Das Linear Regression Modell in Weka arbeitet auf Basis
der Ridge Regression Methode nach der Methode der
kleinsten Quadrate (bezeichnender auch: der kleinsten
Fehlerquadrate; englisch: Least Squares Method). Sei
eine Wolke aus Datenpunkten gegeben, die
physikalische Messwerte, wirtschaftliche Gren oder
hnliches reprsentieren, so soll in diese Punktwolke
eine mglichst genau passende, parameterabhngige
Modellkurve (Fehlerfunktion) gelegt werden.
Dazu bestimmt man die Parameter dieser Kurve
numerisch, indem die Summe der quadratischen
Abweichungen der Kurve von den beobachteten Punkten
minimiert wird.

folgende vereinfachte Gleichung kann geschrieben


werden zu:
y (x, w) = w0 + w1x1

Thema
Big Data der Prsi, im Diamodell

Datenanalyseverfahren
Bishop konkretisiert die lineare Regression wie folgt.

The values of the coefficients will be determined by


fitting the polynomial to the training data. This can be
done by minimizing an error function that measures the
misfit between the function y(x, w), for any given value of
w, and the training set data points. One simple choice of
error function, which is widely used, is given by the sum
of the squares of the errors between the predictions
y(x n ,w) for each data point xn and the corresponding
target values tn, so that we minimize

1.3 Last Median Square

Least Median Square is a robust linear regression


method that minimizes the median (rather than the
mean) of the squares of divergences from the regression
line. It repeatedly applies standard linear regression to
subsamples of the data and outputs the solution that has
the smallest median-squared error .

where the factor 0,5 is included for later convenience...


note that it is a nonnegative quantity that would be zero
if, and only if, the function y(x, w) has to pass exactly
through each training data point

Thema
Big Data der Prsi, im Diamodell

Support Vector Machine

Kernel-based techniques (such as support vector machines, Bayes point machines, kernel
principal component analysis, and Gaussian processes) represent a major development in
machine learning algorithms.

Support vector machines are a group of supervised learning methods that can be applied to
classification or regression [vgl. Sch98, vgl. Bish06].

Bei der Regressionsanalyse durch die Support Vector Machine ist auch die Fehlerfunktion
entscheidend.

Diese Funktion unterscheidet sich von der linearen Regressionsanalyse.

Weka nutzt hierzu die Sequential Minimal Optimization Algorithm nach Smola und Schlkopf unter
Verwendung von Gauen oder Polynomischen Kernels.

Bei weiterfhrendem Interesse sei hiermit auf Literatur von Bishop, Schlkopf, Platt und Gunn
verwiesen [Bish06, Sch98, Plat98, Gunn98].
Quelle: Methoden des Data Mining in Anwendung an die, Seite 84

Thema
Big Data der Prsi, im Diamodell

Response Surface Methode


Das mathematische Computerprogramm
Matlab bietet die Mglichkeit der graphischen
Datenanalyse durch die Response Surface
Methode.
Eine graphische Nutzeroberflche zeigt
hierbei polynomische Antwortflchen y in
Abhngigkeit der Wirkungsvariablen xn. Das
verwendete Modell ist linear und basiert auf
der linearen Regressionsanalyse.
Thema
Big Data der Prsi, im Diamodell

Analyse durch Neuronale


Netze Gehirn und Computer

Neuronale Netze sind informationsverarbeitende Modelle. Sie orientieren sich in ihrer


Funktion an Organisationsprinzipien des menschlichen Gehirns.

Das Neuron, auch Nervenzelle genannt, ist die elementare funktionale Einheit von
allem Nervengewerbe, einschlielich des Gehirns. Es besteht aus einem Zellkrper,
genannt Soma, der den Zellkern enthlt. Aus dem Zellkrper verzweigen eine Anzahl
kurzer Fasern, genannt Dendriten, und eine einzelne lange Faser, genannt Axon. Die
Dendriten verzweigen in ein buschiges Netz von Endungen um die Zelle herum,
whrend das Axon sich ber eine lange Distanz erstreckt

Thema
Big Data der Prsi, im Diamodell

Analyse durch Neuronale


Netze Gehirn und Computer
Vereinfachte Darstellung
eines Neurons

Das Axon verzweigt sich am Ende ebenfalls in einzelne


Fden, die mit Dendriten oder Zellkrpern anderer Neuronen
verbunden sind. Die Verbindungsstellen zwischen Neuronen
heien Synapsen. Jedes Neuron bildet Synapsen mit anderen
Neuronen in unterschiedlicher Anzahl von einem Dutzend bis
100000.
Die bertragung von Signalen von einem Neuron auf ein
anderes erfolgt durch einen elektrochemischen Prozess.
Wenn ein elektrischer Impuls am Axonende ankommt, erzeugt
die Synapse eine Transmittersubstanz, die in den Dendrit
einer anderen Zelle eindringt und dort das elektrische Potential
verndert. Bei erreichen eines Schwellwerts, das
Aktionspotential, wird wiederum ein elektrischer Impuls
erzeugt. Synapsen knnen unterschiedlich stark sein, d. h.
unterschiedliche Leitfhigkeit haben, und diese kann sich
verndern. Ebenso knnen Neuronen neue Verbindungen zu
anderen Neuronen aufbauen und ganze Neuronengruppen
knnen ihren Platz verndern. Durch diese Mglichkeiten der
Modifikation ist das Gehirn lernfhig.

Thema
Big Data der Prsi, im Diamodell

Neuronen als Rechenelemente

Die Abbildung zeigt den Aufbau eines rechenelementaren


Neurons. Die Grundfunktion ist es, aus den ber die
Eingabekanten empfangenen Signalen ein neues
Aktivierungsniveau zu berechnen und dieses ber die
Ausgabekanten an die nchsten Einheiten zu schicken. Die
Berechnung erfolgt in zwei Schritten:
Im ersten Schritt wird durch eine lineare Komponente, die
Eingabefunktion ini , die gewichtete Summe der Eingabewerte
berechnet. Im zweiten Schritt wird durch eine nichtlineare
Komponente, die Aktivierungsfunktion g, das
Aktivierungsniveau ai berechnet.

ini wird wie folgt berechnet:


Der neue Wert des
Aktivierungsniveaus wird
berechnet durch die
Funktion g.

Thema
Big Data der Prsi, im Diamodell

Neuronen als Rechenelemente

Folgende unterschiedliche Aktivierungsfunktionen finden Anwendung:

Binre Schwellwertfunktion
Lineare Sttigungsfunktion
Logistische Funktion
Sigmoide Funktion bzw. Tangens Hyberbolicus
Gaufunktion

Otte fhrt den Nachweis der Relevanz von unterschiedlichen Aktivierungsfunktionen

auf numerische Zielwerte und einfache Klassifikationen zurck. Whrend bei


Klassifikationen Neuronen hufig mit binren oder mehrwertigen Ausgngen
verwendet werden, werden kontinuierliche Neuronen zur Prognose von numerischen
Gren verwendet

Thema
Big Data der Prsi, im Diamodell

Analyse durch Neuronale Netze Netzstrukturen in


Weka Multilayer Perceptron

Obwohl ein einzelnes Neuron schon einfache


Klassifizierungen in Form von linearen
Separierungen durchfhren kann, steckt das
eigentliche Potential des neuronalen Ansatzes in
der Verschaltung (Vernetzung) einfacher Neuronen
zu komplexen Netzwerken [Otte04].

Die Struktur besteht aus einer Eingabeschicht oder


Input Layer (x1 bis x7), einer Ausgabeschicht oder
Output Layer (y) und dazwischen den verdeckten
Schichten oder Hidden Layer.

Im einfachsten Fall sind die Neuronen einer Schicht


ber ihre Gewichtsvektoren mit Neuronen der
Vorgngerschicht verbunden.

Man spricht in diesem Falle auch von sog. FeedForward-Architekturen.

Innerhalb der verdeckten Schichten knnen in


Weka beliebig viele Knoten und Verbindungen
aktiviert und deaktiviert werden. Auch ist die Anzahl
der Trainingszyklen frei einstellbar.

Thema
Big Data der Prsi, im Diamodell

Analyse durch Neuronale Netze Neuronale


Lernverfahren

Eine wesentliche Eigenschaft von Neuronalen Netzen ist die Lernfhigkeit der Netzstruktur.

Das Ziel ist die Findung einer Architektur die den Funktionszusammenhang zwischen Eingaben
und Ausgaben so gut wie mglich approximiert.

Die Aufgabe der Approximation ist es, auf unbekannte Eingaben zufriedenstellende Ausgaben zu
erzeugen.

Um diese Prognosen erstellen zu knnen, ist das Netz primr durch Trainingssets zu trainieren.

In dieser Lernphase wird nach Netzwerkstrukturen gesucht, die durch unterschiedliche


Gewichtung der einzelnen Neuronen Funktionszusammenhnge herstellen.

In der anschlieenden Testphase werden dem Netz unbekannte Eingabemuster prsentiert und
Soll- und Istergebnis abgeglichen.

Thema
Big Data der Prsi, im Diamodell

Analyse durch Neuronale


Netze Neuronale
Lernverfahren
berwachte Lernverfahren

Unberwachte
Lernverfahren

Beim nicht-berwachten Lernen werden dem Netz


in der Trainingsphase nur Eingabe- und keine
Ausgabemuster prsentiert.

Demzufolge ist auch kein Fehlerma definiert, das


die Vernderung der Netzwerkstruktur steuert.

Die Lernaufgabe wird in diesem Zusammenhang als


frei bezeichnet.

Die Zielsetzung des Lernvorgangs besteht darin,


dass das Netz eigenstndig Klassifikationskriterien
fr die Eingangsmuster findet.

Die Neuronen reprsentieren dabei selbstndige


Musterklassen und werden zu Musterdetektoren

Beim berwachten Lernvorgang


werden dem Neuronalen Netz in der
Trainingsphase sowohl Eingabe- als
auch Ausgabemuster bereitgestellt.
Das Netz berechnet fr jedes
Eingabemuster die Ausgabe und den
daraus resultierenden Fehler.
In jedem Lernzyklus (Epochs) wird der
Fehler durch Vernderung der im Netz
enthaltenen Gewichtung reduziert

Thema
Big Data der Prsi, im Diamodell

Analyse durch Neuronale Netze Neuronale


Lernverfahren - Lernregeln

Die Lernverfahren werden durch


verschiedene Lernregeln
gekennzeichnet. Folgende Lernregeln
gelten als die wichtigsten:

Hebbsche Lernregel (unberwacht)


Delta Lernregel (unberwacht)
Backpropagation Lernregel (berwacht)
Radial Basis Function network (berwacht)
Competitive network (unberwacht)
Learning Vector Quantization network
(unberwacht)
Self-organizing Map network (unberwacht)

Die Backpropagation Lernregel ist vom Typus ein


berwachtes Lernverfahren, d. h. der Istwert der
Ausgabeschicht wird whrend der Lernphase mit dem
Sollwert verglichen und ein Korrekturwert ber die
Gewichtung w ij an die jeweiligen Neuronen
zurckgegeben.

Backpropagation Netze sind die wichtigsten Vertreter


aller neuronalen Netzwerke. Bei dieser Lernregel
werden die Verbindungsgewichte der
Ausgangsneuronen mit den Neuronen der verdeckten
Schicht angepasst.

Die Verbindungsgewichte der verdeckten Schicht zur


Eingabeschicht lassen sich nicht direkt aus den
Ausgabewerten der Neuronen ableiten, da man die
Neuronenausgnge der verdeckten Schicht nicht kennt.

Deshalb werden sie in einem zweiten Schritt durch die


so genannte Rckwrtspropagierung, die
Backpropagation, verndert .

Backpropagation Netze werden vielfach synonym auch


als Multi-Layer-Perceptron (MLP-Netzwerke)
bezeichnet.

Thema
Big Data der Prsi, im Diamodell

Datenanalyseverfahren - Analyse durch den


Entscheidungsbaum

Ein Entscheidungsbaum ist eine spezielle Darstellungsform von


Entscheidungsregeln, welche aufeinander folgende, hierarchische Entscheidungen
veranschaulichen.

Bankhofer beschreibt den Entscheidungsbaum von baumartiger Struktur, mit einer


Wurzel, mehreren Blatt(knoten), inneren Knoten und Kanten.

Jedem Blatt(knoten) ist dabei eine Klasse zugeordnet, wobei pro Klasse mehrere
Blattknoten mglich sind.

Jedem inneren Knoten ist ein Merkmal zugeordnet, wobei pro Merkmal wiederum
mehrere innere Knoten mglich sind.

Will man ein Objekt mit einem Entscheidungsbaum klassifizieren, so startet man an
der Wurzel und ordnet das Objekt an den inneren Knoten einer neuen Unterteilung
zu, bis das Objekt durch einen Blattknoten eindeutig klassifiziert ist.

Thema
Big Data der Prsi, im Diamodell

Datenanalyseverfahren - Analyse durch den


Entscheidungsbaum

Bishop beschreibt baumbasierte Modelle mit Hilfe


von kuboiden Bereichen. The figure shows an
illustration of a recursive binary partitioning of the
input space, along with the corresponding tree
structure.

In this example, the first step divides the whole of


the input space into two regions according to
whether x1 <= 1 or x1 > 1 where is a parameter
of the model.

This creates two subregions, each of which can


then be subdivided independently. For instance, the
region x1 <= 1 is further subdivided according to
whether x2 <= 2 or x2 > 2, giving rise to the
regions denoted A and B.

The recursive subdivision can be described by the


traversal of the binary tree.

For any new input of x, we determine which region it


falls into by starting at the top of the tree at the root
node and following a path down to a specific leaf
node according to the decision criteria at each
node

Abbildung: Zweidimensionales Eingangsfeld mit fnf


Ausgangsbereichen

Thema
Big Data der Prsi, im Diamodell

Datenanalyseverfahren - Analyse durch den


Entscheidungsbaum

Entscheidungsbume gelten entgegen der


Regressionsanalyse als induktive Systeme. Otte
begrndet den Erfolg von induktiven Systemen,
insbesondere der Entscheidungsbume, in deren
Einfachheit und praktikabler Anwendung.
Wohingegen er das Scheitern vieler deduktiver
Anstze des maschinellen Lernens an der hohen
Komplexitt beurteilt. Darber hinaus fhrt er aus,
dass sich Entscheidungsbume in nahezu jedem
Anwendungsbereich ausgebreitet haben.

Grundstzlich knnen Entscheidungsbume nach


Klassifikations- und Regressionsbumen
unterschieden werden.

Klassifikationsbume haben das Ziel der


qualitativen Prognose. Regressionsbume machen
es mglich, quantitative Werte zu prognostizieren.

Die Prognose ist dabei der Mittelwert der einzeln


zugeordneten Ausgabewerte der Trainingssets pro
Knoten bzw. Regel.

Entscheidungsbaum in Korrespondenz zur kubioden


Darstellung

Thema
Big Data der Prsi, im Diamodell

Datenanalyseverfahren - Analyse durch den


Entscheidungsbaum

In der hier thematisierten Problemstellung sind durch den Entscheidungsbaum


Investitionen, also quantitative Werte, zu prognostizieren.
Der verwendete Entscheidungsbaum in Weka kann entsprechend als
Regressionsbaum bezeichnet werden. Die zugehrige Funktion zur
Regressionsbaumanalyse in Weka heit Reptree.

Reptree builds a decision or regression tree using information gain/variance


reduction and prunes it using reduced-error pruning. Optimized for speed, it only
sorts values for numeric attributes once.
It deals with missing values by splitting instances into pieces. You can set the
minimum number of instances per leaf, maximum tree depth, minimum proportion of
training set variance for a split (numeric classes only), and number of folds for
pruning

Thema
Big Data der Prsi, im Diamodell

Data Mining in Anwendung zur Investitionsplanung

Um Muster in Daten durch Data Mining erkennen zu


knnen, sind eine bestimmte Anzahl von Instanzen
notwendig, um daraus Muster und Regeln ableiten zu
knnen. Eine Instanz, bzw. in der vorliegenden Arbeit
eine Flexibilittsinstanz, entspricht hierbei einer
vollstndig modellierten Fertigungsanlage im Process
Designer mit den zugehrigen Investitionen
entsprechend einer spezifischen
Flexibilittskonfiguration.
Die Abbildung zeigt hierzu beispielhaft einen
Layoutausschnitt einer modellierten Geometriestation, in
welcher die Schweigruppen Lngstrger vorne, Boden
vorne und Boden hinten gefgt werden.
Ergnzend dazu wird in Tabelle eine Flexibilittsinstanz
mit dem erforderlichen Investitionsbedarf aufgefhrt.

Layoutabschnitt einer Flexiblittsinstanz

Werkstoffflexibilitt

Modellflexibilitt

Flexibilitt
durch
Einschaltdauer

Flexibilitt
durch
Automatisieru
ngsgrad und
Auftragsabar
beitung

Flexibilitt
durch Art der
Fabriksteueru
ng

Flexibilitt
durch
Vorhaltung

Flexibilitt
durch
Modularitt
und
Vorinstallatio
n

Investitionen
(Mio. EUR)

Niedrig

Mittel

Niedrig

Hoch

Niedrig

Hoch

Niedrig

67

Tabelle: Flexibilittsinstanz mit Investitionsbedarf


Quelle: Methoden des Data Mining in Anwendung an die Flexibilittsattribute des automobilen Karosseriebaus zur strategischen Investitionsplanung, Dissertation,
Thomas Haunstetter, Hamburg, 2010., Seite 110

Thema
Big Data der Prsi, im Diamodell

Data Mining in Anwendung zur


Investitionsplanung

Zum Erreichen eines guten Prognoseergebnisses wurden nach iterativer Logik in Summe 42
Layoutinstanzen entwickelt. Hierbei wurden jeweils die Flexibilittsattribute verndert, digitale
Fabriklayouts erstellt und die Investitionen berechnet.

Diese Berechnungsergebnisse basieren auf den Bausteinpreisen der AUDI AG und htten somit
nur eine eingeschrnkte Allgemeingltigkeit.

Um den Gltigkeitsbereich zu erweitern, wurden deshalb die einzelnen Instanzen zueinander in


Relation gesetzt, um die unternehmensspezifischen Bausteineffekte minimieren zu knnen (die
nicht flexibilittswirksamen Bestandteile krzen sich raus).

Das Ergebnis der Investitionsprognose konnte in seiner Generalitt somit vergrert werden, da
nur die flexibilittsspezifischen Bausteinpreise wirksam werden.

Thema
Big Data der Prsi, im Diamodell

Data Mining in Anwendung zur Investitionsplanung

Die Tabelle 16 zeigt die 42 Flexibilittsinstanzen mit


den zugehrigen Flexibilittskosten als Ergebnis der
Digitalen Fabrikplanung.

Die Flexibilittskosten zeigen hierin prozentual die


investitionsgebundenen Mehr- oder
Minderaufwendungen entsprechend der gewhlten
Flexibilittskonfiguration.

-1 entspricht dabei einer niedrigen Flexibilitt, 0 einer


mittleren Flexibilitt und 1 einer hohen Flexibilitt.

In Summe gibt es sieben Flexibilittsattribute, wobei


vier davon duale und drei davon ternre
Bewertungssysteme darstellen.
Damit knnten theoretisch insgesamt 432
Bewertungszustnde hergestellt werden.
Werkstoffflexibilitt -> Ternres System
Modellflexibilitt -> Ternres System
Einschaltdauer -> Duales System
Automatisierungsgrad und Auftragsabarbeitung ->
Ternres System
Fabriksteuerung -> Duales System
Vorhaltung -> Duales System
Modularitt und Vorinstallation -> Duales System

Flexibilittsinstanzen unterschiedlicher Flexibilittsklassen und


deren Investitionsauswirkung

Thema
Big Data der Prsi, im Diamodell

Data Mining in Anwendung zur Investitionsplanung


Die Erstellung einer Layoutinstanz ist mit einem hohen zeitlichen
Aufwand verbunden.
Die investigative Fllung des gesamten Flexibilittsraumes durch
Layoutgestaltung mit Hilfe der Digitalen Fabrik ist deshalb nicht
sinnvoll.
Auf Grund dessen sollen verschiedene Instrumentarien des Data
Mining auf die 42 Flexibilittsinstanzen angewendet werden, um
darin Muster zu erkennen.
Dabei soll mindestens ein Instrumentarium ausgewhlt werden
knnen, das auf Basis der 42 Instanzen gute Ergebnisse fr die 432
theoretisch mglichen Zustnde liefert.
Thema
Big Data der Prsi, im Diamodell

Adaption der ausgesuchten Datenanalyseverfahren auf


die Instanzen der Layoutentwicklung zur strategischen
Investitionsplanung

Es werden die ausgewhlten Verfahren des Data Mining auf die Flexibilittsinstanzen mit dem
Ziel der strategischen Investitionsplanung in Abhngigkeit von Flexibilitt angewendet.

Als Erfolgskriterien gelten dabei ein geringer Prognosefehler und eine einfache Anwendbarkeit
des Verfahrens fr Fertigungsplaner des Karosseriebaus.

Die zugehrige Validierung der Analyseergebnisse wurde in Weka durch die geschichtete 10fold-cross-validation durchgefhrt, da die Anzahl der Trainings- und Testdaten limitiert war.

Hierbei wurden die Daten zehn verschiedenen Ordnern zugeteilt.

Jeder Ordner wurde als Testsample einmal ausgefasst und die restlichen 9/10 der Daten zur
Mustererkennung trainiert.

Im Anschluss wurde die Fehlerrate durch die ausgefassten Testdaten bestimmt.

Dieser Lernzyklus passierte in Anwendung auf die Trainingsdaten zehnmal.

Nach zehnmaligem Durchlauf wurde der Fehler als gemittelter Fehler ber alle zehn Durchlufe
zurckgegeben.

Thema
Big Data der Prsi, im Diamodell

Adaption der ausgesuchten Datenanalyseverfahren auf


die Instanzen der Layoutentwicklung zur strategischen
Investitionsplanung

Bei der Analyse durch die Response


Surface in Matlab wurden als
Testsamples auch die
Trainingssamples verwendet, da die
Standardsoftware von Matlab die
Cross-Validation Methode nicht
beinhaltet.

Dieser Sachverhalt muss bei der


Ergebnisbewertung bercksichtigt
werden.

Zur weiteren Verwendung werden im


Sinne einer besseren bersichtlichkeit
in Tabelle 17 den einzelnen
Klassifikationen der Flexibilitt
verschiedene Variablen zugeordnet.

Variablen der Investitionsprognose in Abhngigkeit von Flexibilitt

Thema
Big Data der Prsi, im Diamodell

Adaption der ausgesuchten Datenanalyseverfahren auf die


Instanzen der Layoutentwicklung zur strategischen
Investitionsplanung Regressionsanalyse - Simple Linear
Regression

Simple Linear Regression trainiert in Weka eine


einfache lineare Regression.
Dabei wird das Attribut mit dem geringsten
quadratischen Fehler selektiert.
Die restlichen Attribute bleiben dabei unbercksichtigt.
Bei der vorliegenden Aufgabenstellung whlt Weka als
das einzig beschreibende Flexibilittsattribut die
Fabriksteuerung (x 5 ) aus.
Es ist somit das Attribut mit dem geringsten
quadratischen Fehler und die Investitionsprognose ist
entsprechend ausschlielich von der Art der
Fabriksteuerung abhngig.
Wie die vereinfachte Reduzierung der Variablen
bereits vermuten lsst, zeigt die Prognose groe
Fehlerabweichungen.
Der mittlere Fehler von 29% Flexibilittskosten sowie
insbesondere der maximale Fehler von 70%
Flexibilittskosten lassen keine verlssliche
Investitionsplanung durch die Simple Linear
Regression zu

Mittlerer Fehler: 29% Flexibilittskosten


Maximaler Fehler: 70% Flexibilittskosten

Prognose von Flexibilittskosten durch Simple Linear


Regression

Thema
Big Data der Prsi, im Diamodell

Linear Regression

Die Linear Regression trainiert in Weka eine lineare Regression mit der Mglichkeit
der Attributeselektion nach der M5 oder Greedy Methode.

In der vorliegenden Anwendung konnten bessere Ergebnisse mit dem GreedyAlgorithmus erzielt werden.

Das Prinzip des Greedy-Algorithmus whlt hierbei schrittweise denjenigen


Folgezustand aus, der zum Zeitpunkt der Wahl das beste Ergebnis verspricht.

Ein anschauliches Beispiel aus dem tglichen Leben ist die Herausgabe von
Wechselgeld.

Nach der Greedy Methode wrde jeweils immer die grte Mnze unter dem Zielwert
gezogen und auch abgezogen, bis der Zielwert gleich null ist.

Thema
Big Data der Prsi, im Diamodell

Linear Regression

Die Tabelle zeigt die Prognose der


Flexibilittskosten durch die Linear
Regression. Der gemittelte Fehler betrgt 16%
Flexibilittskosten.

Unter Bercksichtigung des heuristischen


Forschungsansatzes (Reduzierung der
Anlagenlayouterstellung auf automobile
Plattformanlagen) knnte dieser mittlere
Fehler fr Trendaussagen als plausibel
angesehen werden.

Wegen des hohen maximalen Fehlers von


74% Flexibilittskosten besteht jedoch
darber hinaus ein hohes Risiko in der
Prognose.

Deshalb erscheint auch die Linear Regression


Methode als ungeeignet fr eine robuste
Investitionsplanungsaussage.

Funktion:
y = 26.1967 * x 1 + 12.1345 * x 2 + -1.6955 * x 3 + -30.6963 *
x4 + 6.6687 * x 5 + 2.3614 * x 6 + 0.1637 * x 7 + -19.0708
Prognose:

Tabelle: Prognose von Flexibilittskosten durch Linear


Regression
Mittlerer Fehler: 16
Maximaler Fehler: 72

Thema
Big Data der Prsi, im Diamodell

Last Median Square

Last Median Square ist eine Methode der linearen Regressionsanalyse in Weka,
welche eine Lsung mit minimalem mittlerem quadratischem Fehler ausgibt. Die
grundstzliche Systematik der Anwendung orientiert sich hierbei an der linearen
Regressionsanalyse.

Die Last Median Square Analyse wurde ebenso wie die Linear Regression Analyse
mit der Greedy Methode optimiert. Auf Grund der verwandten Systematik zur Linear
Regression unterscheiden sich zwar die beschreibenden Funktionen, die Qualitt der
Prognose bzw. die Prognosefehler zeigen jedoch hnlichkeiten.

Der mittlere Fehler von 12% Flexibilittskosten knnte fr Trendaussagen


ausreichen, jedoch birgt der maximale Fehler von 82% Flexibilittskosten ein zu
hohes Prognoserisiko. Verlssliche Investitionsplanungen in Abhngigkeit von
Flexibilitt sind durch die Last Median Square Analyse deshalb auch nicht mglich.

Thema
Big Data der Prsi, im Diamodell

Last Median Square


Funktion:
y = 8.2579 * x1 + 10.0856 * x2 + 3.8915 * x3 + -34.7632 * x4 + 0.8753 * x5 + 0.5655 * x6 + 2.1852 * x7 + -9.4857
Prognose:

Tabelle : Prognose von Flexibilittskosten durch Last Median Square

Mittlerer Fehler: 12
Maximaler Fehler: 82
Thema
Big Data der Prsi, im Diamodell

Support Vector Machine

Als vierte Anwendung der linearen Regressionsanalyse wurde eine Support


Vector Machine mit den vorhandenen Beispieldaten trainiert.

Das Ergebnis zeigt wiederum hnlichkeit zu den bereits verwendeten


Lsungsverfahren.

Der mittlere Fehler der Prognosen betrgt 13% und der maximale Fehler
79% Flexibilittskosten.

Das Ergebnis der Support Vector Machine besttigt entsprechend die


bereits erlangte Erkenntnis, dass die lineare Regressionsanalyse in Weka
nicht fr den gewhlten Forschungsansatz anwendbar ist.

Thema
Big Data der Prsi, im Diamodell

Support Vector Machine


Funktion:
y = 0.5036 * x 1 + 0.2399 * x 2 + -0.0075 * x 3 + -0.4866 * x 4 + 0.0917 * x 5 + 0.0524 * x 6 + 0.0288 * x7 + 0.1521

Prognose:

Tabelle: Prognose von Flexibilittskosten durch Support Vector Machine


Mittlerer Fehler: 13
Maximaler Fehler: 79

Thema
Big Data der Prsi, im Diamodell

Response Surface

Die Response Surface Methode in Matlab


wurde verwendet, um die Ergebnisse der
linearen Regressionsanalyse aus Weka zu
berprfen.

Die folgende Abbildung zeigt hierzu die


graphische Benutzeroberflche. Auf der xAchse sind hierzu die einzelnen
Flexibilittsattribute (x1 bis x7) aufgetragen.

Auf der y-Achse knnen die jeweiligen


Investitionsauswirkungen abgelesen
werden. Jedes Flexibilittsattribut ist
innerhalb der Grenzen von -1 (geringe
Flexibilitt) und +1 (hohe Flexibilitt) frei
konfigurierbar.

Die Ausgabe der Investitionsprognose als


Summe der einzelnen y-Werte erfolgt
separat numerisch.

Modell der Flexibilittskosten durch Response Surface

Thema
Big Data der Prsi, im Diamodell

Response Surface

Die folgende Tabelle zeigt zusammengefasst die Prognose der Flexibilittskosten mit den jeweiligen Fehlern durch
die Response Surface Methode.

Der mittlere Fehler betrgt 13% Flexibilittskosten und der maximale Fehler betrgt 60% Flexibilittskosten.

Insbesondere wegen des groen maximalen Fehlers, sind, wie bei den vorangegangen Verfahren der linearen
Regressionsanalyse auch, durch die Response Surface Methode keine zuverlssigen Investitionsprognosen
mglich.

Darber hinaus ist zu beachten, dass die Validierung mit den Trainingsdaten durchgefhrt wurde, da Matlab keine
Mglichkeit der Cross-Validation bietet und die Anzahl der Flexibilittsinstanzen fr eine 2/3-1/3 Aufteilung von
Trainings- und Testsamples zu gering waren.

Jedoch konnte bei der Ergebnisauswertung eine Prognosekohrenz zwischen den verwendeten Verfahren aus
Weka (Linear Regression, Last Median Square und Support Vector Machine) sowie Matlab festgestellt werden.

Dieser Sachverhalt lsst darauf schlieen, dass die verwendeten Systematiken grundstzlich fr
Investitionsprognosen tauglich sind und nur die erforderlichen Verfahrensgenauigkeiten bei den gegebenen
Rahmenbedingungen nicht ausreichen.

Auch ist daraus ableitbar, dass die Analysen computerprogrammunabhngig richtig durchgefhrt wurden. Es ist
deshalb zu erwarten, dass entweder durch die Auswahl des richtigen Data Mining Verfahrens oder durch die
Erstellung von weiteren Trainingssamples fehlerresistente Regelableitungen getroffen werden knnen.

Thema
Big Data der Prsi, im Diamodell

Response Surface
Prognose:

Tabelle 22: Prognose von Flexibilittskosten durch Response Surface


Mittlerer Fehler: 13
Maximaler Fehler: 60

Thema
Big Data der Prsi, im Diamodell

Data Mining in Anwendung zur Investitionsplanung Zwischenfazit

Es wurden fnf Verfahren der Regressionsanalyse angewendet, um Investitionen fr den


automobilen Karosseriebau in Abhngigkeit von Flexibilitt funktional zu beschreiben.

Auf der Basis von 42 vorhandenen Instanzen war es jedoch nicht mglich, fehlerresistente
Gleichungen herzustellen.

Unter Bercksichtigung der Unterschiede in der Validierungsart, konnten die formal besten
Ergebnisse durch die Response Surface Methode in Matlab erzielt werden.

Jedoch war auch in dieser Anwendung der maximale Fehler zu gro, um sichere
Investitionsprognosen daraus ableiten zu knnen.

Jedoch konnte festgestellt werden, dass die Ergebnisgte der verschiedenen


Regressionsanalysen im Wesentlichen gleich ist, was wiederum als Besttigung fr die
angewendete Methode und deren Durchfhrung gedeutet wird.

Aus diesem Grunde wurden mit den Neuronalen Netzen und dem Entscheidungsbaum
zwei weitere Verfahren des Data Mining auf den vorhandenen Datenstamm angewendet.

Thema
Big Data der Prsi, im Diamodell

Neuronale Netze

Die folgende Abbildung zeigt die gewhlte Netzstruktur zur Datenanalyse durch
Neuronale Netze in Weka.

Die Knotenanzahl der Eingabeschicht entspricht der Anzahl der Flexibilittsattribute


(7 Knoten).

Die Anzahl der Knoten der Ausgabeschicht entspricht der strategischen


Investitionsplanung bzw. den Flexibilittskosten (1 Knoten).

Innerhalb der verdeckten Schicht wurden sieben Knoten ausgewhlt. Wurde die
Anzahl der Knoten reduziert, verschlechterte sich das Ergebnis, da der Fehler bei
Anwendung der 10-fold-cross-validation entsprechend anstieg.

Wurde wiederum die Anzahl der Knoten innerhalb der verdeckten Schicht vergrert
(>7 Knoten) verbesserte sich die Ergebnisqualitt nicht. Auch konnte keine
Optimierung durch das Einfgen weiterer verdeckter Schichten erzielt werden.

Thema
Big Data der Prsi, im Diamodell

Neuronale Netze

Abbildung : Neuronales Netz zur Prognose von Flexibilittskosten

Thema
Big Data der Prsi, im Diamodell

Neuronale Netze

Die Prognose in Tabelle basiert auf einem Lernzyklus (Number of Epochs) von 10.000
(10.000 Durchlufe mit einer jeweiligen Anpassung der Knotengewichtung).

Bei Reduzierung des Lernzyklus vergrerte sich der Fehler der Prognose.

Bei Einstellung grerer Zyklen (z. B. >1.000.000) konnten bei entsprechend wesentlich
lngeren Rechenzeiten keine Ergebnisverbesserungen erzielt werden.

Bei der Ergebnisbewertung durch die 10-fold-cross-validation wurde ein mittlerer Fehler von
0,2% Flexibilittskosten und ein maximaler Fehler von 1,0% Flexibilittskosten berechnet
(siehe folgende Prognose).

Diese Abweichungen liegen insbesondere unter Bercksichtigung der generischen Anstze


innerhalb der Flexibilittsklassifikationen und den produkt- und fertigungstechnischen
Rahmenbedingungen innerhalb eines fr konzeptionelle Planungszwecke ausreichenden
Toleranzbereichs.

Es knnen dem zu Folge innerhalb des gewhlten Forschungsrahmens durch die Neuronalen
Netze zuverlssige Investitionsprognosen in Abhngigkeit von Flexibilitt gemacht werden.

Thema
Big Data der Prsi, im Diamodell

Neuronale Netze
Prognose:

Tabelle 23: Prognose von Flexibilittskosten durch Neuronale Netze


Mittlerer Fehler: 0,2
Maximaler Fehler: 1

Thema
Big Data der Prsi, im Diamodell

Entscheidungsbaum

Die Datenanalyse durch den Entscheidungsbaum wird als Regressionsbaum


dargestellt, da die zu prognostizierenden Investitionen numerische Werte darstellen.

Hierzu wird die Funktion Reptree des Data Mining Tools Weka verwendet.

Beim Entscheidungsbaum knnen die zu analysierenden Attribute grundlegend


numerischer oder nominaler Herkunft sein. Diese Unterscheidung ist fr das Ergebnis
auch wirksam, da es Auswirkung auf den Split der Daten hat.

In der vorliegenden Arbeit ist der Split durch die Flexibilittsklassifikation in hohe,
mittlere und niedrige Flexibilitt jedoch bereits vorgegeben. Es ist somit unerheblich,
ob die Analyse numerisch oder nominal durchgefhrt wird, da ein grerer oder
kleinerer numerischer Split definitionsgem nicht abgedeckt und ein Ergebnis somit
nicht zuordenbar wre.

Thema
Big Data der Prsi, im Diamodell

Entscheidungsbaum

Exemplarisch und zur


Veranschaulichung zeigt der Baum
1 einen geprunten numerischen
Entscheidungsbaum mit
zweifachem Split bei -0,5 und
0,5, was nach Definition einem
mittelniedrig bzw. mittelhoch
entsprche, wozu jedoch eine
eindeutige Klassifikation fehlt.

x1 < 0.5
| x3 < 0
| | x1 < -0.5
| | | x2 < -0.5 : -27
| | | x2 >= -0.5 : -18
| | x1 >= -0.5 : 38
| x3 >= 0 : -6
x1 >= 0.5
| x4 < -0.5 : 58
| x4 >= -0.5 : -25

Aus diesem Grund wurde eine


weiterfhrende
Investitionsprognose nicht
durchgefhrt.

Baum 1: Geprunter numerischer


Entscheidungsbaum

Thema
Big Data der Prsi, im Diamodell

Entscheidungsbaum

Im Folgenden wurde die Entscheidungsbaumanalyse nur


noch nominal in der Klassifikation hoch/mittel/niedrig
durchgefhrt.

Der Baum 2 zeigt hierzu den geprunten


Entscheidungsbaum. Pruning steht hierbei im Englischen fr
die Beschneidung von Bumen und Struchern.

In Bezug auf die Entscheidungsbume wird dieses


Verfahren im gleichen Sinne verwendet, um lange und
unbersichtliche Entscheidungsbume zu krzen und somit
die Effizienz des Lsungsprozesses zu steigern.

Der geprunte Entscheidungsbaum priorisierte in der


vorliegenden Anwendung dabei vier von sieben Attributen
der Flexibilitt.

Werkstoffflexibilitt, Automatisierungsgrad /
Auftragsabarbeitung, Modellflexibilitt und Einschaltdauer
beschreiben hierbei die Prognose in Abhngigkeit von der
Flexibilitt.

Die Fabriksteuerung, die Vorhaltung, die Modularitt und die


Vorinstallation werden durch das Pruning abgeschnitten und
somit in der Prognose nicht bercksichtigt.

x1 = Hoch
| x4 = Niedrig : 71
| x4 = Mittel : 78
| x4 = Hoch
| | x2 = Hoch : 127
| | x2 = Mittel
| | | x3 = Niedrig : 133
| | | x3 = Hoch : 115
| | x2 = Niedrig : 110
x1 = Mittel : 59
x1 = Niedrig : 61
Baum 2: Geprunter nominaler Entscheidungsbaum

Thema
Big Data der Prsi, im Diamodell

Entscheidungsbaum
Prognose:

Die Tabelle zeigt in Bezug zum Baum 2 die


Investitionsprognose des geprunten nominalen
Entscheidungsbaumes.

Die Anwendung der Testsamples ergab einen


mittleren Fehler von 8% Flexibilittskosten und
einen maximalen Fehler von 32%
Flexibilittskosten.

hnlich wie bei der Regressionsanalyse grenzt der


groe maximale Fehler eine praktische
Anwendbarkeit des geprunten Verfahrens ein.

Jedoch konnte im Vergleich zur linearen


Regressionsanalyse der maximale Fehler
annhernd halbiert werden
Tabelle : Prognose von Flexibilittskosten durch geprunten
nominalen Entscheidungsbaum
Mittlerer Fehler: 8
Maximaler Fehler: 32

Thema
Big Data der Prsi, im Diamodell

Entscheidungsbaum
Der Baum 3 zeigt den nicht geprunten nominalen
Entscheidungsbaum zur Prognose der Investitionen.
Der Entscheidungsbaum beinhaltet in Summe 48 Knoten.
In Summe werden sechs von sieben Flexibilittsattributen durch
Weka ausgewhlt.

Einzig die Fabriksteuerung bleibt bei der Attributeselektion als das


Attribut mit dem geringsten Investitionseinfluss unbercksichtigt.

Thema
Big Data der Prsi, im Diamodell

Baum 3: Nicht geprunter nominaler


Entscheidungsbaum
x1 = Hoch
| x4 = Niedrig
| | x3 = Niedrig : 76
| | x3 = Hoch : 71
| x4 = Mittel
| | x3 = Niedrig : 80
| | x3 = Hoch : 75
| x4 = Hoch
| | x2 = Hoch
| | | x7 = Hoch : 130
| | | x7 = Niedrig : 126
| | x2 = Mittel
| | | x3 = Niedrig : 133
| | | x3 = Hoch
| | | | x6 = Hoch : 118
| | | | x6 = Mittel : 114
| | | | x6 = Niedrig : 114
| | x4 = Niedrig : 110
x1 = Mittel
| x4 = Niedrig
| | x3 = Niedrig : 50
| | x3 = Hoch : 46
| x4 = Mittel : 47
| x4 = Hoch : 78

x1 = Niedrig
| x4d = Niedrig : 37
| x4 = Mittel : 40
| x4 = Hoch
| | x2 = Hoch
| | | x7 = Hoch : 76
| | | x7 = Niedrig : 73
| | x2 = Mittel
| | | x3 = Niedrig
| | | | x7 = Hoch : 70
| | | | x7 = Niedrig : 66
| | | x3 = Hoch
| | | | x7 = Hoch : 62
| | | | x7 = Niedrig : 59
| | x2 = Niedrig
| | | x3 = Niedrig
| | | | x7 = Hoch : 63
| | | | x7 = Niedrig : 61
| | | x3 = Hoch
| | | | x7 = Hoch : 57
| | | | x7 = Niedrig
| | | | | x6 = Hoch : 54
| | | | | x6 = Mittel : 53
| | | | | x6 = Niedrig : 52

Thema
Big Data der Prsi, im Diamodell

Entscheidungsbaum

Die Tabelle zeigt die Prognose von Flexibilittskosten durch den nicht geprunten
nominalen Entscheidungsbaum.

Bei der Validierung durch die Testsamples (10-fold-cross-validation) wurde in Weka


ein mittlerer Fehler von 0,2% Flexibilittskosten und ein maximaler Fehler von 1,0%
Flexibilittskosten berechnet.

Dieser Sachverhalt besttigt das Ergebnis der Untersuchungen mit den Neuronalen
Netzen, da sowohl der mittlere, als auch der maximale Fehler beider
Verfahrensanwendungen identisch sind.

Hinsichtlich der erzielbaren Ergebnisgte sind dementsprechend auch mit dem nicht
geprunten Entscheidungsbaum Investitionsprognosen in Abhngigkeit von Flexibilitt
zu ttigen

Thema
Big Data der Prsi, im Diamodell

Entscheidungsbaum
Prognose:

Tabelle : Prognose von Flexibilittskosten durch nicht geprunten nominalen Entscheidungsbaum


Mittlerer Fehler: 0,2
Maximaler Fehler: 1

Thema
Big Data der Prsi, im Diamodell

Data Mining in Anwendung zur


Investitionsplanung - Entscheidungsbaum

Die Abbildung zeigt die Oberflche des in Microsoft


Excel programmierten nicht geprunten nominalen
Entscheidungsbaums.

Der Entscheidungsbaum wurde in Microsoft Excel


programmiert, da die Programmierung einfach
durchfhrbar ist und die Anwendung durch Excel
einem breiten Nutzerforum zu Verfgung gestellt
werden kann.

Hierbei wurde der lange und unbersichtliche


Entscheidungsbaum aus Baum 3 durch einfache
if/then Beziehungen anwenderfreundlich gestaltet.

Die Flexibilittsklassifikationen knnen dabei durch


die Eingabe von 1, 2 oder 3 (niedrig, mittel oder
hoch) belegt und die entsprechenden
Flexibilittskosten prozentual abgelesen werden.

Bei Vernderung der bedarfsspezifischen


Klassifikation verndern sich entsprechend die
dafr notwendigen Investitionen.

Abbildung : Oberflche des programmierten nicht


geprunten Entscheidungsbaumes in Microsoft Excel

Thema
Big Data der Prsi, im Diamodell

Data Mining in Anwendung zur


Investitionsplanung - Fazit

In diesem Kapitel wurden die Data Mining Verfahren Regressionsanalyse, Neuronale


Netze und Entscheidungsbaum auf die Flexibilittsinstanzen des Karosseriebaus
angewendet.

Die Zielsetzung war eine Regelableitung aus den Beispieldaten zur Prognose von
Investitionen in Abhngigkeit von Flexibilitt mit geringem Fehler und einfacher
Anwendbarkeit fr den Fertigungsplaner.

Grundstzlich konnten durch alle angewendeten Verfahren Muster in den


vorhandenen Beispieldaten gefunden werden.

In der Qualitt der Mustererkennung und der daraus folgenden Regelableitung sowie
in der einfachen Anwendbarkeit der einzelnen Verfahren ergaben sich jedoch
Unterschiede.

Thema
Big Data der Prsi, im Diamodell

Data Mining in Anwendung zur


Investitionsplanung - Fazit
Die Tabelle zeigt dazu die qualitative Bewertung der ausgesuchten Analyseverfahren mit den
Zugehrigen Bewertungskriterien maximaler Fehler, mittlerer Fehler und Praktikabilitt des
Verfahrens.

Tabelle : Bewertung der ausgesuchten Analysearten

Thema
Big Data der Prsi, im Diamodell

Data Mining in Anwendung zur Investitionsplanung Fazit

Die fnf untersuchten Verfahren der Regressionsanalyse (Simple Linear Regression, Linear Regression, Last Median
Square, Support Vector Machine und Response Surface) besitzen zwar durch die funktionale Lsungsbeschreibung eine
gute praktikable Anwendbarkeit durch den Fertigungsplaner, jedoch schliet der groe Fehler, insbesondere der groe
maximale Fehler, zuverlssige Investitionsprognosen aus.

Auch fr rasche Trendaussagen erscheinen die Verfahren dafr zu risikoreich. Sie erreichen deshalb in der
Verfahrensbewertung nur die hinteren Rnge 4-8.

Den dritten Rang in der Bewertung belegt der geprunte Entscheidungsbaum. Entscheidend hierfr ist die sehr gute
Praktikabilitt des Verfahrens an sich und die daraus resultierende schnelle Lsungsfindung fr den Anwender. Jedoch
negiert der maximale Fehler von 32% Flexibilittskosten eine verlssliche Investitionsprognose und stellt deshalb keine
Lsungsalternative dar.

Die besten Ergebnisse mit den geringsten Fehlern konnten durch den nicht geprunten Entscheidungsbaum und die
Neuronalen Netze erzielt werden.

Beide Verfahren zeigten nach Validierung durch die 10-fold-cross-validation einen mittleren Fehler von 0,2%
Flexibilittskosten und einen maximalen Fehler von 1,0% Flexibilittskosten.
Insbesondere unter Bercksichtigung der vorhandenen generischen Forschungsanstze und der bentigten
Planungsschrfe in der Konzeptphase wird diese erzielte Ergebnisgte als gut beurteilt.

Aufgrund der grundlegenden Verfahrensunterschiede (Entscheidungsbaum als symbolisches System und Neuronale
Netze als subsymbolisches System) wird der identische maximale und mittlere Fehler der beiden Verfahren als reiner
Zufall bzw. als kausal unerklrlich bezeichnet.
Der identische Fehler besttigt jedoch die verwendete Methode, sttzt die richtige Herangehensweise und attestiert die
korrekte Durchfhrung.

Thema
Big Data der Prsi, im Diamodell

Data Mining in Anwendung zur Investitionsplanung


- Fazit

Der Vorteil einer einfachen Anwendbarkeit und deshalb auch der Vorteil in der
Gesamtbewertung ergibt sich des Weiteren fr den nicht geprunten Entscheidungsbaum.

Die Ursache liegt darin, dass durch die Neuronalen Netze implizites Wissen erzeugt wird
und der Lsungsweg nicht dokumentierbar ist.

Zur Erstellung einer Prognose durch den Fertigungsplaner muss Weka als Data Mining
Toolbox verwendet werden. Im Gegensatz dazu reprsentiert der Entscheidungsbaum das
Wissen explizit. Der Entscheidungsbaum kann zur Prognose hierzu manuell verwendet
werden (siehe beispielsweise Baum 1).

Alternativ kann die Programmierung des Baumes in gelufigen Softwareprogrammen (z.B.


Microsoft Excel) zur nutzerfreundlichen strategischen Investitionsplanung durchgefhrt
werden.

Als Fazit kann zusammenfassend festgestellt werden, dass auf Grund der Ergebnisgte
sowie der Praktikabilitt des Verfahrens der nicht geprunte Entscheidungsbaum das beste
Lsungsverfahren fr die vorliegende Problemstellung darstellt.

Thema
Big Data der Prsi, im Diamodell

Beispiel fr einen kombinierten Methoden-Einsatz

Abb. 1: Beispiel fr einen kombinierten Methoden-Einsatz

Thema
Big Data der Prsi, im Diamodell

Datenanalyse

statistische Datenanalyse; statistische Methoden, mit


welchen aus vorliegenden

Einzeldaten zusammenfassende Informationen


(Kenngren) gewonnen und tabellarisch oder grafisch
dokumentiert werden.
1. Deskriptive Datenanalyse: Liegt eine Totalerhebung
oder generell ein Datensatz vor, so ist es die Aufgabe
der Datenanalyse, die in den Einzeldaten enthaltene
Information zu verdichten und diese so darzustellen,
dass Wesentliches deutlich wird. Dazu werden
Tabellen, graphische Darstellungen und
charakteristische Mazahlen verwendet. Die
Datenanalyse hat ausschlielich beschreibenden
Charakter (deskriptive Statistik).
2. Inferenzielle Datenanalyse: Bei einer
Stichprobenerhebung (Teilerhebung) liegt der
Schwerpunkt der Datenanalyse auf der bertragung
der Stichprobenbefunde auf die Grundgesamtheit auf
der Basis eines statistischen Modells. Wesentliche
Verfahren der Inferenzstatistik sind Punktschtzung,
Intervallschtzung und Hypothesenprfung
(statistische Testverfahren). Zur Datenanalyse gehrt
in diesem Fall z.B. die Angabe von Punktschtzwerten
oder die Angabe von Konfidenzintervallen fr
Parameter der Grundgesamtheit.

3. Neben der deskriptiven und inferenziellen wird auch


zwischen der explorativen und der konfirmatorischen
Datenanalyse unterschieden. Bei der explorativen
Datenanalyse wird die verfgbare Datenmenge
verarbeitet mit der Absicht, Strukturen in den Daten
oder einfache bzw. berschaubare Zusammenhnge
hervortreten zu lassen oder auf diese Weise erst zu
entdecken. Im Gegensatz dazu ist das Ziel der
konfirmatorischen Datenanalyse die berprfung von
Zusammenhngen (z.B. Regressionsanalyse oder der
LISREL-Ansatz (LISREL) der Kausalanalyse).
4. Bei der Datenanalyse ist bezglich der
Analyseverfahren allg. zwischen univariater, bivariater
und multivariater Datenanalyse zu unterscheiden, je
nachdem, ob ein (eindimensionales) Merkmal bzw.
zwei- oder mehrdimensionale Merkmale im
Vordergrund stehen (univariate Analysemethoden,
bivariate Analysemethoden, multivariate
Analysemethoden).

Thema
Big Data der Prsi, im Diamodell

Datenanalyse

Thema
Big Data der Prsi, im Diamodell

Regressionsmodell

Thema
Big Data der Prsi, im Diamodell

Regressionsmodell

Kurzerklrung:
Modell zur Untersuchung der Art der Beziehungen zwischen
einer endogenen Variablen und einer oder mehreren
exogenen Variablen bzw. vorherbestimmten Variablen
(Mehrgleichungsmodell), wobei zustzlich eine zufllige
Komponente (Strterm) in die Modellgleichung eingeht.
Ausfhrliche Erklrung:
1. Modellarten: Regression, einfache; Regression, multiple;
Regression, lineare; Regression, nicht lineare.
2. Schtzmethode: Meist wird mit der gewhnlichen
Kleinstquadratemethode gearbeitet, bei der die Parameter so
geschtzt werden, dass die Summe der quadrierten
Abweichungen der Regressionskurve von den Datenpunkten
minimiert wird. Zur Schtzung der Parameter von
Regressionsmodellen werden i.d.R. bestimmte Annahmen
ber die stochastischen Eigenschaften des additiven
Strterms getroffen: Mittelwert gleich null, gemeinsame
gleiche Varianz, Unabhngigkeit (keine Autokorrelation),
Unabhngigkeit von den erklrenden Variablen.

3. Beurteilung der Regressionsergebnisse: Die wichtigsten


Kennzahlen sind:
(1) Bestimmtheitsma (Anteil der durch die Regression
erklrten Varianz der zu erklrenden Variable),
(2) t-Werte (pro exogener Variablen ein t-Wert; Beurteilung der
Signifikanz des Einflusses einzelner erklrender Variablen auf
die erklrte Variable; t-Test),
(3) F-Wert (Beurteilung der Signifikanz der Regression; F-Test
fr das multiple Regressionsmodell).
4. Hauptprobleme: Schtzung und Spezifikation der
Funktionsform des Modells und der im Modell auftretenden
erklrenden Variablen, Endogenitt der erklrenden Variablen,
Korrelation der erklrenden Variablen bzw. fehlende Varianz
selbiger und fehlende Stationaritt der Variablen.

Thema
Big Data der Prsi, im Diamodell

Data Mining als Technolgie Methoden zur


Musterentdeckung aus den Daten

Source: Data Mining Eine kurze Einfhrung, Myra Spiliopoulou, Otto-von-Guericke-Univ. Magdeburg

Thema
Big Data der Prsi, im Diamodell

Deskriptive Modelle
Fragen:

Methoden:

Was sind die sozialen und


demographischen Eigenschaften
unserer Kunden?

Clustering

Welche Produkte werden


zusammen gekauft?

Assoziationsregeln

Wo sind die Engpsse bei einem


gegebenen Geschftsprozess?

Sequenzanalyse, Vorhersage auf


Sequenzen

Wie knnen wir Betrugsversuche


entdecken?

Erkennung von Ausreisern

Thema
Big Data der Prsi, im Diamodell

Vorhersagemodelle
Fragen:

Methoden:

Welche Kunden sollten einen


Kredit bekommen?

Klassifikation

Wie erkennen wir Spam in E-Mails


(ohne sie lesen zu mssen)?

Klassifikation

Wie erkennen wir


Betrugsaktionen?

Klassifikation

Aktienpreise: Kaufen oder


Verkaufen?

Erkennung von Tendenzen und


Mustern in Zeitreihen

Thema
Big Data der Prsi, im Diamodell

Data Mining als Prozess


CRISP-DM

CRISP-DM war ein internationales EU-Projekt, mit dem Ziel


Einen Data-Mining-Prozess zu gestalten, der neutral gegenber (unabhngig von)
Industrie, Werkzeugen und Anwendungen ist

CRISP-DM ist ein industrielles Standard fr Data Mining Prozesse.

CRISP-DM wird untersttzt und gefrdert von:

Data Mining Software Herstellern,


Anwendern von Data Mining und Data Warehouse Technologien.

CRISP-DM hat eine Special Interest Group, in der Hersteller, Berater und
Anwender vertreten sind.

Thema
Big Data der Prsi, im Diamodell

Der CRISP-DM Prozess


Der CRISP-DM Prozess ist:
- ein nicht endender Kreis von
Iterationen,
- ein nicht sequentieller Prozess, in
dem die Rckkehr zu frheren
Phasen zugelassen und oft
notwendig ist.

Hier eine sequentielle Instanziierung:


Business

Data

Data

Understanding

Understanding

Preparation

Modelling

Evaluation

Deployment

Thema
Big Data der Prsi, im Diamodell

Schwerpunkte des CRISP-DM


CRISP-DM betrachtet KDD als einen
Prozess.
CRISP-DM betont die projektorientierte Gestalt des Prozesses.
CRISP-DM umfasst abstrakte
Aufgaben.

Jede Aufgabe entspricht einem


Unterprozess von konkreten
Aktivitten.
Business

Data

Data

Understanding

Understanding

Preparation

Modelling

Evaluation

Deployment

Thema
Big Data der Prsi, im Diamodell

Der Data Mining Prozess


(1) Problemspezifikation

Informelle Beschreibung des Problems

Formelle Spezifikation der Ziele

Spezifikation der Kriterien zur Evaluation jeder Lsung

Beispiel (Bankanwendung)
Problembeschreibung: Bekommt ein Kunde einen Kredit und zahlt nicht zurck,
macht die Bank Verluste.

Ziel: Identifizierung der Eigenschaften, die jene Kunden charakterisieren, die nicht
zurckzahlen werden (und nur diese)

Kriterien:

(1) Gewinn/Verlust wenn

ein Kredit gewhrt wird und der Kunde ihn nicht zurckzahlt
ein Kunde, der zurckzahlen wrde, keinen Kredit bekommt

sowie (2) Verstndlichkeit des Models

Thema
Big Data der Prsi, im Diamodell

In CRISP-DM, die Problemspezifikation ist in der ersten Aufgabe


eingebaut: Business Understanding

Thema
Big Data der Prsi, im Diamodell

Der Data Mining Prozess


(2) Datenbeschaffung

Identifizierung der Datenquellen, die geeignete Daten zur Lsung des Problems
enthalten

Integration der Daten in einen Datensatz ...

... unter Bercksichtigung der gesetzlichen Bestimmungen

In unserem Bankbeispiel:
Kundendaten
Gewhrte Kredite und abgewiesene Kreditanfragen
Historie ber die Interaktion mit den Kunden vor und nach der Kreditgewhrung
Demographische Daten
ggf. Informationen von anderen Kreditinstituten und ffentlichen Einrichtungen

Thema
Big Data der Prsi, im Diamodell

Der Data Mining Prozess


(3) Datenaufbereitung

Erkennung und Korrektur von falschen Wertangaben

Ausfllen von fehlenden Werten

Identifizierung von Korrelationen, z.B. von korrelierten Eigenschaften

Auswahl einer Data-Mining-Methode fr die Analyse

Vorbereitung der Daten unter Bercksichtigung von ggf. speziellen


Anforderungen der DM-Methode

... ... ...

Thema
Big Data der Prsi, im Diamodell

Der Data Mining Prozess


(4) Datenanalyse
Abhngig von der Problemspezifikation:
Ableitung von einem deskriptiven oder prdiktiven
Modell
Evaluation der Ergebnisse mit Hilfe der zuvor
spezifizierten Kriterien
Wiederholung des Prozesses, wenn notwendig, z.B.
wenn die Ergebnisse nicht befriedigend sind.

Thema
Big Data der Prsi, im Diamodell

Der Data Mining Prozess


(5) Musterevaluation und interpretation

Anwendung von statistischen Kriterien zur


Bestimmung der objektiven Qualitt der
Lsung
Anwendung der Geschftskriterien aus
Schritt 1 zur Bestimmung der Qualitt der
Lsung in Bezug auf die Problemspezifikation

Thema
Big Data der Prsi, im Diamodell

Der Data Mining Prozess


(6) Aktion mit Hilfe der Ergebnisse

Entwicklung und Umsetzung von einem


Mechanismus, der die Data Mining Ergebnisse
in die betroffenen Geschftsprozesse des
Unternehmens einbettet

Thema
Big Data der Prsi, im Diamodell

Data Mining als Projekt


Data Mining ist ein resoursenintensiver Prozess.
Es ist sinnvoll, ihn als Projekt zu planen und dabei Folgendes zu
erfassen:

Objekte
Personal
Zeitplanung und Meilensteinen
Budget
Berichte
Qualittskontrolle

Thema
Big Data der Prsi, im Diamodell

Typen von Data-MiningTechnologien

Entdeckung von Assoziationsregeln:


Entdecken von Gruppen von Objekten, die in einer Datensammlung oft zusammen auftreten,
z.B. Produkte in einer Transaktionsdatenbank, Web-Seiten in einem Log, Aktivitten in
einem Datenbank-Log
Ableitung von LHS -> RHS Regeln aus den Gruppen

Sequenzanalyse:
Entdeckung von geordneten Reihen von Objekten, die in einer Sammlung von
Ereignissequenzen oft in derselben Abfolge erscheinen

Clustering:
Gruppierung von Datenstzen nach inhaltlicher hnlichkeit; die Anzahl der Gruppen ist
vorgegeben oder wird ebenfalls ermittelt

Klassifikation:
Fr ein gegebenes Set von Zielklassen C1 ,...,Cn und von Eigenschaften p1,...,pm :
Identifizierung der Eigenschaften und Wertebereiche, die die Klassenzugehrigkeit
bestimmen/vorhersagen

Thema
Big Data der Prsi, im Diamodell

Data Management

In modern information systems, the sheer amount as well as the


complexity of the stored data are increasing at a high rate. This trend
is known as Big Data in industry or Data-intensive (Analysis-driven)
Science in academia. The management and analysis of Big Data is
the key challenge arising in almost all sectors of our modern society
(in academia, this trend is also know as the 4th paradigm in science).
To cope with this challenge we will need powerful methods for Big
Data Management and Big Data Intelligence.

modeling huge amounts of data as well as analyzing these data by


means of scalable data mining algorithms. In terms of Big data
Management, our group is well-known for the development of various
algorithms and access structures for indexing and querying highdimensional complex data like the R*-tree, X-Tree or the IQ-Tree. In
the area of Big Data Intelligence, the members of our group
contributed various algorithms and methods for scalable data mining
such as DBSCAN, OPTICS or LOF which are among the state-ofthe-art solutions for clustering and outlier detection. In addition, we
developed several specialized concepts for analyzing data from
different applications in industry and academia like spatial-/temporal
data, sensor networks, multimedia, bio-medical data, etc. Some of
our current research projects are:
Clustering and Outlier Detection in high-dimensional data
Managing Uncertain Data
Query Processing in Uncertain Databases
Efficient Similarity Search and Data Mining in Medical Image Data
Database and Search Technologies in Automotive Environments

http://www.dbs.ifi.lmu.
de/cms/Datei:Bd2.jpg

Thema
Big Data der Prsi, im Diamodell

Data Mining Applications in the


Automotive Industry
Quelle: Data Mining Applications in the Automotive
Industry, Rudolf Kruse, Matthias Steinbrecher, Christian
Moewes, Computational Intelligence Group, Otto-vonGuericke University Magdeburg, 2010
4th International Workshop on Reliable Engineering

Computing (REC 2010)


Edited by Michael Beer, Rafi L. Muhanna and Robert L.
Mullen
Copyright 2010 Professional Activities Centre,
National University of Singapore.

Thema
Big Data der Prsi, im Diamodell

Data Mining Applications in the


Automotive Industry
Abstract. Designing and assembling automobiles is a complex task which has to be accomplished
in ever shorter cycles. However, customers have increasing desires w. r. t. reliability, durability and
comfort. In order to cope with these conflicting constraints it is indispensable to employ tools that
greatly simplify the analysis of data that is collected during all car lifecycle stages. We will present
methods for pattern discovery tasks for the development stage, the manufacturing and planning
stage as well as for maintenance and aftercare. The first approach will reinterpret a Bayesian
network to induce association rules which are then visualized to find interesting patterns. The
second part will use Markov networks to model the interdependencies related to the planning task
when assembling a vehicle. The last part deals with finding recurring patterns in time series used
for adjusting simulation parameters.

Thema
Big Data der Prsi, im Diamodell

Data Mining Applications in the


Automotive Industry
Introduction
We will present examples of data mining applications from all
these three stages: development, production planning and fault analysis.1 All contributions share
the property that we use (or extract) rule patterns to explain the domain under analysis to the
user. Rules (in form of association rules) are a well-understood means of representing knowledge
and data dependencies.
The understanding of patterns can be greatly enhanced by providing powerful visualization
methods alongside with the analysis tools.
The next section will briefly sketch the underlying theoretical frameworks, after which we will
present and discuss successfully applied fault analysis, planning and development methods, all of
which have been rolled out to production sites of two large automobile manufacturers.

Thema
Big Data der Prsi, im Diamodell

Graphical Models
As we have pointed out in the introduction, there are dependencies and independencies that have
to be taken into account when reasoning in complex domains shall be successful. Graphical models
are appealing since they provide a framework of modeling independencies between attributes and
influence variables. The term graphical model is derived from an analogy between stochastic
independence and node separation in graphs.
Let V = {A1, . . . ,An } be a set of random variables.
If the underlying probability distribution P(V ) satisfies some criteria, then it is possible to capture some
of the independence relations between the variables in V using
a graph G = (V,E), where E denotes the set of edges.
The underlying idea is to decompose the
joint distribution P(V ) into lower-dimensional marginal or conditional distributions from which the
original distribution can be reconstructed with no or at least as few errors as possible (LS88; Pea88).
The named independence relations allow for a simplification of these factor distributions. We claim,
that every independence that can be read from a graph also holds in the corresponding joint
distribution. The graph is then called an independence map .

Thema
Big Data der Prsi, im Diamodell

Bayesian Networks
If we are dealing with an acyclic and directed graph structure G, the network is referred to
as a Bayesian network. The decomposition described by the graph consists of a set of
conditional distributions assigned to each node given its direct predecessors (parents).
for each value of the attribute domains (dom), the original distribution can be
reconstructed as follows:

Thema
Big Data der Prsi, im Diamodell

Markov Networks

Markov networks rely on undirected graphs where the lower-dimensional factor distributions
are
defined as marginal distributions on the cliques C = {C1 , . . . ,Cm } of the graph G. The
original
joint distribution P(V ) can then be recombined as follows:

Thema
Big Data der Prsi, im Diamodell

Association Rules
The introduction of frequent item set mining
and subsequently association rule induction
has created a prospering field of data mining.
It is the simplicity of the underlying concept
that allowed for a broad acceptance among
all kinds of users.

Thema
Big Data der Prsi, im Diamodell

Association Rules
An association rule is basically an if-then rule. The if -part is
called antecedent while the then-part is named the consequent. Both may consist of
conjunctions of attribute-value pairs, however, the consequent often consists of only one
pair. An example of an association rule could be If a person is male and a smoker, his
probability of having lung cancer is 10%.
This corresponds to the imagination that we pick a person at random from an underlying
population (the database) and observe its properties, that is its attribute values. The
above rule can then be represented in a more formal fashion as
Gender = male Smoker = y Cancer = y.
(1)

Thema
Big Data der Prsi, im Diamodell

Association Rules

We refer to a database case as being covered by a rule if the antecedent and


consequent attributes values match. For instance, a smoking man having lung cancer
would be covered by the above rule.
The general form of a rule has the following form:

Thema
Big Data der Prsi, im Diamodell

Association Rules
We will only discuss rules with one consequent attribute which will be a class variable. We thus
use the notions class and consequent interchangeably.
Since not every database entry matching the antecedent also matches the consequent it is
necessary to record this information. The probability that a database case matching the antecedent
also matches the consequent, that is P(c | a), is called the confidence of the rule. The above rule 1
has a confidence of 0.1. There is a multitude of other measures that quantify certain aspects of a rule.

Thema
Big Data der Prsi, im Diamodell

Association Rules
The number of cases covered by the rule is referred to as the (absolute) support of the rule.
The relative support equals P(a, c); it is the absolute support divided by the database size. The
recall quantifies the fraction (or probability if you keep the above scenario of picking at random)
of database cases matching the antecedent, given the consequent. In other words: What is the
probability of a person being male and a smoker if this person has cancer? As a last measure (the
only unbounded one) we introduce the lift. It represents the ratio between the confidence P(c | a)
and the marginal consequent probability P(c): Let the marginal cancer rate be 0.01. Then, rule 1
has a lift of 10 since the confidence is ten times larger than the marginal cancer rate. We summarize
the measures below:
- relative support: rel-supp(a c) = P(a, c)
- confidence: conf(a c)
= P(c | a)
- recall: recall(a c)
= P(a | c)
- lift: lift(a c)
= P(c | a) / P(c)

Thema
Big Data der Prsi, im Diamodell

Fault Analysis with Graphical Models

Data analysis is a vital component in strategic planning for companies that are aware
of global competition, ever-shorter production cycles and increasing customer
requirements.
It is of paramount importance to identify meaningful patterns quickly within the
collected data in order to respond to impending supply shortages or evolving
problems with delivered products.
The modeling technique used for solving the outlined issues shall accommodate two
main aspects:
firstly, it must allow for a global view on the domain that is under analysis, i. e. the
overall interconnections and interrelations between the attributes that describe a
vehicle. As these are normally high-dimensional, a compact but still usable
knowledge representation has to be found.
Secondly, the user must be enabled to inspect any local dependency in greater
details if he wishes to.

Thema
Big Data der Prsi, im Diamodell

Association Rules

To illustrate these two claims in the realm of a vehicle manufacturer, assume that every vehicle
configuration is stored in a database. Such a configuration often contains several tens to
sometimes hundreds of attributes and hence dimensions. The stochastical dependenciesand
more important:

independencieswill be represented by a (directed) graph in which a node models an attribute


amongst which the dependencies are reflected by edges. In our application this graph will be
created from the database with optional preceding or subsequent expert-specified alterations. This
will allow the user (e. g. an engineer or marketing analyst) to infer coarse-grained conclusions
based on the potential effects between connected attributes.

When it comes to a question that is narrowed down to a specific configuration fragment, the
parameters attached to every node in the graph can reveal answers to quantitative questions such
as Whenever a repair report referenced transmission type X, there is a 40% chance of also
having the engine type Y built into the car, which rises the failure rate by 30%.
In this case dependencies are contained in the vehicle database and are not known beforehand
but are extracted to reveal possible hidden design flaws. This example calls for treatment methods
that exploit the dependence structures embedded inside the application domains.

We chose graphical models, more specific: Bayesian networks, to address these issues.

Thema
Big Data der Prsi, im Diamodell

Data Description and Model Induction

For every car that is sold, a variety of data is


collected and stored in corporate-wide
databases.
After every repair or check-up the respective
records are updated to reflect the technical
treatment.
The analysis scenario discussed here is the
interest of the automobile manufacturer to
investigate car failures by identifying
common properties that are exposed by
specific subsets of cars that have a higher
failure rate.
The decision was made to use Bayesian
networks to model the dependence structure
between these attributes to be able to reveal
possible interactions of vehicle components
that cause higher failure rates. The induction
of a Bayesian network consists of identifying
a good candidate graph that encodes the
independencies in the database.

Weather

Country

Suspension

Mileage

Failure

Figure: The qualitative component of an exemplary Bayesian network

Thema
Big Data der Prsi, im Diamodell

Data Description and Model


Induction

The goodness of fit is estimated by an evaluation measure. Therefore, usual learning algorithms consist of two
parts: a search method and the mentioned evaluation measure which may guide the search

Given a network structure, an expert user will gain first insights into the corresponding application domain. In the
Figure above one could identify the mileage to have a major (stochastical) impact on the failure rate and type.

Of course, arriving at such a model is not always a straightforward task since the available database may lack
some entries requiring the treatment of missing values.

In this case possibilistic networks may be used. However, with full information it might still be problematic to
extract significant statistics since there may be value combinations that occur too scarcely.

An expert can already benefit from the encoded stochastic direct and indirect dependencies in order to come up
with hypotheses what attributes might be most predictive w. r. t. the failure attribute.

However, the bare network structure does not reveal information about which which mileages have what kind of
impact on which type of failure.
Fortunately, this information can be retrieved easily in form of conditional probabilities from the underlying dataset,
given the network structure.

This becomes clear, if the sentence above is re-stated: Given a specific mileage, what is the failure probability of a
randomly picked vehicle?

Thema
Big Data der Prsi, im Diamodell

Model Visualization
Every attribute together with its direct parent attributes encodes a set of conditional probability
distributions. For example, given a database D, the sub-network consisting of Failure, Suspension
and Mileage in the Figure above defines the following set of distributions:
P D (Failure | Suspension, Mileage)
Given an attribute of interest (in most cases the class variable like Failure in the example setting)
and its conditioning parents, every probability statement like
P(Failure = Bearingsbroken | Suspension = Type X, Mileage = over100Kmi) = p
can be considered an association rule:

If Suspension = Type 1Mileage = over100Kmi, then there will be a bearings failure in 100 p*%
of all cases.
The value p* is then the confidence of the corresponding association rule (cf. section 2). Of
course, all known evaluation measures can be applied to assess the rules.

Thema
Big Data der Prsi, im Diamodell

Model Visualization

With the help of such measures one can create an intuitive visual representation according to the following steps:

For every probabilistic entry (i. e., for every rule) of the considered conditional distribution P(C | A1 , . . . ,Am ) a circle is
generated to be placed inside a two-dimensional chart.

The gray level (or color in the real application) of the circle corresponds to the value of attribute C.

The circles area corresponds to the value of some rule evaluation measure selected before displaying. For the
remainder of this chapter, we choose this measure to be the support, i. e., the relative number of vehicles (or whatever
instances) specified by the values of C and A1, . . . ,Am. Therefore, the area of the circle corresponds to the number of
vehicles.

In the last step these circles are positioned. Again, the value of the x- and y-coordinate are determined by two
evaluation measures selected in advance. We suggest these measures to be confidence and lift. Circles above the
darker horizontal line in every chart mark subsets with a lift greater than 1 and thus indicate that the failure probability
is larger given the instantiation of A1, . . . ,An in contrast to the marginal failure probability P(C = c).

With these prerequisites we can issue the user the following heuristic in order to identify suspicious subsets:

Sets of instances in the upper right hand side of the chart may be good candidates for a closer inspection.

The greater the y-coordinate (i. e. the lift value) of a rule, the stronger is the impact of the conditioning attributes
values on the class variable. Larger x-coordinates correspond to higher confidence values.

Thema
Big Data der Prsi, im Diamodell

Application

This section illustrates the proposed visualization


method by means of three real-world datasets
that were analyzed during a cooperate research
project with a automobile manufacturer. We used
the K2 algorithm (CH92) to induce the network
structure and visualized the class variable according
to the given procedure.
The following Figure shows the analysis result of
approximately 60000 vehicles. Attributes
Precipitation and
Transmission had most (stochastic) impact on the
Failure variable. The subset marked by the arrow
was re-identified by experts as a problem already
known.

Abbildung: The subset marked by the arrow corresponds to 825 vehicles whose attributes
values of Precipitation and Transmission yielded a causal relationship with the class
variable

Thema
Big Data der Prsi, im Diamodell

Production Planning with Graphical Models

One goal of the project described here was to develop a


system which plans parts demand for the
production sites of the Volkswagen Group. The market
strategy is strongly customerfocused
based on adaptable designs and special emphasis on variety.
Consequently, when ordering
an automobile, the customer is offered several options of how
each feature should be realized.
The result is a very large number of possible car variants.
Since the particular parts required for
an automobile depend on the variant of the car, the overall
parts demand can not be successfully
estimated from total production numbers alone. The modeling
of domains with such a large number
of possible states is very complex. Therefore, decomposition
techniques were applied and augmented
by a set of operations on these subspaces that allow for a
flexible parts demand planning and also
provide a useful tool to simulate capacity usage in projected
market development scenarios.

Abbildung: The 3-dimensional space dom(E)dom(T)dom(B)


is thinned out by a rule set, sparing only the depicted
value combinations. Further, one can reconstruct the 3dimensional relation from the two projections ET and BT

Thema
Big Data der Prsi, im Diamodell

Data Description and Model Induction


The first step towards a feasible planning system consists of the identification of valid vehicle
variants. If cars contain components that only work when combined with specific versions of other
parts, changes in the predicted rates for one component may have an influence on the demand for
other components. Such relations should be reflected in the design of the planning system.
A typical model of car is described by approximately 200 attributes, each consisting of at least
2, but up to 50 values. This scaffolds a space of possible car variants with a cardinality of over 10 60. Of course, not
every combination corresponds to a valid specification. To ensure only valid
combinations, restrictions are introduced in form of a rule system. Let us assume we are dealing
with three variables E, T and B representing engine type, transmission type and brake type with
the following respective domains:
dom(E) = {e1, e2, e3}, dom(T) = {t1, t2, t3, t4}, dom(B) = {b1, b2, b3}
A set of rules could for example contain statements like
If T = t3 then B = b2
or
If E = e2 then T {t2, t3}
A comprehensive set of rules cancels out invalid combinations and may result in our example in
a relation as depicted in the figure above.

Thema
Big Data der Prsi, im Diamodell

Data Description and Model Induction

It was decided to employ a probabilistic Markov


network to represent the distribution of the value
combinations. Probabilities are thus interpreted in
terms of estimated relative frequencies.
Therefore, an appropriate decomposition has to be
found. Starting from a given rule base R and a
production history to estimate relative frequencies
from, the graphical component is generated as
follows: We start out with an undirected graph G =
(V,E) where two variables Fi and Fj
are connected by an edge (Fi, Fj ) E if there is a
rule in R that contains both variables. To
make reasoning efficient, it is desirable that the
graph has hypertree structure. This includes the
triangulation of G, as well as the identification of its
cliques. This process is depicted in the next figure .
To complete the model, for every clique a joint
distribution for the variables of that clique has to
be estimated from the production history.

Abbildung: Transformation of the model into hypertree structure. The


initial graph is derived from the rule base.
For reasoning, the hypertree cliques have to have the running
intersection property which basically allows for a
composition of the original distribution from the clique distributions.
This property can be asserted by requiring the intial graph to be
triangulated.

Thema
Big Data der Prsi, im Diamodell

Operations on the Model

A planning model that was generated using the above method, usually does not
reflect the whole potential of available knowledge. For instance, experts are often
aware of differences between the production history and the particular planning
interval the model is meant to be used with.

Thus, a mechanism to modify the represented distribution is required. Planning


operators have been developed (GK05) to efficiently handle this kind of problem, so
modification of the distribution and restoration of a consistent state can be supported.

Thema
Big Data der Prsi, im Diamodell

Updating
Consider a situation where previously forbidden item combinations become
valid. This can result for example from changes in the rule base. The relation in figure 3 does not
allow engine type 2 to be combined with transmission type 1 because (e 2, t1) / E T. If this
option becomes valid probability mass has to be transferred to the respective distribution. Another
scenario would be the advent of a new engine type, i. e. a change in the domain itself. Then, a
multitude of new probabilities have to be assessed. A further related problem arises when subsets
of cliques are altered while the information of the remaining network is retained. Both scenarios
are addressed with the updating operation.
This operation marks these combinations as valid by assigning a positive near-zero probability to
their respective marginals. Due to this small value, the quality of the estimation is not affected by
this alteration. Now instead of using the same initialization for all new combinations, the proportion
of the values is chosen in accordance to an existing combination, i. e. the probabilistic interaction
structure is copied from reference item combinations.
Since updating only provides the qualitative aspect of the dependence structure, it is usually followed
by the subsequent application of the revision operation, which is used to reassign probability
mass to the new item combinations.

Thema
Big Data der Prsi, im Diamodell

Revision

The revision operation, while preserving the network structure, serves to modify quantitative
knowledge in such a way that the revised distribution becomes consistent with the new
specialized information. There is usually no unique solution to this task.

However, it is desirable to retain as much of the original distribution as possible so that the
principle of minimal change should be applied. Given that, a successful revision holds a unique
result.

As an example for a specification, experts might predict a rise of the popularity of a recently
introduced navigation system and set the relative frequency of this respective item from 20% to
30%.

Thema
Big Data der Prsi, im Diamodell

Focusing
While revision and updating are essential operations for building and maintaining
a distribution model, it is much more common activity to apply the model for the exploration
of the represented knowledge and its implications with respect to user decisions. Typically users
would want to concentrate on those aspects of the represented knowledge that fall into their domain
of expertise. Moreover, when predicting parts demand from the model, one is only interested in
estimated rates for particular item combinations. Such activities require a focusing operation. It
is implemented by performing evidence-driven conditioning on a subset of variables and distributing
the information through the network. Apart from predicting parts demand, focusing is often
employed for market analyses and simulation. By analyzing which items are frequently combined
by customers, experts can tailor special offers for different customer groups. To support planning
of buffer capacities, it is necessary to deal with the eventuality of temporal logistic restrictions.
Such events would entail changes in short-term production planning so that consumption of the
concerned parts is reduced.

Thema
Big Data der Prsi, im Diamodell

Application
With this software, the increasing planning quality, based on the many
innovative features and the appropriateness of the chosen model of knowledge representation, as
well as a considerable reduction of calculation time turned out to be essential prerequisites for
advanced item planning and calculation of parts demand in the presence of structured products
with an extreme number of possible variants.

Thema
Big Data der Prsi, im Diamodell

Adjusting Monitored Experiments to Real-World Cases


by Matching Labeled
Time Series Motifs
Conducting field tests of complex systems to evaluate their behavior is usually expensive and time
consuming. One requirement is that the designed tests should be as similar as the behavior of their
pendants which are produced in series and used in the real world. Based on these experiments which
quantitatively describe criteria (e. g., lifetime, errors, loadings), the quality of a system might be
improved.
In order to evaluate these criteria, sensor data are recorded over long periods of time from the
test and the real objects, respectively. The timely behavior of real-world systems might contain
many different processes that have not been considered in the tests so far. We describe a very
effective algorithm to find interesting recurrent patterns, so-called motifs.
One task then would be to match discovered motifs to test criteria of the time series. Every
time series containing a motif thus can be labeled by at least one test criterion if the relevant test
has been designed thoroughly. Hence a motif and its label can be regarded as a discovered rules
antecedent and consequent, respectively.
Having identified a set of rules in all experiments, we try to retrieve a subset of it in real-world
data. As a consequence unseen time series can be assigned and compared to the given experimental
criteria.

Thema
Big Data der Prsi, im Diamodell

Memory-Efficient Representations
Owing to many and especially slow accesses to the original data on the hard disc, one should use
an approximation of every time series that fits into the main memory of a computer and contains
all essential and interesting features. There are dozens of different kinds of time series approximations,
e. g., discrete Fourier transform (DFT), discrete wavelet transform (DWT), piecewise linear
models (PAA), piecewise constant models (APCA), singular value decomposition (SVD), symbolic
representations. The latter ones benefit by being applicable to algorithms that originate from text
processing and bioinformatics, e. g., hashing, Markov models, suffix trees, etc.
In current research the symbolic representation of Lin and Keogh (LKLC03) wins out even
over well-known approximations. Their symbolic aggregate approximation (SAX) transforms a
univariate time series sequence into a word of defined length n over a chosen alphabet A with
|A| = a. The SAX algorithm is rather simple but intuitive.

Thema
Big Data der Prsi, im Diamodell

Memory-Efficient Representations
Firstly, the sequence is separated into n equal parts. Then the mean of every interval is computed
as representative of all values in that interval. This method is also called piecewise aggregate
approximation (PAA) (KCPM01).
After that step the essentially shorter sequence of mean values is discretized as follows. Every
mean value of the PAA sequence is assigned to one of the a letters such that the occurrence of every
letter in the sequence is equally probable. This is achieved by assuming that the PAA sequences
range of values is normally distributed. Furthermore, this distribution is split up into parts such
that all parts share the area under the Gaussian curve. This assumption can be made due to the
following fact. Long time series may not be normally distributed, but their short sequences certainly
are to a high degree (LKLC03).
While other symbolic representations generate a word from time series data as well, SAX is yet
one of a kind compared with them. It does not only compress the sequence. SAX also enables us
to measure a distance d(Q,C) between two SAX words which is a lower bound of the Euclidean
distance between the original sequences Q and C, formally
d(Q,C) d(Q,C).

Thema
Big Data der Prsi, im Diamodell

Memory-Efficient Representations

For the rest of the paper we assume that the similarity is determined by the Euclidean distance.
So, a lower bound means that if two SAX words are dissimilar, then their original sequences
are dissimilar as well. Consequently, algorithms that are based on SAX produce identical results
compared to algorithms that work with the original data. Merely similar SAX words should be
compared in the Euclidean space again. Fortunately, those accesses to the original data are only
very rare since most of the comparisons are based on dissimilar sequences.
Having a memory-efficient representation we can concentrate ourselves on finding similar sequences
efficiently. In the following we proceed from the assumption that every time series is
approximated by SAX since the next algorithms are based on hashing.

Thema
Big Data der Prsi, im Diamodell

Motif Discovery in Time Series


If we are able to find recurrent sequences that are similar to each other, then problems such as
clustering or classification of time series are much easier to solve. These similar sequences are called
motifs due to the vocabulary that is used in bioinformatics. This originates from the fact that in
this domain, motifs correspond to recurrent strings (usually from a DNA).
In the article from Chiu et al. (CKL03) SAX is associated with motif discovery in univariate
time series for the first time. In order to find all motifs of a time series of length l, it is separated
by a sliding window with certain width w into (lw+1) sequences. Every sequence is transformed
into a SAX word and saved into a (l w + 1) n matrix which we call SAX matrix.
The positions of possible motifs are then guessed using the random projection algorithm proposed
by Buhler and Tompa (BT02). Actually, the positions are found by pairwise comparisons of the
SAX words. So, for each of those (lw+1)2 comparisons, we firstly reserve one entry in a collision
matrix M which can be implemented efficiently by a hash table. In the beginning, let every entry
M(i, j) be zero for 1 i, j l w + 1.

Thema
Big Data der Prsi, im Diamodell

Motif Discovery in Time Series


Although usually n << w, it is not preferable to compare every single character of the saved
SAX words in the matrix with each other. Buhler and Tompa rather had the idea that there exist so-called dont care
symbols of which we do not know where they might be in the words. These
symbols would correspond to, e. g., a noisy motif, a dilation/contraction of a temporal sequence.
Accordingly the SAX matrix is projected down to 1 k < n randomly chosen columns. Afterwards
all rows of the projected matrix are compared with each other. If two projected SAX words
in the rows i and j are equal, then the value in M(i, j) is incremented by one.
The projection is repeated t times since one can assume that some of the hidden motifs will
share one entry in M after t iterations. Additionally, it is improbable that many random sequences
will collide together with an already found motif. Therefore they would have to be identical to this
motif in all k positions.

Thema
Big Data der Prsi, im Diamodell

Motif Discovery in Time Series


Since the algorithm cannot know if a collision entry in M is a motif or not, the user must specify
a threshold 1 s k. All M(i, j) s thus would be motif candidates. Remembering that we
deal with temporal and not DNA sequences, the problem of motif discovery becomes harder as we
find similar occurrences of the i-th sequence in its direct neighborhood. Those sequences which are
named trivial matches are heuristically removed from the set of potential motifs at the
end of the discovery.
Although comparatively, many parameters have to be determined, i. e., n, a,w, k, t, s, random
projection is robust against slight changes of the SAX parameters n and a as well as the projection
size k (CKL03). Also the number of projections t can be set large enough in order to create some
collisions. However, there are two questions left: How many and in particularly what kind of motifs
do we have to find?
If we set w and s too large on the one hand, then we may not find lots of short motifs. On
the other hand, we will get completely different results if we set w and s too small. Then we will
probably find many random consensuses that do not correspond to any real motif. Therefore, the
choice of these two parameters should be made carefully. Experts knowledge may help in such a
situation.

Thema
Big Data der Prsi, im Diamodell

Subdimensional Motifs
The random projection to find time series motifs (CKL03) was originally only designed for onedimensional
datasets. If we deal with multivariate time series, then there exist several ways how to
tackle this problem.
The simplest idea is to map the p dimensions down onto one and then use random projection.
For instance, Tanaka et al. (TIU05) have transformed the input dimensions by means of principal
component analysis (PCA) into solely the first principal component. Finally, the approach from
Chiu et al. (CKL03) could be applied to the new univariate time series.
A first approach of Minnen et al. (MSEI07) is founded on the idea that p dimensions also generate
p SAX words. These SAX words are then concatenated and treated like a SAX representation of a
long univariate time series. As a consequence, the method from Chiu et al. (CKL03) can be applied
in this case as well.

Thema
Big Data der Prsi, im Diamodell

Subdimensional Motifs
Though notice that both approaches can only discover motifs that span all dimensions. This will be problematic in
particular if we a priori do not know in which of the dimensions we can observe any motif. In practice it can also happen
that a time series motifs attributes can differ quite from another ones attributes. Such multivariate time series motifs
that do not span all dimensions are called subdimensional.
Formally, we denote a multivariate sequence as w p matrix which stores w real values for each
of the p attributes. We define the distance dmult of two multivariate sequences Q = [Q1, . . .,Qp]
and C = [C1, . . . ,Cp] by the Euclidean norm

whereas d = (d1, . . . , dp) and dj d(Qj,Cj) corresponds to the Euclidean distance between Qj
and Cj for 1 j p.
Minnen et al. (MIES07) improve their original idea to concatenate the SAX words of every dimension. They increment
the collision matrix M per attribute at the appropriate entry for every projected SAX word that matches another one.
Afterwards all elements of M that are greater than s are picked out and must be examined further. Note that although
we have two positions for each pair of sequences, nonetheless we do not know its relevant dimensions. Furthermore,
there is not any assignment of the pairs of sequences to the potential motifs yet.

Thema
Big Data der Prsi, im Diamodell

Subdimensional Motifs
Before we can perform this assignment, we have to extract the subdimensions of the sequences
by means of the following nave idea. For every pair of sequences we sort all distances d1, . . . , dp
in an ascending order. Then the distance is accumulated in that order for every single dimension
until a certain threshold rmax is exceeded. The attributes of the smallest distances thus correspond
to the pair of sequences relevant subdimensions.
These heuristics can be also improved by not regarding attributes having smallest distances, but
using only probably relevant attributes to compute the distance (MIES07). Therefore one estimates
the empirical frequency distribution P(dj) over the distances between some non-trivial matches for
every dimension 1 j p by random sampling. Later on the distances d 1, . . . , dp are computed for
every entry M(i, j) s. If the value of the cumulative distribution function P(dj dj ) is smaller
than the dimension relevance rrel which is specified by the user, then the j-th dimension be relevant.

Thema
Big Data der Prsi, im Diamodell

Subdimensional Motifs
Determined all pairs of subdimensional sequences, the trivial matches have to be eliminated as it
was done in the univariate case of motif discovery. With this idea (MIES07), motifs do not need to
span all dimensions. This would an asset compared to (TIU05; MSEI07) when the set of attributes
does contain, e. g., very noisy signals, uninformative dimensions.
Disadvantages of this method for subdimensional motif discovery are the threshold parameter
rmax and rrel, respectively. Both extremely depend on the sequence length w. So, if domain
knowledge is present, then it is suitable to use rmax as threshold. Otherwise one must estimate the
distribution P(d) and handle with rrel.

Thema
Big Data der Prsi, im Diamodell

Labeling Discovered Motifs


Having identified a set of subdimensional motifs, we merely found multivariate time series sequences
of certain length w that recur at least twice. Note that we can find random motifs accidentally as
well. Thus it is probable that a motif which recurs only twice might not be what we are looking
for.
Yet, motifs that recur more often should be labeled meaningfully from mainly experts who
designed the experiments. They usually possess the necessary knowledge to interpret both simple
and complex curve progressions. This labeling can be done, e. g., by means of the test criteria.
If there is no experts knowledge available, then one can fall back on methods from fuzzy set
theory (FST) (DP00). In FST one tries to model imprecise, vague or even uncertain concepts, e. g.,
sensor measurements, such that the human being obtains a better understanding of these concepts.
For instances, every attribute can be regarded as linguistic variable (Zad75). In doing so, the
attributes range of values is separated into a so-called fuzzy partition. Every partition is described
by a fuzzy set A. Thus every value x can be assigned to a membership degree A(x) [0, 1] of the
fuzzy set A.

Thema
Big Data der Prsi, im Diamodell

Labeling Discovered Motifs


We consider the measured velocity v as an illustrating example. The velocity can be described
by some linguistic terms, e. g., fast, medium, slow. Every expression corresponds to a fuzzy partition
which then again is described by a fuzzy set, i. e., Afast, Amedium, Aslow.
If we want to assign a discovered motif to a linguistic term, for example we can compute the
Mean of all velocity values in the respective sequence. The linguistic term with the highest of the
three membership degrees Afast(), Amedium() and Aslow() is then labeled to the motif.
If the experiments are designed thoroughly (i. e., they do not contain contradictory linguistic
terms), then it is assumed that a time series which contains the labeled motif can be labeled in the
same way. If this is not the case, we can firstly compute the relative frequencies of labeled motifs
in a time series, and secondly assign several labels to this time series to a certain degree.
Every labeled motif and its linguistic term can thus represent the antecedent and the consequent
of a rule, respectively. We can further hope that such a consequent corresponds to a test criterion.
From the monitored experiments we finally obtain a set of rules which can be interpreted in terms
of natural language by more or less great efforts.

Thema
Big Data der Prsi, im Diamodell

Matching Labeled Motifs


So far we solely considered the data coming from the field tests. The system that needs to be tested
may behave completely different in a real-world environment, e. g., when it is utilized by an end
user. In this situation we face the problem that systems under real-world loads might not follow
any designed schedule model.
Usually the only thing what remains to evaluate these systems is monitored sensor data that
hopefully contains motifs similar to the ones from the experiments. These real-world data is foremost
approximated memory-efficiently (see Section 5.1) before we try to find motifs in the data (cf.
Section 5.2). Now we can try to label the newly discovered motifs with similar linguistic terms by
means of the already labeled motifs from the field tests. In machine learning, this would correspond
to classification that is based on unsupervised learning.

Thema
Big Data der Prsi, im Diamodell

Matching Labeled Motifs


Remember that it is very important to choose an adequate distance measure in order to compare
two motifs. For example Lin und Keogh (LKLC03) have developed not only SAX but the so-called
MINDIST function which computes the distance between two SAX words. It is preferable to use this
function since the sequences are stored as SAX words anyway. Of course, other distance measures could be used as
well.
No matter which measures we choose, eventually every real-world time series can be matched with previously
unknown criteria. Taking everything into account, we can state that a classification into different criteria is thus a trivial
consequence. Nevertheless, we have to consider that this classification should be carried out rather fuzzy than crisp.
Accordingly, the usage of fuzzy clustering methods (HKKR99) seems to be desirable.

Thema
Big Data der Prsi, im Diamodell

Adjusting the Experiments


Having finally discovered all motifs of the real-world data and labeled them to the already existing
ones, experts should have a closer look at the results of the matching. The goal should be to adjust
the original experiments such that they will resemble the time series more than before.
In total, three different possibilities have to be distinguished. If an unseen motif (coming from
any real-world case) could be matched easily with a motif from a field test, then we can assume
that we found some important feature of the system behavior. At any rate, such characteristics
should be kept in all experiments in the next generation of system tests.
Experts would probably react differently in the case that a motif is exclusively discovered in field
tests and not in real-world case. Such a feature should most likely be removed from the experiments
after expert opinion. It is clear that this type of motif does not matter at all.
If there are in turn motifs in unseen time series that do manifest themselves in any trial, then
experts have to adjust at least one trial. After all, this motif seems to be a recurrent feature of the
system which occurred either never or not often enough in the field tests.
When all motifs are examined and the test design is improved, the next generation of experiments
can be performed. The gained knowledge about, e. g., loading, service live, which results from the
tests should consequently be more consistent with the serial product used in the reality.

Thema
Big Data der Prsi, im Diamodell

Summary
Data mining tools provide a valuable tool to manage and process overwhelmingly large information
flows. In this article we gave an overview on three such approaches that stemmed from the
automobile manufacturing setting. Firstly, we presented an approach to find fault patterns that
may lead to an earlier identification of production problems. Secondly, we gave an overview on
the design of a production planning and prediction system and discussed necessary operations for
model alteration. Finally, we dealt with the question how field tests of systems that are produced
in series might be adjusted to real circumstances.

Thema
Big Data der Prsi, im Diamodell

Data Mining Misktakes to avoid


Youve made a mistake if you
(Lack Data)
1. Focus on training
2. Rely on One Technique
3. Aks the Worng Question?
4. Listen (only) to the Data)
5. Accept Leaks from the Future

6. Discount Pesky Cases


7. Extrapolate
8. Answer Every Inquiry
9. Sample Casually
10. Believe the Best Model
Source: Elder Research Inc

Thema
Big Data der Prsi, im Diamodell

Data Warehouse Usage

Thema
Big Data der Prsi, im Diamodell

Data mining Using Matlab


codes - Overview

Network
Data used
Create the graph
Display graph
Learning parameter
Inference
conclusion

623
Thema
Big Data der Prsi, im Diamodell

Network

624
Thema
Big Data der Prsi, im Diamodell

Data used
Use asia10000.mat file that contain 10000
records about Chest Clinic.

625
Thema
Big Data der Prsi, im Diamodell

Create graph

N=8;
dag=zeros(N,N);
A=1;S=2;T=3;L=4;B=5;E=6;X=7;D=8;
dag(A,T)=1;
dag(S,[L B])=1;
dag(T,E)=1;
dag(L,E)=1;
dag(E,[X D])=1;
dag(S,B)=1;
dag(B,D)=1;

discrete_nodes=1:N;
node_sizes=[2 2 2 2 2 2 2 2];
bnet=mk_bnet(dag,node_sizes,discrete_nodes);

626
Thema
Big Data der Prsi, im Diamodell

Display graph

names = {'VisitToAsia', 'Smoker', 'HasTuberCulosis', 'HasLungCancer', 'HasBronchitis',


'TuberculosisOrCancer', 'PositiveX-Ray', 'Dyspnoea'};
carre_rond = [1 1 1 1 1 1 1 1];
draw_graph(bnet.dag,names,carre_rond);
title('medical domain');

627
Thema
Big Data der Prsi, im Diamodell

Learning parameter

load asia10000.mat;
nsamples = size('asia10000',1);
bnet.CPD{E}=tabular_CPD(bnet,E);
bnet.CPD{T}=tabular_CPD(bnet,T);
bnet.CPD{L}=tabular_CPD(bnet,L);
bnet.CPD{S}=tabular_CPD(bnet,S);
bnet.CPD{A}=tabular_CPD(bnet,A);
bnet.CPD{D}=tabular_CPD(bnet,D);
bnet.CPD{B}=tabular_CPD(bnet,B);
bnet.CPD{X}=tabular_CPD(bnet,X);
bnet=learn_params(bnet,'asia10000');

628
Thema
Big Data der Prsi, im Diamodell

Load CPT
T

CPT = cell(1,N);
for i=1:N
s=struct(bnet.CPD{i});
CPT{i}=s.CPT;
End
celldisp(CPT)

629
Thema
Big Data der Prsi, im Diamodell

Inference (via Mathlab code)

engine=jtree_inf_engine(bnet);
evidence=cell(1,N);
evidence{T}=1; % E=false => has no tuberclosis
evidence{L}=2; % => has lung cancer
evidence{B}=1; % => has no branchit
[engine,loglik]=enter_evidence(engine,evidence);
marg=marginal_nodes(engine,A);
% Displaying the result of inference
fprintf('\nResult of the inference\n');
fprintf('P(E / T=2, L=1 ,B=1) = [%3.5f %3.5f]\n',marg.T)

Result of the inference


P(E / T=2, L=1, B=1 ) = [1.0000 0.0000] -> 1 > 0
=> P(E/ B=1, T=2,L=1)= true (normally true result if T or L =>E) then we can make classification

630
Thema
Big Data der Prsi, im Diamodell

conclusion
Now we can make probability (any thing/
anything)

631
Thema
Big Data der Prsi, im Diamodell

Weka overview

Used data
Decision tree
Bayes Naif Classifier
K-mean clustering

632
Thema
Big Data der Prsi, im Diamodell

Used data

For classification I will use arff file about


Diabetes.

For clustering I will use arff file bmw-training.arff

633
Thema
Big Data der Prsi, im Diamodell

Decision tree build

634
Thema
Big Data der Prsi, im Diamodell

Decision tree build


Making a classification using decision
Tree result of correct classification is ~84%
And of incorrect classification is ~ 15%

635
Thema
Big Data der Prsi, im Diamodell

Decision tree draw

636
Thema
Big Data der Prsi, im Diamodell

BNC build

637
Thema
Big Data der Prsi, im Diamodell

BNC build
Making a classification using decision
Tree result of correct classification is ~76%
And of incorrect classification is ~ 23%

638
Thema
Big Data der Prsi, im Diamodell

Compare DT & BNC


BNC

The incorrect classified instance by BNC is greater than that of DT

DT

639
Thema
Big Data der Prsi, im Diamodell