WP Vom Labor Zur Fabrik Big Data Workbook Informatica

Vom Labor zur Fabrik:
Das Big-Data-
Management-
Workbook.
Wie Sie Big-Data-Experimente auf wiederholbare
Weise umsetzen – und Fehler vermeiden.
Inhalt
Tipp: Klicken Sie auf die Teile, um zum

gewünschten Abschnitt zu springen.
Einführung Teil 3
Big Data: Vom Experiment Die drei Säulen von
zur Monetarisierung. 3 Big-Data-Management. 20
Teil 1 Integration von Big Data. 21

Den Elefanten reiten. 6
Big-Data-Qualität und Governance. 24
Auseinandersetzung mit den
Einschränkungen von Hadoop. 7 Big-Data-Sicherheit. 26
Die Bedeutung von Big-Data-Management. 10 Eine Referenzarchitektur für

Big-Data-Management. 28
Teil 2
Das Labor, die Fabrik und die Strategie. 12 Schlussfolgerung
Abfragen, Erneuern, Investieren. 31
Big-Data-Management:
Zwei Seiten einer Medaille. 13
Aufbau eines Big-Data-Labors. 14
Die Anforderungen des Labors. 15
Aufbau einer Big-Data-Fabrik. 17
Die Anforderungen der Fabrik. 18
2— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Einführung
Big Data: Vom
Experiment zur
Monetarisierung.

Einführung
„Voraussetzungen für Erfindung und Innovation:

1. Die Möglichkeit, uneingeschränkt
experimentieren zu können.
2. Die Möglichkeit, Begleitschäden gescheiterter

Experimente ignorieren zu können.“1
Andy Jassy, SVP, Amazon Web Services

Einleitung
Big Data: Vom Experiment

zur Monetarisierung.
Auch jenseits des Hypes ist mittlerweile allen klar • D
er Versicherungsanbieter Progressive testete mit Die gute Nachricht: Die unterschiedlichen Anforde
geworden, dass Big Data eine echte Chance für Big Data Neuentwicklungen im Bereich des rungen, die beide Zielrichtungen stellen, können
das Unternehmenswachstum bedeuten kann. Kundendienstes. So konnten beispielsweise von einigen gemeinsamen Architekturkomponenten
Fahrzeugschäden in komplexen 3D-Bildern abgedeckt werden.
Big Data macht bestehende Geschäftsprozesse aufgezeichnet und überwacht werden8.
effizienter, denn sie ermöglichen eine präzisere und Besser noch: Einige Vorreiter auf diesem Gebiet
zeitnähere Betrugserkennung2, bessere vorbeugende • E in weltweit tätiger Dienstleister für Mobilkommuni haben bereits Architekturen aufgebaut, die beiden
Maschinenwartung3 und bessere Kundenbetreuung4. kation setzte komplexe Analysen in standortbasiertes Zielen gerecht werden.
Marketing um und konnte die Annahmerate seiner
Darüber hinaus bietet Big Data ein großes Potenzial Wi-Fi-Dienste verbessern9. Wichtig sind ein gemeinsamer Satz an Standards
für Innovationen. für die Datenverwaltung sowie Technologien, die
Wenn Ihr Unternehmen das Potenzial von Big Data die Projekte reibungslos und vorhersehbar von der
• F orscher an der University of Pittsburgh Medical umfassend nutzen möchte, benötigen Sie eine Labor- in die Fabrikumgebung überführen.
Center (UPMC) haben es zum ersten Mal geschafft, Unternehmensarchitektur, die zwei unterschiedliche
klinische und genomische Daten zu Brustkreb Zielrichtungen unterstützen kann. In diesem Workbook werden die Lösungswege
spatienten zusammenzuführen5. vorgestellt.
1. A
ufbereitung der Daten für Analysen in einer
• Der Automobilhersteller GM setzt Telematik und Laborumgebung, in der Analysten sinnvolle Auf der Grundlage der Erkenntnisse, Erfahrungen
Breitband in seinen neuen Modellen ein und kann Experimente, Tests und Pilotversuche ausführen. und Best Practices der Vorreiter zeigen wir Ihnen die
so die Beziehung zwischen Fahrzeugen, Fahrern Ziele, Fallstricke und wesentlichen Aspekte bei der
und Händlern vollkommen neu gestalten6, 7. 2. Aufbereitung der Daten für die Produktion in einer Verwaltung von Big Data.
Fabrikumgebung, in der sie nach der Operatio
nalisierung für spezifische Projekte und Produkte Fangen wir an.
genutzt werden können.

Teil 1
Den Elefanten reiten.

Teil 1 – Den Elefanten reiten

Einschränkungen von Hadoop.
Das Interesse an Hadoop war nie größer. Die Investi Fachkompetenzmangel ihm jedoch wichtige Datenverwaltungsfunktionen
tionen sind hoch10. Das ist großartig. Denn Hadoop Die größte Hürde für den Erfolg von Hadoop ist noch rund um Governance, Datenqualität, Stammdaten
ist für Unternehmen eine wichtige Möglichkeit, die immer der Mangel an fachkundigen Anwendern verwaltung, Metadatenverwaltung und Unterstützung
Kosten für Datenspeicherung und -verarbeitung und die Fülle an Unterprojekten11. Diese Nachteile für SQL nach ANSI-Standard.
zu reduzieren und gleichzeitig von einer nahezu machen nicht nur die Personalbesetzung Ihres
unbegrenzten Skalierbarkeit zu profitieren. Big-Data-Projekts teurer, sondern können aufgrund Eingeschränkte Sicherheit
fehlender Projektressourcen auch die Skalierbarkeit Kerberos hat sich zwar als Standard innerhalb
Zweifelsohne trägt Hadoop wesentlich zum Erfolg beeinträchtigen. von Hadoop etabliert, Authentifizierung und
von Big Data bei. Autorisierung reichen jedoch nicht aus, um eine
Sie können zwar ein Pilotprojekt mit einer kleinen Hadoop-Implementierung ganzheitlich zu schützen.
Es ist jedoch keine Wunderwaffe. Gruppe von Experten ins Leben rufen, es ist aber Dies gilt insbesondere für Produktionsumgebungen,
nicht möglich, den gesamten Code auf effiziente die Daten von mehreren Systemen und Regionen
Man kann nicht einfach jede Menge heterogener Weise manuell zu operationalisieren und zu verwalten. übertragen und abrufen.
Daten darin abladen und analysieren. Tatsächlich
zeigt das Hadoop-System noch erhebliche Mangelnde Datenverwaltung Wie immer tauchen neue Tools für die Sicherheits
Einschränkungen: Unstrukturierte und schemafreie Daten verlangen autorisierung auf (zum Beispiel Sentry und Knox).
andere Verwaltungsmethoden. Beispielsweise Gleichzeitig gibt es jedoch auch immer mehr
speichert Hadoop viele Metadaten eines traditionellen Sicherheitsbedrohungen. Sie müssen daher außerhalb
RDBMS nicht. Es unterstützt auch andere Speicher- von Hadoop nach Tools schauen, die Ihre Daten auch
und Abfrageparadigmen wie etwa Hive, HBase, im Falle von Sicherheitsverletzungen schützen können.
Impala, Spark usw. Das Hadoop-System wird Hier wären Tools für Data Masking, Verschlüsselung
zwar kontinuierlich weiterentwickelt, es fehlen und Tokenisierung zu nennen.


Einschränkungen von Hadoop.
Ständige Veränderungen Die Skalierung bringt neue Kosten mit sich, und wenn
Das Ökosystem von Hadoop bleibt dem kontinuier Sie in Bezug auf Automatisierung keine intelligenten
lichen Wandel unterworfen, während neue Versionen Entscheidungen treffen, könnte sich der Versuch, die
und Technologien entstehen. Für Unternehmen stellt anfängliche manuelle Programmierung zu erweitern,
dies sowohl eine Chance als auch eine Hürde dar. als ineffizient und kostspielig erweisen.
Ein Beispiel dazu: Auch wenn Spark als wesentlich Fazit: Das Hadoop-Ökosystem ist entscheidend für
schneller bei der dezentralen Verarbeitung gilt als den Erfolg von Big-Data-Initiativen des Unternehmens.
MapReduce12, ist bei vielen manuell programmierten Alle Ihre Big-Data-Herausforderungen anzugehen,
Projekten, die früh auf MapReduce gesetzt haben, reicht jedoch nicht aus, insbesondere wenn es um
nun ein Kurswechsel erforderlich. das Aufbauen einer gemeinsamen Architektur geht,
die sowohl für den Einsatz in Labor- als auch in
Steigende Kosten Fabrikumgebungen geeignet ist.
Wie bereits erwähnt, ermöglichen die geringen
Startkosten von Hadoop und die Cloud-Speicherung Sie müssen über die Persistenzschicht Ihres
ein relativ leichtes Starten eines Pilotprojekts. Im Datenspeichers hinausschauen, um Ihre Architektur
Hinblick auf die Umsetzung sind Personalbesetzung, optimieren, schützen und zukunftssicher gestalten
Pflege sowie Verwaltung Ihrer Umgebung jedoch zu können.
eine ganz andere Geschichte.

Überwindung der Beschränkungen von Visualisierungs- und Analysetools
Genau wie Hadoop finden auch Visualisierungs- und Die Analysefähigkeit der Tools, so komplex sie
Analysetools im Big-Data-Kontext große Beachtung. auch sein mag, ist noch keine Gewähr für präzise
Auch hier gilt jedoch, analog zu Hadoop, dass der Ergebnisse. Beispiel: Sie möchten analysieren,
Nutzen der Tools ohne die geeigneten Daten nur welche Marketingkanäle die besten Leads
beschränkt ist. Sie sind zwar notwendig, um den für Umsätze liefern, und verwenden dazu ein
Datenzugriff zu demokratisieren, sind aber für die komplexes Zuordnungsmodell. Wenn Sie jedoch
Datenverwaltung selbst nicht ausreichend. nicht alle Daten aus allen Marketingkanälen
integrieren können, erhalten Sie nur einen
Und ohne einen zuverlässigen, reproduzierbaren unvollständigen Überblick über das Kaufverhalten
und effizienten Ansatz zur Verwaltung von Big Data der Interessenten.
kann ihr Nutzen nicht optimal ausgeschöpft werden.
Es gilt also das Motto: Noch schlimmer als keine
Visualisierungstools können keine zuverlässigen Daten sind schlechte Daten. Ebenso wie die
Ergebnisse präsentieren, wenn ihre Datengrundlage Ebene der Datenspeicherung kann auch die
zu viele irrelevante und unbrauchbare Daten enthält. Ebene der Analyse und Visualisierung nicht alle
Hierzu ein Beispiel: Sie möchten in einer Analyse Herausforderungen lösen.
von Kundendaten den Zusammenhang zwischen
den umgesetzten Verkaufszahlen und dem Wohnort Die Ebene, auf die es ankommt, ist das Big-Data-
der Kunden aufzeigen. Dabei sind Sie unbedingt Management.
darauf angewiesen, dass die Qualität der
Adressdaten Ihrer Kunden zuverlässig ist.

Die Bedeutung von

Big-Data-Management.
Es sollte Sie nicht überraschen, dass der Schlüssel In einer Laborumgebung bedeutet das eine Sorgen Sie für eine integrierte datenbasierte Sicherheit
zu einem Big-Data-Erfolg in einer intelligenteren Bereitstellung von und Zugriff auf Daten „in einer Wie bereits erwähnt, reichen Authentifizierung und
Datenverwaltung liegt. Bei aller Aufregung um ausreichenden Qualität“, um Modelle zu validieren Autorisierung in einer Fabrikumgebung nicht aus,
Hadoop und die neuen Datenquellen ist es jedoch und Hypothesen zu testen. In einer Fabrikumgebung um alle Ihre Daten zu schützen. Daher ist es sinnvoll,
bedenklich, dass Teams diese neuen Technologien heißt das, es müssen zertifizierte, hochwertige Ihre Anforderungen an die Sicherheit zu bewerten,
häufig überstürzt angehen, ohne eine effiziente Daten bereitgestellt werden, auf die man sich bei bevor jeder auf Ihre Cluster freien Zugriff hat.
Vorgehensweise zur Bereinigung, Verbindung und Kerngeschäftsprozessen verlassen kann.
Sicherung aller ihrer Daten zu haben. Abgesehen von der Überwachung der Grenzen der
Nutzung Ihrer vorhandenen Kompetenzen Unternehmensumgebung müssen Sie auch dazu in
Es ist daher wichtig, dass Sie vor den ersten Durch Einsatz von Datenverwaltungstools, der Lage sein, Ihre Daten im Falle einer Sicherheits-
Schritten eine überschaubare und umfassende Standards und Benutzeroberflächen, mit denen verletzung zu schützen. Das heißt, risikoorientiertes
Datenverwaltungsstrategie definieren, damit Sie Ihre Entwickler und Datenverwaltungsexperten Data Profiling, Data Masking, Verschlüsselung und
Folgendes erreichen können: bereits vertraut sind, können Sie deren vorhandene Tokenisierung müssen wirksam eingesetzt werden.
Fähigkeiten wirksam einsetzen, um Ihre Daten
Optimieren der Qualität und Governance der Daten skalierbar zu bereinigen, zu integrieren, zu parsen Strategische Nutzung Ihrer Metadaten
Die Hauptfunktion Ihrer Big-Data-Infrastruktur und umzuwandeln. Durch Nutzung eines globalen Repositorys an
muss die Bereitstellung von Daten sein, die auf Metadaten stellen Sie sicher, dass Ihre Mitarbeiter
wiederholbare, effiziente und zuverlässige Weise Aber selbst über Ihre Datenverwaltungskompetenz über einen wiederverwendbaren Satz von Regeln
für den vorgesehenen Zweck geeignet sind. Dazu hinaus ermöglichen es Self-Service-Tools und eine Business-Logik verfügen, die in den Labor-
muss es Ihnen möglich sein, Daten auf Basis der zur Datenvorbereitung Ihren Analysten und und Fabrikumgebungen eingesetzt werden können.
verschiedenen Anforderungen Ihrer Labor- und Wissenschaftlern, Datensätze aufzurufen und Dadurch erhöht sich die Produktivität der Entwickler
Fabrikumgebungen zu integrieren, zu bereinigen abzufragen, ohne sich dafür neue Kenntnisse wie und Analysten, denn es bedeutet, sie müssen das
und zu handhaben. Java aneignen zu müssen. Rad nicht immer wieder neu erfinden. Darüber
hinaus ermöglicht Ihnen diese Vorgehensweise,
Standards und Best Practices über Projekte und
Umgebungen hinweg anzuwenden.

Die Bedeutung von

Die Metadaten-Verwaltung ermöglicht Ihnen sogar Warum? Erstens müssen Ihre Entwickler nicht bei jeder
die Beibehaltung von Standards, Umwandlungen neu hinzugefügten oder geänderten Umwandlung
und Best Practices unabhängig von Änderungen an seitenweise Codes prüfen, und zweitens müssen Ihre
der Laufzeitumgebung. Analysten und Wissenschaftler nicht bis zu 80 Prozent
ihrer Zeit13 mit der mühsamen manuellen Bereinigung
Selbst wenn Sie also, sagen wir mal, MapReduce und Aufbereitung von Daten verbringen.
durch Spark ersetzen wollten, müssten Sie nicht
wieder ganz von vorn anfangen, da Sie Ihre Regeln,
Umwandlungen oder Logik nicht verlieren würden.
80 %
Vermeiden kostspieliger manueller Programmierung Manuelle
Wenn Sie es mit hohen Datenmengen zu tun Datenverwaltung
haben, dürfen Sie nicht erwarten, alle Ihre Daten in
Augenschein nehmen zu können. Darüber hinaus
sollten Sie auch nicht versuchen, alle diese Daten
manuell zu verwalten.
Datenbezogene Aspekte wie Integration, Governance,

Qualität, Sicherheit und Mastering sind also im
Zusammenhang mit Big Data noch wichtiger. Eine
Automatisierung dieser Daten bringt zum Zeitpunkt
der Operationalisierung eine deutliche Zeit- und
Geldersparnis.

Teil 2
Das Labor, die Fabrik

und die Strategie.

Teil 2 – Das Labor, die Fabrik und die Strategie
Big-Data-Management:
Zwei Seiten einer Medaille.
Unternehmen, die die Verwaltung von Big Data Datenqualität frühzeitig erkennen, Daten fortlaufend Gemeinsame Metadaten
als einmalige, manuell programmierbare Übung prüfen, Scorecards und Dashboards nutzen und Die bedarfsgerechte unternehmensweite Bereitstellung,
verstehen, werden ihre Zeit damit verbringen, den mit den ETL-Entwicklern Datenpipelines in Hadoop Profilierung, Verwaltung und Lenkung von Big Data
einmal erstellten Code immer und immer wieder erstellen. setzt eine strategische Verwaltung der Metadaten
zu überarbeiten und an die sich ständig ändernden voraus. In einem globalen Repository der gemeinsamen
Gegebenheiten anzupassen. Strategisch viel sinnvoller In den folgenden Abschnitten werden die spezifischen Metadaten können IT-Mitarbeiter unternehmensweit
ist es, eine automatisierte und standardisierte Anforderungen in der Labor- und Fabrikumgebung gültige Best Practices definieren und verteilen. Auch
Infrastruktur für die Datenverwaltung einzurichten, im Einzelnen erläutert. Zunächst werden jedoch die Analysten und Entwickler haben ein praktisches
die sowohl die Labor- als auch die Fabrikumgebung die Vorteile einer gemeinsamen Infrastruktur zur vordefiniertes Set an wiederverwendbarer Logik,
unterstützen kann. Unterstützung beider Seiten vorgestellt. Transformationen und Regeln an der Hand.
Diese zentrale Plattform unterstützt einerseits Konsolidierung der Investitionen in die Datenverwaltung Schnelle Aufnahme neuer Mitarbeiter
die Self-Service-Autonomie von Analysten und Die Technologie zur Bereitstellung von Daten an Wird die Datenverwaltung von einem kleinen
Wissenschaftlern, die autonom ihre Hypothesen Analysten kann auch für die Operationalisierung Expertenteam manuell programmiert, wird es
testen und Modelle validieren können und nicht auf verwendet werden. Mit dieser Rationalisierung aufgrund der fehlenden Standardisierung sehr
die Bereitstellung vollständig zertifizierter Daten des Technologie-Stacks ist sichergestellt, dass die schwer, den Code bei einem Zuwachs im Team
durch die IT angewiesen sind. Kernfunktionalitäten nicht doppelt angeschafft weiterhin zu pflegen und weiterzuschreiben. Mit
werden – für IT und die anderen Geschäftsbereiche – einem gemeinsamen Regel- und Toolsatz hingegen
Andererseits unterstützt sie flexible, skalierbare und und dass die von allen benötigten Daten nicht in Silos lassen sich neue Mitarbeiter und neue Daten schnell
verwaltbare Datenpipelines, über die IT-Mitarbeiter gespeichert und verwaltet werden. und einfach einbinden, und Sie sind für die Skalierung
die für den vorgesehenen Zweck geeigneten und SLA- Ihrer Infrastruktur nicht auf teure und schlecht
konformen Daten effizient direkt an die Endbenutzer verfügbare Big-Data-Experten angewiesen.
liefern können. Die IT-Abteilung kann Probleme mit der

1
Aufbau eines Big-Data-Labors.

2
3
Bevor Sie Big Data in nutzbare Bestände umsetzen 1. Ein Analyst im Personalwesen muss Performance-
können, beispielsweise in Datenprodukte oder Daten zu neu eingestellten Mitarbeitern sowie zu
sogar in analytische Umgebungen, müssen Sie sich Personalverantwortlichen schnell abrufen können.
darüber im Klaren sein, was möglich und was für das Dadurch hat er die Möglichkeit zu überprüfen, 4
Unternehmen am sinnvollsten ist. Zu diesem Zweck wer im Unternehmen das größte Talent hat,
sollten Ihre Analysten und Wissenschaftler dazu in geeignetes Fachpersonal zu erkennen.
der Lage sein, beliebig zu experimentieren, bevor sie
eine nennenswerte Innovation kreieren können. 2. Ein Analyst im Vertrieb muss erkennen können,
ob es Korrelationen zwischen Aktivitäten in
sozialen Medien und Vertriebsaktivitäten in
verschiedenen Regionen gibt.
3. Ein Marketinganalyst sollte prüfen können,

ob es aufgrund von neuen und gezielten
Marketingkampagnen zu nennenswerten
Umsatzsteigerungen kommt.
4. Ein Finanzanalyst muss ungefähre Kostenprognosen

mit Vertriebsprognosen schnell vergleichen und
daraus eine fundierte Bewertung erstellen können.
Erst wenn die Analysten ihre Hypothesen tatsächlich

bestätigen und feststellen, dass es sich lohnt, die
Experimente zu wiederholen, sollte die IT den Prozess
ihrer Umsetzung starten.

Die Anforderungen des Labors.
Bei einer Laborumgebung für Big-Data-Experimente Prozess Dies war nicht nur ein kostspieliger Prozess, bei dem
gibt es spezifische Anforderungen: Jedes Mal, wenn Analysten Datenexperimente die Business-Anwender wochenlang warten mussten
mit herkömmlichen Unternehmenstechnologien und im Unklaren gelassen wurden, sondern es gab
Personen auszuführen hatten, sah der Prozess für das IT-Team auch keine Garantie dafür, dass das IT-Team auf
In einem Big-Data-Labor müssen Analysten und folgendermaßen aus: Anhieb zufriedenstellende Arbeit liefern konnte.
Wissenschaftler freien Zugriff auf Daten haben, um Selbstverständlich ist dies einer Umgebung der
möglichst viele Hypothesen selbstständig testen zu • Der Analyst hat eine Idee Experimente und der schnellen Analysen nicht
können. Daher sollte es die Aufgabe der IT sein, förderlich.
Daten „in einer ausreichenden Qualität“ umgehend • Das IT-Team ermittelt, wo die Daten gespeichert
bereitzustellen. Darüber hinaus muss sie dem sind und wie darauf zugegriffen werden kann Hier ist eine Big-Data-Plattform notwendig, welche
Labor Tools bieten, die für die Visualisierung und die Masseneinspeisung aus mehreren Datenquellen
gemeinsame Nutzung von Analysen erforderlich • Anschließend bespricht das IT-Team mit den bewältigen kann und die einen Self-Service zur
sind, und darf dabei „nicht im Wege stehen“. Business-Anwendern, wie sie diese Daten Datenermittlung unterstützt. Daher sieht der Prozess
verwenden werden eher folgendermaßen aus:
Diese Dynamik ist unerlässlich, wenn Sie Experimente
fördern möchten. Zudem erfordert dies, sich vom • Danach werden vom IT-Team die Geschäftsregeln • Der Analyst hat eine Idee
Paradigma weg zu bewegen, bei dem das IT-Team zum Umwandeln der Daten festgelegt
Wochen mit der Vorbereitung von Daten verbringt, • Das IT-Team weiß, woher die Daten bezogen
während die Analysten warten müssen. • Das IT-Team erstellt Schemata für die Daten werden müssen
• Dann schreibt es die ETL-Prozesse, um die Daten • Es lädt die Daten in eine Plattform
umzuwandeln und zu laden (gegebenenfalls mit einem ersten Schema)
• Die Analysten können mit ihrer Arbeit fortfahren

und per Self-Service ihre eigene Datenermittlung
ausführen

Die Anforderungen des Labors.
Technologie 3. Proaktives Datenmanagement: Eine von Analysten

Bei der Schaffung eines Big-Data-Labors müssen geführte, Experimente unterstützende Laborum-
Sie dafür sorgen, dass Ihre Big-Data-Plattform ein gebung ist nutzlos, wenn alle Experimente auf
schnelles und einfaches Experimentieren unterstützt. fehlerhaften Daten basieren. Sie müssen daher
Das bedeutet, Sie müssen eine Infrastruktur aufbauen, sicherstellen, dass das IT-Team über die erforderli-
die Folgendes unterstützt: chen Tools verfügt, um Daten rasch zu integrieren,
zu prüfen und aus ihnen Profile zu erstellen.
1. Schnelle Einspeisung: Aus mehreren Quellen
mit vorgefertigten Konnektoren, um den Zugriff Es ist wichtig, dass Sie auch die von Ihnen gebotenen
auf hohe Datenmengen aus neuen und alten Benutzererfahrungen berücksichtigen. Da Analysten
Datenquellen zu optimieren (mit Echtzeit- Excel mehr als jedes andere Tool zur Analyse verwen
Streaming für Daten mit geringer Latenz). den, müssen Sie ihnen Benutzeroberflächen auf Basis
von Kalkulationstabellen zur Verfügung stellen, die auf
2. Self-Service-Autonomie: Damit können Analysten die gleiche einfache Weise zu handhaben sind.
die Daten auf einfache Weise abrufen, ohne
stundenlang von einem Durcheinander von Daten Ziel sollte sein, Analysten zu befähigen, Daten ad
aufgehalten zu werden. Zu diesem Zweck werden hoc zu mischen und zusammenzuführen und dabei
semantische Suchfunktionen, automatisches gleichzeitig komplexe analytische Modelle zu
Profiling, Self-Service zur Datenermittlung sowie erstellen, in denen neue Daten erfasst werden können.
Tools zur schnellen Visualisierung eingesetzt.
Selbstverständlich muss Ihre Infrastruktur zur
Datenverwaltung zu weitaus mehr in der Lage sein,
um eine Labor- und Fabrikumgebung zu unterstützen.
Schauen wir uns die spezifischeren Anforderungen für
den Aufbau einer Big-Data-Fabrik an.

Aufbau einer Big-Data-Fabrik.
Nicht alles, was in Ihrem Big-Data-Labor geschaffen

1
wird, muss umgesetzt werden. Manche Experimente
sind es möglicherweise nicht wert, fortgesetzt zu
werden. Andere wiederum werden womöglich nur
intern gemeinsam genutzt und visualisiert.
2
Sobald Ihre Analysten und Wissenschaftler den
Wert der von ihnen erarbeiteten Produkte und
Analysen nachweisen können, muss die IT in der
Lage sein, diese auf effiziente und zuverlässige 3
Weise umzusetzen.

Die Anforderungen der Fabrik.
Fabrikseitig geht es bei Ihrer Infrastruktur zur Datenver Prozess

waltung um Folgendes: Sie müssen sicherstellen, In der Laborumgebung müssen Ihre Analysten dazu
dass das IT-Team über die erforderlichen Tools und in der Lage sein, ihre eigenen Datenpipelines in
finanziellen Mittel verfügt, um den Bedürfnissen der kürzester Zeit zu erstellen. Wenn Sie ihnen also
Endbenutzer und Kunden zu entsprechen. die Tools zur Verfügung stellen, die eine selbster
klärende Dokumentation zu Umwandlungen und
Personen Datenströmen enthalten, beschleunigen Sie damit
Laborseitig geht es bei Ihrer Infrastruktur zur den Prozess der IT, die diese Datenpipelines in einer
Datenverwaltung darum, Ihre Analysten mit ein wenig Produktionsumgebung bereitstellt. Das IT-Team kann
Hilfe durch die IT zu befähigen, ihre Experimente sich auf Grundlage der in der Laborumgebung
selbstständig durchzuführen. In der Fabrik geht es verwendeten Logik und Objekte ganz einfach auf
jedoch darum, eine Datenlieferkette zu automatisieren, die Entwicklung konzentrieren.
mit der die im Labor gewonnenen Daten und
Erkenntnisse in Business Value umgewandelt werden. Es ist wahrscheinlich, dass keine zwei umzusetzenden
Projekte gleich sind. Daher sei nur darauf hingewiesen,
Die Rolle des Analysten besteht hier eher darin, dass die IT sich hier auf DevOps und den Support
das IT-Team anzuleiten und dafür zu sorgen, dass in der Produktion konzentrieren muss. Hierdurch
das Geschaffene tatsächlich den betrieblichen wird gewährleistet, dass Daten auf zuverlässige,
Anforderungen entspricht. wiederholbare und leicht überschaubare Weise
eingespeist, bereinigt und gesichert werden.
Auf der anderen Seite konzentriert sich die Rolle der IT
darauf, Ingenieure und Entwickler anzuleiten. Dabei
ist es das Ziel, die Kapitalanlage zu optimieren, die
dafür erforderlich ist, die Datenbestände in ein Produkt
umzuwandeln, sie zu monetarisieren und umzusetzen.

Die Anforderungen der Fabrik.
Technologie 1. Dynamische, skalierbare Big-Data-Integration: Im nächsten Abschnitt gehen wir noch etwas
Der ganze Hype zu Big Data hat sich auf Daten Zur Erstellung von flexiblen und skalierbaren ausführlicher auf die Möglichkeiten und wichtigen
speicher und Ebenen der Datenanalyse konzentriert. Datenpipelines, die neue Datenquellen verknüpfen Aspekte beim Aufbau einer Infrastruktur ein, um nicht
Auch wenn Technologien wie Hadoop und und Analysten befähigen, umfassendere Modelle nur Ihre Produktionsumgebungen zu unterstützen,
Datenvisualisierung (z. B. Tableau, Qlik) entscheidend zu schaffen. sondern auch Ihre Laborumgebungen.
für den Erfolg von Big Data sind, gibt es dazwischen
eine äußerst wichtige Ebene, die nicht einfach ignoriert 2. Kollaborative, lückenlose Big Data Governance: Wir werden uns insbesondere auf die drei Säulen des
werden darf: die Big-Data-Management-Ebene. Analysten und IT können darauf vertrauen, dass Big-Data-Managements konzentrieren, die erforderlich
die von ihnen verwendeten Daten bereinigt, sind, um die Technologie sowohl in Labor- als auch
Diese Ebene kann in drei individuelle Säulen unterteilt umfassend und zeitgerecht sind. Fabrikumgebungen erfolgreich zu nutzen.
werden, um Ihre Fabrik- und Laborumgebungen zu
unterstützen. 3. Risikoorientierte Big-Data-Sicherheit: Für einen
proaktiven und umfassenden Schutz Ihrer
sensiblen Daten vor der wachsenden Zahl von
Datensicherheitsbedrohungen.

Teil 3
Die drei Säulen von

1 2 3

Teil 3 – Die drei Säulen von Big-Data-Management
Integration von Big Data.
Bei der ersten Herausforderung an die Infrastruktur Zu diesem Zweck muss Ihre Big-Data-Plattform Bei Datenquellen, die bisher noch nicht mit
des Big-Data-Managements handelt es sich um die Folgendes unterstützen: vorgefertigten Konnektoren zur Verfügung gestellt
Erstellung von skalierbaren, flexiblen und intelligenten werden, ist es zudem hilfreich, Self-Service-Tools
Datenpipelines. Laborseitig geht es hier darum, Universelle Konnektivität zur Datenermittlung zu verwenden. Diese Tools
vorgefertigte Tools sowie einfache und intuitive Um eine breite Reihe an Experimenten mit Big Data zu basieren auf Machine Learning, um das geeignete
Benutzeroberflächen bereitzustellen. Damit wird unterstützen, muss die IT in der Lage sein, Konnektivität Schema automatisch zu bestimmen.
verhindert, dass Analysten ihre gesamte Zeit damit für eine enorme Anzahl von Datenquellen zur
verbringen müssen, auf die von ihnen benötigten Verfügung zu stellen. Flexibilität ist das A und O. Abstraktion
Datenquellen zu warten. Dies bedeutet Datenintegration mit hohem Durchsatz Die Grundvoraussetzung dafür, dass die Skalierung
für verschiedene Schemata aus unterschiedlichen funktioniert, ist die Nutzung der gesamten vorhandenen
Fabrikseitig müssen Sie dafür sorgen, dass Sie die Datenquellen. Hardware und der verteilten Computing-Frameworks
bereits vorhandenen IT-Kenntnisse zur Datenintegration (z. B. MapReduce, Spark usw.). Ihre in der Produktion
nutzen, um die Entwicklung zu beschleunigen und die Gleichermaßen müssen Sie jedoch auch dazu in der bereitgestellten Lösungen müssen so flexibel sein, dass
Pflege Ihrer Pipelines zu vereinfachen. Lage sein, Echtzeit-Streams für Daten mit geringer sie unabhängig von der Laufzeitumgebung in allen
Latenz bereitzustellen, wie z. B. für Maschinen- und verfügbaren Speichern und Infrastrukturen funktionieren.
Sensordaten.
Durch Abstrahieren aller Ihrer Regeln, Logiken und
Vorgefertigte Tools Metadaten von der Ausführungsplattform können
Wenn Sie hohe Datenmengen aus verschiedenen Sie gewährleisten, dass sowohl das IT-Team als auch
Quellen verarbeiten, stellt ein schneller Zugriff die die Analysten ihre Arbeit beliebig über die gesamte
größte Herausforderung dar. Daher ist es äußerst Plattform hinweg wiederverwenden können.
sinnvoll, vorgefertigte Konnektoren, Umwandlungen
und Parser zu nutzen, welche die Analysten bei
Bedarf verwenden können.

Integration von Big Data.
Ein Brokeragemodell Staging

Schon vor der Einführung von Big Data war die Daten sind nicht gleich Daten. Anstatt das IT-Team mit
Punkt-zu-Punkt-Integration schwer zu verwalten. der Änderung und dem Anwenden von Schemata für
Heutzutage ist diese Verwaltung unmöglich. Das ist Daten aus jeder einzelnen Datenquelle zu belasten,
insbesondere dann der Fall, wenn Sie mit Dutzenden ist es intelligenter, je nach Art der Nutzung einigen
von Datenquellen, Regionen, Abteilungen und Daten den Vorrang zu geben. So müssen sensible
Benutzern arbeiten. personenbezogene Daten (Personally Identifiable
Information, PII) eventuell maskiert werden. Die Daten
Ein auf Speichenarchitektur aufgebautes von Sensorprotokollen müssen jedoch gar nicht
Brokeragemodell ist ein wesentlicher Bestandteil geändert werden.
einer Big-Data-Strategie, die sowohl Experimente
als auch Produktionsumgebungen unterstützt. Durch Aufteilen Ihrer Plattform in unterschiedliche
Das Modell dient dazu, die Verwaltung und die Staging-Bereiche können Sie dafür sorgen, dass
Governance der Integrationen zu zentralisieren und verschiedene Benutzer und Systeme lediglich Zugriff
gleichzeitig Best Practices zu verbreiten. auf die Daten erhalten, die entsprechend für diese
Bereiche geändert (oder nicht geändert) wurden.
Auf diese Weise kann die IT Datenströme steuern
und dabei Standardisierungen vornehmen, um den
überflüssigen Entwicklungsaufwand zu reduzieren
und Daten zu verwalten, wo und falls erforderlich.

So stellt ein multinationales Unternehmen seine Daten bereit
Eines der ersten Unternehmen, das eine Big-Data- Daten entfernt. Zudem müssen auf dieser Ebene Projekte
Plattform aufgebaut hat, die sowohl Labor- als in manchen Fällen die sich allmählich ändernden Die Staging-Umgebung für Projekte ist unter
auch Fabrikumgebungen unterstützen kann, ist ein Dimensionen jener Daten bearbeitet werden, die den vier Ebenen die am stärksten auf eine
großer nordamerikanischer Unternehmensverbund aus relationalen Datenbanken extrahiert wurden. bestimmte Nutzung ausgerichtete Ebene. Die
mit 24 Geschäftseinheiten. Daten werden speziell für bestimmte Projekte
Beide Ebenen werden durch die zentrale IT-
und Use Cases gespeichert und verwaltet. Was
Das Unternehmen nutzte Hadoop, um für seine Abteilung innerhalb des Unternehmens verwaltet.
beeindruckend ist: Das Team war in der Lage,
Daten eine Staging-Umgebung mit vier Ebenen Diese wird von den einzelnen Geschäftseinheiten
sein Big-Data-Management zu nutzen, um
aufzubauen. Dabei wurde die Anzahl der beauftragt, wenn Kenntnis darüber erforderlich
mehrere Entwicklungskanäle über verschiedene
Änderungen, die für eine Nutzbarmachung der ist, welche neuen Daten einbezogen und integriert
Repositories zu unterstützen. Auf diese Weise
Daten erforderlich war, als Basis herangezogen. werden müssen.
können verschiedene Teams in unterschiedlichen
Bei den vier Ebenen, die das Unternehmen erstellt
Neben diesen beiden wurden zwei weitere Ebenen Geschäftseinheiten fachspezifische Lösungen
hat, handelt es sich um folgende:
geschaffen. Sie sollen es den Geschäftseinheiten entwickeln, während sie unabhängig
Rohdaten ermöglichen, die für sie erforderlichen Daten zu voneinander in ihrem eigenen Tempo arbeiten.
erstellen.
Für Daten, die direkt von der Quelle und unverän- Durch das Aufteilen der Staging-Umgebungen in
dert bezogen werden. Durch das Laden und das Core diese vier Ebenen konnte das Unternehmen es den
Speichern in Hadoop war das Unternehmen dazu Hier können die Geschäftseinheiten neue Metriken, Entwicklern der einzelnen Abteilungen ermöglichen,
in der Lage, seine Kosten für die Datenspeicherung Bestände und für die Daten geltende Geschäfts auf ihre eigene Weise, mit unterschiedlichen
um etwa zwei Drittel (der Kosten pro Terabyte) zu regeln erstellen. Diese Ebene wurde so konzipiert, Softwareentwicklungsmethoden, Freigabezyklen
reduzieren. In vielen Fällen kann das Unternehmen dass sie vielseitig und projektübergreifend einsetzbar sowie Geschäftsregeln zu arbeiten und ihre
diese Rohdaten, die direkt von der Quelle bezogen ist. Die Geschäftseinheiten können beispielsweise eigenen Datenbestände zu erstellen.
werden, sogar unverändert nutzen. wiederverwendbare Metriken erstellen, mit denen
Gleichzeitig kann sich das zentrale IT-Team auf
Kunden- und Bestandsdaten miteinander verbunden
Veröffentlichte Daten das Aufbauen der Plattform, das Management
werden können. Anstatt jedoch allgemeine für
Für leicht abgeänderte Daten, die zur Verwendung der Sicherheit und das Profiling von Daten im
alle Geschäftseinheiten gültige Regeln durch das
durch das Unternehmen optimiert werden. Die Hinblick auf Qualität konzentrieren.
zentrale IT-Team entwickeln zu lassen, werden
Daten in dieser Ebene wurden eventuell bereinigt.
diese von den Geschäftseinheiten selbst erstellt.
Möglicherweise wurden personenbezogene

Big-Data-Qualität
und Governance.
Die Daten, mit denen Ihre Analysten und Entwickler Folgende Voraussetzungen müssen erfüllt werden: Unternehmenskontext
arbeiten, müssen die für die jeweilige Aufgabe Eine der größten Herausforderungen bei der
erforderlichen Qualitätsansprüche erfüllen: Reporting Automatisiertes Datenqualitätsmanagement Verwaltung der Datenqualität für mehrere Teams,
verlangt vollständig zertifizierte Daten, zur Modellüber Schlechte Daten sind schlimmer als keine Daten. Geschäftseinheiten, Systeme und Regionen ist die
prüfung genügen ausreichend gute Daten. Zu diesem Das haben wir bereits gelernt. Analog gilt – noch Wahrung der Datenkonsistenz. So kann beispielsweise
Zweck ist ein durchgängiges Qualitätsmanagement schlimmer als fehlende Datenqualitätsregeln sind das Konzept „Kunde“ in den Marketing- und
der Daten von entscheidender Bedeutung. manuell programmierte und inkonsistente Datenqua Finanzabteilungen unterschiedlich definiert sein,
litätsregeln. Mithilfe von automatisierten Tools für denn ihre Analysen sind unterschiedlich motiviert.
Da Ihre Big-Data-Plattform darüber hinaus hohe Daten das Datenqualitätsmanagement und vorintegrierten
volumen aus vielen unterschiedlichen Datenquellen Datenqualitätsregeln stellen Sie sicher, dass Ihre Ihre Datenverwalter sollten daher die Möglichkeit
verwalten und an mehrere Zielsysteme weitergeben IT-Mitarbeiter die Qualität der Daten zentral, haben, gemeinsame Geschäftsbegriffe und
muss, ist auch der Bedarf an Daten-Governance groß. bedarfsgerecht und für das gesamte Unternehmen -definitionen auf einfache Weise in Glossaren
konsistent verwalten können. bereitzustellen und damit Analysten und IT-
Mitarbeitern einen Kontext zur Verfügung zu
Die Qualitätsregeln werden automatisch angewendet stellen, in dem sie ihre Arbeit besser mit den
und kontrolliert. Datenverwalter werden automatisch Unternehmensanforderungen verknüpfen können.
über Abweichungen der Datenqualität benachrichtigt
und können produktiver arbeiten. Noch wichtiger:
Sie entlasten Ihre Analysten, denn sie können sich auf
die Qualität ihrer Daten verlassen und müssen keine
manuellen Fehlersuchen vornehmen.

Big-Data-Qualität
und Governance.
Einfache Erkennung von Ausnahmen Sie sollten daher bei der Einrichtung der Infrastruktur
Es ist unmöglich, mehrere Terabyte an Daten im darauf achten, dass Anwender die Datenherkunft
Auge zu behalten, die noch dazu auf mehrere schnell bestimmen und große Datensätze problemlos
Cluster und Datenquellen verteilt sind. Sie benötigen prüfen können.
einen zuverlässigen und reproduzierbaren Data-
Profiling-Ansatz, der sicherstellt, dass Ihre Analysten Verwaltung von Stammdaten und Datenbeziehungen
und Entwickler auf die Qualität ihrer Daten Indem Sie zur Anreicherung Ihrer Stammdaten
vertrauen können. zu wichtigen Domänen (beispielsweise Produkte
und Kunden) Instanzenabgleich und -verknüpfung
Mithilfe von formalen Datenqualitätsbewertungen, integrieren, ist es für Ihren Stack einfacher,
Wertungslisten und Funktionen zur Verwaltung Beziehungen zwischen Instanzen und Domänen
von aufgezeichneten Ausnahmen können abzuleiten.
Datenverwalter auf Anomalien reagieren und
gegebenenfalls Anpassungen vornehmen. Ihre Analysten können so viel schneller wichtige
Muster und Trends aufspüren und haben darüber
Datenverlauf hinaus eine ganzheitliche Sicht auf die Interaktionen
IT-Mitarbeiter müssen die von den Analysten in der der einzelnen Domänen untereinander. Sie können
Laborumgebung und den Entwicklern in der Fabrik beispielsweise nachvollziehen, mit welchen Produkten
umgesetzten Datenintegrationen rasch verstehen Kunden interagieren.
und prüfen können. Sie müssen den Verlauf der
Daten nachvollziehen können. Dies ist nur mit
Governance-Tools möglich, die die Metadaten
katalogisieren und verwalten.

Big-Data-Sicherheit.
Je mehr Benutzer, Systeme, Geschäftsbereiche und Darüber hinaus benötigen Sie ein automatisches Universeller Schutz
Partner in Ihre Big-Data-Initiativen involviert sind, Data Masking. Damit können Sie Ihre Datenbestände Die Bedrohungen der Big-Data-Sicherheit
desto schwerer wird es, Verstöße gegen die und selbst im Falle eines Sicherheitsverstoßes innerhalb entwickeln sich genauso schnell weiter wie
Versäumnisse bei der Datensicherheit zu erkennen. der Grenzen der Unternehmensumgebung durch der Datenschutz. Daher sind Shortcuts keine
Anonymisieren von sensiblen Daten in Entwicklungs- Alternative, wenn es um das Schützen Ihrer Daten
Anstatt zuerst Ihre Infrastruktur aufzubauen und und Produktionsumgebungen schützen. in unterschiedlichen Systemen, bei verschiedenen
danach Sicherheitsrichtlinien anzuwenden und Benutzern und in mehreren Regionen geht.
Vorschriften einzuhalten, ist es von entscheidender Risikoübersichten und Analysen
Bedeutung, Ihre Plattform von Anfang an mit einer Eine umfassende Ansicht aller Ihrer sensiblen Daten Ihre Big-Data-Sicherheitsstrategie muss umfassend
auf Best Practices aufbauenden Datensicherheit ist wichtig für die Erkennung von und das Reagieren genug sein, um Masking, Verschlüsselung und
auszustatten. auf Gefahren. Risikoanalysen und Übersichten Zugriffskontrolle für verschiedene Datentypen (sowohl
automatisieren die Erkennung von Szenarien mit für Live-Daten als auch gespeicherte Daten) und
In der Praxis bedeutet das, dass Sie Folgendes hohem Risiko und Ausnahmen, basierend auf unterschiedliche Umgebungen (in nicht produktiven
bereitstellen müssen: Modellierung, Trends aus Bewertungen sowie und in Produktionsumgebungen) bereitzustellen.
Nutzungs- und Ausbreitungsanalyse, damit das
Erkennung und Identifikation IT-Team sofort alarmiert wird. Zentralisierte, richtlinienbasierte Sicherheit
Eine 360-Grad-Ansicht sensibler Daten ist für ein Aus operativer Sicht ist es wichtig, dass Big-Data-
risikoorientiertes Big-Data-Management-Konzept Wenn es um Big-Data-Sicherheit geht, ist Geschwin Sicherheit nicht zur Belastung für die IT oder zum
unerlässlich. Ihr IT-Team muss sensible Datenspeicher digkeit ein ausschlaggebender Faktor. Je länger es Hindernis beim Experimentieren wird. Sie müssen
erkennen, einstufen und überwachen können, ganz dauert, bis das IT-Team eine Sicherheitsbedrohung in der Lage sein, Sicherheitsrichtlinien zentral zu
gleich, wo sich diese befinden. Zudem müssen diese erkennt, desto schwerer wird es, den Schaden zu erstellen sowie zu überwachen und diese dann an
Daten regelmäßig auf potenzielle Risikofaktoren hin beheben oder gar zu diagnostizieren. die Benutzer, Systeme und Regionen zu übermitteln.
untersucht werden.
Bei Big Data wird die Compliance durch dieses
richtlinienbasierte Sicherheitskonzept überschaubarer,
da bestimmte Datenschutzgesetze eine standort-
und rollenbasierte Datenkontrolle vorschreiben.
Vier Dimensionen der Big-Data-Sicherheit
Wenn der Großteil Ihrer Daten nicht mehr hinter 3. Tokenisierung

einer Firewall geschützt ist, sollten Sie sich bei Hier geht es um das Ersetzen sensibler
Ihrer Big-Data-Sicherheitsstrategie nicht allein Datenelemente durch nicht sensible Äquivalente
auf Authentifizierung und Autorisierung verlassen. oder „Token“. Dies ermöglicht es, den Typ und
Stattdessen sollte Ihre Big-Data-Sicherheit das Format der Daten beizubehalten und Schutz 1
idealerweise vier Arten von Schutz beinhalten: vor dem Diebstahl von Schlüsseln zu bieten.
1. Authentifizierung und Autorisierung 4. Data Masking

Tools wie Kerberos, Knox und Sentry sind bei der Zum dauerhaften und dynamischen Schutz von 2
Überwachung der Grenzen der Unternehmen Daten vor bestimmten Benutzern (z. B. Schutz
sumgebung unerlässlich, wenn viele Benutzer auf von Kreditkartendaten in Entwicklungs- und
Ihren Cluster zugreifen. Testumgebungen) kann Data Masking eingesetzt
werden, um Daten zu anonymisieren. Gleichzeitig 3
2. Verschlüsselung wird dafür gesorgt, dass diese Daten noch wie
Initiativen wie Project Rhino von Intel ermöglichen die Originaldaten aussehen. Im Gegensatz zur
das Verschlüsseln von Daten, die sich in Ihren Verschlüsselung kann das „maskierte“ Datenelement
Datenspeichern befinden, sowie das Verwalten von nicht von Personen innerhalb des Unternehmens 4
Schlüsseln. Dies ist wichtig, wenn Sie den Zugriff entschlüsselt werden.
auf sensible Daten durch Unbefugte verhindern,
diese Daten innerhalb des Unternehmens jedoch
entschlüsselt und bereitgestellt werden müssen.
Zudem kann die Verschlüsselung unter Beibehaltung
des Formats verwendet werden, bis hinunter zum
Außendienst.

Eine Referenzarchitektur
für Big-Data-Management.
Keine zwei Unternehmen haben genau die gleichen Unternehmen konzentrieren sich normalerweise auf
Anforderungen an die Infrastruktur. Dennoch ist es die erste und dritte Ebene, ohne ihre Anforderungen
sinnvoll, sich anzuschauen, welche Entscheidungen bezüglich der zweiten Ebene zu ermitteln. Wie wir
andere Unternehmen getroffen haben, um die jedoch erläutert haben, spielt diese zweite Ebene
architektonische Lücke zwischen Labor- und eine wesentliche Rolle, um sowohl mit einer Labor-
Fabrikumgebungen zu schließen. als auch einer Fabrikumgebung arbeiten zu können.
Es ist vor allem wichtig, Ihre technologischen In der folgenden Referenzarchitektur sind diese
Anforderungen im Kontext von drei wesentlichen Ebenen sowie Beispiele für Tools und Funktionen
Ebenen zu betrachten: dargestellt, die Sie in Betracht ziehen sollten.
Verwenden Sie diese als Basis zur Ermittlung Ihrer
1. Die Visualisierungs- und Analyse-Ebene konkreten Infrastrukturanforderungen für eine
Big-Data-Plattform.
2. Die Big-Data-Management-Ebene (einschließlich
Big-Data-Integration, Governance und -Sicherheit)
3. Die Datenspeicher-Persistenzebene

Big-Data-Referenzarchitektur
Datenbestände Big Data Analytics Datenprodukte

Visualisierung Erweiterte Predictive
Machine Learning
von Daten Statistiken Analytics
OLTP/OLAP Kundenbindung
Big-Data-Management
Integration von Big Data Big Data Governance Big-Data-Sicherheit
Unstrukturierte
Betrugserkennung
Daten • Hochperformante • Datenqualität und Self- • 360-Grad-Ansicht
Dateneinspeisung Service-Funktionen zur sensibler Daten
Datenvorbereitung
• Skalierbare und • Risikoanalyse sensibler
optimierte Verarbeitung • Durchgängig Daten
Maschinen-/ transparente Effizienz von
• Flexible Bereitstellung • Richtlinienbasierter
Sensordaten Datenherkunft
Schutz sensibler Daten Kampagnen
• Datenabgleich und
Erkennung von
Beziehungen
Vorbeugende
Soziale Medien
Wartung
Unternehmensinformationskatalog
Ortsabhängige
Externe Quellen Speicherung und Verarbeitung von Big Data Services
Hadoop MPP* NoSQL
*Massive Parallelverarbeitung

Eine Referenzarchitektur
für Big-Data-Management.
Beim folgenden Diagramm handelt es sich um eine Big Data Analytics
konzeptionelle Darstellung, welche die verschiedenen
Prozesse im Rahmen einer Big-Data-Infrastruktur
wiedergibt.
Big-Data-Management
Quelldaten werden in den Landing-Bereich eingespeist.
Umwandlungsverfahren werden angewendet, um Integration von Big Data Big Data Governance Big-Data-Sicherheit
die Daten auf die explorative Analyse vorzubereiten.
Zur Nutzung der Daten werden diese mithilfe von
automatisierten Workflows gepflegt. Umsetzung und
Suche von und Experimentieren und
Monetarisierung
Zugriff auf Daten Einblicke gewinnen
Dadurch erhalten Datenexperten und Analysten von Daten
im Labor schnell Zugriff auf die Daten, die sie für
ihre Experimente und Datenanalysen benötigen.
Dateningenieure setzen diese Analysen mithilfe Labor Fabrik
automatisierter Workflows um und stellen
so zuverlässige Informationen bereit. Diese
Daten können dann zur Monetarisierung von
Datenbeständen verwendet werden. Landing-Bereich Erkennungsbereich Nutzungsbereich
Speicherung und Verarbeitung von Big Data

Schlussfolgerung
Abfragen,
Erneuern, Investieren.

Schlussfolgerung
Abfragen, Erneuern, Investieren.
Die Begriffe „Innovation“ und „Big Data“ sind Wir hoffen, dass Sie von den hier präsentierten
weit mehr als nur Schlagwörter. Sie sind wichtige Erfahrungen und Anleitungen gelernt haben, dass
Bestandteile einer Unternehmensstrategie, die auf intelligente Entscheidungen zur Architektur und
schnelles und nachhaltiges Wachstum ausgerichtet ist. Infrastruktur Ihrer Umgebung dazu beitragen können,
das Risiko experimenteller Versuche zu verringern und
Innovative Unternehmen müssen ein Klima der gleichzeitig die Produktionsprozesse zu optimieren.
Experimentierfreude schaffen, in dem Analysten
und Wissenschaftler Neues testen können, ohne die Die entscheidende Verbindungsstelle zwischen
Begleitschäden gescheiterter Experimente ausbaden Speicherung und Analyse ist jedoch die Ebene
zu müssen. Die gute Nachricht: Kosteneffektive und des Big-Data-Managements.
skalierbare Speicher- und Verarbeitungskapazitäten
konnten die Kluft zwischen Idee und Umsetzung Nur wenn alle drei Säulen des Big-Data-Managements,
verkleinern. nämlich Integration, Governance und Sicherheit,
implementiert sind, ist es möglich, nicht nur die
Big-Data-Labore, die nicht in der Lage sind, innovative Entwicklungs- und Produktionsprozesse der IT
Lösungen rasch in einer produktionstauglichen zu optimieren, sondern gleichzeitig den besten
Fabrikumgebung zu implementieren, sind noch Wissenschaftlern und Analysten eine Lizenz für
nicht ausgegoren. Und Infrastrukturen für die Innovationen bereitzustellen.
Datenverwaltung, die Analysten keine Self-Service-
Autonomie für Experimente ermöglichen, sind
ebenfalls nicht ausgereift.

Weitere Informationen
Wie Sie einen Machbarkeitsnachweis

für Big Data durchführen – innerhalb
von nur sechs Wochen.
In Big-Data-Projekten können viele Schwierigkeiten

auftauchen. Versuchen Sie also bei der Umsetzung Jetzt lesen.
Ihres ersten Big-Data-Projekts von Anfang an alles
richtig zu machen. In unserem Workbook lernen
Sie, wie Sie klein anfangen, den Nutzen belegen
und das Big-Data-Projekt allmählich ausbauen. Sie
erhalten viele wertvolle Tipps und Anleitungen von
erfahrenen Anwendern.

IN18-0216-3054
Informationen
zu Informatica
Wir sind Informatica. Wir unterstützen die weltweit

größten Konzerne beim Big-Data-Management, damit Sprechen Sie uns an.
sie Innovation vorantreiben und Big Data einsetzen
können. Wenn Sie nach einem zuverlässigen,
wiederholt verwendbaren und strategischen
Ansatz für Big Data suchen, sollten wir uns einmal
näher unterhalten.

Quellen
1. Medium, The story of AWS and Andy Jassy’s 7. CIO Journal, WSJ, GM grapples with big data,
Trillion Dollar Baby cyber security in vehicle broadband connections
2. Wall Street Journal, Visa says big data identifies 8. Forbes, How big data is changing the insurance
billions of dollars in fraud industry forever
3. ComputerWeekly.com, GE uses big data to 9. EMC InFocus, It’s not just big data…it’s gigantic
power machine services business data: A Telecoms Case Study
4. Datafloq, T-Mobile USA cuts down churn rate 10. TDWI Best Practices Report, Hadoop for the
by 50% with big data Enterprise, 2015
5. Informatica, UPMC customer success story 11. TDWI Best Practices Report, Hadoop for the
Enterprise, 2015
6. Datafloq, Three use cases of how GM applies
big data to become profitable again 12. ComputerWeekly.com, ‘Spark versus
MapReduce: which way for enterprise IT?’
August 2015
13. New York Times, For big data scientists,

janitor work is the key hurdle to insights, 2014

WP Vom Labor Zur Fabrik Big Data Workbook Informatica

Hochgeladen von

Dokumentinformationen

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

WP Vom Labor Zur Fabrik Big Data Workbook Informatica

Hochgeladen von

Copyright:

Verfügbare Formate

Vom Labor zur Fabrik:

Tipp: Klicken Sie auf die Teile, um zum

Teil 1 Integration von Big Data. 21

Die Bedeutung von Big-Data-Management. 10 Eine Referenzarchitektur für

Aufbau eines Big-Data-Labors. 14

Die Anforderungen des Labors. 15

Aufbau einer Big-Data-Fabrik. 17

Die Anforderungen der Fabrik. 18

2— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

3— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

„Voraussetzungen für Erfindung und Innovation:

2. Die Möglichkeit, Begleitschäden gescheiterter

4— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Big Data: Vom Experiment

5— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Den Elefanten reiten.

6— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Auseinandersetzung mit den

7— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Auseinandersetzung mit den

8— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Überwindung der Beschränkungen von Visualisierungs- und Analysetools

9— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Die Bedeutung von

10— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Die Bedeutung von

Datenbezogene Aspekte wie Integration, Governance,

11— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Das Labor, die Fabrik

12— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

13— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Aufbau eines Big-Data-Labors.

3. Ein Marketinganalyst sollte prüfen können,

4. Ein Finanzanalyst muss ungefähre Kostenprognosen

Erst wenn die Analysten ihre Hypothesen tatsächlich

14— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Die Anforderungen des Labors.

• Die Analysten können mit ihrer Arbeit fortfahren

15— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Die Anforderungen des Labors.

Technologie 3. Proaktives Datenmanagement: Eine von Analysten

16— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Aufbau einer Big-Data-Fabrik.

Nicht alles, was in Ihrem Big-Data-Labor geschaffen

17— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Die Anforderungen der Fabrik.

Fabrikseitig geht es bei Ihrer Infrastruktur zur Datenver­ Prozess

18— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Die Anforderungen der Fabrik.

19— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Die drei Säulen von

20— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Integration von Big Data.

21— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Integration von Big Data.

Ein Brokeragemodell Staging

22— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

So stellt ein multinationales Unternehmen seine Daten bereit

23— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

24— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

25— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.

Vier Dimensionen der Big-Data-Sicherheit

Wenn der Großteil Ihrer Daten nicht mehr hinter 3. Tokenisierung

1. Authentifizierung und Autorisierung 4. Data Masking

2. Die Möglichkeit, Begleitschäden gescheiterter

3. Ein Marketinganalyst sollte prüfen können,

4. Ein Finanzanalyst muss ungefähre Kostenprognosen

• Die Analysten können mit ihrer Arbeit fortfahren

Technologie 3. Proaktives Datenmanagement: Eine von Analysten

Fabrikseitig geht es bei Ihrer Infrastruktur zur Datenver Prozess

13. New York Times, For big data scientists,