Beruflich Dokumente
Kultur Dokumente
Das Big-Data-
Management-
Workbook.
Wie Sie Big-Data-Experimente auf wiederholbare
Weise umsetzen – und Fehler vermeiden.
Inhalt
Einführung Teil 3
Big Data: Vom Experiment Die drei Säulen von
zur Monetarisierung. 3 Big-Data-Management. 20
Big Data: Vom
Experiment zur
Monetarisierung.
Ein Beispiel dazu: Auch wenn Spark als wesentlich Fazit: Das Hadoop-Ökosystem ist entscheidend für
schneller bei der dezentralen Verarbeitung gilt als den Erfolg von Big-Data-Initiativen des Unternehmens.
MapReduce12, ist bei vielen manuell programmierten Alle Ihre Big-Data-Herausforderungen anzugehen,
Projekten, die früh auf MapReduce gesetzt haben, reicht jedoch nicht aus, insbesondere wenn es um
nun ein Kurswechsel erforderlich. das Aufbauen einer gemeinsamen Architektur geht,
die sowohl für den Einsatz in Labor- als auch in
Steigende Kosten Fabrikumgebungen geeignet ist.
Wie bereits erwähnt, ermöglichen die geringen
Startkosten von Hadoop und die Cloud-Speicherung Sie müssen über die Persistenzschicht Ihres
ein relativ leichtes Starten eines Pilotprojekts. Im Datenspeichers hinausschauen, um Ihre Architektur
Hinblick auf die Umsetzung sind Personalbesetzung, optimieren, schützen und zukunftssicher gestalten
Pflege sowie Verwaltung Ihrer Umgebung jedoch zu können.
eine ganz andere Geschichte.
Genau wie Hadoop finden auch Visualisierungs- und Die Analysefähigkeit der Tools, so komplex sie
Analysetools im Big-Data-Kontext große Beachtung. auch sein mag, ist noch keine Gewähr für präzise
Auch hier gilt jedoch, analog zu Hadoop, dass der Ergebnisse. Beispiel: Sie möchten analysieren,
Nutzen der Tools ohne die geeigneten Daten nur welche Marketingkanäle die besten Leads
beschränkt ist. Sie sind zwar notwendig, um den für Umsätze liefern, und verwenden dazu ein
Datenzugriff zu demokratisieren, sind aber für die komplexes Zuordnungsmodell. Wenn Sie jedoch
Datenverwaltung selbst nicht ausreichend. nicht alle Daten aus allen Marketingkanälen
integrieren können, erhalten Sie nur einen
Und ohne einen zuverlässigen, reproduzierbaren unvollständigen Überblick über das Kaufverhalten
und effizienten Ansatz zur Verwaltung von Big Data der Interessenten.
kann ihr Nutzen nicht optimal ausgeschöpft werden.
Es gilt also das Motto: Noch schlimmer als keine
Visualisierungstools können keine zuverlässigen Daten sind schlechte Daten. Ebenso wie die
Ergebnisse präsentieren, wenn ihre Datengrundlage Ebene der Datenspeicherung kann auch die
zu viele irrelevante und unbrauchbare Daten enthält. Ebene der Analyse und Visualisierung nicht alle
Hierzu ein Beispiel: Sie möchten in einer Analyse Herausforderungen lösen.
von Kundendaten den Zusammenhang zwischen
den umgesetzten Verkaufszahlen und dem Wohnort Die Ebene, auf die es ankommt, ist das Big-Data-
der Kunden aufzeigen. Dabei sind Sie unbedingt Management.
darauf angewiesen, dass die Qualität der
Adressdaten Ihrer Kunden zuverlässig ist.
Die Metadaten-Verwaltung ermöglicht Ihnen sogar Warum? Erstens müssen Ihre Entwickler nicht bei jeder
die Beibehaltung von Standards, Umwandlungen neu hinzugefügten oder geänderten Umwandlung
und Best Practices unabhängig von Änderungen an seitenweise Codes prüfen, und zweitens müssen Ihre
der Laufzeitumgebung. Analysten und Wissenschaftler nicht bis zu 80 Prozent
ihrer Zeit13 mit der mühsamen manuellen Bereinigung
Selbst wenn Sie also, sagen wir mal, MapReduce und Aufbereitung von Daten verbringen.
durch Spark ersetzen wollten, müssten Sie nicht
wieder ganz von vorn anfangen, da Sie Ihre Regeln,
Umwandlungen oder Logik nicht verlieren würden.
80 %
Vermeiden kostspieliger manueller Programmierung Manuelle
Wenn Sie es mit hohen Datenmengen zu tun Datenverwaltung
haben, dürfen Sie nicht erwarten, alle Ihre Daten in
Augenschein nehmen zu können. Darüber hinaus
sollten Sie auch nicht versuchen, alle diese Daten
manuell zu verwalten.
Big-Data-Management:
Zwei Seiten einer Medaille.
Unternehmen, die die Verwaltung von Big Data Datenqualität frühzeitig erkennen, Daten fortlaufend Gemeinsame Metadaten
als einmalige, manuell programmierbare Übung prüfen, Scorecards und Dashboards nutzen und Die bedarfsgerechte unternehmensweite Bereitstellung,
verstehen, werden ihre Zeit damit verbringen, den mit den ETL-Entwicklern Datenpipelines in Hadoop Profilierung, Verwaltung und Lenkung von Big Data
einmal erstellten Code immer und immer wieder erstellen. setzt eine strategische Verwaltung der Metadaten
zu überarbeiten und an die sich ständig ändernden voraus. In einem globalen Repository der gemeinsamen
Gegebenheiten anzupassen. Strategisch viel sinnvoller In den folgenden Abschnitten werden die spezifischen Metadaten können IT-Mitarbeiter unternehmensweit
ist es, eine automatisierte und standardisierte Anforderungen in der Labor- und Fabrikumgebung gültige Best Practices definieren und verteilen. Auch
Infrastruktur für die Datenverwaltung einzurichten, im Einzelnen erläutert. Zunächst werden jedoch die Analysten und Entwickler haben ein praktisches
die sowohl die Labor- als auch die Fabrikumgebung die Vorteile einer gemeinsamen Infrastruktur zur vordefiniertes Set an wiederverwendbarer Logik,
unterstützen kann. Unterstützung beider Seiten vorgestellt. Transformationen und Regeln an der Hand.
Diese zentrale Plattform unterstützt einerseits Konsolidierung der Investitionen in die Datenverwaltung Schnelle Aufnahme neuer Mitarbeiter
die Self-Service-Autonomie von Analysten und Die Technologie zur Bereitstellung von Daten an Wird die Datenverwaltung von einem kleinen
Wissenschaftlern, die autonom ihre Hypothesen Analysten kann auch für die Operationalisierung Expertenteam manuell programmiert, wird es
testen und Modelle validieren können und nicht auf verwendet werden. Mit dieser Rationalisierung aufgrund der fehlenden Standardisierung sehr
die Bereitstellung vollständig zertifizierter Daten des Technologie-Stacks ist sichergestellt, dass die schwer, den Code bei einem Zuwachs im Team
durch die IT angewiesen sind. Kernfunktionalitäten nicht doppelt angeschafft weiterhin zu pflegen und weiterzuschreiben. Mit
werden – für IT und die anderen Geschäftsbereiche – einem gemeinsamen Regel- und Toolsatz hingegen
Andererseits unterstützt sie flexible, skalierbare und und dass die von allen benötigten Daten nicht in Silos lassen sich neue Mitarbeiter und neue Daten schnell
verwaltbare Datenpipelines, über die IT-Mitarbeiter gespeichert und verwaltet werden. und einfach einbinden, und Sie sind für die Skalierung
die für den vorgesehenen Zweck geeigneten und SLA- Ihrer Infrastruktur nicht auf teure und schlecht
konformen Daten effizient direkt an die Endbenutzer verfügbare Big-Data-Experten angewiesen.
liefern können. Die IT-Abteilung kann Probleme mit der
3
Bevor Sie Big Data in nutzbare Bestände umsetzen 1. Ein Analyst im Personalwesen muss Performance-
können, beispielsweise in Datenprodukte oder Daten zu neu eingestellten Mitarbeitern sowie zu
sogar in analytische Umgebungen, müssen Sie sich Personalverantwortlichen schnell abrufen können.
darüber im Klaren sein, was möglich und was für das Dadurch hat er die Möglichkeit zu überprüfen, 4
Unternehmen am sinnvollsten ist. Zu diesem Zweck wer im Unternehmen das größte Talent hat,
sollten Ihre Analysten und Wissenschaftler dazu in geeignetes Fachpersonal zu erkennen.
der Lage sein, beliebig zu experimentieren, bevor sie
eine nennenswerte Innovation kreieren können. 2. Ein Analyst im Vertrieb muss erkennen können,
ob es Korrelationen zwischen Aktivitäten in
sozialen Medien und Vertriebsaktivitäten in
verschiedenen Regionen gibt.
Bei einer Laborumgebung für Big-Data-Experimente Prozess Dies war nicht nur ein kostspieliger Prozess, bei dem
gibt es spezifische Anforderungen: Jedes Mal, wenn Analysten Datenexperimente die Business-Anwender wochenlang warten mussten
mit herkömmlichen Unternehmenstechnologien und im Unklaren gelassen wurden, sondern es gab
Personen auszuführen hatten, sah der Prozess für das IT-Team auch keine Garantie dafür, dass das IT-Team auf
In einem Big-Data-Labor müssen Analysten und folgendermaßen aus: Anhieb zufriedenstellende Arbeit liefern konnte.
Wissenschaftler freien Zugriff auf Daten haben, um Selbstverständlich ist dies einer Umgebung der
möglichst viele Hypothesen selbstständig testen zu • Der Analyst hat eine Idee Experimente und der schnellen Analysen nicht
können. Daher sollte es die Aufgabe der IT sein, förderlich.
Daten „in einer ausreichenden Qualität“ umgehend • Das IT-Team ermittelt, wo die Daten gespeichert
bereitzustellen. Darüber hinaus muss sie dem sind und wie darauf zugegriffen werden kann Hier ist eine Big-Data-Plattform notwendig, welche
Labor Tools bieten, die für die Visualisierung und die Masseneinspeisung aus mehreren Datenquellen
gemeinsame Nutzung von Analysen erforderlich • Anschließend bespricht das IT-Team mit den bewältigen kann und die einen Self-Service zur
sind, und darf dabei „nicht im Wege stehen“. Business-Anwendern, wie sie diese Daten Datenermittlung unterstützt. Daher sieht der Prozess
verwenden werden eher folgendermaßen aus:
Diese Dynamik ist unerlässlich, wenn Sie Experimente
fördern möchten. Zudem erfordert dies, sich vom • Danach werden vom IT-Team die Geschäftsregeln • Der Analyst hat eine Idee
Paradigma weg zu bewegen, bei dem das IT-Team zum Umwandeln der Daten festgelegt
Wochen mit der Vorbereitung von Daten verbringt, • Das IT-Team weiß, woher die Daten bezogen
während die Analysten warten müssen. • Das IT-Team erstellt Schemata für die Daten werden müssen
• Dann schreibt es die ETL-Prozesse, um die Daten • Es lädt die Daten in eine Plattform
umzuwandeln und zu laden (gegebenenfalls mit einem ersten Schema)
Technologie 1. Dynamische, skalierbare Big-Data-Integration: Im nächsten Abschnitt gehen wir noch etwas
Der ganze Hype zu Big Data hat sich auf Daten Zur Erstellung von flexiblen und skalierbaren ausführlicher auf die Möglichkeiten und wichtigen
speicher und Ebenen der Datenanalyse konzentriert. Datenpipelines, die neue Datenquellen verknüpfen Aspekte beim Aufbau einer Infrastruktur ein, um nicht
Auch wenn Technologien wie Hadoop und und Analysten befähigen, umfassendere Modelle nur Ihre Produktionsumgebungen zu unterstützen,
Datenvisualisierung (z. B. Tableau, Qlik) entscheidend zu schaffen. sondern auch Ihre Laborumgebungen.
für den Erfolg von Big Data sind, gibt es dazwischen
eine äußerst wichtige Ebene, die nicht einfach ignoriert 2. Kollaborative, lückenlose Big Data Governance: Wir werden uns insbesondere auf die drei Säulen des
werden darf: die Big-Data-Management-Ebene. Analysten und IT können darauf vertrauen, dass Big-Data-Managements konzentrieren, die erforderlich
die von ihnen verwendeten Daten bereinigt, sind, um die Technologie sowohl in Labor- als auch
Diese Ebene kann in drei individuelle Säulen unterteilt umfassend und zeitgerecht sind. Fabrikumgebungen erfolgreich zu nutzen.
werden, um Ihre Fabrik- und Laborumgebungen zu
unterstützen. 3. Risikoorientierte Big-Data-Sicherheit: Für einen
proaktiven und umfassenden Schutz Ihrer
sensiblen Daten vor der wachsenden Zahl von
Datensicherheitsbedrohungen.
1 2 3
Bei der ersten Herausforderung an die Infrastruktur Zu diesem Zweck muss Ihre Big-Data-Plattform Bei Datenquellen, die bisher noch nicht mit
des Big-Data-Managements handelt es sich um die Folgendes unterstützen: vorgefertigten Konnektoren zur Verfügung gestellt
Erstellung von skalierbaren, flexiblen und intelligenten werden, ist es zudem hilfreich, Self-Service-Tools
Datenpipelines. Laborseitig geht es hier darum, Universelle Konnektivität zur Datenermittlung zu verwenden. Diese Tools
vorgefertigte Tools sowie einfache und intuitive Um eine breite Reihe an Experimenten mit Big Data zu basieren auf Machine Learning, um das geeignete
Benutzeroberflächen bereitzustellen. Damit wird unterstützen, muss die IT in der Lage sein, Konnektivität Schema automatisch zu bestimmen.
verhindert, dass Analysten ihre gesamte Zeit damit für eine enorme Anzahl von Datenquellen zur
verbringen müssen, auf die von ihnen benötigten Verfügung zu stellen. Flexibilität ist das A und O. Abstraktion
Datenquellen zu warten. Dies bedeutet Datenintegration mit hohem Durchsatz Die Grundvoraussetzung dafür, dass die Skalierung
für verschiedene Schemata aus unterschiedlichen funktioniert, ist die Nutzung der gesamten vorhandenen
Fabrikseitig müssen Sie dafür sorgen, dass Sie die Datenquellen. Hardware und der verteilten Computing-Frameworks
bereits vorhandenen IT-Kenntnisse zur Datenintegration (z. B. MapReduce, Spark usw.). Ihre in der Produktion
nutzen, um die Entwicklung zu beschleunigen und die Gleichermaßen müssen Sie jedoch auch dazu in der bereitgestellten Lösungen müssen so flexibel sein, dass
Pflege Ihrer Pipelines zu vereinfachen. Lage sein, Echtzeit-Streams für Daten mit geringer sie unabhängig von der Laufzeitumgebung in allen
Latenz bereitzustellen, wie z. B. für Maschinen- und verfügbaren Speichern und Infrastrukturen funktionieren.
Sensordaten.
Durch Abstrahieren aller Ihrer Regeln, Logiken und
Vorgefertigte Tools Metadaten von der Ausführungsplattform können
Wenn Sie hohe Datenmengen aus verschiedenen Sie gewährleisten, dass sowohl das IT-Team als auch
Quellen verarbeiten, stellt ein schneller Zugriff die die Analysten ihre Arbeit beliebig über die gesamte
größte Herausforderung dar. Daher ist es äußerst Plattform hinweg wiederverwenden können.
sinnvoll, vorgefertigte Konnektoren, Umwandlungen
und Parser zu nutzen, welche die Analysten bei
Bedarf verwenden können.
Eines der ersten Unternehmen, das eine Big-Data- Daten entfernt. Zudem müssen auf dieser Ebene Projekte
Plattform aufgebaut hat, die sowohl Labor- als in manchen Fällen die sich allmählich ändernden Die Staging-Umgebung für Projekte ist unter
auch Fabrikumgebungen unterstützen kann, ist ein Dimensionen jener Daten bearbeitet werden, die den vier Ebenen die am stärksten auf eine
großer nordamerikanischer Unternehmensverbund aus relationalen Datenbanken extrahiert wurden. bestimmte Nutzung ausgerichtete Ebene. Die
mit 24 Geschäftseinheiten. Daten werden speziell für bestimmte Projekte
Beide Ebenen werden durch die zentrale IT-
und Use Cases gespeichert und verwaltet. Was
Das Unternehmen nutzte Hadoop, um für seine Abteilung innerhalb des Unternehmens verwaltet.
beeindruckend ist: Das Team war in der Lage,
Daten eine Staging-Umgebung mit vier Ebenen Diese wird von den einzelnen Geschäftseinheiten
sein Big-Data-Management zu nutzen, um
aufzubauen. Dabei wurde die Anzahl der beauftragt, wenn Kenntnis darüber erforderlich
mehrere Entwicklungskanäle über verschiedene
Änderungen, die für eine Nutzbarmachung der ist, welche neuen Daten einbezogen und integriert
Repositories zu unterstützen. Auf diese Weise
Daten erforderlich war, als Basis herangezogen. werden müssen.
können verschiedene Teams in unterschiedlichen
Bei den vier Ebenen, die das Unternehmen erstellt
Neben diesen beiden wurden zwei weitere Ebenen Geschäftseinheiten fachspezifische Lösungen
hat, handelt es sich um folgende:
geschaffen. Sie sollen es den Geschäftseinheiten entwickeln, während sie unabhängig
Rohdaten ermöglichen, die für sie erforderlichen Daten zu voneinander in ihrem eigenen Tempo arbeiten.
erstellen.
Für Daten, die direkt von der Quelle und unverän- Durch das Aufteilen der Staging-Umgebungen in
dert bezogen werden. Durch das Laden und das Core diese vier Ebenen konnte das Unternehmen es den
Speichern in Hadoop war das Unternehmen dazu Hier können die Geschäftseinheiten neue Metriken, Entwicklern der einzelnen Abteilungen ermöglichen,
in der Lage, seine Kosten für die Datenspeicherung Bestände und für die Daten geltende Geschäfts auf ihre eigene Weise, mit unterschiedlichen
um etwa zwei Drittel (der Kosten pro Terabyte) zu regeln erstellen. Diese Ebene wurde so konzipiert, Softwareentwicklungsmethoden, Freigabezyklen
reduzieren. In vielen Fällen kann das Unternehmen dass sie vielseitig und projektübergreifend einsetzbar sowie Geschäftsregeln zu arbeiten und ihre
diese Rohdaten, die direkt von der Quelle bezogen ist. Die Geschäftseinheiten können beispielsweise eigenen Datenbestände zu erstellen.
werden, sogar unverändert nutzen. wiederverwendbare Metriken erstellen, mit denen
Gleichzeitig kann sich das zentrale IT-Team auf
Kunden- und Bestandsdaten miteinander verbunden
Veröffentlichte Daten das Aufbauen der Plattform, das Management
werden können. Anstatt jedoch allgemeine für
Für leicht abgeänderte Daten, die zur Verwendung der Sicherheit und das Profiling von Daten im
alle Geschäftseinheiten gültige Regeln durch das
durch das Unternehmen optimiert werden. Die Hinblick auf Qualität konzentrieren.
zentrale IT-Team entwickeln zu lassen, werden
Daten in dieser Ebene wurden eventuell bereinigt.
diese von den Geschäftseinheiten selbst erstellt.
Möglicherweise wurden personenbezogene
Big-Data-Qualität
und Governance.
Die Daten, mit denen Ihre Analysten und Entwickler Folgende Voraussetzungen müssen erfüllt werden: Unternehmenskontext
arbeiten, müssen die für die jeweilige Aufgabe Eine der größten Herausforderungen bei der
erforderlichen Qualitätsansprüche erfüllen: Reporting Automatisiertes Datenqualitätsmanagement Verwaltung der Datenqualität für mehrere Teams,
verlangt vollständig zertifizierte Daten, zur Modellüber Schlechte Daten sind schlimmer als keine Daten. Geschäftseinheiten, Systeme und Regionen ist die
prüfung genügen ausreichend gute Daten. Zu diesem Das haben wir bereits gelernt. Analog gilt – noch Wahrung der Datenkonsistenz. So kann beispielsweise
Zweck ist ein durchgängiges Qualitätsmanagement schlimmer als fehlende Datenqualitätsregeln sind das Konzept „Kunde“ in den Marketing- und
der Daten von entscheidender Bedeutung. manuell programmierte und inkonsistente Datenqua Finanzabteilungen unterschiedlich definiert sein,
litätsregeln. Mithilfe von automatisierten Tools für denn ihre Analysen sind unterschiedlich motiviert.
Da Ihre Big-Data-Plattform darüber hinaus hohe Daten das Datenqualitätsmanagement und vorintegrierten
volumen aus vielen unterschiedlichen Datenquellen Datenqualitätsregeln stellen Sie sicher, dass Ihre Ihre Datenverwalter sollten daher die Möglichkeit
verwalten und an mehrere Zielsysteme weitergeben IT-Mitarbeiter die Qualität der Daten zentral, haben, gemeinsame Geschäftsbegriffe und
muss, ist auch der Bedarf an Daten-Governance groß. bedarfsgerecht und für das gesamte Unternehmen -definitionen auf einfache Weise in Glossaren
konsistent verwalten können. bereitzustellen und damit Analysten und IT-
Mitarbeitern einen Kontext zur Verfügung zu
Die Qualitätsregeln werden automatisch angewendet stellen, in dem sie ihre Arbeit besser mit den
und kontrolliert. Datenverwalter werden automatisch Unternehmensanforderungen verknüpfen können.
über Abweichungen der Datenqualität benachrichtigt
und können produktiver arbeiten. Noch wichtiger:
Sie entlasten Ihre Analysten, denn sie können sich auf
die Qualität ihrer Daten verlassen und müssen keine
manuellen Fehlersuchen vornehmen.
Big-Data-Qualität
und Governance.
Einfache Erkennung von Ausnahmen Sie sollten daher bei der Einrichtung der Infrastruktur
Es ist unmöglich, mehrere Terabyte an Daten im darauf achten, dass Anwender die Datenherkunft
Auge zu behalten, die noch dazu auf mehrere schnell bestimmen und große Datensätze problemlos
Cluster und Datenquellen verteilt sind. Sie benötigen prüfen können.
einen zuverlässigen und reproduzierbaren Data-
Profiling-Ansatz, der sicherstellt, dass Ihre Analysten Verwaltung von Stammdaten und Datenbeziehungen
und Entwickler auf die Qualität ihrer Daten Indem Sie zur Anreicherung Ihrer Stammdaten
vertrauen können. zu wichtigen Domänen (beispielsweise Produkte
und Kunden) Instanzenabgleich und -verknüpfung
Mithilfe von formalen Datenqualitätsbewertungen, integrieren, ist es für Ihren Stack einfacher,
Wertungslisten und Funktionen zur Verwaltung Beziehungen zwischen Instanzen und Domänen
von aufgezeichneten Ausnahmen können abzuleiten.
Datenverwalter auf Anomalien reagieren und
gegebenenfalls Anpassungen vornehmen. Ihre Analysten können so viel schneller wichtige
Muster und Trends aufspüren und haben darüber
Datenverlauf hinaus eine ganzheitliche Sicht auf die Interaktionen
IT-Mitarbeiter müssen die von den Analysten in der der einzelnen Domänen untereinander. Sie können
Laborumgebung und den Entwicklern in der Fabrik beispielsweise nachvollziehen, mit welchen Produkten
umgesetzten Datenintegrationen rasch verstehen Kunden interagieren.
und prüfen können. Sie müssen den Verlauf der
Daten nachvollziehen können. Dies ist nur mit
Governance-Tools möglich, die die Metadaten
katalogisieren und verwalten.
Big-Data-Sicherheit.
Je mehr Benutzer, Systeme, Geschäftsbereiche und Darüber hinaus benötigen Sie ein automatisches Universeller Schutz
Partner in Ihre Big-Data-Initiativen involviert sind, Data Masking. Damit können Sie Ihre Datenbestände Die Bedrohungen der Big-Data-Sicherheit
desto schwerer wird es, Verstöße gegen die und selbst im Falle eines Sicherheitsverstoßes innerhalb entwickeln sich genauso schnell weiter wie
Versäumnisse bei der Datensicherheit zu erkennen. der Grenzen der Unternehmensumgebung durch der Datenschutz. Daher sind Shortcuts keine
Anonymisieren von sensiblen Daten in Entwicklungs- Alternative, wenn es um das Schützen Ihrer Daten
Anstatt zuerst Ihre Infrastruktur aufzubauen und und Produktionsumgebungen schützen. in unterschiedlichen Systemen, bei verschiedenen
danach Sicherheitsrichtlinien anzuwenden und Benutzern und in mehreren Regionen geht.
Vorschriften einzuhalten, ist es von entscheidender Risikoübersichten und Analysen
Bedeutung, Ihre Plattform von Anfang an mit einer Eine umfassende Ansicht aller Ihrer sensiblen Daten Ihre Big-Data-Sicherheitsstrategie muss umfassend
auf Best Practices aufbauenden Datensicherheit ist wichtig für die Erkennung von und das Reagieren genug sein, um Masking, Verschlüsselung und
auszustatten. auf Gefahren. Risikoanalysen und Übersichten Zugriffskontrolle für verschiedene Datentypen (sowohl
automatisieren die Erkennung von Szenarien mit für Live-Daten als auch gespeicherte Daten) und
In der Praxis bedeutet das, dass Sie Folgendes hohem Risiko und Ausnahmen, basierend auf unterschiedliche Umgebungen (in nicht produktiven
bereitstellen müssen: Modellierung, Trends aus Bewertungen sowie und in Produktionsumgebungen) bereitzustellen.
Nutzungs- und Ausbreitungsanalyse, damit das
Erkennung und Identifikation IT-Team sofort alarmiert wird. Zentralisierte, richtlinienbasierte Sicherheit
Eine 360-Grad-Ansicht sensibler Daten ist für ein Aus operativer Sicht ist es wichtig, dass Big-Data-
risikoorientiertes Big-Data-Management-Konzept Wenn es um Big-Data-Sicherheit geht, ist Geschwin Sicherheit nicht zur Belastung für die IT oder zum
unerlässlich. Ihr IT-Team muss sensible Datenspeicher digkeit ein ausschlaggebender Faktor. Je länger es Hindernis beim Experimentieren wird. Sie müssen
erkennen, einstufen und überwachen können, ganz dauert, bis das IT-Team eine Sicherheitsbedrohung in der Lage sein, Sicherheitsrichtlinien zentral zu
gleich, wo sich diese befinden. Zudem müssen diese erkennt, desto schwerer wird es, den Schaden zu erstellen sowie zu überwachen und diese dann an
Daten regelmäßig auf potenzielle Risikofaktoren hin beheben oder gar zu diagnostizieren. die Benutzer, Systeme und Regionen zu übermitteln.
untersucht werden.
Bei Big Data wird die Compliance durch dieses
richtlinienbasierte Sicherheitskonzept überschaubarer,
da bestimmte Datenschutzgesetze eine standort-
und rollenbasierte Datenkontrolle vorschreiben.
26— Vom Labor zur Fabrik: Das Big-Data-Management-Workbook.
Teil 3 – Die drei Säulen von Big-Data-Management
Eine Referenzarchitektur
für Big-Data-Management.
Keine zwei Unternehmen haben genau die gleichen Unternehmen konzentrieren sich normalerweise auf
Anforderungen an die Infrastruktur. Dennoch ist es die erste und dritte Ebene, ohne ihre Anforderungen
sinnvoll, sich anzuschauen, welche Entscheidungen bezüglich der zweiten Ebene zu ermitteln. Wie wir
andere Unternehmen getroffen haben, um die jedoch erläutert haben, spielt diese zweite Ebene
architektonische Lücke zwischen Labor- und eine wesentliche Rolle, um sowohl mit einer Labor-
Fabrikumgebungen zu schließen. als auch einer Fabrikumgebung arbeiten zu können.
Es ist vor allem wichtig, Ihre technologischen In der folgenden Referenzarchitektur sind diese
Anforderungen im Kontext von drei wesentlichen Ebenen sowie Beispiele für Tools und Funktionen
Ebenen zu betrachten: dargestellt, die Sie in Betracht ziehen sollten.
Verwenden Sie diese als Basis zur Ermittlung Ihrer
1. Die Visualisierungs- und Analyse-Ebene konkreten Infrastrukturanforderungen für eine
Big-Data-Plattform.
2. Die Big-Data-Management-Ebene (einschließlich
Big-Data-Integration, Governance und -Sicherheit)
3. Die Datenspeicher-Persistenzebene
Big-Data-Referenzarchitektur
OLTP/OLAP Kundenbindung
Big-Data-Management
Integration von Big Data Big Data Governance Big-Data-Sicherheit
Unstrukturierte
Betrugserkennung
Daten • Hochperformante • Datenqualität und Self- • 360-Grad-Ansicht
Dateneinspeisung Service-Funktionen zur sensibler Daten
Datenvorbereitung
• Skalierbare und • Risikoanalyse sensibler
optimierte Verarbeitung • Durchgängig Daten
Maschinen-/ transparente Effizienz von
• Flexible Bereitstellung • Richtlinienbasierter
Sensordaten Datenherkunft
Schutz sensibler Daten Kampagnen
• Datenabgleich und
Erkennung von
Beziehungen
Vorbeugende
Soziale Medien
Wartung
Unternehmensinformationskatalog
Ortsabhängige
Externe Quellen Speicherung und Verarbeitung von Big Data Services
*Massive Parallelverarbeitung
Eine Referenzarchitektur
für Big-Data-Management.
Beim folgenden Diagramm handelt es sich um eine Big Data Analytics
konzeptionelle Darstellung, welche die verschiedenen
Prozesse im Rahmen einer Big-Data-Infrastruktur
wiedergibt.
Big-Data-Management
Quelldaten werden in den Landing-Bereich eingespeist.
Umwandlungsverfahren werden angewendet, um Integration von Big Data Big Data Governance Big-Data-Sicherheit
die Daten auf die explorative Analyse vorzubereiten.
Zur Nutzung der Daten werden diese mithilfe von
automatisierten Workflows gepflegt. Umsetzung und
Suche von und Experimentieren und
Monetarisierung
Zugriff auf Daten Einblicke gewinnen
Dadurch erhalten Datenexperten und Analysten von Daten
im Labor schnell Zugriff auf die Daten, die sie für
ihre Experimente und Datenanalysen benötigen.
Dateningenieure setzen diese Analysen mithilfe Labor Fabrik
automatisierter Workflows um und stellen
so zuverlässige Informationen bereit. Diese
Daten können dann zur Monetarisierung von
Datenbeständen verwendet werden. Landing-Bereich Erkennungsbereich Nutzungsbereich
Abfragen,
Erneuern, Investieren.
Die Begriffe „Innovation“ und „Big Data“ sind Wir hoffen, dass Sie von den hier präsentierten
weit mehr als nur Schlagwörter. Sie sind wichtige Erfahrungen und Anleitungen gelernt haben, dass
Bestandteile einer Unternehmensstrategie, die auf intelligente Entscheidungen zur Architektur und
schnelles und nachhaltiges Wachstum ausgerichtet ist. Infrastruktur Ihrer Umgebung dazu beitragen können,
das Risiko experimenteller Versuche zu verringern und
Innovative Unternehmen müssen ein Klima der gleichzeitig die Produktionsprozesse zu optimieren.
Experimentierfreude schaffen, in dem Analysten
und Wissenschaftler Neues testen können, ohne die Die entscheidende Verbindungsstelle zwischen
Begleitschäden gescheiterter Experimente ausbaden Speicherung und Analyse ist jedoch die Ebene
zu müssen. Die gute Nachricht: Kosteneffektive und des Big-Data-Managements.
skalierbare Speicher- und Verarbeitungskapazitäten
konnten die Kluft zwischen Idee und Umsetzung Nur wenn alle drei Säulen des Big-Data-Managements,
verkleinern. nämlich Integration, Governance und Sicherheit,
implementiert sind, ist es möglich, nicht nur die
Big-Data-Labore, die nicht in der Lage sind, innovative Entwicklungs- und Produktionsprozesse der IT
Lösungen rasch in einer produktionstauglichen zu optimieren, sondern gleichzeitig den besten
Fabrikumgebung zu implementieren, sind noch Wissenschaftlern und Analysten eine Lizenz für
nicht ausgegoren. Und Infrastrukturen für die Innovationen bereitzustellen.
Datenverwaltung, die Analysten keine Self-Service-
Autonomie für Experimente ermöglichen, sind
ebenfalls nicht ausgereift.
Informationen
zu Informatica
1. Medium, The story of AWS and Andy Jassy’s 7. CIO Journal, WSJ, GM grapples with big data,
Trillion Dollar Baby cyber security in vehicle broadband connections
2. Wall Street Journal, Visa says big data identifies 8. Forbes, How big data is changing the insurance
billions of dollars in fraud industry forever
3. ComputerWeekly.com, GE uses big data to 9. EMC InFocus, It’s not just big data…it’s gigantic
power machine services business data: A Telecoms Case Study
4. Datafloq, T-Mobile USA cuts down churn rate 10. TDWI Best Practices Report, Hadoop for the
by 50% with big data Enterprise, 2015
5. Informatica, UPMC customer success story 11. TDWI Best Practices Report, Hadoop for the
Enterprise, 2015
6. Datafloq, Three use cases of how GM applies
big data to become profitable again 12. ComputerWeekly.com, ‘Spark versus
MapReduce: which way for enterprise IT?’
August 2015