You are on page 1of 2

IT-STRATEGIEN Hadoop

52 53 Business&IT 10.2014
Die ersten Tools von Hadoop waren sowohl im Ein-
satz als auch in der Handhabung sperrig. Die neue
Generation des freien Software-Frameworks
schreibt dagegen Benutzerfreundlichkeit gro und
erleichtert Unternehmen deutlich die Verarbeitung
und produktive Nutzung von Big Data.
Jrgen Urbanski
on allen IT-Innovationen der
j ngsten Zeit hat Hadoop
sicher die grten Umwlzun-
gen fr Unternehmen mit sich
gebracht. Die Lsung verspricht, die ste-
tig wachsende Datenfut zu Gewinnen
zu machen. Allein in meiner Branche
Medien und Telekommunikation er-
mglicht Hadoop eine ganze Reihe von
Analysen, die in so unterschiedlichen
Bereichen zum Einsatz kommen kn-
nen wie Netzwerkplanung, Kundenser-
vice, EDV-Sicherheit, Betrugserkennung
und zielgerichtete Werbung.
Bisher ist es vielen normalen Unter-
nehmen jedoch schwergefallen, die-
ses Datenpotenzial auch auszuschp-
fen. Viele experimentierten zunchst
mit einigen der 13 Funktionsmodule
von Apache Hadoop, einer Konstella-
tion von Technologien, fr deren Be-
herrschung Hadoop-Nutzer der ersten
Stunde darunter eBay, Facebook und
Yahoo groe Teams einsetzen und
mehrere Jahre investieren mussten.
Die zweite Generation
Die Hadoop-Technologie der ersten
Generation (1.x-) lie sich weder ein-
fach einfhren noch leicht handhaben.
Neue Nutzer hatten Schwierigkeiten,
die unterschiedlichen Komponenten ei-
nes Hadoop-Clusters zu konfgurieren.
Scheinbar geringfgige und daher leicht
bersehene Details wie Patchversionen
erwiesen sich als extrem wichtig. Das
Ergebnis war, dass das Angebot hufger
als erwartet den Dienst versagte und
V
Schneller,
hher, weiter
viele Probleme erst bei hoher Auslas-
tung zutage traten. Nach wie vor fehlt
es in Unternehmen an Kenntnissen,
obwohl fhrende Anbieter wie Hor-
tonworks gute Trainings durchfhren.
Viele dieser Lcken werden zum
Glck durch die zweite Generation von
Hadoop-Tools geschlossen, die Hor-
tonworks HDP 2.0 nennt und die beim
jngsten Hadoop Summit 2014 in Ams-
terdam (hadoopsummit.org/amsterdam/
schedule) lebhaft diskutiert wurden.
Eine der zentralen Erwartungen der
Kunden ist, dass das System gut zu
handhaben ist. Das trifft vor allem auf
die geschftskritischen Anwendungen
zu, mit denen Service-Provider zu tun
haben. Mit dem intuitiven Web-Interface
Ambari hat Hadoop hier einen groen
Schritt nach vorne gemacht. ber Am-
bari lassen sich Hadoop-Cluster sehr
viel einfacher einrichten, verwalten und
berwachen.
Ambari ermglicht eine automatisier-
te Erstinstallation ebenso wie laufende
Upgrades ohne Service-Unterbrechung,
gekoppelt mit hoher Verfgbarkeit und
der Wiederherstellung im Notfall alles
Faktoren, die fr einen effzienten IT-
Betrieb unverzichtbar sind.
Allzweckwaffe fr Big Data
Darber hinaus wchst das kosystem
unabhngiger Softwarehndler, auf das
der Vertrieb von Hadoop aufbaut. Dies
ist aus zwei Grnden wichtig: Erstens
hngt bei der Kaufentscheidung vieles
davon ab, wie sich Hadoop in die beste-
DER AUTOR
Jrgen Urbanski CEO von TechAlpha,
einer auf Big-Data-Software und -Lsungen
fokussierten Firma im Silicon Valley. Urban-
ski war bis Ende 2013 Enterprise CTO der
Deutschen Telekom. Als Cheftechnologe bei
der Telekom-Tochter T-Systems trug er Ver-
antwortung dafr, das Portfolio sowie die
Produktion von IT-Dienstleistungen durch
den Einsatz von vielversprechenden neuen
Technologien zu transformieren. Zuvor arbei-
tete Urbanski zehn Jahre im Silicon Valley,
unter anderem als Unternehmer, Berater bei
McKinsey und Leiter Produktmanagement
fr den Speicherlsungs-Anbieter NetApp.
IT-STRATEGIEN Hadoop
54 55 Business&IT 10.2014
hende IT-Umgebung integrieren lsst,
die in den meisten Fllen Business-Intel-
ligence-Lsungen und Data Warehouses
traditioneller Anbieter umfasst. Zweitens
werden dadurch Bedenken hinsichtlich
der mangelnden Kenntnisse im eigenen
Team ausgerumt.
So verfgt etwa die Deutsche Tele-
kom ber etwa 600 IT-Mitarbeiter mit
SQL-Kenntnissen. Zwar werden viele
dieser Leute jetzt noch umfassenderes
Wissen ber und mit Hadoop erlangen,
doch knnen dank der Integration auf
Produktebene, wie sie zum Beispiel
Microsoft und Teradata bieten, auch
solche Mitarbeiter Anfragen ber Ha-
doop stellen, die (noch) keine Hadoop-
Spezialisten sind.
Auch die verbesserte Sicherheit und
das optimierte Datenlebenszyklus-
Management spielen eine groe Rolle fr
Unternehmen, die eine Allzweckplatt-
form fr Big Data aufbauen mchten,
mit der unterschiedliche Abteilungen,
Anwendungen und Datenrichtlinien be-
dient werden knnen. Fr die Sicher-
heit sorgt das Knox-System, das einen
einzelnen, sicheren Zugang fr den
gesamten Apache-Hadoop-Cluster bie-
tet. Falcon steuert das Framework fr
das Datenlebenszyklus-Management
bei und zwar ber eine deklarative
Programmiersprache (hnlich XML),
mit der sich Datenbewegungen steu-
ern, Daten-Pipelines koordinieren und
Richtlinien fr den Lebenszyklus sowie
fr die Verarbeitung von Datenstzen
festlegen lassen.
Datenparkplatz ade
Der vielleicht wichtigste Punkt ist je-
doch, dass sich mit der zunehmenden
Verbreitung von Hadoop in Unter-
nehmen gezeigt hat, dass das System
vielfltige Verarbeitungsmodelle
auch jenseits der Batchverarbeitung
untersttzen muss, um typischen
Unternehmen ein breiteres Anwen-
dungsspektrum bieten zu knnen. Die
meisten Unternehmen mchten Daten
im verteilten Datensystem von Ha-
doop (Hadoop Distributed File System,
HDFS) speichern und bei gleichblei-
bendem Service-Level unterschied liche,
gleichzeitige Zugriffsmglichkeiten
haben.
Zum Umfang von Hadoop 2.0 zhlt da-
her auch das Ressourcenmanagement-
Tool Yarn, das verschiedene Anwen-
dungen voneinander trennt und neben
der einfachen Stapelverarbeitung noch
eine Vielzahl weiterer Anwendungsflle
untersttzt, darunter interaktive Verar-
beitung, Online-Verarbeitung, Streaming
und Graphenverarbeitung. So kann man
ohne bertreibung sagen, dass sich
Hadoop vom preiswerten Datenpark-
platz zu einer Plattform entwickelt hat,
die schnelle und fundierte Entscheidun-
gen untersttzt.
Ein Beispiel aus der Praxis
Ein gutes Fallbeispiel hierfr ist die fr
ihre schnurlosen Telefone bekannte
Firma Gigaset, ehemals eine Geschfts-
einheit des Siemens-Konzerns. Mit der
intelligenten Lsung fr vernetztes Woh-
nen Gigaset Elements schpft das Un-
ternehmen die Mglichkeiten moderner
Big-Data-Technologien voll aus. Mithil-
fe von Hadoop erschliet sich Gigaset
einen vllig neuen Markt, in dem zu-
knftig noch weitere Geschftsmodelle
mglich werden drften.
Elements besteht aus einem Cluster
von kleinen Sensoren, die sich schnell
und problemlos in jedem Haus anbrin-
gen lassen man befestigt sie einfach
an Tren oder Fenstern. Die ebenso ro-
busten wie kinderleicht zu bedienen-
den Elements-Sensoren berwachen
das Heim und senden die Daten ber
eine Basisstation in die Hadoop-Cloud.
Das mag relativ simpel erscheinen,
doch die verschiedenen Warnhinwei-
se, Ereignisse und Pings, die Elements
verschickt, summieren sich innerhalb
kurzer Zeit auf zehn Millionen Nach-
richten pro Tag. Allein das Traffc-
Volumen von Millionen von Tren, die
unter dem wachsamen Auge von Ele-
ments geffnet und geschlossen wer-
den, entspricht etwa dem eines Denial-
of-Service-Angriffs.
Dieses Meer an Rohdaten ist nur nach
statistischer Relevanz sortiert. Wie sie
zu interpretieren sind und welche Ent-
scheidungen sie bewirken, ist dem ein-
zelnen Kunden berlassen, der die visu-
alisierten Daten auf seinem Smartphone
oder Computer sieht. Kunden knnen
zum Beispiel externe Dienstleister wie
Rettungs- oder Sicherheitsdienste alar-
mieren.
Dieses neue, im wachsenden Inter-
net der Dinge verwurzelte Echtzeit-
Informationssystem fr Verbraucher ist
Lichtjahre entfernt vom traditionellen
Endgerte-Geschft.
Ausblick
Soweit die Geschichte eines Unterneh-
mens, das mit Hadoop einen Sprung
nach vorne macht. Doch wann folgen
andere diesem Beispiel? Meine Vo-
raussage ist, dass bis 2015 mehr als die
Hlfte der 2 000 weltweit grten Un-
ternehmen Hadoop einsetzen und pro-
duktiv nutzen werden. Ich gehe auch
davon aus, dass wir in fnf Jahren in
vielen Branchen eine deutlich hhere
Rentabilitt sehen werden. Unterneh-
men, die voll auf Hadoop setzen, haben
dabei die Nase vorn. [ rm ]
Was ist Hadoop?
Apache Hadoop ist ein freies, in Java geschriebenes Framework fr skalier-
bare, verteilt arbeitende Software. Es basiert auf dem bekannten MapReduce-
Algorithmus von Google Inc. sowie auf Vorschlgen des Google-Dateisystems
und ermglicht es, intensive Rechenprozesse mit groen Datenmengen (Big
Data, Petabyte-Bereich) auf Computerclustern durchzufhren. Hadoop wurde ur-
sprnglich durch den Lucene-Ernder Doug Cutting initiiert. Am 23. Januar 2008
wurde es zum Top-Level-Projekt der Apache Software Foundation. Nutzer sind
unter anderem Facebook, a9.com, AOL, Baidu, IBM, Imageshack und Yahoo!.
[ Quelle: Wikipedia ]
Von der verbesserten Sicherheit und dem
optimierten Datenlebenszyklus-Manage-
ment der neuen Hadoop-Generation pro-
tieren Unternehmen, die eine Allzweck-
plattform fr Big Data aufbauen mchten.