Sie sind auf Seite 1von 107

BESTOF

www.bigdata-insider.de
BEST OF
MANAGEMENT & STRATEGIE

Graphdatenbanken helfen bei der biomedizinischen Forschung.................................................................................. 3


Innovationszentren für IoT- Projekte und IoT-Start-ups........................................................................................................... 8
Datenanalyse muss Chefsache werden.............................................................................................................................................11
Effektivität durch Data Analytics? Fehlanzeige!.............................................................................................................................. 15
Vier Monetarisierungs-Strategien für das IoT im Vergleich...............................................................................................19
„Derzeit ist der KI-Einsatz in der Personalwirtschaft kaum sinnvoll“.........................................................................24
Wie man die Zuverlässigkeit eines Anbieters beurteilt..........................................................................................................29
Wie das IoT dem Datenschutz helfen kann.....................................................................................................................................33
KI-Engines im Bündel mit Hardware.......................................................................................................................................................39
Ist Europa tatsächlich das KI-Schlusslicht?.....................................................................................................................................45
Data Science für den Mittelstand am Beispiel einer Umsatzprognose.................................................................49

TECHNOLOGIE & ZUKUNFT

KI braucht neue Prozessoren.......................................................................................................................................................................56


Datenbasis für das IoT-Zeitalter..................................................................................................................................................................60
Die Ereigniszeitanalyse ......................................................................................................................................................................................64
Datenaufbereitung ist ein unterschätzter Prozess...................................................................................................................69
Preventive Maintenance – Fehlerprognose mit Machine Learning...........................................................................76
So deckt der Local Outlier Factor Anomalien auf......................................................................................................................81
Mit diesen DSGVO-Tools helfen die Aufsichtsbehörden....................................................................................................85
Digitalisierung für mehr Qualität und Service im Schienengüterverkehr.............................................................89
Datenströme analysieren mit SAMOA.................................................................................................................................................94
Stateful Stream Processing mit Apache Flink...............................................................................................................................98
So wird Künstliche Intelligenz vertrauenswürdig......................................................................................................................103

IMPRESSUM Inhaltlich Verantwortliche gemäß § 55 Absatz 2 RStV:


Vogel IT-Medien GmbH Nico Litzel, Florian Karlstetter, Ulrike Ostler, Stephan Augsten, Andreas Donner, Peter Schmitz, Dr. Jürgen Ehneß
Max-Josef-Metzger-Straße 21 (Anschrift siehe Verlag)
86157 Augsburg
Tel.: +49 (0) 821-2177-0 Vogel IT-Medien
Fax: +49 (0) 821-2177-150 Die Vogel IT-Medien GmbH, Augsburg, ist eine 100prozentige Tochtergesellschaft der Vogel Communications Group, Würzburg.
Email: zentrale@vogel-it.de Seit 1991 gibt der Verlag Fachmedien für Entscheider heraus, die mit der Produktion, der Beschaffung oder dem Einsatz von In-
Internet: www.vogel-it.de formationstechnologie beruflich befasst sind. Dabei bietet er neben Print- und Online-Medien auch ein breites Veranstaltungs-
portfolio an. Die wichtigsten Angebote des Verlages sind: IT-BUSINESS, eGovernment Computing, BigData-Insider, CloudCom-
Handelsregister Augsburg puting-Insider, DataCenter-Insider, Dev-Insider, IP-Insider, Security-Insider, Storage-Insider.
HRB 1 19 43
Umsatzsteueridentifikationsnummer: Vogel Communications Group
DE 127502716 Das Fachmedienhaus Vogel Communications Group ist einer der führenden deutschen Fachinformationsanbieter mit rund 100
Fachzeitschriften und 60 Webseiten sowie zahlreichen internationalen Aktivitäten. Hauptsitz ist Würzburg. Die Print- und Online-
Geschäftsführer: Werner Nieberle Medien bedienen vor allem die Branchen Industrie, Automobil, Informationstechnologie und Recht/Wirtschaft/Steuern.
BESTOF BigData-Insider.de

Neo4j in der Forschung

Graphdatenbanken helfen bei der


biomedizinischen Forschung
Relationale Datenbanken stoßen in vielen Anwendungsbe-
reichen an ihre Leistungsgrenzen. Einer davon ist die bio-
medizinische Forschung. Neuere Ansätze wie Graphdaten-
banken können helfen, neue Zusammenhänge in höchst
heterogenen Datenbeständen zu entdecken.
„In der Biologie hängt alles mit allem zusammen“, sagt Dr. Mar-
tin Preusse. Der Wissenschaftler, der bei der Helmholtz-Gesell-
schaft im Bereich Computational Biology promoviert hat, ist der-
zeit dabei das Start-up Knowing Health aus der Taufe zu heben.
Das Ziel: Eine Software, die der biomedizinischen Forschung
hilft, mit neuartigen Software-Hilfsmitteln – wie dem Graph-
modell einer Zelle – effektiver zu forschen und so neue, bisher
unerreichbare Erkenntnisse zu erarbeiten. Knowing Health be-
dient sich dabei seinerseits einer Lösung, die sich grundlegend
von relationalen Datenbanken unterscheidet: der Graph-Daten-
bank von Neo4j.
Neo4j heißt wie die gleichnamige Open-Source-Datenbank und
ist etwa zehn Jahre alt. Die Firma wurde in Schweden gegrün-
det und beschäftigt heute 2.500 Mitarbeiter. Die Entwicklung
befindet sich noch immer im schwedischen Malmö, die Zent-
rale ist inzwischen nach San Francisco umgesiedelt. Der Fokus
des Unternehmens liegt darin, die mathematische Graphtheo-
rie in ein marktfähiges Non-SQL-Datenbankprodukt mit Open-
Source-Kern sowie Erweiterungslösungen und

Dieses von Knowing Health


mit Neo4j entwickeltes
Graphmodell der Zelle wird
(Bild: DZD/Knowing Health/Neo4j

vom Deutschen Zentrum für


Diabetes für seine Forschung
genutzt.

SEITE 3
BESTOF BigData-Insider.de

entsprechendes Consulting für die Entwicklung von Anwendun-


gen umzusetzen.
Hintergrund dieser Idee ist die Erkenntnis, dass sich große und
sehr unterschiedliche Datenbestände mit dem bisher dominie-
renden, relationalen Datenbankmodell nur mit unverhältnismä-
ßig hohem Aufwand verknüpfen lassen und dass deshalb wohl
viele interessante Zusammenhänge unentdeckt bleiben.

Zusammenhänge erkennen
Auch auf den ersten Blick unauffällige Verkettungen über meh-
rere Knoten hinweg lassen sich erkennen, wenn sie sich häufen.
So etwas tritt etwa auf, wenn jemand versucht, Geld zu waschen,
indem es über mehrere Zwischenakteure geleitet wird, um seine
wahre Herkunft zu verschleiern. Deshalb verwenden inzwischen
viele Firmen aus der Finanzindustrie die Graphdatenbank von
Neo4j für die Betrugsdetektion. Auch bei der Analyse der Pa-
nama und Paradise Papers und der darin offengelegten großen
Transaktionen und Konstruktionen außerhalb oder am Rand der
Legalität war Neo4j mit von der Partie: Das Internationale Zen-
trum für Investigativen Journalismus (ICIJ) setzte die Software
ein, um die Materialkonvolute zu durchleuchten.
„Relationale Datenbanken sind für die heutigen Datenmassen
bei manchen Anwendungen einfach nicht optimal geeignet,
das gilt auch für viele Bereiche der Medizin“, sagt Bruno Unger-
mann, bei Neo4j für den Vertrieb im deutschsprachigen Raum
zuständig. Bei Graphdatenbanken werden Prozesse und Zusam-
menhänge in Form von Knoten, Kanten und Attributen darge-
stellt. Oft ist es zudem weit anschaulicher als übliche Prozessdia-
gramme, solche Darstellungen in Form farbfreudiger Grafiken
zu visualisieren, bei denen jeder Knoten ein bunter Punkt und
jede Kante anklickbar ist und dann weitere Tiefendimensionen
oder zusätzliche Attribute enthüllt. „Das entspricht der Art, wie
die meisten Menschen komplexe Vorgänge zu erklären und zu
verstehen versuchen: Wir fangen an, Bilder zu zeichnen, bei de-
nen Punkte, die etwas repräsentieren, durch Pfeile oder Striche
miteinander verbunden werden, um Zusammenhänge darzustel-
len“, sagt Ungermann.

Gesucht: neue Therapien und Präventionsmaßnahmen


gegen Diabetes
In der medizinischen Forschung fallen besonders viele und be-
sonders heterogene Daten an. Bei der Suche nach neuen Thera- SEITE 4
BESTOF BigData-Insider.de

pien oder Vorbeugungsmaßnahmen für Krankheiten und bei


der Ursachenforschung verwendet man heute, neben der schon
immer üblichen Beobachtung der Patienten, etwa Laborunter-
suchungen, bildgebende Verfahren, Befragungen, Stoffwech-
selanalysen, Tiermodelle und genetische Analysen. Gerade der
Bereich der genetischen Analysen wächst exponentiell: Neben
der Genanalyse ist die Analyse der Gentranskription (also der
Umsetzung genetischer Informationen in entsprechende Enzy-
me etc.) in den Fokus getreten. Seit Neuestem gewinnt die Erfor-
schung des Einflusses der Umwelt oder des Verhaltens des jewei-
ligen Genträgers auf die Transkription des Genbestands sowie
gegebenenfalls dadurch verursachte Veränderungen bei seinen
Nachfahren, die sogenannte Epigenetik, an Bedeutung. Dazu
muss die explosiv wachsende Fachliteratur durchforstet werden.
Das 2009 gegründete Deutsche Zentrum für Diabetesforschung
(DZD) setzt dafür nun auf Neo4j. Das hauptsächlich vom Bun-
desministerium für Bildung und Forschung finanzierte Zentrum,
das mit diversen Universitäten und anderen auf wichtige Volks-
krankheiten wie Alzheimer spezialisierten Forschungseinrich-
tungen vernetzt ist, baut damit ein standortübergreifendes Da-
ten- und Wissensmanagement auf.

Ziel: optimierte Behandlungsmethoden und weniger Spät-


folgen
Weltweit erkranken immer mehr Menschen an Diabetes – in
Deutschland sind es derzeit sieben Millionen Menschen und
noch einmal dieselbe Menge, die erkrankt sind, es aber nicht wis-
sen. Die Erkrankungsrate droht wegen des demografischen Wan-
dels in der der Bevölkerung anzusteigen. Die Diabeteskosten in
Deutschland liegen schon heute bei 16 Milliarden Euro jährlich.
Daher sucht man dringend bessere Präventionsmaßnahmen und
auf spezifische Patientengruppen optimierte Behandlungsme-
thoden, um die Erkrankung und ihre unangenehmen Spätfolgen
einzudämmen. So gehen rund ein Drittel der Erblindungen und
Herzinfarkte auf Diabetes zurück.
„Wir haben am Helmholtz-Zentrum in München gesehen, wie
dort mithilfe von Neo4j DNA-Sequenzdaten mit Daten aus der
systematischen Erfassung von Stoffwechselprodukten (Meta-
bolomics-Daten) zusammengeführt werden, um Abfragen auf
diesen Datenbestand durchzuführen“, erklärt Dr. Alexander Ja-
rasch, Leiter Bioinformatik und Datenmanagement beim DZD.
Das wirkte so vielversprechend, dass auch Jarasch begann, mit SEITE 5
BESTOF BigData-Insider.de

Neo4j zu experimentieren und sich überzeugen ließ. Entstanden


ist inzwischen die Graphdatenbank DZDconnect. In sie fließen
standardisierte, normalisierte Metadaten aus unterschiedlichen
Datenquellen ein, die dann in das Graphmodell eingebracht wer-
den. Die Graphdatenbank liegt als zusätzliche Schicht über den
relationalen Datenbanken und verbindet sie.
Diese Vorgehensweise hilft beispielsweise, um an Tiermodel-
len gewonnene Daten zu mit Diabetes verknüpften Genen und
Stoffwechselprodukten mit den entsprechenden Daten aus der
humanen Forschung zu verbinden. In diese Forschung sind bei-
spielsweise allein Stoffwechseldaten aus 15 bis 20 Quellen ein-
geflossen, dazu weitere Daten aus der Genomforschung und an-
deren Bereichen. Das entstandene Modell umfasst mittlerweile
Hunderttausende Relationen. Die Attribute aller Knoten und Re-
lationen lassen sich anklicken, wodurch man auf tiefere Ebenen
des Modells gerät. Und das ist nur einer von vielen Anwendungs-
fällen, an denen das DZD tüftelt.

Know-how ist unabdingbar


Allerdings erfordern Aufbau und Nutzung eines solchen Modells
ausgefeilten Fachverstand und informationstechnisches Wissen,
auch wenn man nicht SQL beherrschen muss. Nur so lässt sich
einschätzen, welche Daten, miteinander in Verbindung gebracht
werden sollten, welche Datensammlungen dafür sinnvolle Quel-
len wären oder welche Fragestellungen neue Erkenntnisse brin-
gen könnten. Die Anfragen erfordern heute noch eine gewisse
Formalisierung, doch perspektivisch soll es möglich sein, sie in
natürlicher Sprache zu stellen, zum Beispiel: „Welche bei Versu-
chen mit dem Tiermodell Maus gefundenen Stoffwechselproduk-
te lassen sich für die Erforschung des Diabetes beim Menschen
verwenden?“
Die Erkenntnismöglichkeit steigt auch bei Neo4j-Graphdaten-
banken mit der Menge der verfügbaren Daten. Doch oft setzen
Ethikkommission und Datenschutz der wissenschaftlichen
Neugier enge Grenzen. Auch dass viele Akteure, beispielsweise
Pharmaunternehmen, nur ungern bereit sind, ihre Daten zu tei-
len, kann den den Fortschritt teilweise hemmen.
Natürlich hat auch die Graph-Technik selbst Grenzen, auch wenn
Neo4j nahezu unbegrenzt skalierbar ist. So spuckt die Daten-
bank keine neuen Therapien aus. Vielmehr liefert sie Hinweise
auf bisher verborgene Interdependenzen, die dann in der wei- SEITE 6
BESTOF BigData-Insider.de

teren Forschung verwendet werden können, um tatsächlich


wirksame Präventions- und Therapiemethoden zu finden. Ein
Beispiel ist die Verbindung zwischen einer Fettleber ohne Alko-
holmissbrauch und dem Ausbruch einer Diabeteserkrankung.
Sie wird gerade erforscht – unter anderem mit Neo4j. „Es könnte
sein, dass wir daraus einen neuen Indikator für eine Diabetes-
Erkrankung neben den heute gebräuchlichen Blutwerten gewin-
nen“, sagt Jarasch.
 ★ Ariane Rüdiger

SEITE 7
BESTOF BigData-Insider.de

IoT Hubs in Deutschland

Innovationszentren für IoT- Pro-


jekte und IoT-Start-ups
Spezielle Hubs für das Internet of Things (IoT) gibt es an
mehreren Standorten in Deutschland. Nicht nur Start-ups
und junge Unternehmen finden hier Unterstützung auf ih-
rem Weg im Internet der Dinge. Auch traditionsreiche Un-
ternehmen können hier einen besonderen Zugang ins IoT
finden.
Das Internet of Things (IoT) gilt als sehr Erfolg versprechend für
Unternehmen. Kaum eine Branche soll nicht davon profitieren
können, IoT-Lösungen zu nutzen oder selbst IoT-Services anzu-
bieten. Mit guten Ideen für ein neues Geschäftsmodell, dem not-
wendigen Wissen über IoT, den richtigen Plattformen und Apps
und einem passenden Security-Konzept können nicht nur Start-
ups ein IoT-Business begründen, jedes Unternehmen scheint die-
sen Weg ins Internet der Dinge beschreiten zu können.
Doch während man Ideen für Geschäftsmodelle, die Software
und Hardware sowie die erforderlichen Security-Lösungen über-
all in Deutschland finden kann, ist das notwendige IoT-Know-
how eher ungleich über die deutschen Lande verteilt. Tatsäch-
lich ist es aber nicht nur der Fachkräftemangel, der bestimmte
Standorte eher geeignet erscheinen lässt, wenn man in das IoT-
Geschäft einsteigen möchte.
Das Internet der Dinge braucht die richtige Infrastruktur, neben
leistungsstarken Online-Verbindungen auch die Nähe zu Edge-
Service- bzw. Cloud-Service-Providern, schließlich kann man
nicht die ganze IoT-Infrastruktur selbst aufbauen. Neben der
digitalen Infrastruktur muss auch die finanzielle Infrastruktur
stimmen, staatliche Fördermittel und Investoren also.

Die Digital Hubs sind über


Deutschland verteilt. Im Be-
reich IoT findet man jedoch
einen Schwerpunkt in Berlin.
Bild: Bitkom

SEITE 8
BESTOF BigData-Insider.de

Beispiel: IoT-Hub Berlin


Standorte wie Berlin haben Vorteile, wenn ein IoT-Projekt geplant
wird oder ein IoT-Start-up gegründet werden soll. „Berlin positio-
niert sich als Deutschlands IoT-Hub“, so die Technologiestiftung
Berlin. Fast die Hälfte aller IoT-Anbieter hat demnach ihren Fir-
mensitz in Berlin.
Die Berliner IoT-Unternehmen beschäftigen sich stärker als der
Bundesdurchschnitt mit besonders perspektivreichen Techno-
logiefeldern, in denen in den nächsten Jahren eine wachsende
Wertschöpfung erwartet wird, erklärt die Stiftung. Die Entwick-
lung vollzieht sich in Berlin vor allem in jungen Start-ups, die
durch eine gute Infrastruktur von Acceleratoren, Inkubatoren
und Venture-Capital-Gebern unterstützt werden.
Harald Zapp, Gründer und CEO des auf IoT spezialisierten Inves-
tors The Next Big Thing, erklärt: „Damit das Internet der Dinge
in Deutschland seine vollen Möglichkeiten entfalten kann, brau-
chen wir die Voraussetzungen, tatsächlich alles mit allem zu ver-
netzen – vor allem Talente. Der Breitbandausbau ist in diesem
Zusammenhang wichtig, aber zum Ausbau eines IoT-Ökosystems
ist mehr nötig.“
Zapp nennt den weiteren Ausbau der IoT Hubs in Deutschland, die
richtigen politischen Rahmenbedingungen, die Datensicherheit
und gezielte Investitionen in digitale Innovationslandschaften.

Das Konzept der Digital Hubs


Im April 2017 hatte die Hub Agency als zentrale Geschäftsstelle
zur Vernetzung von bundesweit zwölf „Digital Hubs“ ihre Arbeit
aufgenommen. Ziel der vom Bitkom mitinitiierten Digital Hub In-
itiative ist es, dass Großunternehmen, Mittelständler und Start-
ups gemeinsam mit Wissenschaftlern und Investoren die digi-
tale Transformation der deutschen Leitindustrien vorantreiben.
Inzwischen bringen die Digital Hubs mehr als 350 Start-ups, 150
Unternehmen und 45 Hochschulen zusammen.

Zentraler Bestandteil der Hubs ist ein physischer Ort, der Inno-
vations- und Entwicklungsabteilungen mit Start-ups und Wis-
senschaftlern zusammenbringen soll. So wurden in einzelnen
Hubs Teams von Mitarbeitern aus verschiedenen Unternehmen
gebildet, um Prototypen für Produkte zu entwickeln. In ande-
ren Hubs haben sich erfolgreiche Start-ups angesiedelt, oder es
entstanden Co-Working- und Maker-Spaces, in denen junge Un- SEITE 9
BESTOF BigData-Insider.de

ternehmen loslegen und sich mit Vertretern von etablierten Un-


ternehmen austauschen können. In Berlin sind die Digital Hubs
für Internet of Things und FinTech.

IoT Hubs jenseits von Berlin


Doch man muss nicht immer nach Berlin, wenn man Impulse
und Unterstützung für IoT-Projekte sucht. Für die Studienreihe
„Datenland Deutschland“ hatte sich Deloitte die deutschen Tech-
Hubs genauer angesehen [PDF]. Dabei geht es neben dem Status
quo auch um das Potenzial der 50 größten Metropolregionen, um
sich künftig als Tech-Standort zu behaupten. Beim Statusindex
liegt der Fokus darauf, welches die aktuell führenden deutschen
Digitalstandorte sind. Die Idee hinter dem Statusindex ist, dass
Städte digital umso wettbewerbsfähiger sind, je stärker die IKT-
Industrie (Informations- und Kommunikationstechnik) als Trei-
ber der Digitalisierung vertreten ist, wie viele Technologie-Jobs
außerhalb der IKT-Industrie an einem Ort angesiedelt sind und
wie dynamisch die Beschäftigungsentwicklung in diesen beiden
Bereichen ist.
Der Potenzialindex zielt dagegen darauf ab, welche Zukunfts-
aussichten die deutschen Tech-Hubs haben. Ein wichtiger Indi-
kator ist hier die Ausbildung. Der mit Abstand wichtigste deut-
sche Tech-Hub ist die Metropolregion München. Sie belegt in 11
der 15 Indikatoren den ersten oder zweiten Platz und führt damit
sowohl im Status- wie im Potenzialindex.
Im Bereich IoT findet man im Raum München so einiges, von Ac-
centure das Garching IIoT Innovation Center, zudem gibt es das
IoT & AI Insider Lab in München und nicht zu vergessen das IBM
Watson IoT Center. Auch Großunternehmen nutzen solche IoT
Hubs: Die Deutsche Telekom zum Beispiel eröffnete einen Tele-
kom IoT Innovationsraum im IBM Watson IoT Center in München.
Neben München und Berlin finden sich auch IoT-Zentren zum
Beispiel in Dortmund (Telekom Open IoT Labs, IoT-Lab bei Ades-
so) und in Dresden (Smart Systems Hub).
Für Start-ups und für bestehende Unternehmen lohnt es sich, mit
solchen IoT-Hubs in Kontakt zu treten, um den Standortvorteil
der Konzentration von IoT-Expertise zu nutzen. Für die Politik
und die Verbände erscheint es empfehlenswert, solche Initiati-
ven weiter zu stärken und auszubauen. IoT braucht die richtige
Infrastruktur, neben Breitband gehören ganz sicher solche IoT-
Hubs dazu.
 ★ Oliver Schonschek SEITE 10
BESTOF BigData-Insider.de

Kommentar von Tom Becker, Alteryx

Datenanalyse muss Chefsache


werden
Drei von vier Chefs sagen, dass sie ohne einen Data Scien-
tist die Ergebnisse von Big Data nicht verstehen. Das fand
eine weltweite Umfrage von Vanson Bourne unter mehr als
eintausend IT-Führungskräften heraus. „Verschwendetes
Potenzial!“ mag so manch einer denken. Aber Hand aufs
Herz: In welchem Unternehmen ist Datenanalyse wirklich
Chefsache? Höchste Zeit für ein Plädoyer für den Ausbau
der Kompetenzen in Sachen Datenanalyse.
Im täglichen Kampf um Marktanteile und neue Geschäftsmodel-
le kommen Unternehmen nicht mehr drum herum: Big Data und
Datenanalyse entwickeln sich immer mehr zu einer tragenden
Säule im Tagesgeschäft – und gleichzeitig auch zu einem Nadel-
öhr in der Chefetage. Eine Umfrage des Marktforschungsinstituts
Vanson Bourne untersuchte, wie es um Data-Science-Fähigkeiten
von Geschäftsführern steht und fand heraus: Nur ein Viertel der
Chefs verstehen ohne die Hilfe von Data Scientists ihre eigenen
Daten. Die Marktforscher befragten mehr als eintausend IT-Füh-
rungskräfte sowie Tech-Manager von 260 globalen Unternehmen
im privaten und öffentlichen Sektor.
Die Ergebnisse sind relativ ernüchternd: 74 Prozent der Befrag-
ten gaben an, dass das Thema in ihrem eigenen Unternehmen
hochkomplex ist und eines der größten Probleme, dass nicht alle
Mitarbeiter Datenanalyse verstehen (42 Prozent).
Weiterhin brauchen knapp 80 Prozent einfach bessere und va

Der Autor: Tom Becker


ist General Manager
Central & Eastern
Europe bei Alteryx
Bild: Alteryx

SEITE 11
BESTOF BigData-Insider.de

lidierte Daten, um arbeiten zu können. Das zeigt die große Bau-


stelle, die Big Data und Datenanalyse für viele Unternehmen
noch bedeutet.

Datenanalyse ist vor allem Chefsache


Wie so oft kommt es auf Vorbilder an. Wenn der Chef oder die
Chefin Datenanalyse nicht verstehen, hemmt das die Mitarbeiter
ebenfalls und macht die Führungsriege im schlimmsten Fall ab-
hängig von anderen – obwohl sie ja die Verantwortung tragen.
Vielen Verantwortlichen erscheint das große Thema Big Data
wie ein Buch mit sieben Siegeln: Einerseits weil die Technologie
erst in den letzten Jahren ihren Platz in Unternehmen gefunden
hat, andererseits weil sich der Mythos ausdauernd hält, dass Da-
tenanalyse nur etwas für Coding-Gurus und Daten-Zauberer ist.
Tief innen wissen sie aber: Die besten und wertvollsten Daten-
sätze nutzen leider niemandem etwas, wenn sie nicht ausgewer-
tet werden können. Hierzu braucht man vor allem technisches
Know-how, sollte sich mit Wahrscheinlichkeiten und Algorith-
men auskennen und ebenso verständliche Grafiken erstellen
können. Das sind recht viele verschiedene Kompetenzen auf ein-
mal vereint, doch lohnt es sich, den langen Weg zum Datenex-
perten zu beschreiten – vor allem als Führungskraft.
Mal angenommen, ein Manager hätte nie zuvor mit Tabellen-
kalkulation gearbeitet und soll dann nach einem 45-minütigen
Meeting die Umsatzziele oder Quartalszahlen verstehen und be-
stätigen. Zur Zeit ist dies hinsichtlich Data Science der Fall, bloß
nehmen die wenigsten das so wahr, weil Excel, Google Tables
und Co schon so fest in ihrem Arbeitsalltag integriert sind, dass
sie als selbstverständlich angesehen werden. Genau dorthin muss
Datenanalyse und der Umgang mit Big Data auch kommen. Nur
– wie schafft man das? Braucht man dafür nicht Jahre, um einen
halbwegs vernünftigen Analysebericht zusammenzubauen?

Viele kleine Schritte für den Chef, aber ein großer Schritt
für das Unternehmen
Wer sich nun denkt, dass Datenanalyse zu erlernen der Bestei-
gung des Mount Everest gleichkommt, der hat recht – ja, es ist
ein langer und beschwerlicher Weg. Aber wer auch immer den
höchsten Berg der Erde bezwungen hat, begann auch mit einem
einzigen Schritt und hat weitergemacht. Der erste und vielleicht
sogar wichtigste Schritt besteht darin, die Relevanz der Thema- SEITE 12
BESTOF BigData-Insider.de

tik zu erkennen und sie unternehmensweit auf die Agenda zu


setzen. Es muss angesprochen und kontinuierlich darauf hinge-
arbeitet werden, dass das eigene Unternehmen Datenanalyse auf
der Prioritätenliste nach ganz oben setzt.
Als nächstes kommt der Fleißteil: Data Science kann man erst
seit relativ kurzer Zeit als Studiengang belegen, wie zum Bei-
spiel als Masterkurs an der Universität Mannheim. Studierende
brauchen aber schon fundierte Kenntnisse in Statistik, Program-
miersprachen und Mathematik. Ansonsten sind formale Ausbil-
dungswege aber eher rar gesät. Der Beruf besteht ohnehin aus
interdisziplinären Fähigkeiten und Kenntnissen, weswegen er
zum Quereinstieg einlädt. Wer diese also schon vorweist, kann
sich mit Hilfe von Onlinekurse weiterbilden. Firmen wie Udacity
oder edX bieten hier verschieden herausfordernde Kurse an, um
Datenanalyse zu lernen.
Weitere Maßnahmen, um sich mit der Thematik auseinander-
zusetzen, können z. B. sein, dass Führungskräfte öfter mit dem
Data Science Team zusammenarbeiten oder sich mit Ihnen das
Büro teilen. So lernen sie automatisch schon viel über die Abläu-
fe sowie Probleme und sind gleichzeitig der beste Ansprechpart-
ner, um diese zu lösen.

Self Service – Hilfe zur Selbsthilfe


Ein weiterer wichtiger Punkt sind Self Service Tools. Diese Sparte
an Unternehmenssoftware bietet quasi Hilfe zur Selbsthilfe: Die
Software ist verständlich aufgebaut und bietet vorkonfigurierte
Analyse-Workflows, die mit ein wenig Übung den Großteil der
anfallenden Untersuchungsfälle analysieren können. Selbst ein-
fügen muss man nur noch die richtigen Daten und den Rest erle-
digt das Programm. Das kann viel Zeit sparen, denn so können
sich die Data-Science-Aspiranten wirklich auf die Auswertung
konzentrieren und müssen nicht die Materie von Grund auf neu
erlernen – frei nach dem Motto „man muss kein KFZ-Mechaniker
sein, um Auto zu fahren“.
Für alle, die mit dem Thema gerade anfangen oder wissen, dass
es dafür höchste Zeit ist: Sie müssen den Schritt wagen. Es wird
sich immens lohnen. Der Druck, fähige Data Scientists einzu-
stellen oder externe Anbieter zu beauftragen, steigt stetig und
verschärft sich in kommender Zeit sogar. Deshalb ist es wich-
tig, das Steuer selbst in die Hand zu nehmen und das zu lernen,
was die Zukunft maßgeblich mitbestimmen wird. Sonst geraten SEITE 13
BESTOF BigData-Insider.de

Geschäftsführer und Geschäftsführerinnen in unbekannte Ge-


wässer, in denen sie nicht mehr selbst der Steuermann und die
Steuerfrau ihres Unternehmens sind. Oder um es mit den Worten
des US-Physikers und Management-Vordenkers William Edward
Deming auszudrücken: „Ohne genaue Daten sind Sie nur eine
weitere Person mit einer Meinung.“
 ★ Tom Becker

SEITE 14
BESTOF BigData-Insider.de

McKinsey attestiert gravierende Schwachpunkte

Effektivität durch Data Analytics?


Fehlanzeige!
Beim Einsatz von Data Analytics kommen die Berater von
McKinsey zu einem vernichtenden Urteil: Nur acht Prozent
der Unternehmen können ihre Lösungen wirksam ska-
lieren. Laut dem Befund der Berater liegen die Probleme
nicht nur im technologischen, sondern auch im organisa-
torischen Bereich.
Die Erwartungshaltungen des Managements sind hinsichtlich
Data Analytics, so beobachteten die Berater von McKinsey, sehr
hoch gesteckt. Gleichzeitig fällt der Nutzen für die meisten Un-
ternehmen noch relativ gering aus. Das bedeutet, nur rund je-
der Zwölfte von 1.000 Managern, das sind lediglich acht Prozent,
skaliert die Data-Analytics-Maßnahmen effektiv.
In der Studie „Ten red flags signaling your analytic program will
fail“ identifiziert McKinsey die größten Fehler und Problemstel-
lungen und gibt darüber hinaus wertvolle Vorschläge, wie sie
erfolgreich gelöst werden können. CEOs, die auf die genannten
Hinweise reagieren, könnten, so versprechen es die McKinsey-
Berater, ihre Ergebnisse nur in zwei oder drei Jahren drastisch
verbessern.

Zielsetzungen und Visionen fehlen


Problem: Das Management verfügt über keine klaren Vorstellun-
gen, was Data Analytics bewirken soll. Es fehlt beispielsweise an
dem Verständnis für den Unterschied zwischen traditionel

Das Management verfügt häu-


fig über keine klaren Vorstel-
lungen, was Datenanalysen
bewirken sollen. So fehlt es
beispielsweise am Verständ-
Bild: © Bulat - stock.adobe.com

nis für den Unterschied zwi-


schen traditioneller Analytik
(Business Intelligence und Re-
porting) und fortgeschrittener
Analytik.

SEITE 15
BESTOF BigData-Insider.de

ler Analytik (Business Intelligence und Reporting) und fortge-


schrittener Analytik (leistungsfähige prädiktive und präskripti-
ve Instrumente wie zum Beispiel Machine Learning). Die Berater
von McKinsey stellten vielfach fest, dass das zusammengestellte
Analytik-Team nicht an den eigentlichen Problemen arbeitet und
zudem oft nicht in der Lage ist, die neuesten Tools und Techni-
ken einzusetzen.
Lösung: McKinsey empfiehlt die Einrichtung von Workshops für
das Führungsteam, um Missverständnisse zu beseitigen. Diese
Workshops könnten auch die Basis für spätere interne „Akade-
mien“ bilden, die unter anderem Analytik-Konzepte erarbeiten.

Wert der Use Cases wird nicht bestimmt


Problem: Das Führungsteam hat es versäumt, die Machbarkeit
genau zu bewerten oder den Geschäftswert zu berechnen, den
die definierten Use Cases letztlich generieren sollen.
Lösung: Unternehmen, die sich noch in der Anfangsphase der
Skalierung von Analytik-Anwendungsfällen befinden, empfiehlt
McKinsey drei bis fünf realisierbare Anwendungsfälle en detail
zu durchdenken, die innerhalb des ersten Jahres schnell einen
Optimalen Wert erreichen können. Dies wird nach Meinung der
Berater wichtige Impulse geben und den Einstieg in zukünftige
Analytik-Investitionen unterstützen. Dabei hilft eine Analyse der
gesamten Wertschöpfungskette des Unternehmens. Das heißt,
vom Lieferanten über den Einkauf bis hin zum After-Sales-Ser-
vice.
Für die Prüfung der Machbarkeit sollten zum Beispiel folgende
Fragen beantwortet werden: Sind die für den Anwendungsfall
benötigten Daten zugänglich und von ausreichender Qualität?
Welche spezifischen Prozessschritte müssten für einen bestimm-
ten Anwendungsfall geändert werden? Sollte sich auch das an
diesem Prozess beteiligte Team ändern? Was könnte mit minima-
ler Unterbrechung geändert werden?

Es existiert keine Strategie


Problem: Unternehmen identifizieren zwar mehrere potenzielle
Fälle, für die eine Technologie einen Mehrwert bringen würde,
aber es existiert jedoch keine Strategie, wie man mit Analytik
über diese spezifischen Situationen hinaus einen Wert schaffen
könnte. Lösung: Es sind drei entscheidende Fragen, die das Ana- SEITE 16
BESTOF BigData-Insider.de

lytik-Team den Geschäftsführern des Unternehmens stellen müs-


sen: Welche Bedrohungen stellen Technologien wie Künstliche
Intelligenz (KI) und Advanced Analytics für das Unternehmen
dar? Welche Möglichkeiten bieten solche Technologien, das Be-
standsgeschäft zu optimieren? Wie können wir Daten und Ana-
lysen nutzen, um neue Chancen für das Geschäft zu erschließen?

Zuständigkeiten nicht klar definiert


Problem: Die Funktion eines „Data Scientist“ kann viele Tätig-
keiten und Aufgaben umfassen. Laut McKinsey ist das wenigen
Führungskräften bekannt.
Lösung: Die Stellenbeschreibungen für alle Data-Analytics-
Aufgaben müssen im Detail verfasst werden. Ein unmittelbarer
nächster Schritt erfasst die Bestandsaufnahme aller Mitarbeiter
des Unternehmens, die diese Anforderungen erfüllen könnten.
Im darauffolgenden Schritt können die restlichen Stellen durch
externe Einstellungen besetzt werden.

Analytics nicht im Kerngeschäft integriert


Problem: Die Berater von McKinsey beobachteten, dass Unter-
nehmen, die Data Analytics mit nachhaltigem Erfolg einsetzen,
auch Analysefunktionen für ihr Kerngeschäft integriert haben.
Denn Unternehmen, denen es Schwierigkeiten bereitet, durch
Analytik Werte zu schaffen, neigen ebenfalls dazu, Analyse-
funktionen isoliert zu entwickeln. Das heißt, entweder zentrali-
siert, weit vom Geschäft entfernt oder in sporadischen Projekten
schlecht koordinierter Silos.
Lösung: Für breit angelegte Analytics-Initiativen eignen sich
laut McKinsey meist hybride Organisationsmodelle. Das bedeu-
tet, in den Teams sollten talentierte Profis sowohl von der Ge-
schäftsseite als auch von der Analyseseite stammen. Bei der In-
itiierung von Data Analytics könnte es nach Ansicht der Berater
auch sinnvoll sein, zentral zu arbeiten, da es einfacher ist, ein
Team zentral aufzubauen. Allmählich könne man dann, wenn
das Unternehmen leistungsfähiger wird, die zentralistische
Komponente in eine moderierende Rolle transformieren und so
den agilen Teams mehr Autonomie gewähren.

Data Cleansing wird falsch verstanden


Problem: Die McKinsey-Berater stellten fest, dass Unternehmen
das Thema Data Cleansing falsch angehen. Bis zu 70 Prozent der SEITE 17
BESTOF BigData-Insider.de

Budgets werden auf diese Weise verschwendet. Die Berater er-


kannten hierzu eine Tendenz bei Geschäftsführern, möglichst
alle verfügbaren Daten bereinigen zu wollen, bevor Analytik-
Initiativen beginnen sollten.
Lösung: Vor dem Start einer Data-Cleansing-Initiative ist zu klä-
ren, welche die wichtigsten Use Cases sind und welche Daten da-
für bereitgestellt werden müssen. Das heißt, bei der Bewertung
von Initiativen für Data Cleansing sollte nicht zuerst „in Daten
gedacht“, sondern immer dazu die wertvollsten Anwendungs-
fälle fokussiert werden. Gleichzeitig sollten die Verantwortlichen
an einer sogenannten Data-Ontologie (Inferenz- und Integritäts-
regeln für Schlussfolgerungen) und einem Stammdatenmodell
arbeiten.

Geeignete Analytics-Plattformen fehlen


Problem: McKinsey entdeckte bei den Unternehmen immer wie-
der den Irrglauben, dass ältere IT-Systeme in Data-Analytics-Ini-
tiativen erst integriert werden müssen. Ein weiterer Fehler ist der
Einsatz von Data Lakes, bevor man über die konkreten Szenarien
einer Verwendung nachdenkt. Oft entwerfen Unternehmen den
Data-Lake als eine Einheit, ohne zu verstehen, dass er in ver-
schiedene Bereiche unterteilt werden muss, um auch verschiede-
ne Arten von Anwendungsfällen anzugehen.
Lösung: Neue Datenplattformen können parallel zu Altsystemen
existieren. Entsprechende Inputs stellen sicher, dass die Daten-
aufnahme von Anwendungsfall zu Anwendungsfall aus mehre-
ren Quellen erfolgt und dass die Datenbereinigung und Analyse
auf der Plattform durchgeführt werden kann.
 ★ Otto Geißler

SEITE 18
BESTOF BigData-Insider.de

Kommentar von Nicole Segerer, Flexera

Vier Monetarisierungs-Strategien
für das IoT im Vergleich
Unternehmen fassen im IoT-Geschäft mehr und mehr Fuß.
Eine Frage rückt dabei in den Vordergrund: Wie lassen
sich IoT-Geräte und -Lösungen sinnvoll monetarisieren?
Ein Blick auf vier verbreitete Modelle gibt Orientierungs-
hilfe, welche Strategie zu welchem Produktportfolio passt.
Insbesondere für traditionelle Hersteller von reinen Hardware-
Produkten ist die digitale Transformation des Portfolios eine He-
rausforderung. Geht es darum, Konnektivität herzustellen und
Produkte mit neuen softwaregesteuerten Features auszustatten,
betreten viele Anbieter Neuland. Die Beispiele reichen vom klas-
sischen Thermostat, das mit dem IoT vernetzt heute die Tempera-
tur von Anlagen regelt, über die bedienbaren Software-Cockpits
in modernen Fahrzeugen bis hin zu Lighting-as-a-Service für die
Smart City, das Smart Home oder die Smart Factory.
Gleichzeitig verschiebt sich die Monetarisierung: Unternehmen
mit einem IoT-Geschäftsmodell erzielen in der Regel 50 Prozent
ihres Umsatzes erst nach dem eigentlichen Verkauf ihres Pro-
dukts – beispielsweise über Abonnements, zusätzliche Services,
spezielle Features oder Updates. Die richtige Monetarisierungs-
Strategie kann so schnell über Erfolg oder Misserfolg eines IoT-
Produkts entscheiden.

Die Wahl der richtigen Monetarisierung

Die Autorin:
Nicole Segerer ist Head
of IoT Deutschland,
Österreich und Schweiz
bei Flexera
Bild: Flexera

SEITE 19
BESTOF BigData-Insider.de

Welches Modell das richtige ist, hängt stark von den jeweiligen
Produkten und damit verbundenen Services ab. Der vollständi-
ge IoT-Stack umfasst IoT-Geräte, IoT-Gateways und Software zur
Verwaltung dieser Geräte, in der Cloud gesammelte Daten und
Cloud-Analytik sowie Steuerungsfunktionen, um IoT-Systeme zu
koordinieren und Einblicke zu liefern. Jede dieser Komponenten
hat das Potenzial zur Monetarisierung. Darüber hinaus lassen
sich sämtliche Services auch im Gesamtpaket als End-to-End-
Angebot anbieten. Generell finden sich vier verbreitete Moneta-
risierungsmodelle, die jedes für sich Vor- und Nachteile für IoT-
Lösungen bietet.

1. Der Klassiker: unbefristete Lizenzierung


Kunden bezahlen einmalig für ein Produkt und können dieses
anschließend so lange nutzen, wie sie wollen. Die Pflege und
Wartung der Lösung liegt dabei voll und ganz in den eigenen
Händen und wird meist über einen Wartungsvertrag abgedeckt.
Selbst wenn dieser nicht mehr fortgeführt wird, bleibt das Pro-
dukt Eigentum des Kunden und auch die Rechte für die Nutzung
der Software erlöschen nicht, wenngleich der Zugang zu neueren
Versionen und Support natürlich an einen Wartungsvertrag ge-
bunden ist. Für Unternehmenssoftware wie ERP, CRM und Da-
tenbanken war dieses unbefristete Lizenzmodell lange Zeit der
Standard.
Als Berechnungsbasis dienten Lizenzmetriken wie Named-User,
Anzahl der CPUs oder Cores. Mit Cloud Computing, SaaS-Mo-
dellen und Virtualisierung hat sich die Marktlandschaft jedoch
gründlich verändert. Damit gilt es neue Wege einzuschlagen,
um die Nutzung einer Software auf Anwenderseite zu messen
und diese auf der Anbieterseite entsprechend zu monetarisieren.

Damit verliert die unbefristete Lizenzierung jedoch nicht vollkom-


men seine Berechtigung. In einem IoT-Kontext kann dieses Modell
beispielsweise für den Verkauf von physischen Geräten, Gateways
oder auch IoT-Software genutzt werden – allerdings immer im Zu-
sammenhang mit Service-bezogenen Modellen, die auch die War-
tung und Updates für die Embedded Software auf den Geräten
oder Gateways beinhalten. Unternehmen können beispielsweise
Geräte auf Basis eines unbefristeten Modells verkaufen, und ihren
Umsatz über zusätzliche Serviceangebote wie Wartung oder Ana-
lytik steigern. SEITE 20
BESTOF BigData-Insider.de

2. Das Abonnement: „as-a-Service“


Während unbefristete Lizenzen langsam zurückgehen, hat sich
die Zahl der Abonnements in den vergangenen Jahren deutlich
gesteigert. Statt ihre Hardware zu verkaufen, bleiben Hersteller
Eigentümer und bieten den Kunden die Nutzung ihrer Geräte
sowie weiterer Services einschließlich Wartung und Support
an. Die Abonnements für as-a-Services werden in der Regel auf
Jahresbasis angeboten, die nach Ablauf erneuert werden. Beson-
derer Beliebtheit erfreuen sich die Abonnements in der Finanz-
abteilung der Hersteller, da die wiederkehrenden Umsätze der
Modelle langfristig eingeplant werden können.
Im IoT-Umfeld wird das Modell am häufigsten von Anbietern für
Cloud-Lösungen (z. B. Analytik) und Geräte- und Gateway-Her-
stellern (z. B. Add-ons) genutzt. Auch Komplettlösungen, die Ge-
räte, Software, Daten und Services beinhalten, sind im Abo-Preis
erhältlich. Ob der Service pro Nutzer oder nach anderen Metri-
ken abgerechnet wird steht den Anbietern offen. Nach Möglich-
keit sollten auch Premium-Angebote nach diesem Modell mone-
tarisiert werden.

3. Nach Nutzung: Pay-per-Use (PPU)


Das Pay-per-Use-Modell verspricht, was der Name sagt: Anwen-
der zahlen nur das, was sie auch tatsächlich brauchen, wenn sie
es brauchen. Die Nutzung wird über eine festgelegte Periode er-
fasst und anhand einer vorab vereinbarten Metrik gemessen. Für
die Überwachung wird dazu ein entsprechendes System oder
ein Prozess implementiert. Auf dieser Basis lassen sich dann
die genauen Kosten berechnen. Sie steigen oder sinken, je nach
Ressourcenauslastung. Zu den weiteren Merkmalen eines PPU-
Preismodells gehören unter anderem eine Vorabpauschale sowie
die Möglichkeit von Gebühren und Rabatten bei einer Über- oder
Unterauslastung.
Mehr noch als das Abonnementmodell spornt das nutzungsba-
sierte Modell Hersteller und Dienstleister dazu an, für Kunden
einen echten Mehrwert zu generieren und so die tatsächliche
Nutzung zu erhöhen. Der Erfolg des Modells hängt zudem stark
von der sorgfältigen Auswahl der Nutzungskennzahlen ab: Sie
müssen einfach, fair, skalierbar und messbar sein. Vor allem
aber sollten Kennzahlen gewählt werden, für die Kunden auch
gewillt sind zu zahlen.
Ein Beispiel aus der IoT-Praxis ist ein Anbieter, der Services zur
Datensicherung oder Cloud Storage nach den monatlich genutz- SEITE 21
BESTOF BigData-Insider.de

ten Terabytes an Speicherplatz berechnet. Für Medizingeräte-


hersteller ermöglicht PPU, die erbrachte Leistung eines Geräts
pro Monat in Rechnung zu stellen (z. B. je Röntgenaufnahmen,
MRTs oder durchgeführter Infusionen), statt einmalig einen Ge-
winn über den Verkauf des Systems zu erzielen. Um die richtigen
Kennzahlen zu definieren, gehen Unternehmen häufig schritt-
weise vor, wenden das Nutzungsmodell zunächst auf kleinere
Marktsegmente an und sammeln so wertvolle Erfahrungswerte.
Beweist sich das Experiment als erfolgreich, kann das Modell
auf weitere Produktbereiche ausgedehnt werden.

4. Das Ergebnis zählt: Pay-per-Outcome


Die ergebnisorientierte Monetarisierung gehört zu den neuesten
– und vielleicht auch interessantesten – Modellen für das IoT.
Hier verkaufen Anbieter weder ein Produkt noch einen Service,
sondern das erzielte Endergebnis. Sinnvoll ist dieses Modell für
Unternehmen, die den gesamten IoT-Stack für eine spezifische
Geschäftsanforderung abdecken. Damit erhält der Anbieter die
nötige Kontrolle, um auch tatsächlich ein erfolgreiches Ergebnis
präsentieren zu können.
Rolls-Royce ist der bekannteste Vertreter dieses Pay-per-Out-
come-Modells. Der Hersteller verkauft seine Triebwerke nicht
mehr, sondern stellt die absolvierten Flugstunden in Rechnung.
Kunden vermeiden so Vorlaufkosten und Wartungsverpflichtun-
gen und bezahlen das, was für sie letztendlich zählt: funktio-
nierende Triebwerke. Darüber hinaus sind die Rolls-Royce-Trieb-
werke hochentwickelte IoT-Lösungen, die dank einer Vielzahl an
Sensoren vorausschauend gewartet werden können. Dieses hohe
Maß an Hightech und Vernetzung ermöglicht es, das Produkt bis
an seine Grenzen zu optimieren und kontinuierlich Ergebnisse
zu erzielen – und abzurechnen. Ein ähnliches Konzept verfolg-
te auch der Agrar- und Chemiekonzern Monsanto und verkaufte
Saatgut in Kombination mit IoT-Sensoren, um Feldbedingungen
wie Feuchtigkeit, und Gesundheitszustand der Pflanzen überwa-
chen zu können. Das digitale Pflanzenmanagement als Service-
leistung wurde erfolgsorientiert abgerechnet, wobei die Kosten
sich prozentual am erzielten Ernteertrag ausrichteten.

Fazit
Die Wahl des richtigen Monetarisierungs-Modells hängt immer
vom Einzelfall ab. Ein abrupter Wechsel von einem zum anderen SEITE 22
BESTOF BigData-Insider.de

Modell ist dabei oft wenig förderlich. Sinnvoller ist es, zunächst
ausreichend Nutzungsdaten von Produkten und Funktionen zu
sammeln, um so die richtigen Kennzahlen und Preispunkte de-
finieren zu können. Darüber hinaus gibt es für Anbieter auch
interessante „Hybrid“-Alternativen in denen verschiedene Mo-
delle miteinander kombiniert werden. Einige Hersteller messen
beispielsweise die Nutzung und bieten Pay-for-Overage-Modell,
bei dem der Kunde eine monatliche oder jährliche Grundgebühr
zahlt und zusätzliche Kosten anfallen, wenn die Nutzung über
ein bestimmtes Limit hinausgeht.

Der Vergleich und die Bewertung der Monetarisierungsmodelle


ist ein erster wichtiger Schritt. Gelingt die Monetarisierung kön-
nen IoT-Unternehmen nicht nur ihre Gewinnmargen steigern,
sondern auch einfacher innovative Produkte einführen und ihre
Beziehung zum Kunden weiter ausbauen. 
 ★ Nicole Segerer

SEITE 23
BESTOF BigData-Insider.de

Interview mit Prof. Dr. Uwe Kanning, Hochschule


Osnabrück

„Derzeit ist der KI-Einsatz in der


Personalwirtschaft kaum sinnvoll“
Prof. Dr. Uwe Kanning, Professor für Wirtschaftspsycho-
logie an der Hochschule Osnabrück, beschäftigt sich seit
Jahren wissenschaftlich mit dem Thema Personalmanage-
ment. BigData-Insider sprach mit ihm über den Einsatz
algorithmischer Methoden im Personalmanagement und
besonders bei der Personalakquise.
BigData-Insider: Prof. Kanning, derzeit schmücken sich
immer mehr Softwaretools für den Personalbereich mit
der Behauptung, sie würden ihre Effizienz und Treffsicher-
heit durch KI steigern. Würden Sie dem aus wissenschaft-
licher Sicht zustimmen?
Kanning: Zunächst einmal habe ich keinen vollständigen Über-
blick über das, was am Markt angeboten wird, es wird ja ständig
auch Neues entwickelt. Zudem sind die Bereiche des Personal-
managements sehr vielfältig. Ich sehe den Einsatz von Algorith-
men und besonders Big Data insgesamt jedoch sehr kritisch,
wenn es um die Personalauswahl und die Messung von Eigen-
schaften geht

Prof. Dr. Uwe Kanning,


Professor für Wirtschafts-
psychologie an der
Hochschule Osnabrück
Bild: Kanning/Hochschule Osnabrück

SEITE 24
BESTOF BigData-Insider.de

Warum?
Kanning: Zunächst ist es nach bisherigem Wissen nicht so, dass
allgemeine Persönlichkeitsmerkmale unbedingt viel darüber aus-
sagen, wie erfolgreich jemand eine bestimmte Position ausfüllen
kann. Vielmehr bewegt sich die Korrelation zwischen persönlichen
Merkmalen wie Extraversion, Offenheit, Gewissenhaftigkeit und
Verträglichkeit mit dem Stellenerfolg bei sehr günstiger Betrach-
tung im Bereich zweistelliger Werte mit einer Eins davor. Ein Bei-
spiel: Eine amerikanische Meta-Studie aus dem Jahr 2011, in der
viele Einzelstudien zusammengefasst wurden ergab, dass emotio-
nale Stabilität den Berufserfolg nur zu rund zwei Prozent und Ge-
wissenhaftigkeit zu etwa fünf Prozent vorhersagen kann. Tools, die
herausfinden sollen, ob Bewerber oder Bewerberinnen bestimmte
allgemeine Persönlichkeitsmerkmale aufweisen, können also von
vorn herein nur einen sehr geringen Beitrag zur Feststellung der
beruflichen Eignung leisten.

Zu dem ganzen Feld gibt es derzeit sehr wenig Studien, die wis-
senschaftliche Qualitätskriterien erfüllen. Aber es kann natürlich
sein, dass irgendwann einmal ausreichend viele und gute Studien
entwickelt und durchgeführt werden, die etwas anderes belegen,
um diese Auffassung zu revidieren.

Sind Softwarewerkzeuge denn überhaupt in der Lage, Per-


sönlichkeitsmerkmale verlässlich festzustellen?

Kanning: Ich möchte das am Beispiel von Sprachanalyse zeigen. Es


gibt Unternehmen, die behaupten, sie könnten anhand eines belie-
bigen gesprochenen Textes von etwa einer viertel Stunde Länge
mithilfe lernfähiger KI-Algorithmen herausfinden, welche Persön-
lichkeitsmerkmale eine Person hat. Tatsächlich scheint etwas dran
zu sein, dass die Stimme es ermöglicht, mittels geeigneter Software
solche Merkmale herauszufinden, das lässt sich auch anhand von
Studien belegen. Nur hat die Sache mehrere Haken: Erstens wur-
den die Daten zu den entsprechenden Validierungsstudien des
kommerziellen Anbieters fertig an eine Hochschule zur Auswer-
tung gegeben, die Wissenschaftler dort haben sie also nicht selbst
erhoben. Allein das verletzt schon die strengen Standards seriöser
Wissenschaft. Die Teilnehmer haben einerseits Texte gesprochen,
die dann analysiert wurden und zusätzlich einen bewährten Fra-
gebogen zur Ermittlung von mehreren Persönlichkeitsmerkmalen
ausgefüllt. In der Studie, die in Buchform publiziert wurden, stellte
sich heraus, dass Fragebögen und Software Übereinstimmungen
bei der Diagnose von Persönlichkeitsmerkmalen zeigen. SEITE 25
BESTOF BigData-Insider.de

Allerdings konnte die Software nur etwas mehr als die Hälfte der
Ergebnisse der Fragebogentests liefern. Mit anderen Worten: Fra-
gebögen sind wesentlich kostengünstiger und einfacher als ein KI-
Tool, treffen aber dieselben Feststellungen, nur mit größerer Va-
lidität. Die KI-Kunden sollen also für schlechtere Prognosen mit
einem umständlicheren Werkzeug mehr Geld bezahlen. Zudem ge-
nießen Big-Data-Methoden bei Bewerbern derzeit keinen beson-
ders guten Ruf.
Gibt es weitere Beispiele?
Kanning: Ja, andere KI-Ansätze versuchen, die Bewerbungsan-
schreiben oder Motivationsschreiben zu analysieren. Das ist weit-
gehend sinnlos – man hat schließlich herausgefunden, dass mehr
als zwei Drittel der Bewerber, nämlich 67 Prozent, ihre Bewerbung
nicht mehr selbst verfassen, sondern sie aus vorformulierten Mo-
dulen im Internet zusammenklicken und nur noch ein wenig an-
passen. Oder sie bemühen gleich einen Ghostwriter.
Und weiter wird tatsächlich versucht, aus den Fotos von Gesich-
tern Persönlichkeitsmerkmale herauszufiltern. Dazu werden auch
die Forschungsbefunde von seriösen Wissenschaftlern, deren Re-
sultate eigentlich genau das Gegenteil beweisen, namentlich die
von Alexander Todorov, willkürlich uminterpretiert. Todorov hat
gezeigt, dass es sich bei Analyseergebnissen, die beispielsweise
behaupten, an den Gesichtszügen auf Fotos könne man Verbre-
cher erkennen, um Artefakte handelt. Sprich: Die Systeme wurden
schlecht trainiert. Das hindert die Anbieter solcher Technologien
nicht, wieder alte Kamellen wie die zu Recht verfemte Charakter-
analyse anhand von Schädelformen und Gesichtszügen aus der
Mottenkiste zu holen und zu verkaufen.
Warum schaffen es Anbieter, Unternehmen für solche Pro-
dukte zu begeistern?
Kanning: Das hat mehrere Gründe. Zum einen scheuen Anbieter
manchmal auch vor üble Marketing-Tricks nicht zurück. Ein An-
bieter mit der Sprachanalyse beispielsweise warb in den Medien
groß angelegt damit, dass ein namhaftes Versicherungsunterneh-
men seine Dienste nutzt. Vor kurzem stellte sich heraus, dass die-
ses Versicherungsunternehmen das Softwareunternehmen zu 70
Prozent besitzt. Es betrieb also faktisch Eigenwerbung.
Zum anderen liegt die Entscheidungskompetenz in der Personal-
auswahl, oft nicht bei diagnostisch versierten Experten, sondern
beim höheren Management oder den Fachvorgesetzten, die das
Thema naturgemäß nicht in der Tiefe durchdringen. Hinzu kommt, SEITE 26
BESTOF BigData-Insider.de

dass die jungen, gut ausgebildeten Mitarbeiter, die den aktuellen


Wissensstand von der Universität mitbringen, in den Unternehmen
aus Senioritätsgründen meist nichts zu sagen haben. Sie müssen
also schlechtere Methoden anwenden, weil die ranghöheren Mitar-
beiter länger im Unternehmen sind und die Qualität der Verfahren
schlicht nicht richtig einschätzen können. Das könnte sich ändern,
wenn die heute jüngere Generation irgendwann ins Management
vorrückt – sie verliert ja hoffentlich ihr Wissen nicht.
Wie kann man IT-Methoden sinnvoll beispielsweise bei
der Mitarbeiterakquise verwenden?
Kanning: Eine wissenschaftlich sinnvolle, aber leider dennoch in
Deutschland sehr selten eingesetzte Methode, besteht in einem
Zwei-Schritte-Verfahren vor einer persönlichen Begegnung: Als
erstes stellt man einen kurzen Fragebogen ins Internet, der für
die Stelle relevante Qualifikationsmerkmale abfragt. Zum Bei-
spiel Fremdsprachenkenntnisse, Auslandsaufenthalte, Studienab-
schlüsse und spezielle fachliche Qualifikationen, die für die Stel-
le erforderlich sind. Dafür braucht man weder einen klassischen
Lebenslauf noch ein Foto oder ein Motivationsschreiben. Diese
Fragebögen können nach festgelegten Regeln automatisch aus-
gewertet werden und eine erfolgversprechende Teilmenge von Be-
werbern ausfiltern.
Diese Bewerber unterzieht man im zweiten Schritt einem Intelli-
genztest am Computer, statt sie mit Fragen nach ihren Hobbies,
ihren persönlichen Stärken oder Schwächen und sonstigen für den
jeweiligen Arbeitsplatz irrelevanten Themen zu befragen. Es hat
sich nämlich erwiesen, dass das Abschneiden in einem Intelli-
genztest die spätere berufliche Leistung im Durchschnitt zu einem
Viertel, also 25 Prozent, vorhersagen kann.
Damit nicht jemand anderes den Test für den Bewerber oder die
Bewerberin ausfüllen kann, sollte man bei einem anschließen-
den Assessment Center oder sonstigen Vor-Ort-Auswahlverfahren
noch einmal einen ähnlichen Test durchführen und prüfen, ob die
Ergebnisse für die jeweilige Person kongruent sind. In den USA
werden schon relativ viele Stellen mithilfe von Intelligenztests be-
setzt, hier sind sie sehr unüblich.
Unter welchen Umständen würden Sie den Einsatz von Big
Data und KI bei der Personalauswahl empfehlen
Kanning: Derzeit fehlt es diesbezüglich an ausreichend durch va-
lide Studien gesichertem Wissen darüber, ob solche Methoden
tatsächlich Vorteile bringen. Deshalb würde ich den Einsatz der- SEITE 27
BESTOF BigData-Insider.de

zeit überhaupt nicht empfehlen. Das kann sich aber mit der Zeit
ändern. Jedes Verfahren, das man verwendet sollte einige Krite-
rien erfüllen: Es sollte wissenschaftlich nachweisbar valide bei
der Messung von Indikatoren für die berufliche Leistung sein. Be-
legt werden muss dies unabhängig von seinem Anbieter. Es muss
zweitens auch juristischen Einwänden standhalten, was bei mög-
licherweise einseitig oder mit falschem Material angelernten KI-
Algorithmen nicht der Fall sein dürfte. Es muss drittens konform
zu den Regeln des Datenschutzes sein. Letzteres ist zumindest bei
Algorithmen, die Social-Media-Accounts oder alle möglichen ver-
fügbaren Datenquellen ausforschen, zweifelhaft.
 ★ Ariane Rüdiger

SEITE 28
BESTOF BigData-Insider.de

Trust-Ratings in der Security

Wie man die Zuverlässigkeit


eines Anbieters beurteilt
Sicherheitsmängel bei Zulieferern und Dienstleistern dür-
fen Unternehmen nicht hinnehmen. Zum einen können
sich die Mängel auf die eigene Datensicherheit auswirken.
Zum anderen sieht der Datenschutz vor, dass ein Unter-
nehmen Verantwortung für Datenschutzverletzungen der
Auftragsverarbeiter übernehmen muss. Benötigt werden
Trust Ratings für die Sicherheit bei Geschäftspartnern.
Stellen Sie sich vor, Ihr Einkauf beschafft neue Hardware, die
für ein wichtiges Kundenprojekt eingesetzt werden soll. Die-
se Hardware erweist sich später als mangelhaft, die Firmware
hat Sicherheitslücken, die unerlaubte Zugriffe auf die Kunden-
daten ermöglichen könnten. Wenn die neue Hardware genutzt
wird und Daten des Kunden missbraucht werden können, wird
dies Ihrem Projekt und dem Ruf Ihres Unternehmens schaden
können, womöglich auch Ihnen, wenn Sie für die Sicherheit im
Projekt verantwortlich sind. Hätte die Stelle, die für Einkauf und
Beschaffung zuständig ist, besser aufpassen müssen? Eigentlich
schon, doch wie sollen Einkauf und Beschaffung wissen, ob eine
Hardware sicher ist oder nicht?
Auch wenn jedes Qualitätsmanagementsystem (QMS) vor-
schreibt, dass Lieferanten auditiert werden müssen und Zulie-
ferungen einen Eingangstest bestehen müssen, fehlen in vielen
Unternehmen das Know-how und die Werkzeuge, um die IT-Si-
cherheit von eingekauften Produkten und Services zu beurteilen.

© strichfiguren.de – stock.adobe.com

IT-Sicherheitsvorgaben müs-
sen als Einkaufsbedingung
und Lieferantenkriterium
branchenübergreifend und
auf ganzer Breite eingeführt
werden.

SEITE 29
BESTOF BigData-Insider.de

Der Datenschutz macht es vor


Die möglichen Folgen von IT-Sicherheitsmängeln, die bei Liefe-
ranten und Dienstleister bestehen, sind wahrlich keine Unbe-
kannten. Trotzdem werden weiterhin Bestellungen getätigt und
Aufträge vergeben, ohne einen Nachweis über die IT-Sicherheit
der Geschäftspartner, Produkte und Services zu haben.
Im Datenschutz begegnet man diesem Problem bereits seit lan-
gem durch die Klärung der Verantwortung im Fall einer Auftrags-
verarbeitung. Nicht erst seit der Datenschutz-Grundverordnung
(DSGVO / GDPR) bleibt der Auftraggeber in der Verantwortung,
wenn der beauftragte Dienstleister eine Datenschutzverletzung
im Rahmen des Auftrags begeht. Die DSGVO fordert deshalb,
dass Unternehmen nur dann einen Auftrag zur Verarbeitung
personenbezogener Daten vergeben, wenn der Datenschutz bei
dem Auftragnehmer sichergestellt ist.
Da es auch im Datenschutz nicht einfach ist, die Eigenschaften
eines Dienstleisters zuverlässig und im Vorfeld zu beurteilen,
sind Datenschutz-Zertifikate heiß begehrt, bei den Auftragge-
bern und bei den Auftragnehmern. Unabhängig davon, wie es
gegenwärtig um die Datenschutzzertifizierung nach DSGVO und
die Akkreditierung der Zertifizierungsstellen steht, das Konzept
der Verantwortung für den Datenschutz und die Zertifizierung
als möglicher Nachweis sind gesetzliche Vorgaben, sprich: eines
Tages werden diese Instrumente vollständig greifen.

Die IT-Sicherheit braucht neue Formen des Nachweises


Natürlich gibt es eine ganze Reihe an Zertifizierungen für die
IT-Sicherheit, für Unternehmensprozesse, für Produkte, für
Services und für Personen und deren Qualifikation. Trotzdem
fließt die IT-Sicherheit und der Nachweis darüber noch deutlich
zu wenig in die Einkaufsbedingungen und Lieferantenkriterien
von Unternehmen ein. Einzelne Branchen wie Automobil und
Banken sowie Bereiche wie Kritische Infrastrukturen (KRITIS)
haben bereits bestimmte Anforderungen in Branchenstandards
geschaffen, die die Zulieferer und Dienstleister einhalten müs-
sen.
Entscheidend ist es aber, dass IT-Sicherheitsvorgaben als Ein-
kaufsbedingung und Lieferantenkriterium branchenübergrei-
fend und auf ganzer Breite eingeführt werden. Datenschutz und
Sicherheit können nur über die ganze Lieferkette gewährleistet
werden. Dabei muss auch an einzelne Komponenten gedacht SEITE 30
BESTOF BigData-Insider.de

werden, wie an Router, die in einem Projekt eingesetzt werden


sollen.
Das Bundesamt für Sicherheit in der Informationstechnik (BSI)
hat die Technischen Richtlinie „Secure Broadband Router“ (TR-
03148) veröffentlicht. Die Technische Richtlinie richtet sich vor
allem an die Hersteller von Breitband-Routern und definiert ein
Mindestmaß an IT-Sicherheitsmaßnahmen, die für Router im
Endkundenbereich umgesetzt sein sollten.
Ziel der TR ist es damit auch, die Sicherheitseigenschaften für
Verbraucherinnen und Verbraucher transparent zu machen.
Dies können Hersteller durch eine geeignete Kennzeichnung am
Gerät unterstützen. Das BSI wird auch für weitere Geräte des In-
ternets der Dinge und des Smart Homes Mindestanforderungen
an deren IT-Sicherheit formulieren.
Zweifellos müssen auch Produkte und Services für den B2B-Be-
reich entsprechende IT-Sicherheitskennzeichungen bekommen,
die den Einkauf bei der Auswahl von Produkten und Diensten
unterstützen.

Trust Ratings für Security müssen und werden kommen


Security-Anbieter wie Forcepoint sehen in Trust Ratings bereits
einen Trend für 2019: Branchenweite Security Trust Ratings sei-
en notwendig, wenn Unternehmen nach Zusicherungen suchen,
dass Partner und Wertschöpfungsketten vertrauenswürdig und
ausreichend gesichert sind. So suchten schon jetzt 58 Prozent
der befragten Forcepoint-Kunden aktiv nach vertrauenswürdi-
gen Cloud-Anbietern mit einem guten Ruf für Sicherheit.
Es wäre erfreulich, wenn es in 2019 mit solchen Trust Ratings
für die Security von Lieferanten und Dienstleistern klappen
würde. Ganz gleich, wie man die Security-Nachweise nennt: Es
müssen Kriterien für Produkte und Services definiert werden,
es müssen Zertifizierungsstellen gefunden und akkreditiert
werden, nach anerkannten Richtlinien. Die Nachweise müssen
als Forderungen in die Einkaufsbedingungen Eingang finden.
All dies wird Zeit brauchen. Doch der Datenschutz kann hier
zeigen, wie der Weg aussieht: Über sogenannten Verhaltensre-
geln, wie es die DSGVO nennt, lassen sich Branchenstandards
entwickeln. Akkreditierungsregeln für Zertifizierer werden ver-
abschiedet, Zertifikate werden vergeben und die Einhaltung
kontrolliert.
SEITE 31
BESTOF BigData-Insider.de

Die Rolle der Datenschutzaufsichtsbehörden wird das BSI über-


nehmen und die IT-Sicherheitskennzeichnung vorantreiben.
Diese Kennzeichnungen jedoch müssen auch bei der Beschaf-
fung eingefordert werden, bei den Lieferanten und Dienstleis-
tern, über die Einkaufsbedingungen. Im Datenschutz wird ge-
nau das geschehen.
 ★ Oliver Schonschek

SEITE 32
BESTOF BigData-Insider.de

Datenschutz im Internet der Dinge, Teil 3

Wie das IoT dem Datenschutz


helfen kann
Sicherheit und Datenschutz im Internet of Things (IoT)
sind nicht nur wichtig, sondern auch lohnend, denn das
IoT hat nicht nur Risiken, sondern auch Vorteile für den
Datenschutz.
Wenn in der letzten Zeit vermehrt über Datenschutz gesprochen
wurde, lag dies in aller Regel an der Datenschutz-Grundverord-
nung (DSGVO / GDPR) der EU. Auch wenn es einige Veränderun-
gen im Datenschutz durch die DSGVO gegeben hat, so bestanden
doch viele Anforderungen bereits in Zeiten des alten Bundes-
datenschutzgesetzes (BDSG-alt). Das gilt auch für Datenschutz-
bereiche, die nun als besonders schwierig empfunden werden.
Zum Beispiel waren viele der Rechte der Betroffenen bereits im
alten Datenschutzrecht vorhanden. Doch durch die DSGVO sind
sie nun stärker ins Bewusstsein gerückt.
Einen vergleichbaren (wenn auch nicht so starken) Effekt kann
man bei dem Internet der Dinge (IoT, Internet of Things) sehen,
wenn es um die Sicherheitsanforderungen bei der Digitalisie-
rung geht. Zweifellos gibt es Besonderheiten im Datenschutz und
in der IT-Sicherheit, wenn es um IoT geht. Auch sind spezielle
IT-Sicherheitslösungen für das IoT sinnvoll und wichtig. Trotz-
dem kann man sagen: Das IoT hat die Sensibilisierung für die
notwendige IT-Sicherheit nochmals erhöht. Die Risiken im IoT
haben durchaus positive Nebenwirkungen für den Datenschutz
und die IT-Sicherheit. Das zeigen auch die folgenden Beispiele.

IoT-Risiken als Teil der IT-Sicherheitsrisiken sehen

Chance, nicht nur Bedro-


hung: Die Risiken im IoT
haben durchaus positive
Nebenwirkungen für den
Datenschutz und die IT-
Sicherheit.

Bild: © kras99 - stock.adobe.com


SEITE 33
BESTOF BigData-Insider.de

Betrachtet man die aktuelle IT-Sicherheitslage, stellt man fest,


dass die IoT-Risiken eine immer größere Bedeutung erlangen
und Gefahr darstellen. Dabei sollte man nicht vergessen, dass
die IoT-Bedrohungen immer als Teil der Gesamtbedrohungen
verstanden werden sollten. Wenn IoT-Risiken zu einer bestimm-
ten Bedrohung beitragen, gilt es, die Bedrohung auch als gan-
zes anzugehen:
• Wie der DDoS Threat Intelligence Report von A10 Networks
zeigt, nutzen Cyberkriminelle verstärkt IoT-Geräte für DDoS-
Angriffe. Davor muss man sich schützen, aber am besten so,
dass man sich insgesamt vor DDoS-Attacken besser schützt.
• Sechs der Top-12-Exploits waren auf IoT-Geräte ausgerichtet,
so der Fortinet Threat Landscape Report. Entsprechende Ge-
genmaßnahmen müssen sich natürlich auch auf alle anderen
Kategorien von Exploits ausrichten. Entsprechend fordert Forti-
net: Benötigt wird eine Security Fabric, die die gesamte Netz-
werkumgebung von IoT-Endpunkten bis hin zu Multi-Clouds
abdeckt und jedes Sicherheitselement integriert. Nur so kön-
nen Unternehmen der wachsenden Bedrohungslage von heute
gerecht werden und ihre wachsende Angriffsfläche schützen.
• Unternehmen vertreten oft unrealistische Ansichten über den
Schutz des Industrial Internet of Things (IIoT), in dem End-
punkte als die verletzlichsten Aspekte betrachtet werden. Da-
bei besteht eine große Unsicherheit darüber, was überhaupt
ein Endpunkt ist, so der SANS Industrial IoT Security Survey
2018. Dabei ist es wichtig, dass sich die Unternehmen nicht nur
im IoT und IIoT darüber klar werden, welche Endpunkte sie
einsetzen, sondern in der kompletten IT und OT.
• Eine Infoblox-Studie berichtete, dass die drastische Zunahme
von privaten Endgeräten und IoT-Devices in Unternehmens-
netzwerken für enorme Sicherheitsrisiken sorgt. Das bedeutet,
dass Unternehmen nicht nur feststellen sollten, welche IoT-Ge-
räte sie nutzen, sondern auch, welche privaten Geräte und IT-
Geräte eingesetzt werden.

Security-Empfehlungen nicht durch Insellösungen umset-


zen
Zur IoT-Sicherheit gibt es eine Vielzahl von Empfehlungen, was
man angehen sollte. Zwei Beispiele:
Wie Avira berichtete, einigten sich das Europäische Komitee für
Normung, die britische Regierung sowie ein Branchenverband SEITE 34
BESTOF BigData-Insider.de

erstmalig auf Sicherheitsstandards für IoT-Geräte. Die 13 Richtli-


nien im Überblick lauten:

• Keine Standardpasswörter verwenden


• Richtlinie zur Offenlegung von Schwachstellen implementie-
ren
• Software auf dem aktuellen Stand halten
• Zugangsdaten und sicherheitsrelevante Daten sicher speichern
• Sicher kommunizieren
• Angriffsflächen minimieren
• Software-Integrität gewährleisten
• Den Schutz von personenbezogenen Daten gewährleisten
• Systeme ausfallsicherer gestalten
• System-Telemetriedaten überwachen
• Verbrauchern die einfache Löschung personenbezogener Da-
ten ermöglichen
• Installation und Wartung von Geräten vereinfachen
• Eingabedaten überprüfen
Diese Richtlinien sollten zweifellos auch außerhalb des IoT eine
umfassende Anwendung finden, in allen Bereichen der IT und
OT.
Digital Guardian empfiehlt sieben Punkte zur Verbesserung der
IoT-Sicherheit:

• Geräteauthentifizierung und -identität: Die korrekte und


sichere Authentifizierung mit individueller Geräteidentifikati-
on ermöglicht den Aufbau einer sicheren Verbindung zwischen
den Geräten selbst und den Backend-Steuerungssystemen.
Wenn jedes Gerät seine eigene eindeutige Identität hat, können
Unternehmen schnell bestätigen, dass das kommunizierende
Gerät tatsächlich dasjenige ist, das es vorgibt zu sein. Dazu ist
eine individuelle Geräteidentifikation auf Basis von Lösungen
wie Public Key Infrastructure (PKI) erforderlich.
•P
 hysische Sicherheit: Die physische Sicherheit ist von größ-
ter Bedeutung. Deshalb sollte die Integration von Sicherungs-
maßnahmen gegen Manipulation in Gerätekomponenten bei
Entwicklern im Vordergrund stehen, um zu verhindern, dass
sie dekodiert werden können. Darüber hinaus sollte dafür ge-
sorgt werden, dass Gerätedaten im Zusammenhang mit Au- SEITE 35
BESTOF BigData-Insider.de

thentifizierung, Identifikationscodes und Kontoinformationen


gelöscht werden können, wenn ein Gerät gefährdet ist, um Da-
tenmissbrauch zu verhindern.
•V
 erschlüsselung: Beim Einsatz von IoT-Lösungen müssen
Unternehmen sicherstellen, dass der Datenverkehr zwischen
Geräten und Backend-Servern ordnungsgemäß verschlüsselt
ist. Die Sicherstellung der Verschlüsselung von Befehlen und
die Überprüfung der Befehlsintegrität durch Signierung oder
starke Kodierung sind entscheidend. IoT-Geräte sollten auch
alle gesammelten sensiblen Benutzerdaten verschlüsseln, um
die Datensicherheit zu erhöhen.
•F
 irmware-Updates: In der Eile, neue IoT-Produkte auf den
Markt zu bringen, bauen Hersteller manchmal Geräte ohne
Firmware-Update-Fähigkeit. Ein konsistenter Prozess, der eine
flexible Firmware-Bereitstellung bietet, ermöglicht die Entwick-
lung neuer Produkte. Gleichzeitig ist garantiert, dass wichtige
Sicherheitsfixes universell über bestehende Produktlinien ver-
teilt werden können.
•S
 ichere Kodierung: IoT-Entwickler müssen sichere Kodie-
rungsverfahren implementieren und diese im Rahmen des
Software-Build-Prozesses auf das Gerät anwenden. Die Kon-
zentration auf Qualitätssicherung und die Identifizierung und
Behebung von Schwachstellen als Teil des Entwicklungszyklus
optimiert die Sicherheitsbemühungen und trägt dazu bei, Risi-
ken zu minimieren.
•S
 chließen von Backdoors: Der Bau von Geräten mit Back-
doors, sei es zu Überwachungs- oder Strafverfolgungszwecken,
ist alltäglich geworden. Diese Vorgehensweise beeinträchtigt je-
doch die Integrität und Sicherheit des Endbenutzers. Hersteller
müssen dafür Sorge tragen, dass weder bösartiger Code noch
Backdoors eingeführt werden und die UDID (Unique Device ID)
des Geräts nicht kopiert, überwacht oder erfasst wird. So wird
vermieden, dass, wenn sich das Gerät online registriert, der
Prozess nicht abgefangen wird oder anfällig für rechtswidrige
Überwachung ist.
•N
 etzwerksegmentierung: Wenn ein Netzwerk in sichere
Segmente unterteilt ist, kann im Fall eines kompromittierten
IoT-Geräts dessen Segment vom Rest des Netzwerks isoliert
werden. Sollte das Gerät kompromittiert werden, sind nur Ge-
räte in diesem Netzwerksegment betroffen. Die Zone kann un-
ter Quarantäne gestellt, und es lassen sich Abhilfemaßnahmen
ergreifen, ohne Risiken für andere Systeme. SEITE 36
BESTOF BigData-Insider.de

Wer diese Punkte nicht nur für die IoT-Lösungen, sondern für
alle IT-Lösungen umsetzt, sorgt auch für eine Optimierung der
IT-Sicherheit insgesamt.

Was das für die Unternehmen bedeutet


Die genannten Beispiele besagen nicht, dass es nicht notwen-
dig ist, mehr für den Datenschutz und die IT-Sicherheit im IoT
zu tun, ganz im Gegenteil. Doch die Bemühungen, der Aufwand
und die Investitionen für ein sicheres und datenschutzkonfor-
mes IoT helfen auch bei der Verbesserung im Datenschutz und
der IT-Sicherheit in der ganzen, restlichen IT. Viele der neuen IoT-
Sicherheitslösungen adressieren die IT und das (Industrial) IoT
gemeinsam. Wenn hier neue, übergreifende Lösungen und Ver-
fahren zum Einsatz kommen und Standards etabliert werden,
hilft dies eben nicht nur im Internet der Dinge, sondern in der
ganzen IT und damit für die gesamte Digitalisierung.
Mehr Sicherheit und Datenschutz im IoT lohnt sich, nicht nur für
das Internet of Things, sondern übergreifend für die Digitalisie-
rung. Das sollte bei den Budgets für IoT-Sicherheit bedacht wer-
den, ebenso bei der Überlegung, ob sich der ganze Aufwand für
Datenschutz und Sicherheit für das IoT denn überhaupt (schon)
lohnt. Wer das IoT sicherer und datenschutzgerechter macht,
schafft im Idealfall keine Insellösungen, sondern ein übergrei-
fendes System für Datenschutz und IT-Sicherheit.
 ★ Oliver Schonschek

SEITE 37
BESTOF BigData-Insider.de

Übersicht KI- und ML-Stacks, Teil 1

KI-Engines im Bündel mit Hard-


ware
Künstliche Intelligenz (KI) „fällt nicht vom Himmel“. Leis-
tungsstarke KI-Lösungen entstehen auf der Basis gut abge-
stimmter KI- und Machine Learning Stacks. Davon gibt es
zum Glück einige. Etablierte Softwareentwicklungshäuser
sind in Sachen KI und Machine Learning (ML) mittlerwei-
le fest im Sattel. Inzwischen wollen andere Unternehmen
auch mit ins Boot.
Künstliche Intelligenz gilt als ein Oberbegriff für lernfähige Sys-
teme und deckt Maschinelles Lernen (ML) eigentlich mit ab. Der
Begriff KI findet dann Anwendung, wann immer von lernenden
Anwendungen die Rede ist – auch Algorithmen des Deep Lear-
nings sind hiermit abgedeckt. Im Gegensatz dazu stellt ML die
autarken oder semi-autarken Handlungsfähigkeiten cyberphy-
sischer Systeme in den Vordergrund, welche hierzu die Analy-
se von Datenströmen aus Sensorik in nahezu Echtzeit meistern
müssen.
Begrifflichkeiten jetzt aber beiseite: Der KI/ML-Goldrausch ist in
vollem Gange. IDC-Analysten zufolge soll der weltweite Markt
für KI/ML-Lösungen im laufenden Jahr satte 35,8 Milliarden US-
Dollar erreichen und sich damit gegenüber dem Vorjahr mit 44
Prozent Wachstum nahezu verdoppeln.

Bild: April Pethybridge/Unsplash und Autoren

Feuer und Flamme: Sind


die Komponenten eines KI/
ML-Stacks gut aufeinander
abgestimmt, geht einem ein
Licht auf.

SEITE 38
BESTOF BigData-Insider.de

Das deutsche Bruttoinlandsprodukt (BIP) könnte sich dank KI


bis zum Jahr 2030 um insgesamt 11,3 Prozent vergrößern, schätzt
PwC. Dieses Wachstum entspricht einer Wertschöpfung von rund
430 Milliarden Euro, also knapp über der aktuellen Gesamtwirt-
schaftsleistung von Ländern wie Österreich und Norwegen.

Sehen, Hören, Handeln


Unternehmen erhoffen sich von KI/ML-Algorithmen zur Auswer-
tung von Big Data einzigartige Wettbewerbsvorteile: mehr Cus-
tomer Intelligence, niedrigere Kosten dank prädiktiver Instand-
haltung, geringere Betriebsrisiken durch Betrugsprävention und
Früherkennung von Cyberangriffen. Den Anwendungsmöglich-
keiten sind praktisch keine Grenzen gesetzt, sofern sich das Vor-
handensein hochwertiger Datenquellen gewährleisten lässt.

Doch was nützt KI als ein Alleinstellungsmerkmal, wenn alle


Akteure über dieselben Algorithmen verfügen? Nicht viel. Erst
fortgeschrittene KI-Stacks schaffen die Grundlagen, um den
Lernfähigkeiten der eigenen Anwendungen die so begehrte Ex-
klusivität zuteilwerden zu lassen.
Ein KI-Stack setzt sich wie eine traditionelle Schichttorte aus
mehreren Ebenen zusammen. Idealerweise sollten diese inei-
nander „greifen“ und beim Schneiden und Servieren (sprich:
beim Orchestrieren) gut zusammenhalten. Die unterste Ebene
des Stacks bildet eine KI/ML-optimierte Hardware (siehe den
Abschnitt „Aufgebohrt: KI-Optimierte Hardware“ weiter unten).
Auf diesem Infrastrukturfundament setzen dann die Orchestrie-
rungswerkzeuge auf (z. B. Kubernetes). Eine weitere Software-
schicht, die dann wiederum darauf aufbaut, zeichnet für das
Management der Orchestrierungswerkzeuge und somit auch die
Portabilität des Softwarestacks zwischen verschiedenen Lauf-
zeitumgebungen verantwortlich (mehr zu diesen Aspekten eines
Stacks im Abschnitt „Eingespielt: Orchestrierungs-Tools für KI/
ML-Workloads“ im zweiten Teil dieser Folge).

Darauf setzt dann das eigentliche KI/ML-Framework auf. Dieses


lässt sich gegebenenfalls um externe Dienste, Bibliotheken und
sonstige anwendungsspezifische Erweiterungen ergänzen (z. B.
im Bereich der Bilderkennung oder Sprachanalyse). Erst ober-
halb dieser Schicht entstehen die eigentlichen KI/ML-Modelle
und -Visualisierungen. Aus welchen Bestandteilen sich ein be- SEITE 39
BESTOF BigData-Insider.de

stimmter KI/ML-Stack im Einzelnen zusammensetzt, hängt also


im Endeffekt von den avisierten Anwendungsszenarien ab.

Aufgebohrt: KI-optimierte Hardware


KI-Algorithmen wie künstliche Neuronale Netze für maschinel-
les Lernen müssen in der Inferenzphase die anfallenden Daten-
ströme möglichst echtzeitnah verarbeiten, um zu gewährleisten,
dass cyberphysische Systeme auch in Situationen mit hoher Un-
gewissheit und in einem stark individualisierten Kontext autark
handeln können. Neuronale Netze durchlaufen üblicherweise
die hierzu erforderliche Trainingsphase, welche die Verarbeitung
massiver Big-Data-Bestände voraussetzt, in verteilten Anwen-
dungsarchitekturen in einem voll ausgewachsenen Rechenzen-
trum. Erst die Inferenzphase kann dann auf dem betreffenden
cyberphysischen Edge-System stattfinden (zum Beispiel in einer
autonomen Drohne).

Im Gegensatz dazu können sich diejenigen lernenden Algorith-


men, die rein historische Daten verarbeiten, sich zwar damit
generell mehr Zeit lassen, doch für die Entwickler gestaltet sich
das Ganze wohl kaum einfacher. Denn in der ursprünglichen
Lernphase geht es vorrangig darum, zuvor ungekannte Zusam-
menhänge in massiven Datenmengen aufzudecken, statt „nur“
vorgegebenen Denkmustern durch iterative Verbesserungen
zu folgen. Diese Herangehensweise ist unter dem Namen Deep
Learning bekannt.
Konventionelle CPUs sind mit datenlastigen KI-Workloads nach
wie vor überfordert. Sie haben ja auch mittlerweile kaum Spiel-
raum, an Leistung zuzulegen, weil sich das Mooresche Gesetz un-
weigerlich seinem Ende nähert. Der Aufbau eines KI/ML-Stacks
setzt daher zwingend geeignete Hardware voraus. Es fragt sich
nur, welche.

Eingebettet: den Datenhunger sättigen


Bisher stehen Entwicklern von KI/ML-Algorithmen GPUs (Gra-
phic Processing Units) von NVIDIA, FPGAs (Field Programmable
Gate Arrays) und ASICs wie die TPU (Tensor Processing Units)
von Google zur Verfügung.
Diese und andere KI/ML-optimierte Chip-Architekturen sollen
über das Ende des Mooreschen Gesetzes hinaus eine Brücke in SEITE 40
BESTOF BigData-Insider.de

die Zukunft schlagen. Welches Gelände sich den KI/ML-Entwick-


lern auf dem anderen Ende dieser Brücke erschließt, weiß bisher
so genau noch keiner. Laut den Analysten von Gartner dürften
u. a. Quanten-Computer und neuromorphische Chips die Nach-
folge heutiger Hardwarebeschleuniger und domainspezifischer
Prozessoren antreten.
Zu den guten Nachrichten zählt der Umstand, dass Unterneh-
men KI-Stacks aufbauen können, ohne sich erst mit speziali-
sierter Hardware eindecken zu müssen. Die führenden Cloud-
Dienstleister bieten Hardware als ein Service aus der Wolke an.
So vermietet beispielsweise Google die zweite und dritte Gene-
ration der TPU-Beschleuniger für KI-Modelle auf der Basis von
Matrizenberechnungen, gebündelt zu je tausend Stück, über die
Google Cloud Platform. Als Vorzeigekunden nennt Google u. a.
die Metro-Gruppe und die Siemens AG.
Der internationale Spezialist für den Großhandel- und Lebens-
mitteldirektvertrieb aus Düsseldorf hat seine 100 separaten
Buchhaltungssysteme auf SAP-HANA in der Google-Cloud kon-
solidiert, enthüllt Timo Salzsieder, CIO/CSO der Unternehmens-
gruppe, bekannt. So könne der Metro-Konzern fortgeschrittene
Big-Data-Analysetechniken und KI u. a. zur Optimierung der ei-
genen Versorgungsketten nutzen.

Der Lebensmittelkonzern lässt seine Daten in die serverlose PaaS-


Plattform BigQuery von Google via die Datalab-Infrastruktur
einfließen. Hier entstehen unter Verwendung des quelloffenen
KI-Frameworks TensorFlow und unter aktiver Mitwirkung der
KI-Spezialistin Freiheit.com Technologies GmbH aus Hamburg
die eigentlichen ML-Modelle, enthüllt Stefan Richter, Founder
and Head of Engineering bei freiheit.com. Die so gewonnenen
Erkenntnisse ließen sich dann mithilfe von Google Data Studio
in verschiedenen Unternehmensbereichen visualisieren. So lernt
die Metro-Gruppe ihre Kunden in Echtzeit kennen.

Branchenspezifische Full-Stack-Fertiggerichte servieren


— oder lieber doch selbst backen?
Im Grunde genommen stehen den Unternehmen in Bezug auf die
Wahl eines KI-Stacks mehrere diametral unterschiedliche Ansät-
ze offen. Zum einen gibt es branchenspezifische Full-Stack-Um-
gebungen wie die Drive-Plattform für autonome Fahrzeuge von
NVIDIA. Das Unternehmen bietet seinen Partnern unter ande- SEITE 41
BESTOF BigData-Insider.de

rem Referenzdesigns, eine Entwicklungsumgebung, eine Simu-


lationsplattform und ein künstliches neuronales Netzwerk zum
Trainieren von ML-Fähigkeiten im Bereich der audiovisuellen
Wahrnehmung. NVIDIA ging bereits strategische Partnerschaf-
ten unter anderem mit Audi, Mercedes-Benz und VW ein.

Wer eine solche branchenspezifische KI-Entwicklungsplattform


nicht benötigt, kann einen eigenen KI/ML-Stack aus quelloffe-
nen Frameworks wahlweise auf eigener Hardware und/oder —
wie die Metro-Gruppe — in der Cloud zusammenstellen (siehe
dazu den zweiten Teil des Berichtes „KI/ML-Stacks, Teil 2: die
(künstliche) Framework-Intelligenz“).
Viele der beliebtesten quelloffenen Frameworks für Maschinelles
Lernen (ML), allen voran TensorFlow, sind bei den großen Cloud-
Anbietern als vollständig „gemanagte“ Services verfügbar. Dies
senkt die Verwaltungskosten, fördert jedoch die Abhängigkeit
von den proprietären Lösungen und den Kompetenzen des je-
weiligen Dienstleisters.

Cloud-Dienste trumpfen wiederum mit der Fähigkeit, ihren Nut-


zern die benötigten Hardwarebeschleuniger bedarfsgerecht und
kostengünstig zur Verfügung zu stellen. Amazons KI-Dienst
Elastic Inference unterstützt beispielsweise den Einsatz von
GPU-Beschleunigern für KI/ML-Workloads des Deep Learnings
in der Cloud.
McKinsey Global Institute (MGI) schätzt das Wachstumspotenzi-
al der deutschen Wirtschaft durch KI-Technologien bis zum Jahre
2030 (jährlich 1,3 Prozent) auf etwa 16,7 Prozent. Um dieses Ziel
zu erreichen, müssten allerdings 70 Prozent aller Unternehmen
bis zum Jahr 2030 KI-Lösungen einsetzen, vor allem in den Berei-
chen automatische Bilderkennung, natürliche Sprache, virtuelle
Assistenten, roboterbasierte Prozessautomatisierung und fortge-
schrittenes maschinelles Lernen.

Fazit
Die Wahl des KI/ML-Stacks ist keine leichte Entscheidung. Um
die steile Lernkurve zu überwinden, entscheiden sich einige
Firmen für strategische Partnerschaften, andere wählen wiede-
rum den Weg der kleine Schritte, indem sie eine KI/ML-Lösung
nach einem eigenen Rezept aus öffentlich verfügbaren KI/ML- SEITE 42
BESTOF BigData-Insider.de

Frameworks „backen“ und hierbei auf die Kompetenzen von


Infrastrukturdienstleistern und KI/ML-Entwicklungsschmieden
zurückgreifen. Wie dem auch sei: An der intelligenten Auswer-
tung von Big Data kommt keiner mehr vorbei.
 ★ Filipe Martins und Anna Kobylinska

SEITE 43
BESTOF BigData-Insider.de

Künstliche Intelligenz

Ist Europa tatsächlich das KI-


Schlusslicht?
Im Vergleich zu den Aktivitäten der US-Internetriesen und
den massiven Förderungen des chinesischen Staates für
Künstliche Intelligenz (KI) scheint es laut vieler Umfragen
in Europa eher beschaulich zuzugehen. Spiegeln sie tat-
sächlich die Realität wider? Wir klären auf und differen-
zieren das Bild.
In der sich rasant digitalisierenden Weltwirtschaft nimmt die
Künstliche Intelligenz (KI) eine zentrale Stellung ein. Zu den er-
folgreichen Ländern der noch sehr jungen Technologie gehören
die USA oder China als auch führende Unternehmen wie zum
Beispiel Amazon und Google. Wenn es um die staatlichen Akti-
vitäten für KI geht, so übertrifft China die restlichen Länder mit
Investitionen in mehrstelliger Milliardenhöhe.

Manche Studien verzerren das Bild


Umfragen, wie beispielsweise eine VDE-Studie von 2019, sollen
diese Thesen unterstützen. Wobei diese Studie mit nur sieben
Prozent Rückläufer aus meist kleineren Firmen sowie zehn Hoch-
schulen nicht als repräsentativ angesehen werden kann. Solche
Ergebnisse kommen zustande, weil sich die europäischen Unter-
nehmen dem Thema KI sehr unterschiedlich näheren: „Hinsicht-
lich Digitalisierung und KI muss man die einzelnen Firmen nach

Noch stehen Daten- und KI-


getriebene digitale Geschäfts-
modelle in der deutschen
Industrie vor allem bei kleine-
ren Unternehmen in ihren An-
fängen. Doch die Potenziale
sind groß.

(Bild: gemeinfrei / Pixabay) SEITE 44


BESTOF BigData-Insider.de

Größe sowie Zugehörigkeit zu B2B oder B2C unterscheiden, da


sie dazu völlig unterschiedlich informiert und aufgestellt sind“,
erklärt KI-Experte Peter Seeberg von der Beraterfirma asimo-
vero.AI. Während größere Unternehmen in Europa die Chan-
cen der KI längst realisiert haben und erste Projekte am Laufen
sind, üben sich vor allem kleinere Betriebe eher noch in Zu-
rückhaltung.

Europäischer KI-Markt expandiert stark


Gemäß der Studie „AI in Europe – Ready for Take-off“ des Euro-
pean Information Technology Observatory (EITO) soll der euro-
päische KI-Markt im Jahr 2022 von rund drei Milliarden Euro auf
zehn Milliarden Euro anwachsen. Das kommt einem jährlichen
Wachstum von 38 Prozent im Durchschnitt gleich. Wogegen 2018
das Markvolumen noch bei zwei Milliarden Euro lag. Vergleicht
man diese Zahlen beispielsweise mit den Ausgaben für Server und
Speicherplatz (nur 24 Prozent pro Jahr), so ziehen die Umsätze für
Software (45 Prozent) als auch Dienstleistungen (47 Prozent) rund
um KI deutlich stärker an.
Bereits heute können die Unternehmen aus einem breiten Angebot
an marktfähigen Lösungen, die auf Basis der KI aufgebaut sind,
wählen. Dazu gehören beispielsweise Angebote für Machine Lear-
ning, Software-Tools für die Sprach- oder Bilderkennung, Lösun-
gen für Chatbots zur Kundenberatung oder komplexe Anwendun-
gen für personalisierte Mailings, die sich im Prinzip automatisch
versenden lassen. Laut der EITO-Studie investiert der Wirtschafts-
bereich der produzierenden Unternehmen in Europa im Moment
am stärksten in die Anwendungen mit KI. Auf dem zweiten Platz
liegt die Finanzbranche, gefolgt vom Handel.

Marketing-Hype im Bereich B2C


„Seit jeher ist der deutsche Mittelstand außerordentlich zurück-
haltend und vorsichtig“, unterstreicht Reinhard Karger, Unterneh-
menssprecher beim Deutschen Forschungszentrum für Künstliche
Intelligenz (DFKI). „Der Mittelstand wird natürlich erst dann in-
vestieren, wenn er darin einen klaren Vorteil sieht. Und selbst in
diesem Falle würde er diese Aktivitäten nicht massiv kommunizie-
ren wie es die US-Firmen oft lauthals tun.“ Im Vergleich dazu ver-
sprechen sich gerade US-amerikanische Plattform-Unternehmen
mit KI zusätzliche Wettbewerbsvorteile durch beispielsweise eine
zielorientiertere Werbung für Google, ein besseres Matching bei Fa- SEITE 45
BESTOF BigData-Insider.de

cebook oder eine optimierte Logistik für Amazon. Bei Industrieun-


ternehmen liegt der Fall völlig anders. Sie würden auf diese Weise
Geschäftsgeheimnisse ausplaudern.
„Ich denke nicht, dass andere Länder uns im Bereich KI voraus
sind“, betont Karger. „Vielmehr ist es so, dass man aktuell eher
einen Marketing-getriebenen Hype im Bereich B2C beobachten
kann. Davon profitieren Unternehmen wie Amazon und Google.
Das ist alles in Ordnung. Die Frage, was KI in der realen Produk-
tion bewirken kann, ist eine ganz andere Frage.“ Es wird vielfach
behauptet, dass China und die USA aufgrund des Fehlens jegli-
chen Datenschutzes über einen riesigen Fundus an Datensätzen
verfügen und damit Vorteile im globalen Wettbewerb um die KI-
Marktführerschaft ziehen können.
„Das ist ein Märchen“, protestiert Seeberg. „Viele Firmen im produ-
zierenden Gewerbe konzentrieren sich auf kleine Datenvolumina.
An den Maschinen entstehen nicht immer extrem viele Daten. Die-
se reichen auch oft aus. Die viel größere Herausforderung ist aus
wenigen Daten sinnvolle Ergebnisse herauszuholen.“ Abgesehen
davon kommt die DSGVO im produzierenden Gewerbe bei Maschi-
nendaten sowie vorausschauender Wartung im Grunde sowieso
nicht zur Anwendung, da es sich nicht um personenbezogene Da-
ten handelt. „Eine Abschaffung der DSGVO fände ich sehr schade,
nicht zuletzt deswegen, weil sie gerade im Begriff ist, zum welt-
weiten Goldstandard zu werden, so Karger. „Es gibt für die DSGVO
insbesondere viele Befürworter in Japan, Indien und den USA.“

Länderspezifische KI-Schwerpunkte
Die Kapazitäten für Forschung, Technologie und Anwendung von
KI wird laut der aktuellen Elsevier-Studie „ArtificiaI Intelligence:
How knowledge is created, transferred, and used – Trends in Chi-
na, Europe, and the United States” als wesentlich für die jeweilige
nationale Wettbewerbsfähigkeit, Sicherheit und Wirtschaftskraft
angesehen. Wobei die Chinesen hinsichtlich der Forschungsfel-
der ihren Schwerpunkt auf die Landwirtschaft setzen, fokussieren
sich die USA eher auf die Gesundheit. In Europa sind die einzelnen
KI-Bereiche in etwa ähnlich stark ausgeprägt.
Daher sind auch die national entwickelten KI-Politiken von Land
zu Land sehr unterschiedlich: Während die Regierungen in den
USA und Europas durch Förderung von Forschung und Industrie
eine unterstützende Rolle bei der KI-Politik spielen, nimmt die chi-
nesische Regierung eine aktivere Rolle wie zum Beispiel bei der
Festlegung der Schwerpunkte der KI ein. SEITE 46
BESTOF BigData-Insider.de

Chinesischer Aufstieg
Die chinesische Staatsregierung veröffentlichte im Juli 2017 einen
Entwicklungsplan für den KI-Bereich bis 2030 mit dem Ziel, eine
weltweit führende Position in Theorie, Technologie und Anwen-
dung einzunehmen. Der Maßnahmenplan konzentriert sich auf
die Stärkung der Produktionskapazitäten sowie die Gewinnung
und Ausbildung qualifizierter KI-Beschäftigter.
Laut den Angaben der chinesischen Regierung stellt sie dafür
über zwei Milliarden US-Dollar bereit. Darüber hinaus möchte
sie 2,1 Milliarden US-Dollar in einen sogenannten KI-Technolo-
giepark in Peking investieren. Wobei manche Experten sogar von
einem Gesamtvolumen der chinesischen Investments (privat und
staatlich) in KI und Robotik von schätzungsweise 300 Milliarden
US-Dollar ausgehen.

Europäische KI-Vielfalt
In Bezug auf den wissenschaftlichen Output für KI ist Europa die
größte und vielfältigste Region. Gemäß der Elsevier-Studie stehen
die Europäer für ein hohes und steigendes Niveau an internati-
onalen Kooperationen außerhalb Europas. Das breite Spektrum
der KI-Forschung spiegelt in Europa gleichzeitig die Vielfalt der
europäischen Länder wider, die jeweils mit ihren eigenen Vorstel-
lungen und Besonderheiten zu Werke gehen.
Im Jahre 2018 fixierte die Europäische Kommission (EK) einen
dreigliedrigen Ansatz für ihre KI-Aktivitäten: Erhöhung der öf-
fentlichen und privaten Investitionen in KI, Vorbereitung auf
sozioökonomische Veränderungen und Etablierung eines ange-
messenen ethischen und rechtlichen Rahmens. Zudem sollen die
KI-Forschungsinvestitionen für den Zeitraum 2018 bis 2020 im
Rahmen des Programms „Horizon 2020“ auf 1,5 Mrd. Euro erhöht
werden.

KI mit Fokus in den USA


Laut der Elsevier-Studie sind die US-Unternehmen in der KI-For-
schung gut aufgestellt und ziehen weltweit hoffungsvolle Talen-
te an. Dies gilt gleichsam für die Universitäten. Die US-Forscher
arbeiten zunehmend international mit anderen Wissenschaftlern
zusammen. Die KI hat in den USA einen starken Fokus auf spe-
zifische Algorithmen und trennt Sprach- und Bilderkennung in
verschiedene Cluster. Die KI-Forschung zeigt insgesamt weniger
Vielfalt als Europa, aber mehr im Vergleich zu China.
 ★ Otto Geißler SEITE 47
BESTOF BigData-Insider.de

Kommentar von Dr. Bernd Wiech und Dr. David


Bauder, Cellent – a Wipro Company

Data Science für den Mittelstand


am Beispiel
einer Umsatzprognose
Daten stehen nicht erst seit gestern im Fokus unternehme-
rischer Analysen. Wie entwickelt sich der Umsatz? Wo liegt
das größte Optimierungspotenzial? Das sind nur einige der
Frage, denen mit Zahlen und Fakten zu Leibe gerückt wird.
Wie sich auch Mittelständler mit relativ einfachen Mitteln
aussagekräftige Data Science zunutze machen können,
zeigt das folgende Beispiel.
In der klassischen IT wurden Data Warehouses aufgebaut und
BI-Tools (Business Intelligence) eingesetzt. Selbst in kleinen
mittelständischen Unternehmen zählen solche Lösungen zum
Standard-Repertoire. Allerdings hat die Sache einen Haken: BI
betrachtet rückwärtsgewandt historische Daten, um auf dieser
Grundlage zukunftsgerichtete Entscheidungen zu treffen.
Für eine datenbasierte Vorausschau wie Simulationen oder Prog-
nosen, welche idealerweise zusätzliche Variablen, wie Wetterda-
ten oder Social-Media-Sentiments enthalten, bedarf es dagegen
moderner Data Science. Um einen praktischen Nutzen zu erbrin-
gen, sollten die Ergebnisse von Data Science jedoch interpretier-
bar sein. Dies umso mehr, da die zugrunde liegenden Modelle
auf komplexer Mathematik beruhen.

Die Autoren: Dr. David Bauder


(links) ist Data Science Con-
sultant und Dr. Bernd Wiech
Senior Analytics Consultant
bei Cellent
Bild: Cellent

SEITE 48
BESTOF BigData-Insider.de

Umsatzprognosen bei Rossmann


Im Normalfall sind Unternehmen mit der Veröffentlichung von
Umsatzzahlen oder ähnlichen KPIs, auf die solche Modelle an-
gewendet werden können, sehr zurückhaltend. Die Drogerieket-
te Rossmann hat hier eine Ausnahme gemacht und im Rahmen
eines offenen Wettbewerbs einen Datensatz veröffentlicht, auf
dessen Basis tägliche Umsatzprognosen für 1.115 Filialen erstellt
werden sollten. Das Data-Science-Team der Wipro-Tochter Cellent
hat auf Grundlage dieser Daten eine Umsatzprognose entwickelt.
Im Grunde genommen war die Ausgangslage relativ simpel: Der
Umsatz errechnet sich aus der abgesetzten Menge multipliziert
mit den jeweiligen Preisen. Auch das Geschäftsmodell von Ross-
mann wirft keine großen Fragen auf: Es geht um den Verkauf
von Drogerieartikeln sowie weiterer Produkte des täglichen Le-
bens. Von einer genauen Umsatzprognose durch ein Modell wür-
de Rossmann auf verschiedenen Ebenen profitieren:
1. Durch Kosteneinsparungen: Rechnet man pro Filiale und Mo-
nat nur eine Arbeitsstunde eines Planers für die Erstellung ei-
ner Prognose für den Folgemonat, würden allein an Arbeitszeit
ca. 60.000 Euro pro Monat eingespart.
2. Durch die Berechnung eines Best-Case- und Worst-Case-Sze-
narios ließe sich ein relativ genauer Korridor angeben, wie
sich der Umsatz entwickeln wird.
3. Die Wahrscheinlichkeit eines Verlustes ließe sich im Voraus
berechnen.
4. Das Modell könnte Begründungen für zukünftige Umsatzver-
änderungen mitliefern.
5. Das Modell könnte die Grundlage für bessere, daten- und da-
mit faktenbasierte Entscheidungen liefern, wo bisher noch
häufig das Bauchgefühl der Filialleitung entschied.
Im Fall Rossmann waren die bereitgestellten Daten gut aufberei-
tet und aussagekräftig und ermöglichte die Entwicklung eines
Vorhersagemodells innerhalb von einer Woche. Das entwickelte
Modell lag am Ende bei einer Genauigkeit im Schnitt über alle
Filialen von 89,1 Prozent und zählte damit zu den treffsichersten
Ergebnissen.

Praktische Herangehensweise
Die gelieferten Daten bilden naturgemäß die Vergangenheit ab
und entsprechen also der „alten” BI-Welt. Eine aggregierte Pro-
gnose aufgrund historischer Zahlen wäre relativ einfach zu be- SEITE 49
BESTOF BigData-Insider.de

rechnen. Ziel war es aber, 1.115 Filialen separat zu betrachten


und gleichzeitig Abhängigkeiten zwischen den Filialen für eine
Prognose zu nutzen. Um eine hohe Prognosegüte und einen
möglichst guten Erklärungsgehalt des Modells zu garantieren,
müssen zusätzliche weitere Einflussgrößen identifiziert und in
das Modell integriert werden, wie etwa der Wochentag (einige
Filialen in Bahnhöfen haben bspw. auch sonntags geöffnet),
Werbeaktionen, Wetterdaten oder Ferien. Selbstverständlich ist
auch die Lage der Filiale und ihre Erreichbarkeit ein wichtiger
Faktor. Von besonderem Interesse kann auch die Wettbewerbs-
situation der Filiale sein: Wie weit ist beispielsweise der nächste
Drogeriemarkt entfernt?

Unterschieden wird für das Modell in interne und externe Daten


sowie Feature Engineering.

▪ Interne Daten sind die Daten, die bereits im System bzw. im


Data Warehouse vorliegen, z. B. Wochentag, Monat, kurzfristi-
ge und langfristige Werbeaktionen oder die Art der Filiale.
▪ Externe Daten können etwa Kalenderdaten sein, die noch nicht
im Data Warehouse sind, von Systemexperten aber relativ ein-
fach über APIs zu integrieren sind. Deutlich komplexer wird es
bei Fragen wie der Distanz zum nächsten Wettbewerber (wie
weit ist der nächste DM-Markt entfernt?) oder der Frage, wie
lange der lokale Konkurrent schon am Markt ist (handelt es
sich um eine Neueröffnung oder um einen etablierten Laden?).
Möglich wäre hier beispielsweise auch die Einbeziehung von
Sentiment-Analysen auf Basis von Social-Media-Daten.
▪ Beim Feature Engineering geht es darum, Abhängigkeiten ma-
thematisch abzubilden. Dies ermöglicht Data Scientists den
größten Einfluss auf die Vorhersagekraft zu nehmen.
Für den Umsatz pro Filiale wurden verschiedene mathematische
Modelle durchgerechnet. Im ersten Schritt wurden die histori-
schen Umsatzdaten über einen ARIMA-Ansatz modelliert (Bild
1, Modell A). ARIMA ist ein relativ komplexes Modell, das häu-
fig für Umsatzprognosen eingesetzt wird und erfahrungsgemäß
bessere Ergebnisse als eine reine Mittelwertbetrachtung erzielt.
Die Genauigkeit der Modelle wurde an den realen Ergebnissen
des Zeitraums getestet und das ARIMA-Modell für eine zufällig
ausgewählte Filiale erzielte hier eine Fehlerquote von 25 Prozent
(bzw. Genauigkeit von 75 Prozent). Hinzu kam, dass wichtige SEITE 50
BESTOF BigData-Insider.de

qualitative Charakteristika der Daten, wie zyklisches Verhalten,


nicht hinreichend abgebildet wurden; beides Anzeichen für eine
insgesamt aussageschwache Prognose.
In Schritt 2 wurden Daten zur Werbung mit einbezogen und ein
X-ARIMA-Modell geschätzt (Bild 1, Modell B), das die Progno-
se um den Einfluss der Werbeaktionen ergänzt. Allein dadurch
konnte die Fehlerquote der Beispielfiliale bereits nahezu halbiert
werden (auf 13,2 Prozent) und die Prognose zeigt mehr Charak-
teristika.
In Schritt 3 wurden zusätzliche interne Daten mit integriert. Als
Rechenmodell wurde „Random Forest” genutzt (Bild 1, Modell C),
ein State-of-the-Art-Modell aus der Welt des Machine Learnings.
Die Fehlerquote konnte gegenüber dem Schritt davor zwar nur
marginal verbessert werden (von 13,2 auf 13,1 Prozent), aber das
Modell prognostiziert deutlich differenzierter: Erfasst werden
wesentliche Eigenschaften, die wichtige Strukturen der Daten
abbilden. Vor allem aber ist das Modell besser interpretierbar, da
mehr Variablen für die Prognose berücksichtigt wurden und sich
dadurch nicht nur die Genauigkeit erhöht, sondern auch weitere
Schlüsse aus den Daten ziehen lässt. Es erhöht sich damit aller-
dings auch die Komplexität des Modells.
In Schritt 4 (Bild 2, Modell D) wurden zusätzlich Wetterdaten aus
externen Quellen integriert. Die Fehlerquote sank dadurch für
die Beispielfiliale auf 8,3 Prozent. Mit Ausnahme von extremen
Umsatzänderungen folgt die Prognose den zu prognostizieren-
den Werten nahezu ideal. Hinzu kommt, dass sich aus der Pro-
gnose auch Variablen interpretieren lassen. Ein Beispiel: An ei-
nem bestimmten Tag mit der Umsatzprognose X wird Werbung
geschaltet und eine für den Tag „normale” Temperatur und Nie-
derschlagsmenge erwartet. Zur Berechnung kam ein „Quantile
Random Forest”-Modell (QF) zum Einsatz, das zudem Abwei-
chungen nach oben und unten als Prognose-Korridor modelliert.
Dieser Prognosekorridor lässt schließlich eine Bewertung der
Prognose vor Beobachtung der Daten zu: Je enger der Korridor,
desto stabiler ist die Prognose. In zehn Prozent aller Fälle liegt
der tatsächliche Umsatz über der grünen Linie, in zehn Prozent
aller Fälle dagegen unterhalb der roten Linie. In zwei Fällen wur-
de die grüne Linie überschritten.
Der Prognosekorridor kann verschieden interpretiert werden
und auch an Fragestellungen angepasst werden: So beantwortet
der Korridor beispielsweise die Frage, was ein besonders gutes
oder ein besonders schlechtes Ergebnis sein könnte. Besonders SEITE 51
BESTOF BigData-Insider.de

nützlich kann der Korridor aber sein, um die Wahrscheinlichkeit


eines Verlustes zu modellieren und gleichzeitig auch die Höhe
des erwarteten Verlusts zu bestimmen.

Nutzen der Prognosemodelle


Mit einer Fehlerquote von 8,3 Prozent pro Tag und Filiale zeigt
sich das binnen einer Woche entwickelte Modell bereits relativ
treffsicher – stellt aber noch nicht das Ende der Fahnenstange
dar. Weitere Variablen und „Feintuning” am Modell könnten die
Zielgenauigkeit durchaus noch erhöhen. Bereits mit dem vor-
liegenden Modell wären die Planer aber in der Lage, nicht nur
Umsatzzahlen vorherzusagen, sondern auch den Einfluss von
Variablen abzulesen und auch Simulationen durchzuführen, um
herauszufinden, wann bspw. der Einsatz von Werbung am sinn-
vollsten wäre.
Abgesehen von der Prognose an sich, besteht ein weiterer Nut-
zen in der Möglichkeit datenbasierter Entscheidungen als sinn-
volle Ergänzung zu klassischen BI-Fragestellungen. Ein Bei-
spiel hierfür ist die Frage, wo eine neue Filiale errichtet werden
sollte. Ein Betriebswirt würde hier argumentieren: So nah wie
möglich an einem Wettbewerber, weil dort in der Regel die In-
frastruktur besser und die Fußwege kürzer sind. Ein Volkswirt
dagegen würde eine monopolartige Situation anstreben und
möglichst weit von der nächsten Filiale eines Wettbewerbers
entfernt bauen. Wer hat recht?
Aus den Daten ergibt sich, dass 50 Prozent der Wettbewerber ak-
tuell weniger als 2,3 Kilometer von einer Rossmann-Filiale ent-
fernt sind. Erfasst man den Umsatz einer Filiale und die Entfer-
nung zum nächsten Wettbewerber in einer Grafik (Bild 3), zeigt
sich eine diffuse Punktwolke, die keinerlei Struktur mit bloßem
Auge erkennen lässt. Damit wäre praktisch keine Abhängigkeit
der Variablen gegeben.
Wendet man aber adäquate Methoden zur Analyse an, wie hier
ein nichtparametrisches Verfahren, zeigt sich eine „Badewan-
nen-Kurve”: In einem Umkreis von 1.000 Metern sinkt der Um-
satz, je größer die Entfernung zum nächsten Konkurrenten ist
– der Betriebswirt hat also Recht. Zwischen 1.000 und 3.500 Me-
tern zeigt sich allerdings tatsächlich keine Abhängigkeit. Aber ab
3.500 Metern wächst der Umsatz mit zunehmender Entfernung –
hier hat also der Volkswirt recht!
Daraus ergeben sich zwei vermeintlich gegenläufige Effekte, die
aber in die Standortwahl miteinbezogen werden können. Und SEITE 52
BESTOF BigData-Insider.de

selbstverständlich ist die Wahl des Filialstandorts auch noch


von anderen Erwägungen abhängig und nicht nur von den hier
beschriebenen Effekten. Aber angenommen beide Filialen wä-
ren bis auf die Distanz identisch: Dann ist es bezogen auf den
Umsatz egal, ob die Filiale in 1000 Metern Entfernung zum Kon-
kurrenten steht oder 3000 Meter entfernt ist. Diese Frage wird
wichtig, wenn die Filiale in 1.000 Metern Entfernung zum Kon-
kurrenten teurer als die Filiale in 3.000 Metern Entfernung wäre:
Dieser Aufpreis wäre nach Datenlage also nicht gerechtfertigt.
Fazit
Data-Science-Anwendungen, wie z. B. Umsatzprognosen, lassen
sich durchaus in bestehende IT-Landschaften integrieren, ohne
dass Kosten für weitere Tools oder Lizenzen entstehen. Dies gilt
z. B. bei der Verwendung von SAP BW on HANA oder Qlik. Alter-
nativ ist jedoch der Aufbau von Cloud-Data-Lakes zu empfehlen,
um verschiedene Datenquellen sowie externe Datenquellen inte-
grieren zu können.

Aktuell ist Data Science noch ein eher exklusiver Club: Die Mit-
gliedschaft ist relativ teuer und steht nicht jedem offen. Wenn
qualifizierte Berater auf vorhandene Lösungen und offene
Schnittstellen setzen, eröffnet sich aber auch dem Mittelstand
das enorme Potenzial der Datenwissenschaft.
 ★ Dr. Bernd Wiech und Dr. David Bauder

SEITE 53
BESTOF BigData-Insider.de

SEITE 54
BESTOF BigData-Insider.de

Gartner zu Chips für Künstliche Intelligenz

KI braucht neue Prozessoren


Anlässlich der Fachmesse Electronica gab Gartner einen
Ausblick auf die durch Künstliche Intelligenz (KI) und
Deep Learning ausgelösten Entwicklungen auf dem Hard-
waremarkt. Fazit: Eine neue Gründungswelle kommt ins
Rollen, denn der Standard-Prozessorchip hat auf diesem
Gebiet ausgedient.
Wer versucht, tiefe neuronale Netze mithilfe einer durchaus leis-
tungsstarken Intel-CPU zu rechnen, gerät schon mal in Verzweif-
lung. Denn die Rechnerei dauert in der Regel – gerade bei grö-
ßeren Datenmengen, komplexen Transformationen und vielen
Schichten der betreffenden Modelle – schlicht zu lange. Davon
profitieren Unternehmen wie Nvidia mit ihren Grafikprozesso-
ren, die schneller sind, da sie mehrere gleichartige Vorgänge par-
allel abarbeiten. Doch diese leistungsstarken Prozessoren, deren
Aufbau eigentlich für den anspruchsvollen Spielemarkt entwi-
ckelt wurde, haben einen großen Nachteil: Sie verbrauchen viel
Strom.
Kombiniert mit einem anderen Trend, nämlich dem zum Edge-
Computing, ergebe sich daraus ein Problem, so Alan Priestley,
Senior Director Analyst beim Marktforschungsunternehmen Gart-
ner: „Das intelligente Edge-Computing, wo in Zukunft die meisten
Daten verarbeitet werden, kann oft nur Batteriestrom anbieten. Es
braucht deshalb eine komplett neue Chip- beziehungsweise Pro-
zessorgeneration.“ Mit Echtweltdaten trainierbare Modelle, die
eingespeiste Bilder richtig interpretieren könnten, gebe es derzeit
in einer uneingeschränkt Edge-tauglichen Form noch nicht.
Bild: © GraphicCompressor - stock.adobe.com

Leistungsstarke Intel-CPUs
brauchen zu lange zum Rech-
nen und Grafikprozessoren
verbrauchen viel Strom – für
Künstliche Intelligenz braucht
es eine neue Prozessorgene-
ration.

SEITE 55
BESTOF BigData-Insider.de

Auch aus einer anderen Ecke kommt Druck in Richtung Prozes-


sorentwicklung. Priestley: „Cloud-Betreiber müssen massenwei-
se und sehr schnell Videos analysieren, um beispielsweise Ge-
walt und Agitation wirksam auszufiltern. Sonst machen sie sich
in Zukunft strafbar.“ Diese Aufgabe werde heute zwar von Men-
schen erledigt, dieses Verfahren erweise sich aber angesichts der
Datenmassen als auf Dauer schlicht untauglich.

Wettrennen gestartet
Deshalb, so Priestley weiter, werde allenthalben an neuen Pro-
zessoren speziell für das Deep Learning getüftelt. Er allein kenne
mehr als 40 Firmen, so Priestley, die an neuen Architekturen ar-
beiteten, und dazu komme wahrscheinlich noch einmal dieselbe
Menge, die seiner analytischen Aufmerksamkeit bisher schlicht
entgangen ist. „Viele dieser Unternehmen kommen aus China“,
sagt Priestley. Sie alle hofften auf eine goldene Zukunft, wenn
es ihnen gelinge, ihre Ideen erfolgreich in Produkte für wichtige
Marktsegmente umzusetzen. Allerdings werde nur ein Teil von
ihnen auf eigenen Beinen erfolgreich sein, der Rest, wie üblich bei
der sprunghaften Weiterentwicklung einer IT-Technologie, sang-
und klanglos vom Markt verschwinden oder aufgekauft werden.
Ein wichtiges Marktsegment für solche Prozessor-Neuentwick-
lungen sind beispielsweise autonome Systeme oder Fahrzeuge,
ein weiteres die Implementierung selbst entscheidungsfähiger
Prozesse in der Finanzindustrie, etwa die Betrugsdetektion. In
den Finanzunternehmen, so Priestley, gehe es vor allem darum,
die vorhandenen Datenberge überhaupt einmal auszuwerten
und etwas Geschäftsförderliches daraus zu machen.

KI-Hardware in den Anfängen


Aus der Sicht der für KI verwendeten Hardware stecke man heu-
te noch weitgehend in der ersten Phase: Hier würden stromfres-
sende GPU als Hardwarebasis für diese Verarbeitungsformen
verwendet. Doch langsam gewännen auch ASIC-zentrierte An-
sätze an Boden. Die Zukunft könnte laut Priestley neuromorphen
Processing-Modellen gehören, bei denen versucht wird, sich
funktional dem Arbeitsmodus des Gehirns mit seinen durch sen-
sorischen Input selbstverstärkenden und multidimensionalen
Vernetzungen zwischen Neuronen anzunähern. Doch noch ste-
he es in den Sternen, ob dieses neue Computing-Paradigma über-
haupt imstande sei, dem maschinellen Lernen durchgreifend vo- SEITE 56
BESTOF BigData-Insider.de

ranzuhelfen. „Die Erwartungen an die Technologie können sich


durchaus als zu hoch erweisen“, warnt Priestley.
Wie sehr die Entwicklung spezialisierter KI-Chips noch in den
Kinderschuhen steckt, zeigt auch ein Blick aufs heutige Marktvo-
lumen, das liegt nämlich laut Gartner bei weltweit 50,7 Millionen
US-Dollar jährlich. Doch es soll schon bis 2022 auf 16 Milliarden
US-Dollar anschwellen, wobei den Löwenanteil eingebettete Sys-
teme stellen. Besonders starkes Wachstum prognostiziert Gart-
ner der Implementierung von KI-Mechanismen in sogenannten
Personal Devices, also beispielsweise Smart Watches, Fitness-
Armbändern etc.

Newcomer basteln an KI-Chips


Welche Unternehmen arbeiten nun derzeit mit welchen Ansätzen
daran, die KI am Edge durch energiesparsame, schnelle Prozesso-
ren zu revolutionieren? Hier soll der Schwerpunkt auf einigen Start-
ups liegen, die Priestley für besonders interessant hält. Natürlich
sind auch Größen wie Intel (Projekt Loihi) und Nvidia am Werk.
Ein Beispiel für einen Newcomer ist Esperanto Technologies,
ein Start-up, das auf der noch relativ neuen Open-Source-Risc-
V-Architektur aus Berkeley aufbaut. RISC-V kommt als Linux-ba-
sierter Kern mit einem stark reduzierten Befehlssatz, an den sich
alles Mögliche anflanschen lässt. Derzeit hat der Hersteller zwei
Systems-on-a-Chip im Lieferprogramm: den leistungsfähigen ET-
Maxion und den kleineren, sehr energiesparsamen ET-Minion,
der in Arrays aus mehr als tausend Prozessorkernen zu einer
höchstleistungsfähigen Rechenressource werden soll. Auf die-
sen Arrays wird laut Esperanto Speicher so verteilt, dass es dem
Bedarf der jeweiligen Applikation am besten entspricht. Anfang
November konnte sich das Start-up eine zweite Finanzierungs-
runde mit 58 Millionen US-Dollar sichern, um seine Ideen weiter
zu verfolgen.
Auch GreenWaves Technologies setzt auf RISC-V. Der Halbleiter-
hersteller ohne eigene Produktionskapazitäten wurde 2014 im
französischen Grenoble gegründet. Ziel war es unter anderem,
IoT-Prozessoren zu entwickeln, die lediglich mit Batterien aus-
kommen, also keine eigene Stromzuführung benötigen. Erstes
Resultat der Bemühungen ist der voll programmierbare Multi-
core-Prozessor GAP08 IoT Application Processor. Dazu bietet
das Unternehmen mit Gapunio eine Entwicklungskarte und ein
dazugehöriges Softwarekit an. Der Prozessor erledigt Inferenz-
SEITE 57
BESTOF BigData-Insider.de

aufgaben zwischen verschiedenen Inputgebern, die datenreiche


Inhalte erzeugen. Jüngste Entwicklung ist der Intrinsic ID Hard-
ware Root of Trust for RISC-V AI Application Processor
Kalray, ein Ausgründung der französischen Atomenergiekom-
mission aus dem Jahr 2008, verwendet proprietäres, aber eben-
falls auf dem Multicore-Prinzip aufbauenden Prozessordesign,
dem Massively Parallel Processor Array (MPPA). Schon auf dem
Markt ist der Bostan (MPPA2-256) mit insgesamt 288 Prozessor-
kernen (256 Verarbeitung, dazu kommen 16 Management- und
vier Quad-Cores). Der Chip besitzt 2 Megabyte Speicher, aufge-
teilt in 16 gleich große Speicherbänke. Dazu kommen pro zwei
Prozessoren ein 128-Bit-Kryptoprozessor.
 ★ Ariane Rüdiger

SEITE 58
BESTOF BigData-Insider.de

Crate.io

Datenbasis für das IoT-Zeitalter


IT-Spezialisten haben über Jahrzehnte SQL-Know-how auf-
gebaut, doch das IoT-Zeitalter erfordert die massenweise
Verarbeitung von Echtzeit-Datenstreams, die von Sensoren
erzeugt werden. Crate.io vereinigt beide Welten.
Milliarden von Sensoren werden in Zukunft an der Peripherie
von IT-Infrastrukturen Daten erzeugen. Von der sinnvollen Ver-
arbeitung dieser Datenmassen hängt es ab, wie weit sich die ge-
wonnenen Daten in aktuelle Steuerimpulse für Maschinen oder
langfristig bedeutende handlungsleitende Erkenntnisse umset-
zen lassen.
Doch dazu bedarf es anderer Datenbank-Technologien als das
bisher so erfolgreiche und weit verbreitete SQL. Allerdings muss
sich das Wissen in Sachen No-SQL erst verbreiten. Am besten
wäre es aus Sicht der Industrie sicher, wenn das vorhandene
SQL-Know-how auch auf Basis neuer Technologien in tieferen
Schichten des Verarbeitungsstapels weiter genutzt werden könn-
te.
Um das zu ermöglichen, bohren klassische Lösungsanbieter für
die betriebliche Datenverarbeitung wie Oracle, SAP oder Teradata
ihre Applikationen und Lösungen jetzt auf. Ziel der Erweiterun-
gen ist erstens der Einschluss neuer Datentypen und zweitens,
etwa bei SAP HANA, die Erweiterung der Speicherkapazität, um
mehr Daten In-Memory verarbeiten zu können.

Nachteil Kosten
Diese Herangehensweise hat allerdings den Nachteil, dass dafür
meist teure und proprietäre Hardware bzw. teure Cloud-Instanzen
vonnöten sind. Daher haben sich im Lauf der Jahre neue Anbie

Die Crate.io-Gründer Chris-


tian Lutz (links) und Jodogg
Bartlog machen die unter-
schiedlichsten Daten mit SQL
durchsuchbar.
Bild: Crate.io

SEITE 59
BESTOF BigData-Insider.de

ter auf den Weg gemacht, die versuchen, dem Problem mit häu-
fig quelloffenen Cloud-native-Lösungen entgegenzutreten, um die
Vorteile von vergleichsweise kostengünstigen Cloud-Servern zu
nutzen.
Als Streaming-Engines haben sich beispielsweise Kafka, Flink
oder RabbitMQ etabliert. Elastic, Mongo und andere verwenden
proprietäre No-SQL-Sprachen für die Abfrage und wenden diese
auch auf Streaming-Daten an. Teilweise wird SQL-ähnliche Syn-
tax verwendet, aber ANSI-SQL-Konformität erreichen diese Ansät-
ze nicht, man muss also immer eine eigene Sprache dafür lernen.

Crate.io – die eierlegende Wollmilchsau


Im Bayerischen bezeichnet der satirische Begriff „eierlegende
Wollmilchsau“ ein Kunstprodukt, das Bestandteile eigentlich un-
vereinbarer Wesen (oder Welten) zusammenbringt. Genau das
versucht seit 2013 Crate.io. Das Unternehmen mit Stammsitz im
österreichischen Dornbirn und in Berlin brachte bis 2016 aus-
schließlich Open-Source-Varianten seiner Lösung. Es beschäftigt
40 Mitarbeiter und entwickelt ausschließlich in der DACH-Region.
2017 kam das erste Enterprise-Produkt, CrateDB. Inzwischen ge-
hört auch eine Cloud-Variante zum Portfolio. CrateDB Cloud läuft
derzeit auf Azure und ist dort mit den IoT-Diensten von Azure in-
tegriert. Die Crate-IoT-Data-Plattform, basierend auf der CrateDB,
eignet sich für Bereiche wie Produktion, Materialdosierung, Ma-
schinensteuerung, Qualitätssicherung und so weiter.
Wie macht Crate.io das? Prinzipiell bietet CrateDB eine ANSI-SQL-
kompatible Schnittstelle mit den Vorteilen von NoSQL und ver-
bindet damit Streaming-Engines und andere Datenquellen sowie
aufgelagerte Anwendungen. Für das Hardwaredesign verwendet
Crate.io eine Shared-Nothing-Architektur, in der jeder Knoten in
sich vollständig ist und alle Knoten gleich sind. Schließlich ver-
wendet Crate.io ein innovatives Verfahren zur Datenreduktion.

Technische Details: SQL-Schicht


Die SQL-Schicht realisiert derzeit etwa 70 Prozent der SQL-Funk-
tionen, 100 Prozent werden nicht angestrebt. Lutz: „Wir sind
nicht transaktionsorientiert und wollen keine ACID-Funktiona-
lität. Wir fokussieren uns auf massenweise eintreffende Echtzeit-
Daten, die wir hochparallel in Echtzeit (Millisekunden) verar-
beiten.“ Die unterlegte Storage-Datenbank-Engine ist Lucene,
dieselbe, die auch Elastic nutzt. SEITE 60
BESTOF BigData-Insider.de

In die Datenbasis aufgenommen werden aber nicht nur mit Flink


oder Kafka eingestreamte Daten, sondern auch klassische SQL-
Datenquellen. Dabei erlaubt CrateDB die Kombination vieler Da-
tentypen in einer Lösung: JSON-Dokumente, relationale Daten,
Time-Series, geospatiale und auch binäre BLOBs. Lutz: „In der Re-
gel ersetzen wir zwei oder drei Datenbanken.“ Nach „oben“ funk-
tionieren die bisher entwickelten Applikationen und Schnittstel-
len weiter, als handele es sich um ein klassisches SQL-Produkt.
So können die die über Jahrzehnte entwickelten SQL-basierten
Lösungen und Abfragemodule teils weiterverwendet werden.
Auf jeden Fall aber lässt sich ein Gesamtsystem schneller und
einfacher für die neue Datenvielfalt anpassen als mit einer nur
SQL-teilkonformen Lösung. Schulungsaufwand für das Training
in No-SQL-Technologien entfällt.

Cloud-unabhängig und platzsparend.


Zweitens wurde CrateDB so entwickelt, dass die Datenbank on-
premises, am Edge und auf beliebigen Cloud-Plattformen läuft.
Das, so CEO Lutz, gefalle besonders Großunternehmen. Viele
von ihnen fahren ohnehin Multicloud-Strategien, um Lock-ins
zu vermeiden. Am weitesten gediehen ist die Kooperation mit
Microsoft Azure – hier gibt es ein Co-Sales-Agreement. Dazu sol-
len bald weitere Varianten kommen. Relevant sind da vor allem
AWS, Google und auch Alibaba.
Durch spaltenorientierte Speicherung mit Columnar-Caching-
Technologie ist CrateDB nahe an Geschwindigkeiten von In-Me-
mory-Datenbanken, kann aber gleichzeitig praktisch unlimitiert
auf Disk (SSD am besten) kostengünstig speichern. Gleichzeitig
werden die Daten, ähnlich wie bei der Deduplizierung, stark re-
duziert. Lutz: „In Messreihen mit Millionen von Werten kommen
meist nur einige Tausend unterschiedliche Werte vor, die dafür
aber vielfach. Wir speichern einen Wert im Arbeitsspeicher nur,
wenn er neu ist. Erst wenn das Abfrage-Ergebnis ausgeliefert
wird, greifen wir auf die SSD als Massenspeicher zurück und er-
gänzen die komplette Datenreihe.“
Zusammen mit der Shared-Nothing-Architektur ergibt dieses
Verfahren nahezu lineare, nach oben offene Leistungsskalierung
bei sehr hoher Geschwindigkeit. Ein billiger Server etwa schafft
damit bis zu 40.000 Anfragen pro Sekunde. Die spärliche Kom-
munikation zwischen den Knoten wird über das Protokoll Netty
abgewickelt. SEITE 61
BESTOF BigData-Insider.de

Zukunftspläne 2019
Inzwischen sind weltweit rund 1.200 Crate.io-Cluster (mit min-
destens drei Knoten) installiert. Je ein Drittel befinden sich in
USA, Europa und Asien. Wichtige Kunden sind beispielswei-
se der Plastikverpackungsproduzent Alpla, die SAP-Tochter
Qualtrics, der Industriebeleuchtungs-Spezialist Zumtobel oder
McAfee, der bislang größte Abnehmer. 2019 soll sich der Umsatz
mit dem Enterprise-Produkt nach Verdopplung 2018 noch einmal
verdreifachen.
Und auch neue Funktionen sind geplant. Sie richten sich vor al-
lem an Datenanalysten, die Crate gern verwenden. „Wir wollen
Standardfunktionen für maschinelles Lernen direkt in die Platt-
form installieren“, sagt Lutz.
 ★ Ariane Rüdiger

SEITE 62
BESTOF BigData-Insider.de

Grundlagen Statistik & Algorithmen, Teil 6

Die Ereigniszeitanalyse
Die Ereigniszeitanalyse bzw. Survival Analysis umfasst
eine Reihe von Werkzeugen der Statistik, mit denen die
Zeit bis zum Eintritt eines bestimmten Ereignisses zwi-
schen Gruppen verglichen wird. Auf diese Weise will man
die Wirkung von prognostischen Faktoren, einer medi-
zinischen Behandlung oder von schädlichen Einflüssen
abschätzen. Bei dem Ereignis kann es sich um etwas so
Endgültiges wie den Tod handeln, aber auch um den Ver-
lust einer Arbeitsstelle, eine Scheidung oder einen Beginn,
etwa um eine Geburt oder einen Heilungseintritt.
Mit dem Sammelbegriff der „Survival- und Ereigniszeitanalyse“
werden eine Reihe von statistischen Verfahren bezeichnet, die
der Untersuchung von Zeitintervallen zwischen aufeinander fol-
genden Ereignissen oder Zustandswechseln dienen. Die von den
Untersuchungseinheiten wie etwa Individuen, Haushalten oder
Organisationen eingenommenen Zustände sind dabei stets ab-
zählbar.
In der Regel handelt es sich um eine relativ begrenzte Anzahl von
Zuständen wie etwa hohe/tiefe Körpertemperatur, hohe/niedrige
Feuchtigkeit usw. Die erfassten Ereignisse können zu beliebigen
Zeitpunkten eintreten, bezeichnen aber für gewöhnlich einen
Anfangs- oder Endpunkt, wie etwa eine Geburt, eine Inbetrieb-
nahme, eine Heilung, eine Erkrankung oder das Lebensende –
auch das einer Maschine.

Anwendungsfelder
Weil die Ereigniszeitanalyse in der Soziologie und in den Ingeni-
eursdisziplinen so vielfältig verwendbar ist, lassen sich zahlrei
Ereigniszeitanalyse mit zensierten Daten
für die Vertriebsabteilung: die Über-
lebensfunktion für Vertriebstechniker
(durchgezogene Linie) und für Vertreter
(gestrichelte Linie) in einem Kaplan-
Meier-Schätzer. Vertriebstechniker sind
ihrer Stelle wesentlich stärker und länger
treu als Vertreter. Der blaue und rötliche
Hintergrund deckt sich mit der jeweiligen
Kurve.
Bild: SAS

SEITE 63
BESTOF BigData-Insider.de

che Beispiele für solche Prozesse finden. So sind etwa die Dauer
der Arbeitslosigkeit bis zum Beginn einer neuen Erwerbstätigkeit
für die Arbeitsmarktforschung interessant. Die Zeit in einer be-
ruflichen Tätigkeit bis zu einem sozialen Aufstieg ist für die so-
ziale Mobilitätsforschung von Interesse. Die Dauer bis zu einem
Umzug an einen anderen Ort ist für die Migrationsforschung re-
levant. Die Ehedauer bis zur Scheidung taucht in der demogra-
fischen Forschung auf und die Überlebenszeiten von Patienten
werden in medizinischen Studien erfasst.
Analog dazu lassen sich Maschinen beschreiben, etwa im Smart
Grid, in einer komplexen Maschine oder in einem sensorgestütz-
ten IoT-System. Deshalb wird das Verfahren im Englischen auch
„Reliability Theory“, also Zuverlässigkeitsanalyse, genannt. Üb-
licherweise werden nur Ereignisse untersucht, die höchstens ein
Mal pro Subjekt bzw. Gruppe auftreten können, etwa eine Le-
benszeit. Eine Erweiterung auf wiederholt auftretende Ereignisse
ist indes möglich.

Statistische Funktionen
Es geht stets darum, zentrale Kenngrößen wie etwa die Überle-
bensrate einer Gruppe oder die Zuverlässigkeit einer Maschine
herauszufinden. Daraus folgt, dass die Überlebensfunktion S
analog zur Zuverlässigkeitsfunktion R(t) berechnet wird, wobei
der Faktor t Zeit ist und P die Höhe der Wahrscheinlichkeit: S(t)
= R(t) = P (T>t). T ist die verbleibende Dauer zum Lebensende ei-
nes Organismus oder zum Ausfall eines Geräts. Normalerweise
ist S(0) = 1, sonst kann nämlich ein sofortiger „Tod“ oder Gerä-
teausfall eintreten.
Aus der Überlebensfunktion lassen sich verschiedene Größen
ableiten. Die Ereigniszeit-Verteilungsfunktion, in technischem
Bezug auch als Ausfallswahrscheinlichkeit („Probability of fai-
lure“) bezeichnet und mit F abgekürzt, ist die komplementäre
Funktion zur Überlebensfunktion: F(t). Die erste Ableitung von
F, die Ereignisdichtefunktion oder Ausfallsdichte („failure den-
sity function“), wird mit f bezeichnet. Die Ereignisdichtefunkti-
on ist die Rate des betrachteten Ereignisses pro Zeiteinheit.
Die Ausfallrate, auch als Hazardfunktion bezeichnet und mit
h(t) bezeichnet, ist definiert als Häufigkeit, mit der ein Ereig-
nis zum Zeitpunkt T eintritt, vorausgesetzt, dass es bis zum
Zeitpunkt t noch nicht eingetreten ist. Der englische Ausdruck
„force of mortality“ (Sterblichkeitsrate) wird speziell in der SEITE 64
BESTOF BigData-Insider.de

Demografie verwendet. Die Hazardfunktion kann anwachsen


oder fallen, sie braucht weder monoton noch stetig zu sein.
Die verbleibende Lebenszeit zu einem Zeitpunkt t0 ist die bis
zum Tod bzw. Ausfall verbleibende Zeit, also T - t0. Die zukünf-
tige Lebenserwartung ist der Erwartungswert der verbleiben-
den Lebenszeit. Für t0 = 0 reduziert sich dies auf die Lebenser-
wartung bei der Geburt. In Zuverlässigkeitsanalysen wird die
Lebenserwartung englisch „mean time to failure“ (MTTF) und
die zukünftige Lebenserwartung englisch „mean residual life-
time“ (MRL) genannt. MTFF ist eine obligatorische Angabe für
jede Art von elektrischem oder elektronischem Gerät. Nach Ab-
lauf dieses „Mindesthaltbarkeitsdatums“ sollte das Gerät aus-
getauscht werden.

Weitere Methoden
Die statistischen Methoden der Ereigniszeitanalyse reichen
von den deskriptiven Verfahren der Survivalanalyse (z. B.
Sterbetafel-Methode und Kaplan-Meier-Schätzung), über das
semiparametrische Regressionsmodell von Cox, bis zu den pa-
rametrischen Verfahren mit und ohne Zeitabhängigkeiten, so
etwa dem Exponential-, Piecewise-Constant-, Gompertz (-Ma-
keham)-, Weibull- oder log-logistischen Modell. Im begrenzten
Rahmen dieses Beitrag können nur der Kaplan-Meier-Schätzer
und das Cox-Modell näher vorgestellt werden.

Kaplan-Meier-Schätzer (KMS)
Der Kaplan-Meier-Schätzer-Algorithmus, bereits 1958 formuliert,
ist eine der am häufigsten verwendeten Methoden der „Survival
Analysis“ und in praktisch jedem Statistikpaket (SAS, R, Mathe-
matica, Python usw.) zu finden. Der KMS dient zum Schätzen
der Wahrscheinlichkeit, dass bei einem Versuchsobjekt ein be-
stimmtes Ereignis innerhalb eines Zeitintervalls nicht eintritt.
Es handelt sich um eine nichtparametrische Schätzung der Über-
lebensfunktion (s.o.) im Rahmen der Ereigniszeitanalyse. Der
KMS lässt sich beispielsweise nutzen, um die Sterbewahrschein-
lichkeit eines Patienten oder die Ausfallwahrscheinlichkeit eines
Geräts zu kalkulieren.
Für eine KM-Verlaufskurve sind zwei Daten nötig: der Status der
letzten Messung bzw. Beobachtung und die Zeit bis zum Ereig-
nis. Sollen die Überlebensfunktionen zweier Gruppen verglichen SEITE 65
BESTOF BigData-Insider.de

werden, wird ein drittes Datum benötigt: die Gruppenzuordnung


jeden Subjekts. Auf diese Daten braucht man nur noch die KM-
Formel anwenden.
Das Verlaufsdiagramm eines KM-Schätzers (siehe Abbildungen)
besteht aus einer Reihe von absteigenden horizontalen Schritten
bzw. Stufen, welche, eine ausreichend große Datenmenge vor-
ausgesetzt, sich der wahren Überlebensfunktion (s. o.) dieser Be-
völkerungsgruppe annähert. Der Wert der Überlebensfunktion
zwischen aufeinanderfolgenden Messungen bzw. Beobachtun-
gen wird als konstant angenommen.
Ein großer Vorteil dieser KM-Kurve besteht darin, dass die Me-
thode auch manche Arten von zensierten Daten berücksichtigen
kann, besonders rechts zensierte. Häufig werden Daten nämlich
links oder rechts zensiert. Wenn Geburt und Tod bekannt sind,
dann ist in diesem Fall der Lebensverlauf eindeutig. Wenn man
dagegen nur weiß, dass die Geburt vor einem bestimmten Zeit-
punkt stattfand, dann nennt man diesen Datensatz links zen-
siert.
Genauso könnte nur bekannt sein, dass der Tod nach einem be-
stimmten Datum eintrat. Das ist dann ein rechts zensierter Da-
tensatz. Ein Lebenslauf kann auf diese Weise auch rechts und
links zensiert sein (intervallzensiert). Falls eine Person, die ein
bestimmtes Alter nicht erreicht, überhaupt nicht beobachtet
wird, dann ist der Datensatz abgeschnitten (engl.: truncated).
Bei einem links zensierten Datensatz weiß man dagegen zumin-
dest, dass das Individuum existierte.
Im Verlaufsdiagramm zeigen kleine Häkchen an, dass einzelne
Patienten Überlebenszeiten aufweisen, die rechts-zensiert wur-
den. Um die Verlässlichkeit auszudrücken, ist im KM-Schätzer
das Konfidenzintervall eingeführt worden. Ein Konfidenzinter-
vall ist ein Intervall aus der Statistik, das die Präzision der La-
geschätzung eines Parameters angeben soll. Das Konfidenzin-
tervall gibt den Bereich an, der bei unendlicher Wiederholung
eines Zufallsexperiments mit einer gewissen Wahrscheinlichkeit
die wahre Lage des Parameters einschließt. Das Konfidenzinter-
vall kann aus der Varianz bzw. dem Standardfehler berechnet
werden.

Regressionsmodell von Cox


Die Cox-Regression ist eine nach David Cox benannte Regressions-
analyse zur Modellierung von Überlebenszeiten. Wie alle ereig-
niszeitanalytischen Methoden ist sie ein Verfahren zur Schätzung SEITE 66
BESTOF BigData-Insider.de

des Einflusses unabhängiger Variablen auf die Dauer bis zum


Eintreten von Ereignissen („Überlebenszeit“) bzw. deren Hazard.
Als sogenanntes semiparametrisches Verfahren liefert die Cox-
Schätzung kein komplettes Vorhersagemodell für die Überlebens-
zeit, sondern lässt die Verteilungsfunktion der beobachteten Epi-
sodenenden unspezifiziert. Sie schätzt ausschließlich den Einfluss
metrischer oder kategorialer Variablen auf einen Baseline-Hazard,
von dem angenommen wird, dass er über alle Fälle hinweg kons-
tant ist.
Die Anwendungsgebiete sind ähnlich wie in der Ereigniszeitana-
lyse. Das von Cox vorgeschlagene Regressionsmodell wird zur
Untersuchung des Verhaltens der Ausfallraten in Abhängigkeit
von Umwelteinflüssen benutzt, beispielsweise von Soldaten unter
Beschuss. Grundlage des Modells sind die Einflussvektoren z von
i, mit i = 1 bis n, die für jedes Individuum der Studie beobachtet
werden können. Der Zusammenhang zwischen diesen Einflüssen
und der Ausfallfunktion wird dann über eine festgelegte Relation
h hergestellt.
H von 0 bezeichnet dabei eine unbekannte Ausfallfunktion, die
im Ausgangsfall ohne Einflüsse die zugehörige Ausfallfunktion
darstellt. ß ist ein unbekannter Parameter, ebenfalls n-dimensio-
nal. Aufgabe der Statistik ist die Schätzung dieses Parameters.
Da Jahrzehnte seit der Konzeption dieser beiden Methoden ver-
gangen sind, wurden sie im Laufe der Zeit erweitert, verfeinert
und modifiziert. So ist es dem Statistiker möglich, zahlreiche vom
Standard abweichende Fälle zu berechnen. In jüngster Zeit kommt
den Methoden der Ereignisanalyse eine besondere Bedeutung bei
der Weiterentwicklung der Kausalanalyse, der Untersuchung von
parallelen und interdependenten Prozessen und der Mehrebenen-
analyse zu. Sicher ist aber, dass die Ereigniszeitanalyse mit bedeu-
tenden Algorithmen arbeitet, die in keinem Statistikpaket fehlen
dürfen.
 ★ Michael Matzer

SEITE 67
BESTOF BigData-Insider.de

Data Preparation

Datenaufbereitung ist ein unter-


schätzter Prozess
Der Prozess der Datenaufbereitung umfasst die Reinigung,
Formung und Mischung von Daten, damit sie für analyti-
sche und andere Aufgaben in optimaler Qualität bereit-
stehen. Nur mit erstklassigen Daten lassen sich beispiels-
weise Lösungen für Machine Learning und Künstliche
Intelligenz effizient, sicher und zuverlässig versorgen.
Data Preparation ist für alle IT-Nutzer, die geeignete Informatio-
nen für eine Aufgabe wie etwa eine Marketingkampagne suchen,
eine lästige, aber notwendige Angelegenheit, eine Hürde, die sie
von echter Produktivität abhält. Auf vielen IT-Konferenzen ist zu
vernehmen, dass die leidgeprüften Anwender bis zu vier Fünftel
ihrer kostbaren Zeit darauf verwenden, Daten zu suchen, aufzu-
bereiten und bereitzustellen. Und damit sind nicht einmal die
Excel-Jockeys gemeint, sondern Nutzer von moderneren Infor-
mations-Suiten. Im Jahr 2018 veröffentlichten mehrere neue An-
bieter wie Trifacta interessante Ansätze zur Lösung des Problems
Data Preparation.
Der Mehrwert einer Data-Preparation-Lösung ist beträchtlich,
denn er kommt nicht nur den Prozessen zugute, sondern auch
Business-Aspekten wie Data Governance, Compliance und Ver-
trauenswürdigkeit der wirtschaftlichen Aussagen. Im Bereich
der Business Intelligence beschleunigen und demokratisieren
solche Lösungen die Prozesse für das Erlangen von Erkenntnis-
sen, das Fällen von Entscheidungen und die entsprechenden
Handlungen. Das Bereinigen und Aufbereiten von Daten ist kein
Selbstzweck,
Bild: © momius - stock.adobe.com

Data Preparation kostet


Zeit, ist aber unerlässlich.
Geeignete Tools können
den Prozess beschleunigen
und vereinfachen.

SEITE 68
BESTOF BigData-Insider.de

sondern vielmehr lassen sich bereits vorhandene Daten derart


mit wirtschaftlichen Aspekten anreichern, dass sie zunehmend
an Wert für das Unternehmen gewinnen.
Nicht zuletzt sind angereicherte und vertrauenswürdige Daten
von höchster Bedeutung für die Anwendungsentwicklung. Nur
wer Umfang, Standort und Besitzer von Daten kennt, kann mit
ihnen auch entsprechend verlässliche Apps entwickeln und tes-
ten – das gilt insbesondere für Big Data und Streaming Data,
etwa im IoT und in Industrie 4.0. Anders als erwartet, ist Data
Preparation also auch ein Thema für Entwickler und Sicherheits-
experten.

Fünf große Schritte


Worin bestehen überhaupt die Abschnitte im langen Prozess der
Data Preparation? Der bekannte Blogger und Podcaster Jim Har-
ris von Obsessive-Compulsive Data Quality (OCDQ) hat für The
Data Warehouse Institute (TDWI) ein konzises Papier erstellt, das
die fünf Hauptphasen des Prozesses beschreibt. Er legt Wert auf
Effizienz und Automatisierung dieser Schritte, sodass der Nutzer
nicht immer wieder das Rad neu erfinden muss, sondern bei je-
der erneuten Aufgabe auf erprobte und geregelte Schritte zurück-
greifen kann. Die benutzte Softwarelösung sollte also zumindest
eine Funktion für Makros umfassen, besser noch eine für Regeln
(Rules Management) oder gar Machine Learning. Im Hinblick auf
die Ermächtigung von geschäftlichen Nutzern und Data Scien-
tists geht der Trend zur Entwicklung von Self-Service-Werkzeu-
gen, die keine Kenntnisse in SQL, Python etc. voraussetzen.

1. Schritt: Discovery
Beim Entdecken geht es darum, die am besten geeigneten Daten
für einen bestimmten Zweck zu finden. Die beste Hilfe bei der
effizienten Suche ist ein Data Catalog. Wer dieses Metadaten-Re-
pository anlegt und sorgfältig pflegt, verfügt über einen umfas-
senden und gut dokumentierten Überblick. Nicht nur stellt der
Data Catalog einen Index bereit, der auf die vorhandenen Daten
verweist (die ja an ganz verschiedenen Lokationen unter unter-
schiedlichen Zugriffsbedingungen gespeichert sein können), er
erlaubt auch das Data Profiling.
Das Data Profiling liefert Auskünfte über die Attribute der Da-
ten selbst. Dazu gehören beispielsweise Zähler für Zeilen einer SEITE 69
BESTOF BigData-Insider.de

Tabelle, die Datentypen in Tabellenspalten, Spaltenwerte (Mini-


mum, Maximum und Mittelwert) sowie Leerstellen. Häufig sind
Datenbestände, wie etwa Adressen, weder vollständig noch ak-
tuell. Die Attribute liefern wertvolle statistische Aussagen darü-
ber, von welcher Qualität und Herkunft die untersuchten Daten
sind. Handelt es sich um persönlich identifizierbare Informatio-
nen (PII), muss der Nutzer Aspekte des Datenschutzes beachten,
oder er bekommt schnell Probleme mit der Datenaufsicht (Data
Steward).

2. Detention
Nachdem der Nutzer die geeigneten Daten gefunden hat, muss er
sie an einem geeigneten Ort sammeln und ablegen. Da alle wei-
teren Arbeitsschritte von dieser Phase abhängen, ist eine sorg-
fältige Wahl der Lokation ratsam. Sofern es sich nicht um eine
Excel-Tabellenkalkulation handelt, empfiehlt Jim Harris einen
Speicherplatz, der geteilt und gemeinsam verwaltet wird – nur
für alle Fälle. Es eignen sich eine relationale Datenbank (etwa
in einem Data Warehouse), ein Network File System (wie etwa
IBM Spectrum alias GPFS) oder gar ein Big Data Repository wie
etwa einen Data Lake, der Hadoop als Basis hat. Um die nötigen
Prozesse zu beschleunigen, geht der Trend zur Nutzung von In-
Memory-Speicherorten (oder in der Cloud). Das bedeutet mitun-
ter eine Beschleunigung um den Faktor 100.

3. Destillieren
Während der Bereitstellungs- oder Detention-Phase müssen Da-
ten dedupliziert und validiert werden. Hier besteht erneut die
Chance zu Anreicherung der Metadaten. Regeln und Makros, die
in der Datenbereinigung und Transformation angewandt wur-
den, lassen sich hier gut wiederverwenden. Ziel ist das Zusam-
menführen erstklassiger Daten zu einer einzigen Datenquelle, ei-
nem einzigen Datenmodell, auf das sich Analysen etc. anwenden
lassen. Auf dieser Ebene besteht die Chance, durch Filtern und
Aggregieren angepasste Sichten zu kreieren bzw. Sichten, die De-
tail in bestimmter Tiefe zeigen.

4. Dokumentation
Entdeckte, bereitgestellte und destillierte Daten werden im Data
Catalog sowohl in technischer als auch in geschäftlicher Hin-
sicht verzeichnet und dokumentiert. Dazu gehören: SEITE 70
BESTOF BigData-Insider.de

• Technische Definitionen
• Wirtschaftliche Terminologie
• Stammbäume der Datenherkunft
• Historie der während des Destillierens angewandten
Änderungen (Transformationen etc.)
• Beziehungen zu anderen Daten
• Empfehlungen für die Verwendung der Daten
• Damit verknüpfte Richtlinien der Data Governance

Identifizierte Data Stewards


Man sieht also: Diese Phase bereitet entscheidend eine richtlini-
enkonforme Verwendung der Daten und Metadaten vor. Durch
Regeln und Makros lässt sich ihre fehlerfreie Wiederverwendung
sicherstellen, insbesondere wenn verschiedene Nutzer daran kol-
laborieren. Jim Harris spricht sogar von einer Beschleunigung
bei der Fertigstellung der Data Preparation, wenn man diesen
Data Catalog nutzt. Er warnt noch einmal eindringlich vor Excel-
Jockeys, die diese Regeln, Richtlinien und Vorgaben ignorieren.
Diese Daten-Silos würden nicht nur viel länger brauchen, son-
dern zudem verschiedenen Nutzern unterschiedliche Resultate
liefern – eine hochriskante Sache für das gesamte Unternehmen.

5. Delivery (Lieferung)
Die Lieferung von Daten erfolgt in demjenigen Datenformat, das
der Zielprozess oder -nutzer anfordert. Die strukturierte Forma-
tierung erfolgt als Destillat. Jede ausgelieferte Datenmenge sollte
für die persistente Bereitstellung (Detention) bewertet und ggf.
in den Data Catalog mitsamt relevanter Metadaten in den Data
Catalog aufgenommen werden. Auf diese Weise ließe sich der
Discovery-Prozess auf andere Nutzer ausweiten, was wiederum
Zeit spart.
Bei der Lieferung sind Governance-Richtlinien zu beachten, so
etwa das Vermeiden jeglicher Risiken für vertrauliche Daten.
Klartext: Sie müssen gegebenenfalls verschlüsselt werden. In ei-
nem Mainframe fällt dieser Schritt weg, weil die Datenverarbei-
tung nur innerhalb ein und desselben Systems stattfindet. Beim
Export verschlüsselt der Kryptoprozessor alle Daten. Jim Harris
empfiehlt dringend, generell alle ungenutzten Daten sicher zu lö-
schen, um die Angriffsfläche zu minimieren. Für Reports muss SEITE 71
BESTOF BigData-Insider.de

man berücksichtigen, dass die Lieferung in regelmäßigen Ab-


ständen erfolgt, beispielsweise am Monats- oder Quartalsende.
Da sich die Basis-Daten aber geändert haben, muss der Prozess
komplett neu angestoßen werden. Gut, wenn man dafür ein Ma-
kro gespeichert hat. Harris rät zudem, die Verwendung der ge-
lieferten Daten zu überwachen und die Aufzeichnung über die
Lieferungen aus dem Data Catalog zu löschen. Man kann nie vor-
sichtig genug sein, so sein Motto.

Dynamischer Markt
Es gibt zahlreiche Hersteller von Data-Prep-Lösungen. Dazu zäh-
len erstens die Datenintegrationswerkzeuge wie etwa die Infor-
matica-Plattform und zweitens die Anbieter von Big Data Fabrics
wie etwa Hortonworks. Jeder bedeutende Hersteller von Daten-
banken wie etwa SAP, SAS, Oracle und IBM bietet ebenfalls sol-
che Tools an. Schließlich kommen noch innovative neue Offerten
von Nischenanbietern hinzu, die entweder einen andersartigen
Ansatz verfolgen oder nur in bestimmten Branchen – wie etwa
Pharma- und Gesundheitswesen – tätig sind.
Deutlich ist der Trend zu erkennen, Produkte in der Public Cloud
bereitzustellen. So bietet etwa Datameer, ein Spezialist für Data
Pipelines und Data Discovery, sein Tool Datameer Express für
AWS S3 und EC2 in einem skalierbaren EMR-Cluster an. Datameer
AWS lässt sich auch containerisiert für EC2-Instanzen (Amazon
Machine Instances, AMI) betreiben. Durch AWS IAM sind die Da-
ten vollständig vor unbefugten Nutzern geschützt. Eine Enterpri-
se-Version bietet seit Februar 2019 größere Kapazitäten an. Nach
Angaben des deutschen Vertriebsleiters Ulrich Wenz ist der Sup-
port von Containern (Elastic Kubernetes Service, EKS) geplant.
Mehrere Hersteller werden in zwei aktuellen Forrester-Reports
aufgelistet. Die zehn wichtigsten Anbieter wurden hier anhand
von 18 Auswahlkriterien bewertet: ClearStory Data, Datameer,
Datawatch, Oracle, Paxata, SAP, SAS, TIBCO Software, Trifacta,
and Unifi Software. Sie alle zu würdigen, würde den Rahmen
dieses Beitrags sprengen.

Self-Service Data Preparation mit Trifacta


Ein weiterer Trend besteht darin, das Prinzip der Selbstbedie-
nung aus dem BI-Bereich auch auf Data Prep zu übertragen.
Das Ziel ist, diesen wichtigen Schritt der Datenaufbereitung ei-
nem viel größeren Nutzerkreis als bisher zugänglich zu machen, SEITE 72
BESTOF BigData-Insider.de

schreibt Cinny Little im genannten Forrester-Report: „Zu diesen


Personas gehören Business Users bzw. -Analysten, Data Scien-
tists und Data Engineers.“
Trifacta behauptet hingegen, dass diese Business-Analysten – da
sie auf einer sehr hohen wirtschaftlichen Ebene arbeiten – nicht
in der Lage seien, auf ihre Rohdaten zuzugreifen und könnten
sich infolgedessen sowieso nicht mit dem Data-Prep-Prozess be-
fassen. Das wiederum könne fatale Folgen haben: Weil sie quasi
betriebsblind sind, ändert dies ihre Anforderungen und letztlich
auch das Resultat ihrer Analysen.
Self-Service Data Prep Tools, wie etwa Trifacta Wrangler, lösen
die Probleme der Sichtbarkeit und der einfachen Benutzbarkeit
für eben jene Business Analysten und -User. Ähnlich wie die
Qliks und Tableaus dieser Welt erobern sie sich einen neuen
Markt, in dem offenbar eine hohe Nachfrage herrscht.
Die Methode lautet Data Wrangling und verspricht den nicht-
technischen Nutzern in den Fachbereichen nicht nur, schneller
zu Erkenntnissen zu gelangen, sondern auch eigene Data-Prep-
Projekte schneller und einfacher vorantreiben zu können. Der
Haken: Eigentlich sollte man im Data-Prep-Schritt der Excel-Höl-
le mit ihren Datensilos entkommen, aber Data Wrangling scheint
ein guter Weg zu sein, das Chaos wieder einzuführen.

Anwendererfahrung
Talend ist neben Informatica einer der großen Datenintegrato-
ren. Data Prep ist 2018 vorangetrieben und im Herbst-Release
2018 noch einmal skalierbarer gemacht worden. Die Desktop-
Version des Tools steht kostenlos zur Verfügung, weist aber na-
türlich eine entsprechende Begrenztheit bei der Kapazität auf
(siehe die Abbildungen). In der Produktbeschreibung lassen sich
damit Excel-Daten sowie Daten im universalen CSV-Format (CSV:
Comma-separated Value) verarbeiten. Sie unterstützt also das
Self-Service-Prinzip ebenso wie Datameer Express und Trifacta
Wrangler.
Avalara ist ein US-Privatunternehmen, das anderen Unterneh-
men hilft, Compliance im Bereich Transaktionssteuern zu erzie-
len. Die Unterschiede zwischen nationalen und internationalen
Steuerregeln und Tarifen können erheblich ausfallen und Unter-
nehmen wollen lieber auf der sicheren Seite sein, wenn es um
Steuerkonformität geht. Als Softwarehersteller bietet Avalara da-
für seine Compliance-Cloud-Plattform an. SEITE 73
BESTOF BigData-Insider.de

In seiner britischen Niederlassung sollten Steuerexperten E-


Commerce-Umsatzdaten aus Amazon & Co. vereinheitlichen –
und das mit dem gefürchteten MS Excel. Diese Transformation
wäre sehr zeitaufwendig und teuer geworden. Die gut bezahlten
Steuerexperten sahen nicht ein, warum sie Excel-Jockeys werden
sollten. Als beriet sich Chris Potter, Data Services Architect bei
Avalara, mit den Experten und führte statt Excel lieber Talend
ein, denn mit dessen Datenintegrationsprozess hatte er bereits
gute Erfahrungen gemacht.
„Talend Data Preparation verbindet intuitive bedienbare Self-
Service Data Preparation sowohl mit Data Curation Tools als
auch mit Datenintegration“, so Potter. „Das machte Talend zu ei-
ner offensichtlichen Wahl als Data-Prep-Komponente in unserer
Architektur.“ Potter & Co. mussten den Prozess lediglich auf die
benötigten Daten und Formate anpassen. Die Lösung entdecke
Fehler sofort und transformierte jede Datenmenge aus jeder be-
liebigen Quelle zum Export in jedes beliebige Ziel (Format, Loka-
tion usw.) – und das binnen Minuten statt Stunden. Diese Abtei-
lung kann jetzt mit ihrem sicheren und automatisierten Prozess
mehr Kunden bedienen, aber dennoch die Termine für die Abga-
be von Steuererklärungen einhalten.
In der Case Study auf der Talend-Webseite für Data Preparation
beschreibt Avalara den Prozess im Detail. Doch allein schon die
Vermeidung von Excel, die Fehlerbereinigung und die Beschleu-
nigung und Skalierung um Größenordnungen sind am Ende des
Tages pures Gold wert.
 ★ Michael Matzer

SEITE 74
BESTOF BigData-Insider.de

Kommentar von Dr. Olaf Nimz, Trivadis

Preventive Maintenance – Fehler-


prognose mit Machine Learning
Die Entscheidung, Maschinenteile vorsorglich auszutau-
schen oder Maschinen erst nach einem Schaden zu re-
parieren, erfordert von Betreibern von Industrieanlagen
und Prozessverantwortlichen eine sorgfältige Kosten-
Nutzen-Abwägung. Ist genauer vorhersehbar, wann ein
Teil ausfällt, könnten Wartung und Instandhaltung im
Hinblick auf planbare und kürzere Stillstandszeiten op-
timiert werden.
Doch trotz intensiver Überwachung können Ursachen von Feh-
lern und sich gegenseitig bedingende Fehler oft nicht eindeu-
tig erkannt werden. Selten auftretende Fehler lassen sich auch
nicht über wiederkehrende Muster aufdecken. Ermittelt man
jedoch, in welchem Umfang und wie häufig die Messwerte vom
typischen Betriebszustand abweichen, lassen sich Indikatoren
entwickeln, mit denen Ausfälle verhältnismäßig gut vorherzu-
sehen sind. Innerhalb bekannter Vorhersagetoleranzen lässt
sich die Wartungs- und Instandhaltungslogistik entsprechend
planen und ungeplante längere Stillstandszeiten können in
vielen Fällen vermieden werden.
Service-Einheiten verfügen heute häufig über umfassendes Da-
tenmaterial zum Zustand von Maschinen. Dennoch bleiben man-
che Fehler, die zu Störungen und Ausfällen führen, unerkannt.
Grund dafür ist, dass sie im Vorfeld keine sichtbare Überschrei

Der Autor: Dr. Olaf Nimz


ist Principal Consultant &
Disziplin Manager für Data
Science bei Trivadis
Bild: Trivadis

SEITE 75
BESTOF BigData-Insider.de

tung der üblichen Grenzwerte auslösen. Diese unliebsamen


Überraschungen stellen die Logistikverantwortlichen vor die
Herausforderung, geeignetes Personal, Werkzeuge und Ersatz-
teile ohne Vorwarnung, jedoch schnellstmöglich an die defekte
Maschine zu bringen.

Indikatoren der Abweichung


Ein erfolgsversprechender datengetriebener Ansatz der Fehler-
analyse beruht darauf, die gesamten Messdaten für einen reprä-
sentativen Zeitraum zu modellieren, ohne dabei auf das detail-
lierte Know-how des Konstrukteurs angewiesen zu sein, etwa in
Form von zeitabhängigen Differentialgleichungen. Im Rahmen
der Modellierung wird die Abhängigkeit jedes individuellen Sen-
sors zu allen relevanten Sensoren erlernt und damit vorhersagbar.

Zunächst muss natürlich der Normalzustand in all seinen typi-


schen Betriebszuständen erfasst werden. Anschließend folgt die
Prüfung der Konsistenz zwischen den Sensoren, indem die Ab-
weichung zwischen Ist- zu Soll-Wert gemessen wird. Die Skala,
auf der die Abweichung bewertet wird, bezieht sich auf die rela-
tive Genauigkeit, mit der das Modell diesen Sensorwert auf Ba-
sis der anderen Werte vorhersagen kann. Diese Skalierung wird
auch als z-Score bezeichnet und entspricht der Wahrscheinlich-
keit, dass ein neuer Messwert außerhalb des Intervalls (Predic-
tion Interval) liegen darf. Ein vorzeichenneutraler Abweichungs-
wert von 2 beziehungsweise 3 ist in 1:20 beziehungsweise 1:100
von zeitlich hintereinander liegenden Messungen als unauffällig
zu bewerten. Auf diese Weise erhält man ein Panel mit sehr sen-
siblen Indikatoren (virtual Sensor). Diese zeigen bei jedem Sen-
sor an, ob sie konsistent zu den übrigen Sensorwerten im aktuel-
len Zustand sind.
Der Austausch von Bauteilen, Reparaturen und Kalibrierungen
erzeugen ein Offset, also eine konstante Messabweichung, die
die Indikatoren folgerichtig anzeigen. Dem veränderten Nor-
malzustand wird durch Anpassen des Referenzzeitraums und
gegebenenfalls auch des Modells Rechnung getragen. Die Infor-
mationen aus dem Logbuch über die vorgenommen Systemände-
rungen fließen sofort als Vermerk in die Visualisierung ein. Die
erzeugten Warnsignale lassen sich aufgrund der Veränderung in
der Prozesssteuerung im Anschluss leichter richtig interpretieren
und einordnen. SEITE 76
BESTOF BigData-Insider.de

Zustandslosigkeit
Idealerweise kann durch Ausschluss von nicht-stationären Über-
gangszuständen die Zeitabhängigkeit vermieden werden. Diese
erzwingt das Einbeziehen der kurzfristigen Vergangenheit, wie
beispielsweise schrittweises Anfahren oder Aufwärmphase.
Temporäre Fluktuationen wirken sich auf die Präzision aus, sind
also indirekt im Fehlerbalken enthalten. Für Systeme mit stark
schwankender Last ist ein nicht-linearer Anteil zu erwarten. Bei
Windturbinen zum Beispiel stellen Windgeschwindigkeit und
Windrichtung zusammen mit der Position der Turbine im Wind-
park und dem daraus resultierenden winkelabhängigen Wind-
schatten wesentliche externe Einflussfaktoren dar. Lineare Mo-
delle verarbeiten die geeichten Sensordaten in physikalischen
Masseinheiten.
Um nicht-lineare Effekte zu kompensieren, führt die entspre-
chende Transformation zu einer Linearisierung des Modells und
erleichtert damit die Komplexität des Trainings durch Anwen-
dung deterministischer Methoden. Erkauft wird das durch Trans-
formationsansätze wie zum Beispiel teilautomatisierte Box-Cox,
die für die Anwender zu nicht-kommunizierbarer Skalierung
ohne physikalischen Sinn führt oder eine Rücktransformation
der Vorhersage und ihrer Verlässlichkeitsgrenzen erforderlich
macht. Damit geht ein Vorteil der sogenannten „White-Box“-Me-
thode verloren, die in der Regel aufgrund ihrer besseren Nach-
vollziehbarkeit von Ingenieuren leichter akzeptiert wird.

Akzeptanz durch Visualisierung


Die Modelle zur Konsistenzprüfung jedes einzelnen Sensors
können über eine Wasserfall-Visualisierung überprüft werden,
welche die relevanten und zeitweise korrelierten Eingabewerten
anzeigt. Dort ist der individuelle Einfluss der Sensorwerte auf die
Vorhersage zu jedem Zeitpunkt sichtbar und per Mittelwert oder
Median sogar für längere Perioden darstellbar. Damit wird die
Interpretation der einzelnen Koeffizienten nachvollziehbar, weil
sie die unterschiedliche Skala der Eingabewerte kompensiert
und erst nach der Multiplikation sinnvoll vergleichbar sind.

Multikollinearität
Selbst einfache Ansätze, wie die lineare Regression, stehen vor
der üblichen Herausforderung, die minimale Auswahl der Vari-
ablen zu bestimmen. Insbesondere eine stark korrelierte Kenn- SEITE 77
BESTOF BigData-Insider.de

zahl bläht die Präzision der Vorhersage künstlich auf, also ge-
nau den Wert, den wir zur Bewertung der Abweichung benutzen.
Eine der Modellierung vorausgehende globale Selektion ist hier
ungeeignet, da temporäre lokale Effekte für jeden zu modellie-
renden Sensor unterschiedlich wichtig werden.
Die optimale Teilmenge der Variablen aus dem multidimensio-
nalen Raum zeichnet sich durch Kenngrößen der Modellqualität
wie AIC, BIC, R2adj. unter gleichzeitiger Beachtung der minima-
len „Variable Inflation Faktor“ (VIF) in Bezug auf die restlichen
Sensoren der Gleichung aus. Da beide Kriterien voneinander ab-
hängig sind, heißt der Lösungsansatz Multi-Parameter-Optimie-
rung. Selbst bei zwanzig Variablen und deterministischer Model-
lierung ist die Berechnung aller Kombinationen ausgeschlossen,
da nicht nur 202 sondern eher 220 Varianten die kombinatorische
Explosion erzeugt. Der pragmatische Ansatz, der schrittweise
die nächstbeste Variable hinzufügt oder entfernt, folgt allerdings
nur einem Kriterium. Die optimale Lösung ist nicht einfach er-
reichbar, jedoch ein lokales Minimum, das nach Plausibilitäts-
prüfung einen akzeptablen Kompromiss darstellt.

Produktivsetzung
Die Herausforderung aus dem Data-Mining-Industrie-Standard-
Vorgehen CRISP-DM liegen wider Erwarten nicht in der statis-
tischen Modellierung oder Datenvorbereitung. Die Berechnung
des Business Case, das heißt die Quantifizierung des Nutzens
und der Produktivsetzung der Modelle, stellen die heikelsten
Bereiche dar. Heute sind wir in der glücklichen Lage, dass sich
die Produktivsetzung durch die weitverbreitete Integration von
R oder Python wesendlich vereinfacht hat. In Dateninfrastruk-
turen wie Datenbanken, Big-Data-Umgebungen oder direkt in
Visualisierungstools stehen vielfältige Optionen zur Verfügung
um trainierte Modelle problemlos einzubauen.

Fazit
Die Quantifizierung als Vielfaches der erwarteten Fluktuation
prüft die Konsistenz der einzelnen Sensordaten im Kontext des
restlichen Systems. Damit wird eine Abweichung unabhängig
vom dynamischen Verlauf des Sensors selbst erkennbar. Diese
sensiblen Indikatoren zeigen verlässlich den Gesundheitszu-
stand einzelner Komponenten des Systems an. Die frühzeitige
Identifizierung als erster Schritt benötigt weiterhin die Expertise SEITE 78
BESTOF BigData-Insider.de

von Fachkräften zur Diagnose der Ursache. Die aus der System-
Identifizierung abgeleiteten virtuellen Indikatoren dienen Kal-
man-Filtern bei regelmäßig wiederkehrenden Fehlern zu adapti-
ven Prognosen der verbleibenden Laufzeit. 
 ★ Dr. Olaf Nimz

SEITE 79
BESTOF BigData-Insider.de

Grundlagen Statistik & Algorithmen, Teil 7

So deckt der Local Outlier Fac-


tor Anomalien auf
Um Trends zu erkennen, wird oft die Clusteranalyse her-
angezogen. Der k-Means-Algorithmus etwa zeigt an, wo
sich Analyseergebnisse in einer Normalverteilung ballen.
Für manche Zwecke ist es aber aufschlussreicher, Ausrei-
ßer zu untersuchen, denn sie bilden die Antithese zum
„Normalen“, etwa im Betrugswesen. Der Local-Outlier-
Factor-Algorithmus (LOF) ist in der Lage, den Abstand von
Ausreißern zu ihren Nachbarn zu berechnen und deckt so
Anomalien auf.
Bei der Clusteranalyse geht es darum, Gruppen von Objekten zu
identifizieren, die sich auf eine gewisse Art ähnlicher sind als
andere Gruppen. Oft handelt es sich dabei um Häufungen im Da-
tenraum, woher der Begriff Cluster kommt.
In der Ausreißersuche werden Datenobjekte gesucht, die inkon-
sistent zu dem Rest der Daten sind, beispielsweise indem sie un-
gewöhnliche Attributswerte haben oder von einem generellen
Trend abweichen. In der Statistik spricht man von einem Aus-
reißer, wenn ein Messwert oder Befund nicht in eine erwarte-
te Messreihe passt oder allgemein nicht den Erwartungen ent-
spricht. Die „Erwartung“ wird meistens als Streuungsbereich um
den Erwartungswert herum definiert, in dem die meisten aller

Verdingt sich ein Entwickler


als Open-Source-Kontribu-
tor, kann das auch für seinen
Arbeitgeber nützlich sein.
Bild: gemeinfrei / CC0

SEITE 80
BESTOF BigData-Insider.de

Messwerte zu liegen kommen, z. B. der Quartilabstand Q75 – Q25.


Werte, die weiter als das 1,5-Fache des Quartilabstandes außer-
halb dieses Intervalls liegen, werden – meist recht willkürlich
– als Ausreißer bezeichnet.
Der Algorithmus „Local Outlier Factor“, der hier näher vorgestellt
wird, sucht beispielsweise Objekte, die eine von ihren Nachbarn
deutlich abweichende Dichte aufweisen, man spricht hier von
„dichtebasierter Ausreißer-Erkennung“. Identifizierte Ausreißer
werden oft anschließend manuell verifiziert und aus dem Da-
tensatz ausgeblendet, da sie die Ergebnisse anderer Verfahren
verschlechtern können. In manchen Anwendungsfällen, wie der
Betrugserkennung, sind aber gerade die Ausreißer die interes-
santen Objekte.
Der Local Outlier Factor (etwa „Lokaler Ausreißerfaktor“) wurde
von Markus M. Breunig, Hans-Peter Kriegel, Raymond T. Ng und
Jörg Sander im Jahr 2000 vorgeschlagen. Die Kernidee von LOF
besteht darin, die Dichte eines Punktes mit den Dichten seiner
Nachbarn zu vergleichen. Ein Punkt, der „dichter“ ist als seine
Nachbarn, befindet sich in einem Cluster. Ein Punkt mit einer
deutlich geringeren Dichte als seine Nachbarn ist hingegen ein
Ausreißer.
LOF definiert die „lokale Umgebung“ eines Punktes über seine
nächsten Nachbarn. Der Abstand zu diesen wird verwendet, um
eine lokale Dichte zu schätzen. In einem zweiten Schritt wird der
Quotient aus den lokalen Dichten seiner Nachbarn und der loka-
len Dichte des Punktes selbst gebildet. Dieser Wert bewegt sich
nahe an wenn ein Punkt in einem Bereich gleichmäßiger Dichte
ist. Für Objekte, die aber abgeschieden von einer solchen Fläche
sind, wird der Wert deutlich größer – und kennzeichnet so Aus-
reißer.
Der „Local Outlier Factor“ ist also die „durchschnittliche Er-
reichbarkeitsdichte der Nachbarn“ dividiert durch die Erreich-
barkeitsdichte des Objektes selbst. Ein Wert von etwa 1 bedeutet,
dass das Objekt eine mit seinen Nachbarn vergleichbare Dichte
hat (also nicht als Ausreißer bezeichnet werden kann). Ein Wert
kleiner als 1 bedeutet sogar eine dichtere Region (was ein soge-
nannter „Inlier“ wäre), während signifikant höhere Werte als 1
einen Ausreißer kennzeichnen: LOF >> 1.

Vorteile
Im Gegensatz zu vielen globalen Verfahren zur Ausreißererken-
nung kann der LOF-Algorithmus mit Bereichen unterschiedli- SEITE 81
BESTOF BigData-Insider.de

cher Dichte in demselben Datensatz umgehen. Punkte mit einer


„mittleren“ Dichte in einer Umgebung mit „hoher“ Dichte wer-
den von LOF als Ausreißer klassifiziert, während ein Punkt mit
„mittlerer“ Dichte in einer „dünnen“ Umgebung explizit nicht
als solcher erkannt wird.
Während die geometrische Intuition von LOF nur in niedrigdi-
mensionalen Vektorräumen Sinn ergibt, kann das Verfahren auf
beliebige Daten angewendet werden, auf denen eine „Unähnlich-
keit“ definiert werden kann. Es muss sich dabei nicht um eine
Distanzfunktion im strengeren mathematischen Sinne handeln.
Der Algorithmus wurde erfolgreich auf verschiedensten Daten-
sätzen eingesetzt, beispielsweise zum Erkennen von Angriffen in
Computernetzwerken, wo er bessere Erkennungsraten lieferte als
die Vergleichsverfahren. Das wurde 2003 in der Studie „A com-
parative study of anomaly detection schemes in network intrusi-
on detection“ veröffentlicht.

Nachteile
Ein wichtiger Nachteil von LOF ist, dass die Ergebniswerte schwer
zu interpretieren sind. Werte um und weniger sind sicher keine
Ausreißer, aber es gibt keine klare Regel, ab welchem Wert ein
Punkt ein signifikanter Ausreißer ist. In einem sehr gleichmäßi-
gen Datensatz sind Werte von auffällig, in einem Datensatz mit
starken Dichteschwankungen kann ein Wert wie noch ein ganz
normaler Datenpunkt sein.
Im schlimmsten Falle treten solche Unterschiede sogar in unter-
schiedlichen Teilen desselben Datensatzes auf. Am besten eini-
gen sich Anwender von vornherein auf einen Schwellenwert, der
die Definition eines „Ausreißers“ festlegt.

Erweiterungen
Der Algorithmus lässt sich erweitern. Das „Feature Bagging for
Outlier Detection“ wendet LOF in mehreren Projektionen an und
kombiniert die Ergebnisse, um in hochdimensionalen Daten bes-
sere Ergebnisse zu erhalten. Die Funktion „Local Outlier Proba-
bility“ (LoOP) ist eine von LOF abgeleitete Methode, die die Dich-
te statistisch schätzt, um weniger abhängig vom genauen Wert
von k zu werden. Zusätzlich wird das Ergebnis statistisch in den
Wertebereich [0,1] normalisiert, um besser interpretierbare Werte
zu liefern. Und „Interpreting and Unifying Outlier Scores“ stellt
eine Normalisierung für LOF und andere Verfahren vor, die die SEITE 82
BESTOF BigData-Insider.de

Scores statistisch in das Intervall [0,1] normalisiert, um die Be-


nutzerfreundlichkeit des Ergebnisses zu verbessern.
Eine Referenzimplementierung des LOF-Algorithmus ist im Soft-
ware-Paket ELKI verfügbar, inklusive Implementierungen von
Vergleichsverfahren. Die Scikit-Webseite bietet Lernmaterial zum
LOF, darunter auf der Seite mit Links zu Python-Quellcode und
einem Jupyter-Notebook. Auf der Seite towardsdatascience.com
stellt der Autor Phillip Wenig den LOF prägnant und anschaulich
vor, der Leser muss jedoch entsprechendes Data-Science-Wissen
mitbringen.
 ★ Michael Matzer

SEITE 83
BESTOF BigData-Insider.de

Tipps zur Datenschutz-Grundverordnung

Mit diesen DSGVO-Tools helfen


die Aufsichtsbehörden
Die Aufsichtsbehörden für den Datenschutz sind nicht
nur die Prüfer und Beschwerdestellen, sie unterstützen
Unternehmen ganz konkret bei der Einhaltung der Da-
tenschutz-Grundverordnung (DSGVO / GDPR). Neben Ori-
entierungshilfen und Anwendungshinweisen bieten sie
Online-Services und praktische Werkzeuge für den Daten-
schutz in den Unternehmen.
„Das Datenschutzjahr 2018 war in der öffentlichen Diskussion
vor allem von skurril anmutenden Einzelfällen und bürokra-
tischen Lasten geprägt, die die DSGVO mit sich bringe. Dem-
gegenüber sollten wir im Jahr 2019 den Blick stärker darauf
richten, wie die DSGVO die Rechte der Betroffenen stärkt und
welche positiven Antworten sie auf die Herausforderungen der
Zukunft geben kann“, erklärte Prof. Dr. Thomas Petri, Bayeri-
scher Landesbeauftragter für den Datenschutz, anlässlich des
13. Europäischen Datenschutztags.
Auch der neue Bundesdatenschutzbeauftragte (BfDI) Ulrich
Kelber richtete den Blick auf die Zukunft: „Die Digitalisierung
verpflichtet die Datenschutzaufsichtsbehörden und damit auch
den BfDI, die Menschen einerseits noch stärker für das Thema
Datenschutz zu sensibilisieren. Andererseits müssen aber auch
konsequent die neuen Möglichkeiten der Datenschutz-Grund-
verordnung (DSGVO) in der Praxis genutzt werden, um Betroffe-
ne bestmöglich zu schützen.“

© Sy_Sarayut - stock.adobe.com

Es gibt zwar nicht für jedes


Problem mit der DSGVO kos-
tenlose Tools und Hilfsmittel
der Aufsichtsbehörden, aber
es stehen doch zahlreiche
Mittel als Unterstützung zur
Verfügung.

SEITE 84
BESTOF BigData-Insider.de

Viele Unternehmen in Deutschland haben aber weiterhin Proble-


me, die DSGVO in ihren betrieblichen Alltag zu integrieren. Das
liegt insbesondere daran, dass es zu wenige Datenschutzexper-
ten gibt. Derzeit hat fast jedes dritte Unternehmen in Deutschland
(31 Prozent) nur eine Vollzeitstelle für Mitarbeiter eingeplant, die
sich hauptsächlich mit Datenschutz befassen, so eine Umfrage
des Digitalverbands Bitkom. Sechs von zehn Unternehmen (59
Prozent) haben dafür weniger als eine Vollzeitstelle zur Verfü-
gung.
„Mit der Datenschutzgrundverordnung ist der Aufwand für viele
Unternehmen enorm gestiegen“, sagt Susanne Dehmel, Mitglied
der Bitkom-Geschäftsführung für Recht und Sicherheit. „Wer
qualifiziertes Personal finden konnte, hat dies auch eingestellt.
Beim Datenschutz herrscht jedoch deutschlandweit Fachkräfte-
mangel.“
Umso wichtiger erscheint es, alle Hilfsmittel und Werkzeuge zur
weiteren Umsetzung und Einhaltung der DSGVO zu kennen und
zu nutzen. Vieles bieten die Aufsichtsbehörden für den Daten-
schutz selbst an.

Services für die Meldepflichten


Wenn Unternehmen nicht genau wissen, was in die Meldung
oder Benennung des betrieblichen Datenschutzbeauftragten ge-
genüber der zuständigen Aufsicht gehört, dann hilft ein Blick
in die entsprechenden Online-Formulare, für Unternehmen aus
Bayern zum Beispiel dieses: https://lda.dsb-meldung.de/ Das
Online-Formular für Unternehmen aus Hessen beispielsweise
zeigt bereits ohne Registrierung die erforderlichen Inhalte dieser
Meldung.
Meldepflichten bestehen auch im Fall von Datenschutzverlet-
zungen. Was zu einer Meldung gehört, kann man zwar auch der
DSGVO (Artikel 33) entnehmen. Doch es gibt auch Online-Mel-
deformulare der jeweils zuständigen Aufsichtsbehörde, die nicht
nur die Inhalte zeigen, sondern auch für eine entsprechende
Meldung verwendet werden können. Ein Beispiel ist das Melde-
formular für Unternehmen aus Baden-Württemberg.
Umgekehrt kann man auch melden, wenn man sich selbst als
Opfer einer Datenschutzverletzung sieht, also sich beschweren
möchte. Dies erfolgt über einen weiteren Online-Service, in Ba-
den-Württemberg unter: https://www.baden-wuerttemberg.da-
tenschutz.de/online-beschwerde/. SEITE 85
BESTOF BigData-Insider.de

Die Online-Services könnten aber auch einmal gestört sein, so


dass man auch die weiteren Kontaktwege für die zuständige Auf-
sichtsbehörde kennen sollte. Eine solche Störung hatte die Lan-
desbeauftragte für den Datenschutz Niedersachsen gemeldet.

Prüfung der bisherigen Umsetzung der DSGVO


Die Vielzahl der Anforderungen aus der DSGVO machen es nicht
einfach, den eigenen Stand der Umsetzung zu überprüfen, um
so den noch bestehenden Handlungsbedarf zu erkennen. Aber
auch hier bieten verschiedene Aufsichtsbehörden Tools und
Services an.
So hat zum Beispiel der Thüringer Landesbeauftragte einen Fra-
gebogen für Thüringer Unternehmen zur Umsetzung der Daten-
schutzgrundverordnung (DSGVO) veröffentlicht. Auf dieser Basis
können diese Unternehmen auch selbst ihre offenen Punkte bei
der Umsetzung ermitteln.
Für Unternehmen aus Bayern gibt es schon seit längerem einen
Online-Service für die Selbsteinschätzung, wo das Unternehmen
bei der praktischen Anwendung der DSGVO steht.

Vorlagen helfen bei Verzeichnis von Verarbeitungstätig-


keiten
Mit der DSGVO sind eine Reihe von Dokumentationspflichten
verbunden. Wie genau die Dokumente und Nachweise aussehen
sollen, bereitet den Unternehmen durchaus Kopfzerbrechen. Ein
Beispiel ist das Verzeichnis von Verarbeitungstätigkeiten. Wer
sich fragt, was dort wie dokumentiert werden muss, findet nicht
nur eine Anleitung von den Aufsichtsbehörden, sondern auch
gleich die Muster, sogar für den Fall einer Auftragsverarbeitung,
also zum Beispiel bei Nutzung eines Cloud-Services.

Pflicht zur Datenschutzfolgenabschätzung (DSFA)


Wenn unklar ist, ob für ein Verfahren die Datenschutzfolgen
(nach Artikel 35 DSGVO) abgeschätzt werden müssen, hilft die
Durchsicht der sogenannten Muss-Liste der Aufsichtsbehörden.
Man kann daraus aber nicht umgekehrt schließen, dass ein Ver-
fahren, das nicht genannt wird, automatisch keine DSFA erfor-
derlich macht.

Prüfung der Verschlüsselung


Die Aufsichtsbehörden führen regelmäßig Online-Prüfungen
durch: Lediglich 19 Prozent der Behörden-Websites in Baden- SEITE 86
BESTOF BigData-Insider.de

Württemberg sind über das gesicherte HTTPS-Protokoll abruf-


bar, wie eine großflächig durchgeführte Online-Prüfung des LfDI
BW (Landesbeauftragte für den Datenschutz und die Informati-
onsfreiheit) ergeben hat.
Wer selbst die Prüfung für den eigenen Unternehmensauftritt
im Netz oder für betrieblich genutzte Websites machen möchte,
kann entsprechende Online-Tests machen, unter anderem das
Landesamt für Datenschutzaufsicht in Bayern (BayLDA) hatte
hierzu einen HTTPS-Check eingerichtet. Gegenwärtig pausiert
der Test aber wegen der hohen Arbeitslast.

Es zeigt sich: Auch wenn es nicht für jedes Problem mit der
DSGVO bereits kostenlose Tools und Hilfsmittel der Aufsichtsbe-
hörden gibt, stehen doch zahlreiche Mittel als Unterstützung zur
Verfügung. Hinzu kommen natürlich auch Angebote von Unter-
nehmen und Dienstleister, die bei der Umsetzung und Einhal-
tung der DSGVO unterstützen wollen.
 ★ Oliver Schonschek

SEITE 87
BESTOF BigData-Insider.de

Splunk im Einsatz bei der DB Cargo

Digitalisierung für mehr Qualität


und Service im Schienengüter-
verkehr
Splunk Enterprise, das Hauptprodukt des Operational-In-
telligence-Spezialisten Splunk, ist bei DB Cargo im Einsatz,
der Güterbahnsparte der Deutschen Bahn. Im Zuge der Di-
gitalisierung und Automatisierung des Güterverkehrs und
des Fuhrparks hilft Splunk Enterprise bei der Datenerfas-
sung und -analyse in den Projekten „Wagon Intelligence“
und „TechLOK“. Die Software-Entwicklung der beiden Pro-
jekte findet im DB Cargo amspire lab in Frankfurt am Main
statt.
Die DB Cargo AG ist die größte europäische Güterbahn. Sie ar-
beitet mit Eisenbahn-Verkehrsunternehmen in Europa und bei-
spielsweise in China („Neue Seidenstraße“) zusammen. Der
Fuhrpark ist gewaltig: Rund 70.000 Güterwagen werden bis 2020
mit moderner Sensorik und Telematik ausgerüstet: Das ist der
Kernbestandteil des Projekts Wagon Intelligence. Im Zuge des
Projekts TechLOK werden etwa 2.100 Loks aus 40 Baureihen
ebenfalls so ausgerüstet. Die Dimensionen sind eindrucksvoll.
Dem Aufwand dieser Projekte müssen auch entsprechende Nutz-
werte gegenüberstehen. Eines der Ziele besteht darin, die Quali-
tät und den Service der Transporte zu verbessern. Das erhöht die

Eine Wagon-Intelligence-
Telematikeinheit an einem
Containertragwagen. Bereits
über 25.000 Wagen wurden
damit ausgerüstet. Die ge-
samte Flotte folgt bis 2020.
Bild: amspire lab/DB Cargo

SEITE 88
BESTOF BigData-Insider.de

Zufriedenheit der Kunden, stärkt die Bevorzugung der Bahn ge-


genüber dem LKW und reduziert zudem zahlreiche Kostenfakto-
ren entlang der Wertschöpfungskette. Nicht nur die Wartung und
Instandhaltung wird optimiert. Ebenso können Schäden durch
Materialverschleiß und Stöße vermieden werden, die Energieef-
fizienz wird erhöht und darüber hinaus auch die Verfügbarkeit
des Fuhrparks durch Predictive Maintenance. Je mehr Loks und
Wagen zur Verfügung stehen, desto mehr Fracht lässt sich trans-
portieren, die wiederum Gewinn bringt. Eine simple Rechnung,
die aber viel Feinabstimmung erfordert.
Um diese Feinabstimmung kümmert sich die Software von DB
Cargo. Im engen Austausch mit Kunden und Partnern entstehen
im DB Cargo amspire lab in Frankfurt/Main Ideen entlang der
gesamten Wertschöpfungskette: Diese werden in Zusammenar-
beit von Ingenieuren, Entwicklern, Data Scientists sowie Exper-
ten der digitalen Transformation und Logistik umgesetzt. Hier
sind in den verschiedenen Projekten viele kluge Köpfe am Werk.
Sie gehen mit großen Datenmengen um, die sie im Asset Intel-
ligence Center (AIC) optimal auswerten können. Dieses verfügt
in der DB Cargo Enterprise Cloud über einen umfassenden Data
Lake und einen Analytics Cluster.

Das Projekt Wagon Intelligence (WI)


Woher kommen diese Massendaten, lautet die erste Frage im
Hinblick auf den Einsatz von Splunk Enterprise. Die ausgerüs-
teten Wagen verfügen über eine Telematikbox sowie über RFID-
und NFC-Tags. Über die GSM- und LTE-Standards senden sie
während der Fahrt alle zehn Minuten, ansonsten einmal pro
Tag, sowie bei Events (Start, Stopp, Stoß). Die Palette reicht von
der Zustandserkennung mittels Stoß-Sensorik für Fahrzeuge mit
sensiblen Ladegütern und Informationen zum Beladungszu-
stand (Voll/Leer-Erkennung) bis hin zu Sensoren für die Tempe-
ratur- und Luftfeuchtigkeits-Messung.
Ein effizienter Umgang mit dem Datenvolumen und dem Energie-
verbrauch sind nach Angaben von Daniel Rost, Teilprojektleiter
IT im Projekt Wagon Intelligence, wichtige Vorgaben. „Die Da-
tenerzeugung erfolgt nur ereignis- oder KPI-getrieben“, erläutert
Gerrit Koch to Krax, Leiter des Projekts Wagon Intelligence, „bei-
spielsweise bei Schäden auf langen Strecken, dann muss man
Stöße interpretieren und die Daten zum Lernen und Trainieren
der Data-Science-Modelle verwenden.“ Machine Learning spielt
eine wachsende Rolle in den Projekten von DB Cargo. SEITE 89
BESTOF BigData-Insider.de

Die vom Waggon empfangenen Positions- und Zustandsdaten


dienen der Überwachung im AIC. Diese IoT-Plattform bietet die
technischen Rahmenbedingungen für eine Integration der Da-
ten sowie für die Entwicklung und Implementierung von analyti-
schen Modellen. „Die Umlaufzeiten der intelligenten Güterwagen
werden durch die automatisierte Prozesssteuerung reduziert“,
freut sich Rost. „Dank der neuen Transparenz wird die Qualität
der Transporte erhöht.“
Ein Drittel des langen Weges zur Ausrüstung der gesamten Wa-
genflotte von DB Cargo ist bereits gegangen. Jeder Wagen soll bis
2020 mit Sensorik und Telematik ausgestattet sein. „Im Dezem-
ber 2018 waren erst es rund 10.000, inzwischen sind wir schon
bei über 25.000 ausgerüsteten Wagen.“

Das Projekt TechLOK


Während das Wagon-Intelligence-Projekt in erster Linie B2B-
Zwecken dient, ist das TechLOK-Projekt auf die interne Sicht aus-
gerichtet, so etwa die optimale Nutzung und Instandhaltung des
Fuhrparks.
Auch die Loks verfügen über Telematikboxen, die eine wachsen-
de Menge von Echtzeitdaten erfassen und an das AIC senden. In
der Sensorik werden heute 500 bis 600 Signale im Minutentakt
gesendet. Während die Rangierloks nur GPS-Sensorik haben,
aber keine Diagnose-Informationen an die Landseite übertragen,
sind Streckenloks in der Lage, sowohl GPS als auch Diagnose-
daten zu liefern. Die Kommunikation basiert auf LTE-Datenüber-
tragung und hat ein Übertragungsvolumen von bis zu einem
Gigabyte im Monat. Das sorgt für ein hohes Datenaufkommen,
wenn man den gesamten Fuhrpark von mehreren tausend Loks
in Betracht zieht.

Splunk-Einsatz
Diese Datenflut wird im Asset Intelligence Center (AIC) gesam-
melt. Diese vom DB Cargo amspire Lab in Kooperation unter an-
derem mit dem internen IT-Dienstleister DB Systel entwickelte
IoT-Plattform bietet die technischen Rahmenbedingungen für
eine Integration der Daten sowie für die Entwicklung und Im-
plementierung von analytischen Modellen, die auf Splunk und
anderen Tools basieren.
Ein erster Use Case ist die Optimierung der Zulaufsteuerung mit
einem eigens dafür entwickelten Modul („Wagon Operator“). SEITE 90
BESTOF BigData-Insider.de

„Mit speziellen Analysen ermöglichen wir eine Verbesserung der


Verfügbarkeit und damit mehr Kapazität für unsere Kunden“, re-
sümiert Daniel Rost.
Mit Adaptern zu Bestandssystemen (Fahrplan, Stammdaten,
Geschäftsdaten) sowie zu Supplier-Systemen liefern die Splunk
Dashboards umfassende Einblicke auf jeder gewünschten Ebe-
ne. In Splunk Enterprise werden GPS-Daten sowie Stamm- und
Geschäftsdaten zusammengeführt, die Splunk Dashboards am
Frontend füttern. Für die Visualisierung werden bedarfsorien-
tiert verschiedene Dashboards u. a. in Splunk, Web-Frontends
und Tableau genutzt.
Die Analytik-Plattform wird von Christoph Anger, Senior Data
Scientist im Asset Intelligence Center, und seinen Kollegen ge-
staltet und verwaltet. Die Analytik-Plattform ist in der ersten
Ausbaustufe bereits produktiv. Anger sieht sich in einer sehr po-
sitiven Ausgangslage. „Wir verfügen über historische Daten aus
den SAP-Systemen seit dem Jahr 2001. Zusammen mit den an-
fallenden Echtzeitdaten können wir unsere Machine-Learning-
Modelle mit geeigneten Daten im Hinblick auf LCC-Szenarien-
analysen (LCC = Lifecycle cost) oder Zuverlässigkeitsbetrachtung
trainieren.“ So erstellt Anger etwa Prognosen für Lebenszyklus-
kosten und datengetriebenen Analysen in den Bereichen Zuver-
lässigkeit, Verfügbarkeit und Wartbarkeit.
In der Entwicklung wird von den Projekten aufbauend auf einer
modernisierten Lambda -Architektur der jeweils zum Anwen-
dungsfall passende Technologiestack eingesetzt.
Man sieht, im amspire lab kommen State-of-the-art-Technologien
zum Einsatz, wie beispielsweise eine Rules Engine mit Python,
Tableau für die Datenvisualisierung und Dremio für die Daten-
virtualisierung.
 ★ Michael Matzer

SEITE 91
BESTOF BigData-Insider.de

Artikel kommt noch

SEITE 92
BESTOF BigData-Insider.de

Scalable Advanced Massive Online Analysis

Datenströme analysieren mit


SAMOA
Apache SAMOA ist eine Plattform für das Mining großer
Datenströme. Die Lösung bietet eine Sammlung von ver-
teilten Streaming-Algorithmen für die gängigsten Data-
Mining- und Machine-Learning-Aufgaben.
SAMOA (Scalable Advanced Massive Online Analysis) hat den In-
cubator-Status bei Apache. Zur Sammlung gehören Klassifikation,
Clustering, Regression sowie die Programmierung von Abstraktio-
nen zur Entwicklung neuer Algorithmen. Apache SAMOA verfügt
über eine erweiterbare Architektur, die es ermöglicht SAMOA auf
mehreren verteilten Stream-Verarbeitungsmaschinen wie Storm,
S4 und Samza auszuführen. SAMOA ist in Java geschrieben, Open
Source und unter unter der Apache Software License Version 2.0
verfügbar. Apache SAMOA unterstützt die Write-Once-Run-Any-
where (WORA) Architektur. Diese ermöglicht eine nahtlose Integ-
ration mehrerer Distributed Stream Processing Engines (DSPEs) in
das Framework.
Große Datenmengen sind in nahezu allen Geschäftsbereichen sehr
verbreitet und ermöglichen Planungen, die Unternehmen nutzen
können, um bessere Produkte oder Dienstleistungen zu bieten.
Große Daten sind definiert als Datensätze, deren Größe aufgrund
der Zeit- und Speicherkomplexität die Fähigkeit typischer Soft-
warewerkzeuge zur Erfassung, Speicherung, Verwaltung und
Analyse übersteigt.

Apache SAMOA verfügt über


eine erweiterbare Architek-
tur, die es ermöglicht, SA-
Bild: The Apache Software Foundation

MOA auf mehreren verteilten


Stream-Verarbeitungsma-
schinen wie Storm, S4 und
Samza auszuführen.

SEITE 93
BESTOF BigData-Insider.de

Entwicklung neuer ML-Algorithmen


SAMOA ermöglicht die Entwicklung neuer ML-Algorithmen, ohne
sich mit der Komplexität der zugrunde liegenden Streaming-Verar-
beitungsmaschinen, also zum Beispiel Apache Storm und Apache
S4, auseinanderzusetzen. SAMOA-Entwickler können verteilte
Streaming-ML-Algorithmen entwickeln und die Algorithmen in
mehreren SPEs ausführen.
Die Struktur von SAMOA im Überblick
Apache SAMOA hilft also dabei Stream-Verarbeitungsalgorithmen
einfach und plattformunabhängig zu schreiben. Dabei definiert
die Lösung eine eigene Topologie. Dazu gehören folgende Berei-
che:
• Processor
• Content Event
• Stream
• Task
• Topology Builder
• Learner
Processor und Content Event (Inhaltsereignis) stellen logische
Einheiten dar, um einen Algorithmus zu erstellen. Stream und
Task sind die physischen Einheiten, um die verschiedenen Tei-
le des Algorithmus zu verbinden. Der Topology Builder ist eine
Verwaltungseinheit, die Buchhaltungsdienste anbietet. Learner
ist die Basisschnittstelle für Lernalgorithmen. Verarbeitungsele-
mente sind interne Verpackungen für Prozessoren, die in SAMOA
verwendet werden.

Topology Builder, Processors und Streams


Alle physischen Topologieeinheiten werden mit dem Topology
Builder erstellt. Das folgende Codeausschnitt zeigt, wie man ei-
nen Prozessor zur Topologie hinzufügt:

Processor = new ExampleProcessor(); builder.


addProcessor(processor, paralellism);

Die Methode „addProcessor()“ des TopologyBuilder wird ver-


wendet, um den Prozessor hinzuzufügen. Das erste Argument SEITE 94
BESTOF BigData-Insider.de

ist die Instanz eines Prozessors, der hinzugefügt wird. Das zwei-
te Argument ist der Parallelitätshinweis. Es teilt den zugrunde
liegenden Plattformen mit, wie viele parallele Instanzen dieses
Prozessors auf verschiedenen Knoten angelegt werden sollen.
Einige Prozessoren erzeugen ihre eigenen Streams und werden
als Quelle für eine Topologie verwendet. Sie verbinden sich mit
externen Quellen, ziehen Daten und stellen sie der Topologie in
Form von Streams zur Verfügung.

Ein Stream ist eine physische Einheit der SAMOA-Topologie, die


verschiedene Prozessoren miteinander verbindet. Ein Stream
kann eine einzige Quelle, aber viele Ziele nutzen. Ein Prozessor,
der die Quelle eines Streams ist, besitzt den Stream.
Aufgaben sind vergleichbar mit einem Job in Hadoop. Die Aufga-
be ist eine Ausführungseinheit. Innerhalb einer Aufgabe muss
eine Topologie definiert werden. SAMOA kann nur Klassen aus-
führen, die eine Task-Schnittstelle implementieren.

Apache SAMOA testen


Um Apache SAMOA in einem Netzwerk zu testen, kann die Lö-
sung direkt aus Github heruntergeladen werden. Dazu werden
folgende Befehle verwendet:

git clone http://git.apache.org/incubator-samoa.


git

cd incubator-samoa

mvn package

Die Integration in Apache Storm beschreiben die Entwickler in


Ihrer Dokumentation zur Lösung. Auch die Integration in Apa-
che S4 und Apache Samza beschreiben die Entwickler in der
Doku. Die ersten Schritte zur Einrichtung von SAMOA sind auf
der Getting-Started-Seite zu finden.

Entwicklung neuer Aufgaben in Apache SAMOA


Eine Aufgabe ist eine mit dem maschinellen Lernen zusammen- SEITE 95
BESTOF BigData-Insider.de

hängende Aktivität, zum Beispiel eine spezifische Bewertung für


einen Klassifizierer. Eine Aufgabe entspricht einer Topologie in
SAMOA. Eine einfache Aufgabe besteht aus einem Quellprozes-
sor, einem Zielprozessor mit einer Parallelitätshinweiseinstel-
lung und einem Stream, der die beiden verbindet. Der Quellpro-
zessor erzeugt eine zufällige Ganzzahl, die an den Zielprozessor
gesendet wird. Eine Beispiel-Aufgabe ist in der Dokumentation
zu finden.
 ★ Thomas Joos

SEITE 96
BESTOF BigData-Insider.de

Kommentar von Fabian Hüske, Ververica

Stateful Stream Processing mit


Apache Flink
Apache Flink ist für typische Geschäftsanwendungen ge-
dacht, die bestimmte Geschäftslogiken auf kontinuierli-
che Datenflüsse in Echtzeit anwenden.
Der Einsatz von Stream Processing, also Stream-Verarbeitung,
nimmt rasant zu und dehnt sich mit zunehmender Reife der
Technologie auf immer mehr Anwendungsfälle aus. Während
in der Anfangszeit Stream-Processing zur Berechnung von un-
gefähren Aggregaten verwendet wurden, sind die heutigen Lö-
sungen in der Lage, präzise Analyseapplikationen zu betreiben
und komplexe Geschäftslogik in Hochdurchsatz-Streams zu be-
werten. Einer der wichtigsten Aspekte der Stream-Verarbeitung
ist die Zustandsbehandlung, also die Erinnerung an vergangene
Eingaben und deren Verwendung zur Beeinflussung der Verar-
beitung zukünftiger Eingaben.

Grundlagen von Apache Flink


Apache Flink ist ein verteilter Datenprozessor, der speziell ent-
wickelt wurde, um zustandsabhängige Berechnungen über Da-
tenströme auszuführen. Die Laufzeit ist optimiert für die Verar-
beitung unbegrenzter Datenströme sowie begrenzter Datensätze
beliebiger Größe. Flink ist in der Lage, Berechnungen auf Tau-
sende von Kernen zu skalieren und damit Datenströme mit ho

Der Autor: Fabian Hüske ist


Software Engineer bei Ver-
verica , Apache-Flink-PMC-
Mitglied, Member of the ASF &
Autor bei O‘Reilly.
(Bild: Ververica)

SEITE 97
BESTOF BigData-Insider.de

hem Durchsatz bei geringer Latenzzeit zu verarbeiten. Flink-An-


wendungen können für Ressourcenmanager wie Hadoop YARN,
Apache Mesos und Kubernetes oder für eigenständige Flink-
Cluster bereitgestellt werden.
Fehlertoleranz ist ein sehr wichtiger Aspekt von Flink, wie bei
jedem verteilten System. Flink kann in einem hochverfügbaren
Modus ohne Single Point of Failure arbeiten und zustandsbehaf-
tete (Stateful) Anwendungen aus Fehlern mit genau einmaligen
Zustandskonsistenzgarantien wiederherstellen. Darüber hinaus
bietet Flink viele Funktionen, um die betrieblichen Aspekte der
laufenden Stream-Processing-Anwendungen in der Produktion
zu erleichtern. Es lässt sich problemlos in die bestehende Proto-
kollierungs- und Metrik-Infrastruktur integrieren und bietet eine
REST-API zum Senden und Steuern laufender Anwendungen.
Flink bietet mehrere APIs mit unterschiedlichen Kompromissen
für Aussagekraft und Prägnanz bei der Implementierung von
Stream-Processing-Anwendungen. Die DataStream-API ist die
Basis-API und bietet bekannte Primitive, die in anderen daten-
parallelen Verarbeitungs-Frameworks wie map, flatMap, split
und union zu finden sind. Diese Primitive werden durch gängige
Stream-Processing-Operationen ergänzt, wie z. B. Windowed-Ag-
gregationen, Joins und einen Operator für asynchrone Anfragen
an externe Datenspeicher.

Präzise Kontrolle über Zustand und Zeit


Die ProcessFunctions von Flink sind Low-Level-Schnittstellen,
die eine präzise Kontrolle über Zustand und Zeit ermöglichen.
So kann beispielsweise eine ProcessFunction implementiert wer-
den, um jedes empfangene Ereignis in seinem Zustand zu spei-
chern und einen Timer für einen zukünftigen Zeitpunkt zu regist-
rieren. Später, wenn der Timer ausgelöst wird, kann die Funktion
das Ereignis und möglicherweise andere Ereignisse aus seinem
Zustand abrufen, um eine Berechnung durchzuführen und ein
Ergebnis auszugeben. Diese feinkörnige Steuerung von Zustand
und Zeit ermöglicht ein breites Anwendungsspektrum.
Schließlich bieten die SQL-Unterstützung und die Tabellen-API
von Flink deklarative Schnittstellen zur Spezifikation einheit-
licher Abfragen gegen Streaming- und Batch-Quellen. Dies be-
deutet, dass die gleiche Abfrage mit der gleichen Semantik auf
einem begrenzten Datensatz und einem Strom von Echtzeitereig-
nissen ausgeführt werden kann. Sowohl ProcessFunctions als SEITE 98
BESTOF BigData-Insider.de

auch SQL-Abfragen können nahtlos in die DataStream-API inte-


griert werden, was dem Entwickler maximale Flexibilität bei der
Auswahl der richtigen API bietet.
Zusätzlich zu den Kern-APIs, verfügt Flink über domainspezi-
fische Bibliotheken für die Grafikverarbeitung und Analytik,
sowie für die komplexe Ereignisverarbeitung (CEP). Die CEP-Bi-
bliothek von Flink bietet eine API zur Definition und Auswer-
tung von Mustern auf Ereignisströmen. Diese Muster-API kann
verwendet werden, um Prozesse zu überwachen oder Alarme bei
unerwarteten Ereignisabläufen auszulösen.
Streaming-Anwendungen laufen nie als isolierte Dienste. Statt-
dessen müssen sie Ereignisströme aufnehmen und typischer-
weise auch ausstrahlen. Apache Flink bietet eine umfangreiche
Bibliothek von Konnektoren für die am häufigsten verwendeten
Stream- und Speichersysteme. Anwendungen können Streams
von Apache Kafka und Amazon Kinesis aufnehmen oder veröf-
fentlichen. Streams können auch durch das Lesen von Dateien
aufgenommen werden, wie sie in Verzeichnissen erscheinen,
oder durch das Schreiben von Ereignissen in Buckleted-Dateien
persistiert werden. Flink unterstützt eine Reihe verschiedener
Dateisysteme, darunter HDFS, S3 und NFS. Darüber hinaus kön-
nen Flink-Anwendungen Daten über JDBC „versenken“ (d. h., in
eine relationale Datenbank exportieren) oder in Apache Cassan-
dra und Elasticsearch einfügen.

Auf dem Weg zum Framework für Unified Data Processing


Der einzigartige Ansatz von Apache Flink entspricht einem Net-
work Stack, der sowohl Streaming-Datenaustausch mit niedriger
Latenz und hohem Durchsatz als auch Batch-Shuffles mit hohem
Durchsatz unterstützt. Obwohl Flink über Streaming-Laufzeit-
operatoren verfügt, um kontinuierlich unbegrenzte Daten zu ver-
arbeiten, gibt es auch spezialisierte Operatoren für beschränkte
Eingaben, die bei der Auswahl der DataSet-API oder der Batch-
Umgebung in der Tabellen-API verwendet werden. Aus diesem
Grund hat Flink von Anfang an eine ziemlich beeindruckende
Batch-Verarbeitungsleistung gezeigt.

Obwohl Flink im Laufe der Jahre bedeutende Fortschritte ge-


macht hat, sind noch einige Schritte erforderlich, um Flink zu
einem System für eine wirklich einheitliche, hochmoderne
Stream- und Batch-Verarbeitung zu entwickeln. Hierzu sollen SEITE 99
BESTOF BigData-Insider.de

einige weitere Verbesserungen eingeführt werden, darunter die


folgenden Funktionen:

Ein einheitlicher Runtime-Operator-Stack. Derzeit haben die ge-


bundenen und unbegrenzten Operatoren ein anderes Datenkon-
sum- und Threading-Modell und mischen sich nicht. In einem
einheitlichen Stapel bilden Streaming-Operatoren die Grund-
lage. Diese erfassen kontinuierlich Daten von allen Eingaben,
um sicherzustellen, dass die Verarbeitungslatenzen gering sind.
Wird jedoch mit begrenzten Daten gearbeitet, kann die API oder
der SQL-Abfrageoptimierer auch Operatoren auswählen, die für
einen hohen Durchsatz und keine geringe Latenzzeit optimiert
sind. Der Optimierer kann beispielsweise einen Hybrid-Hash-
Join-Operator auswählen, der zuerst einen (begrenzten) Ein-
gangsstrom vollständig verbraucht, bevor er den zweiten Ein-
gangsstrom liest.
Die Nutzung von gebundenen Streams zur Reduzierung des Um-
fangs der Fehlertoleranz. Bei der Begrenzung von Eingangsdaten
ist es möglich, Daten während des Shuffles (im Speicher oder auf
der Festplatte) vollständig zu puffern und im Fehlerfall wieder-
zugeben. Die Pufferung von gemischten Daten macht die Wieder-
herstellung feinkörniger und damit wesentlich effizienter.
Die Nutzung der Eigenschaften von Stream-Operatoren für das
Scheduling. Per Definition erfordert eine kontinuierliche, gren-
zenlose Streaming-Anwendung alle Bediener, die gleichzeitig
arbeiten. Eine Anwendung mit begrenzten Daten kann Operatio-
nen nacheinander planen, je nachdem, wie die Operatoren Daten
konsumieren, zum Beispiel: zuerst eine Hash-Tabelle aus einer
Eingabe erstellen, dann die Hash-Tabelle aus der anderen Einga-
be untersuchen. Eine intelligente Planung der Operatoren kann
die Ressourcenauslastung und -effizienz deutlich verbessern.
Subsumieren der DataSet-API durch die DataStream-API. Die
DataStream-API wird um das Konzept der Bounded Streams und
Operationen erweitert, die die DataSet-API vollständig umfas-
sen. Geplant ist, die DataSet-API zu verwerfen und schließlich
zu entfernen.
Verbesserung der Performance und Abdeckung von Batch-SQL.
SQL ist die De-facto-Standard-Datensprache. Um mit den besten
Batch-Engines konkurrenzfähig zu sein, muss Flink mehr SQL-
Funktionen und eine bessere Ausführungsleistung der Abfragen
abdecken. Während die Kerndatenebene in Flink bereits sehr ef- SEITE 100
BESTOF BigData-Insider.de

fizient ist, hängt die Geschwindigkeit der SQL-Ausführung letzt-


endlich auch vom Query Optimizer, einer leistungsfähigen Ope-
rator-Implementierung und einer effizienten Code-Generierung
ab
Bereits heute etabliert – mit Potenzial für die Zukunft
Mit Flink werden heute bereits geschäftskritische Anwendungen
in vielen Unternehmen auf der ganzen Welt betrieben – und in
vielen Branchen wie E-Commerce, Telekommunikation, Finan-
zen, Spiele und Unterhaltung. Benutzer berichten über Anwen-
dungen, die auf Tausenden von Kernen laufen, einen Zustand in
Terabyte-Größenordnung pflegen und Milliarden von Ereignis-
sen pro Tag verarbeiten. Die Open-Source-Community, die Flink
entwickelt, wächst kontinuierlich und gewinnt laufend neue
Nutzer.

Dies zeigt: Apache Flink ist heute schon etabliert, wenn es um


anspruchsvolle Anwendungsszenarien geht. Stream-Processing-
Experten sehen daher großes Potenzial für die Zukunft. Flink hat
die Fähigkeit, Stapelverarbeitung, Echtzeit-Datenverarbeitung
und ereignisgesteuerte Anwendungen auf genau die gleiche Wei-
se zu modellieren und gleichzeitig hohe Leistung und Konsistenz
zu bieten. Alles deutet darauf hin, dass die Stream-Verarbeitung
mit Apache Flink die Grundlage für den Data Processing Stack
der Zukunft sein wird.
 ★ Fabian Hüske

SEITE 101
BESTOF BigData-Insider.de

Trusted AI

So wird Künstliche Intelligenz


vertrauenswürdig
Mit der Ausbreitung von KI-Anwendungen stellen sich
Schöpfern wie Benutzern zwei zentrale Fragen: Was be-
findet sich in der Black Box, die den Algorithmus und das
Deep-Learning-Modell verbirgt? Und zweitens: Wie lässt
sich sicherstellen, dass kein Unbefugter diese Software für
seine Zwecke manipuliert hat? Manche KI-Hersteller und
-Berater haben darauf bereits eine Antwort.
Derzeit ist das Vertrauen deutscher Endnutzer in den Einsatz von
niedriger Künstlicher Intelligenz (Machine Learning usw.) noch
ungebrochen, denn in ihren Augen überwiegen die Vorteile die
möglichen Risiken. KI wird das Gesundheitswesen ebenso re-
volutionieren wie die Welt der Finanzdienstleistungen, um nur
zwei Beispiele zu nennen. Hier gehen KI-Modelle jedoch mit sehr
sensiblen Daten um. Für diese gelten die besonderen Vorschrif-
ten, Richtlinien und Gesetze, wie EU-DSGVO, PCI (in der Kredit-
wirtschaft) und HIPAA (im Gesundheitswesen der USA).
Doch mit Datenschutz und Datensicherheit wird es schon bald
nicht mehr getan sein. Was ist mit den Daten, die in der soge-
nannten „Black Box“ eines KI-Modells verarbeitet werden? Nicht
nur nimmt ihr Umfang ständig zu, sondern auch ihre Herkunft
und Qualität werden relevant.

Künstliche Intelligenz
muss transparent
Bild: © willyam - stock.adobe.com

arbeiten. Nur wenn die


Ergebnisse nachvoll-
ziehbar sind, sind
sie vertrauenswürdig.

SEITE 102
BESTOF BigData-Insider.de

Der Verarbeiter solcher Daten muss nicht nur die Vertrauens-


würdigkeit und die Repräsentativität bzw. Unvoreingenommen-
heit der Daten gewährleisten, sondern auch die Transparenz,
Offenheit und Erklärbarkeit der Vorgänge in der Black Box des
KI-Modells. Wenn sich also bereits ein Kundenberater in einer
Bank auf einen Algorithmus und ein KI-Modell beruft, um etwa
einen Kreditantrag abzulehnen oder eine bestimmte Anlageform
zu empfehlen, so muss er in der Lage sein, seine Entscheidungs-
grundlage zu erklären. Bei einer Black Box geht das nicht.

Das CRISP-DM-Vorgehensmodell
IBMs CEO Ginni Rometty hat die Parole ausgegeben: „Wenn wir
leistungsfähige Technologien einführen, tragen wir Verantwor-
tung, dass diese Technologien sinnvoll genutzt eingesetzt und
genutzt werden.“ Die Technik solle den Menschen dienen, nicht
umgekehrt. Romettys Unternehmen hat für Designer und Ent-
wickler von „ethischer KI“ den Leitfaden „Everyday Ethics for
Artificial Intelligence“ als Vorgabe ausgearbeitet. Er enthält Kon-
troll- und Korrekturmöglichkeiten und vereint technische, juris-
tische und ethische Aspekte.
Auf dieser Grundlage haben IBM-Design-Teams das CRISP-DM-
Vorgehensmodell eingeführt. Das Kürzel steht für „Cross-Indust-
ry Standard Process for Data Mining”. Es bezeichnet ein Prozess-
modell zur Bearbeitung von KI-Fragestellungen, das bereits in
den 1990er-Jahren unter Mitarbeit von IBM entstand. Wesentli-
ches Element sind diverse Rücksprungpfeile. Sie veranschauli-
chen, dass gewonnene Erkenntnisse zügig ausgewertet, vorhe-
rige Prozessschritte angepasst und Ergebnisse auf diese Weise
iterativ verbessert werden.
Im ersten CRISP-Schritt arbeiten die Designer heraus, welchen
Zwecken die KI-Lösung dienen soll – aber auch, wie sich ihre
Qualität beurteilen lässt und wie gut sie ihren Zweck erfüllen
kann. Unter welchen Bedingungen lässt sich die Lösung als ver-
trauenswürdig einstufen und nutzen? Wie kann die Technologie
dies gewährleisten? Wie lässt sich in der Planungsphase gewähr-
leisten, dass die KI-Lösung gewisse ethische Probleme vermeidet,
beispielsweise die Diskriminierung einzelner Personengruppen?
Auf der Seite des Datenverständnisses müssen die Trainings-
daten, die das KI-Modell nutzen wird, geprüft werden, so etwa
im Hinblick auf verborgene systematische Fehler. Zudem stellt
sich die Frage, ob solche Fehler eventuell negative Auswirkun- SEITE 103
BESTOF BigData-Insider.de

gen in der fertigen Lösung haben könnten. Womöglich werden


während des Trainings Fehler erzeugt und das Modell lernt die
falsche Aussage, die sich dann erst in der praktischen Erprobung
zeigt. Wer nicht frühzeitig kontrolliert, muss später mitunter ein
hohes Lehrgeld zahlen. Im Datenmodell müssen diese Fehler-
quellen aufgedeckt und beseitigt werden.
In einem relativ neuen Werkzeug namens „AI Fairness 360“ hat
IBM Research eine umfassende Bibliothek zum Aufzeigen und
Herausrechnen von „Bias“ bereitgestellt, also von einer poten-
ziellen Voreingenommenheit in datenbasierten Entscheidungs-
systemen. Diese Open-Source-Bibliothek kann von jedem Ent-
wickler verwendet und erweitert werden.
Im nächsten Schritt müssen sich die Designer fragen, wie sie ihre
Black Box „aufbohren“ und erklären können. Nach Angaben von
IBM kommen hier diverse Programme, Services und Verfahren
zum Einsatz. Dazu kann auch Watson OpenScale gehören, ein
Monitoring-Werkzeug, mit dem sich KI-Lösungen nicht nur in Be-
zug auf ihre Zuverlässigkeit, sondern hinsichtlich ihrer Unvorein-
genommenheit überwachen und generell nachvollziehen lassen.
Hier wird KI erklärbar gemacht und die Black Box verschwindet.
Zu guter Letzt wird die fertige Lösung zusammen mit dem Kun-
den beurteilt. Löst sie überhaupt das gegebene Problem? Ist sie
vertrauenswürdig und sind ihre Ergebnisse nachvollziehbar?
In der anschließenden Projektphase versuchen die Entwickler,
die Fehlerrate eines KI-Modells zu senken. Sie eliminieren uner-
wünschte Einflussfaktoren auf das Modell und versuchen, gege-
bene Vorhersagen noch besser erklärbar zu machen.
Ein Aspekt, den IBM in seinem Whitepaper nicht erwähnt, ist
nämlich die Gewichtung solcher Faktoren, wenn es darum geht,
das KI-Modell und seinen Algorithmus zu entwerfen. Hierdurch
kann es ebenso zu unerwünschten Verzerrungen wie durch das
selbstlernende Modell selbst kommen: In der Black Box entwi-
ckelt sich der Algorithmus ja durch das Verarbeiten von weiteren
Trainingsdaten weiter. Watson OpenScale müsste solche Verzer-
rungen erkennen und von einem Entwickler mit AI Fairness 360
korrigieren lassen.
OpenScale lässt sich übrigens auch in einer Hybrid- und Mul-
ti-Cloud-Umgebung einsetzen, um KI-Modelle automatisch zu
überwachen. Eine Vorgabe dafür ist im April 2019 als europäi-
sche Richtlinie unter dem Titel „Ethics Guidelines for Trustwor-
thy AI“ veröffentlicht worden. SEITE 104
BESTOF BigData-Insider.de

SAS
Seit 2018 unterstützt die Analytics-Plattform SAS Viya Advan-
ced Analytics mit Frameworks wie PD (Partial Dependence),
LIME (Local Interpretable Model-Agnostic Explanations) und ICE
(Individual Conditional Expectation). Diese Features sollen die
Transparenz für Unternehmen herstellen, die KI-gestützte Appli-
kationen einführen wollen. In Version 3.4 sollen die drei genann-
ten Frameworks die Erklärbarkeit der KI-Blackbox erleichtern. In
einem Blogbeitrag erklärt ein SAS-Manager den theoretischen
Hintergrund für die Thematik.

Salesforce
Das Salesforce-Forscherteam unter Leitung des Leipziger Infor-
matikers Richard Socher hat nach eigenen Angaben kürzlich
einen Durchbruch erzielt: Es hat die KI-Modelle dazu gebracht,
sich selbst in Begriffen des „gesunden Menschenverstands“ zu
erklären. Dieser Begriff umfasst zahlreiche Annahmen, die dem
Menschen so geläufig sind, dass er sie stets als selbstverständ-
lich voraussetzt, doch einer KI stehen sie nicht zur Verfügung.
CAGE (Commonsense Auto-Generated Explanation) ist ein
Framework, das eine KI lehrt, ihr Denken bzw. ihre Denkpro-
zesse zu erklären. Das würde in der Tat das Ende der Black Box
bedeuten. Salesforce versichert: „Diese neue Transparenz geht
nicht auf Kosten der KI-Leistung – im Gegenteil: Die Erklärung,
wie Modelle denken, verbessert zugleich deren Genauigkeit.“

Manipulierte KI
In seinem Whitepaper „Künstliche Intelligenz als Innovations-
beschleuniger im Unternehmen“ warnt das Wirtschaftsprü-
fungsunternehmen PriceWaterhouseCoopers davor, dass Model-
le des Machine Learning, besonders im Deep Learning, durch
böswilligen Input negativ beeinflusst werden könnten. Dieser
Input wird als „gegnerischer Angriff“ interpretiert. PWC hält es
demnach für möglich, durch das Identifizieren und Einspeisen
von entsprechenden Datenkombinationen das ML-Modell so zu
manipulieren, dass das System unerwünschte Resultate pro-
duziert. Gewarnt wird auch vor der Gefahr manipulierter Daten
von einem Partner, die möglicherweise unbesehen übernommen
werden (für Trainings und Tests). Das Gleiche gilt auch in umge-
kehrter Richtung: „Die Kooperation mit einem KI-Anbieter kann
unweigerlich einen Datenaustausch beinhalten, durch den Sie SEITE 105
BESTOF BigData-Insider.de

wertvolles geistiges Eigentum weitergeben.“


Wie lässt sich dies unterbinden, fragt sich der Experte verwun-
dert, wenn er kein Watson OpenScale und AI Fairness 360 hat?
„Die Gefahr einer Anfälligkeit für solche [manipulativen] Angrif-
fe kann durch die Simulation gegnerischer Angriffe auf eigene
Modelle und die Schulung dieser Modelle zur Erkennung solcher
Manipulationsversuche verringert werden. Durch die Entwick-
lung einer spezialisierten Software bereits in der Designphase
können Sie Ihre Modelle gegen Angriffe quasi immunisieren.“
Das ist vor dem Hintergrund der IBM-Angebote eine Aufforde-
rung, das Rad neu zu erfinden. Nutzer der genannten IBM-Tools
gelangen schneller ans Ziel.
Trust in AI Framework
Zwei Seiten weiter präsentieren die beiden PWC-Autoren Wilfried
Meyer und Hendrik Reese hingegen ein umfassendes und detail-
liert beschriebenes „Trust in AI Framework“. In fünf Phasen, die
aufeinander aufbauen, kann der Nutzer ein vertrauenswürdiges,
immer wieder geprüftes KI-Betriebsmodell entwerfen und auf-
bauen. Die Stationen sehen aus wie das Londoner U-Bahn-Stre-
ckennetz: übersichtlich, aber voller Tücken. Der Nutzen ist eben-
so groß wie das Risiko. Deshalb empfehlen Meyer und Reese: „KI
ist mehr als nur eine Technologie. Die Disruption erfasst Märkte,
Branchen und Unternehmen mit der Notwendigkeit, die Grund-
lage des effektiven Einsatzes früh zu berücksichtigen.“ Um eben
die Grundlage dieser Transformation zu schützen: nämlich Ver-
trauen.
 ★ Michael Matzer

SEITE 106
CIOBRIEFING
Technology-Update für IT-Manager

Regelmäßig
kostenlos lesen?

www.bigdata-insider.de/cio www.blockchain-insider.de/cio www.cloudcomputing-insider.de/cio www.datacenter-insider.de/cio

www.dev-insider.de/cio www.ip-insider.de/cio www.security-insider.de/cio www.storage-insider.de/cio