Discover millions of ebooks, audiobooks, and so much more with a free trial

Only $11.99/month after trial. Cancel anytime.

Big Data Analytics: Grundlagen, Fallbeispiele und Nutzungspotenziale
Big Data Analytics: Grundlagen, Fallbeispiele und Nutzungspotenziale
Big Data Analytics: Grundlagen, Fallbeispiele und Nutzungspotenziale
Ebook572 pages4 hours

Big Data Analytics: Grundlagen, Fallbeispiele und Nutzungspotenziale

Rating: 0 out of 5 stars

()

Read preview

About this ebook

Mit diesem Herausgeberwerk führen die Autoren den Begriff „Big Data Analytics“ ein und geben Fallstudien aus unterschiedlichen Anwendungsgebieten. Unter Big Data Analytics wird das Aufbereiten, Analysieren und Interpretieren von großen, oft heterogenen Datenbeständen verstanden, mit dem Ziel, Muster und Zusammenhänge in den Daten aufzudecken und Entscheidungsgrundlagen für wissenschaftliche, betriebliche oder gesellschaftliche Fragestellungen zu erhalten. 
Nebst den theoretischen Grundlagen widmet sich das Herausgeberwerk der Vielfalt verschiedener Anwendungsmöglichkeiten. Fallbeispiele geben Einblick in die Anwendung von Big Data Analytics und dessen Nutzenpotenziale. 
Das Werk richtet sich gleichermaßen an Studierende, Fachleute aller Fachrichtungen als auch an interessierte Anwender. Es hilft den Leserinnen und Leser, die Bedeutungsvielfalt des Begriffs Big Data Analytics zu verstehen und verschiedene Einsatzmöglichkeiten im eigenen Umfeld zu erkennen und zu bewerten.
LanguageDeutsch
Release dateApr 1, 2021
ISBN9783658322366
Big Data Analytics: Grundlagen, Fallbeispiele und Nutzungspotenziale

Related to Big Data Analytics

Related ebooks

Intelligence (AI) & Semantics For You

View More

Related articles

Reviews for Big Data Analytics

Rating: 0 out of 5 stars
0 ratings

0 ratings0 reviews

What did you think?

Tap to rate

Review must be at least 10 words

    Book preview

    Big Data Analytics - Sara D'Onofrio

    Teil IGrundlagen

    © Der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021

    S. D'Onofrio, A. Meier (Hrsg.)Big Data AnalyticsEdition HMDhttps://doi.org/10.1007/978-3-658-32236-6_1

    1. Rundgang Big Data Analytics – Hard & Soft Data Mining

    Andreas Meier¹  

    (1)

    Universität Fribourg, Fribourg, Schweiz

    Andreas Meier

    Email: andreas.meier@unifr.ch

    Zusammenfassung

    Das Einführungskapitel definiert und charakterisiert verschiedene Facetten des Big Data Analytics und zeigt auf, welche Nutzenpotenziale sich für Wirtschaft, öffentliche Verwaltung und Gesellschaft ergeben. Nach der Klärung wichtiger Begriffe wird der Prozess zum Schürfen nach wertvollen Informationen und Mustern in den Datenbeständen erläutert. Danach werden Methodenansätze des Hard Computing basierend auf klassischer Logik mit den beiden Wahrheitswerten wahr und falsch sowie des Soft Computing mit unendlich vielen Wahrheitswerten der unscharfen Logik vorgestellt. Anhand der digitalen Wertschöpfungskette elektronischer Geschäfte werden Anwendungsoptionen für Hard wie Soft Data Mining diskutiert und entsprechende Nutzenpotenziale fürs Big Data Analytics herausgearbeitet. Der Ausblick fordert auf, einen Paradigmenwechsel zu vollziehen und sowohl Methoden des Hard Data Mining wie des Soft Data Mining für Big Data Analytics gleichermaßen zu prüfen und bei Erfolg umzusetzen.

    Schlüsselwörter

    Big Data AnalyticsData ScienceFuzzy LogicHard Data MiningKnowledge Discovery in DatabasesParadigmenwechselSoft Data Mining

    Dieses Kapitel beruht auf einer Erweiterung und Aktualisierung des Beitrags von Meier A. (2019) Überblick Analytics: Methoden und Potenziale. HMD – Praxis der Wirtschaftsinformatik, Heft 329, 56(5): 885–899.

    1.1 Motivation und Begriffseinordnung

    Wissenschaft, Wirtschaft, öffentliche Verwaltung und Gesellschaft befinden sich in einer Umbruchphase, die als digitaler Transformationsprozess bezeichnet wird. Dabei wird das wirtschaftliche, öffentliche wie private Leben von Informations- und Kommunikationstechnologien getrieben. Zu jeder Zeit und an jedem Ort entstehen Datenspuren: Postings aus sozialen Medien, elektronische Briefe, Anfrageverhalten in Suchmaschinen, Bewertungen von Produkten und Dienstleistungen, Geo-Daten, Messdaten des Haushalts (Smart Meter), Aufzeichnungen von Monitoring-Systemen, Daten aus eHealth-Anwendungen, Prozessdaten aus der Produktion, Kennzahlen von Webplattformen, um nur einige Beispiele zu nennen.

    Der Wandel von der Industrie- zur Informations- und Wissensgesellschaft spiegelt sich in der Bewertung der Information als Produktionsfaktor wider. Information hat im Gegensatz zu materiellen Wirtschaftsgütern folgende Eigenschaften:

    Darstellung: Information wird durch Zeichen, Signale, Nachrichten oder Sprachelemente spezifiziert.

    Verarbeitung: Information kann mit Hilfe von Algorithmen (Berechnungsvorschriften) übermittelt, gespeichert, klassifiziert, aufgefunden und in andere Darstellungsformen transformiert werden.

    Quelle: Die Herkunft einzelner Informationskomponenten ist kaum nachweisbar. Manipulationen sind jederzeit möglich. Information ist beliebig kopierbar und kennt per se keine Originale.¹

    Kombination: Information ist beliebig kombinierbar.

    Alter: Information unterliegt keinem physikalischen Alterungsprozess. Hingegen spielt die Zeitachse bezüglich Aktualität der Information eine Rolle.

    Vagheit: Information ist unscharf (vgl. Abschn. 1.2.2), das heißt sie ist oft unpräzis und hat unterschiedliche Aussagekraft (Qualität).

    Träger: Information benötigt keinen fixierten Träger; sie ist unabhängig vom Herkunftsort.

    Diese Eigenschaften belegen, dass sich digitale Güter (Information, Software, Multimedia, etc.) in Handhabung sowie in ökonomischer, rechtlicher und sozialer Wertung von materiellen Gütern stark unterscheiden. Beispielsweise verlieren physische Produkte durch Nutzung meistens an Wert, gegenseitige Nutzung von Information hingegen kann einem Wertzuwachs dienen. Ein weiterer Unterschied besteht darin, dass materielle Güter mit kalkulierbaren Kosten hergestellt werden können, die Erzeugung digitaler Produkte jedoch schwierig kalkulierbar bleibt. Allerdings ist Vervielfältigung von Informationen gegenüber materiellen Gütern einfach und dank Moore’s Law² kostengünstig (Rechenaufwand, Material des Informationsträgers). Zudem bleiben bei Informationsobjekten die Eigentumsrechte und Besitzverhältnisse schwer bestimmbar, obwohl digitale Wasserzeichen und andere Datenschutz- und Sicherheitsmechanismen zur Verfügung stehen (Meier und Stormer 2012).

    Das Sammeln, Speichern und Verarbeiten digitaler Information ist zum Alltag geworden und wichtige Dienstleistungen sind davon abhängig; man denke dabei an die digitalen Kontaktdaten. Dies nicht nur bei kommerziellen Anwendungen, sondern auch im öffentlichen Leben. Die wichtigsten Herausforderungen lauten: Wie bewältigen wir diesen Information Overload? Wie können wir die Qualität der heterogenen Daten gewährleisten? Wann können wir den Auswertungen und Empfehlungen trauen? Wie sichern wir unsere Entscheidungen ab?

    Die Heterogenität umfangreicher Datensammlungen und die Vielfalt von Auswertungsmethoden rücken Big Data Analytics in den Fokus vieler Entscheidungsträger in Politik, Wirtschaft, öffentlicher Verwaltung und Gesellschaft. Die Herangehensweise zu erfolgversprechenden Auswertungsstrategien ist nicht von vornherein klar erkenntlich und muss eventuell iterativ in Abklärungsschritten erarbeitet werden. Wichtig bleibt, Begriffe und Vorgehensweisen betreffend Big Data Analytics im Vorfeld zu klären, einzuordnen und allen Anspruchsgruppen zu kommunizieren.

    1.1.1 Was heißt Big Data?

    Seit einigen Jahren sind Unternehmen, Organisationen, Forschungseinrichtungen und Citizens mit Big Data konfrontiert (Fasel und Meier 2016), das heißt mit der Bewältigung umfangreicher Daten aus unterschiedlichen Datenquellen. Die Herkunft der Daten sowie deren Struktur sind vielfältig. Aus diesem Grunde werden die digitalen Daten oft mit dem Begriff Multimedia gemäß Abb. 1.1 charakterisiert.

    ../images/502366_1_De_1_Chapter/502366_1_De_1_Fig1_HTML.png

    Abb. 1.1

    Vielfalt der Multimedia-Daten beim Big Data Analytics, angelehnt an Meier (2018)

    Big Data Analytics kann mit Hilfe von V’s näher gefasst werden (Fasel und Meier 2016; Meier und Kaufmann 2016):

    Volume: Der Datenbestand ist umfangreich und liegt im Tera- bis Zettabytebereich (Megabyte = 10⁶ Byte, Gigabyte = 10⁹ Byte, Terabyte = 10¹² Byte, Petabyte = 10¹⁵ Byte, Exabyte = 10¹⁸ Byte, Zettabyte = 10²¹ Byte).

    Variety: Unter Vielfalt versteht man bei Big Data Analytics die Verarbeitung von strukturierten, semi-strukturierten und unstrukturierten Multimedia-Daten (Text, Grafik, Bilder, Audio und Video gemäß Abb. 1.1).

    Velocity: Der Begriff bedeutet Geschwindigkeit und verlangt, dass im Extremfall Datenströme (Data Streams) in Echtzeit ausgewertet und analysiert werden können.

    Value: Big Data Analytics soll den Wert des Unternehmens oder der Organisation steigern. Investitionen in Personal und technische Infrastruktur werden dort gemacht, wo eine Hebelwirkung besteht respektive ein Mehrwert generiert werden kann.

    Veracity: Da viele Daten vage oder ungenau sind, müssen spezifische Algorithmen zur Bewertung der Aussagekraft respektive zur Qualitätseinschätzung der Resultate verwendet werden (vgl. Soft Computing in Abschn. 1.2.2). Umfangreiche Datenbestände garantieren nicht per se eine bessere Auswertungsqualität.

    Veracity bedeutet in der deutschen Übersetzung Aufrichtigkeit oder Wahrhaftigkeit. Im Zusammenhang mit Big Data Analytics wird damit ausgedrückt, dass Datenbestände in unterschiedlicher Datenqualität vorliegen und dass dies bei Auswertungen berücksichtigt werden muss. Neben statistischen Verfahren und Data Mining existieren unscharfe Methoden des Soft Computing, die einem Resultat oder einer Aussage Wahrheitswerte zwischen wahr und falsch zuordnen (vgl. Ausführungen zum Soft Computing in Abschn. 1.2.2 resp. zum Fuzzy Portfolio in Abschn. 1.3.2).

    Big Data ist nicht nur eine Herausforderung für profitorientierte Unternehmen im elektronischen Geschäft, sondern auch für das Aufgabenspektrum von Regierungen, öffentlichen Verwaltungen, NGO’s (Non Governmental Organizations) und NPO’s (Non Profit Organizations).

    Als Beispiel seien die Programme für Smart City oder Ubiquitous City erwähnt, das heißt die Nutzung von Big-Data-Technologien in Städten, Agglomerationen und ländlichen Regionen. Ziel dabei ist, den sozialen und ökologischen Lebensraum nachhaltig zu entwickeln. Dazu zählen zum Beispiel Projekte zur Verbesserung der Mobilität, Nutzung intelligenter Systeme für Wasser- und Energieversorgung, Förderung sozialer Netzwerke, Erweiterung politischer Partizipation, Ausbau von Entrepreneurship, Schutz der Umwelt oder Erhöhung von Sicherheit und Lebensqualität.

    1.1.2 Relevanz von Datenspeichersystemen

    Relationale Datenbanksysteme, oft SQL-Datenbanksysteme genannt, organisieren die Datenbestände in Tabellen (Relationen) und verwenden als Abfrage- und Manipulationssprache die international standardisierte Sprache SQL (Structured Query Language; Meier und Kaufmann 2016).

    Relationale Datenbanksysteme sind zurzeit in den meisten Unternehmen, Organisationen und vor allem in KMU’s (Kleinere und Mittlere Unternehmen) im Einsatz. Bei massiv verteilten Anwendungen im Web hingegen oder bei Big-Data-Anwendungen muss die relationale Datenbanktechnologie oft mit NoSQL³-Technologien ergänzt werden, um Webdienste rund um die Uhr und weltweit anbieten zu können.

    Ein NoSQL-Datenbanksystem unterliegt einer massiv verteilten Datenhaltungsarchitektur. Die Daten selber werden je nach Typ der NoSQL-Datenbank entweder als Schlüssel-Wertpaare („key/value store), in Spalten oder Spaltenfamilien („column store), in Dokumentspeichern („document store) oder in Graphen („graph database) gehalten (vgl. Abb. 1.2).

    ../images/502366_1_De_1_Chapter/502366_1_De_1_Fig2_HTML.png

    Abb. 1.2

    Nutzung von SQL- und NoSQL-Datenbanken im Webshop, angelehnt an Meier (2018)

    Um hohe Verfügbarkeit zu gewähren und das NoSQL-Datenbanksystem gegen Ausfälle zu schützen, werden unterschiedliche Replikationskonzepte unterstützt. Zudem wird mit dem sogenannten Map/Reduce-Verfahren hohe Parallelität und Effizienz für die Datenverarbeitung gewährleistet. Beim Map/Reduce-Verfahren werden Teilaufgaben an diverse Rechnerknoten verteilt und einfache Schlüssel-Wertpaare extrahiert („map) bevor die Teilresultate zusammengefasst und ausgegeben werden („reduce).

    In Abb. 1.2 ist ein elektronischer Shop als Beispiel für die Vielfalt von analytischen Optionen schematisch dargestellt:

    Key/Value Store: Um eine hohe Verfügbarkeit und Ausfalltoleranz zu garantieren, wird ein Key/Value-Speichersystem für die Session-Verwaltung sowie für den Betrieb der Einkaufswagen eingesetzt. Die Analyse von Kundenbesuchen respektive die Auswertung der Einkaufswagen kann direkt im Key/Value Store oder im Data Warehouse (siehe unten) vorgenommen werden.

    Document Store: Die Kundenbestellungen selber werden im Dokumentspeicher abgelegt. Aktuelle Bestellungen lassen sich direkt im Document Store analysieren. Zeitreihenvergleiche oder differenzierte Auswertungen und Prognosen werden im Data Warehouse (z. B. mit Descriptive oder Predictive Analytics gemäß Abschn. 1.1.3) vorgenommen.

    Relationales Datenbanksystem: Kunden- und Kontoverwaltung erfolgt mit einem relationalen Datenbanksystem. Dieses klassische Datenbanksystem garantiert jederzeit Konsistenz und ist unter anderem für lückenlose Buchhaltung und verlässliches Finanzmanagement relevant. Entsprechende Auswertungen wichtiger Finanzkennzahlen erfolgen hier oder im Data Warehouse.

    Data Warehouse: Bedeutend für den erfolgreichen Betrieb eines Webshops ist das Performance Measurement. Mit Hilfe von Web Analytics werden wichtige Kenngrößen („key performance indicators, KPIs) der Inhalte wie der Webbesucher in einem Data Warehouse aufbewahrt. Spezifische Werkzeuge (Data Mining, Predictive Business Analysis) werten Geschäftsziele wie Erfolg der getroffenen Maßnahmen regelmäßig aus. Da die Analysearbeiten auf dem mehrdimensionalen Datenwürfel („datacube) zeitaufwendig sind, wird dieser InMemory⁴ gehalten.

    Graphdatenbank: Falls die Beziehungen unterschiedlicher Anspruchsgruppen analysiert werden sollen, drängt sich der Einsatz von Graphdatenbanken auf. Diese erlauben, Geschäftsbeziehungen, soziale Interaktionen, Meinungsäusserungen, Bewertungen von Produkten oder Dienstleistungen, Kritik und Wünsche etc. für die Kundenbindung zu nutzen und auszuwerten.

    Die Verknüpfung eines Webshops mit sozialen Medien ist für ein Unternehmen oder eine Organisation zukunftsweisend. Neben der Ankündigung von Produkten und Dienstleistungen kann analysiert werden, ob und wie die Angebote bei den Nutzern ankommen. Bei Schwierigkeiten oder Problemfällen wird mit gezielter Kommunikation und geeigneten Maßnahmen versucht, einen möglichen Schaden abzuwenden oder zu begrenzen. Darüber hinaus hilft die Analyse von Weblogs oder die Verfolgung aufschlussreicher Diskussionen in sozialen Netzen, Trends oder Innovationen für das eigene Geschäft zu erkennen.

    1.1.3 Facetten des Big Data Analytics

    Unter Analytics versteht man das Analysieren und Interpretieren umfassender, oft heterogener Datenbestände, um Muster und Zusammenhänge in den Daten aufzudecken und Entscheidungsgrundlagen für betriebliche wie gesellschaftliche Abläufe oder für private Zwecke zu erhalten. Der Begriff Analytics hat unterschiedliche Ausprägungen, wie Abb. 1.3 aufzeigt.

    ../images/502366_1_De_1_Chapter/502366_1_De_1_Fig3_HTML.png

    Abb. 1.3

    Begriffseinordnung, angelehnt an Gluchowski (2016) und erweitert von Meier (2019)

    Ziel des Big Data Analytics ist das Erfassen und Beschreiben relevanter Merkmale oder Attribute zum Erhalt eines Beschreibungsmodells, Analyse- und Empfehlungsmodells zur Erreichung der Ziele des Unternehmens respektive der Organisation. Im Kern stehen Descriptive Analytics, Diagnostic Analytics, Predictive Analytics sowie Prescriptive Analytics:

    Descriptive Analytics: Werkzeuge erläutern den Entscheidungsträgern von Unternehmen und Organisationen aufgrund gesammelter Daten den Verlauf der Geschäfts- und Kundenbeziehungen und ermöglichen den Vergleich in Zeitreihen. Spezifische Visualisierungstechniken und Infografiken erlauben, die Veränderungen der Indikatoren (Kennzahlen) darzustellen.

    Diagnostic Analytics: Diese Werkzeuge sind darauf ausgelegt, die Hintergründe der Entwicklung des Geschäfts respektive der Beziehungen mit den Anspruchsgruppen zu erklären. Spezifische Werkzeuge zur Berichterstattung extrahieren zudem die Gründe für die zeitliche Entwicklung und bereiten sie in Grafiken auf.

    PredictiveAnalytics: Hier werden künftige Ereignisse und Entwicklungen aufgrund von historischen Daten prognostiziert. Zudem helfen Algorithmen der künstlichen Intelligenz und des maschinellen Lernens aufzuzeigen, welche Maßnahmen welche Wirkungen in Zukunft erzielen könnten (Erklärungsmodell).

    Prescriptive Analytics: Mit diesen Werkzeugen werden nicht nur künftige Entwicklungen evaluiert, sondern konkrete Empfehlungsoptionen zur Entscheidungsfindung sowie für Zukunftsszenarien eines erfolgreichen Geschäftsverlaufs generiert. Die Werkzeuge zielen darauf ab, über die reine Vorhersage hinaus Handlungsoptionen zu erhalten, um deren Auswirkungen abschätzen zu können (Entscheidungsmodell).

    Unter Business Analytics oder Business Intelligence wird das systematische Erarbeiten und Analysieren von Leistungskennzahlen (KPIs) in Unternehmen und Organisationen verstanden, um mit den erarbeiteten Entscheidungsgrundlagen den Erfolg zu sichern respektive auszubauen.

    Web Analytics und Web Controlling umfassen die Evaluation, Definition, Messung, Auswertung und Adjustierung von Webkennzahlen; hier geht es primär um Analyse und Verbesserung der Webinhalte (u. a. Warenkorb, Dienstleistungen im eHealth, eGovernment-Portal) sowie Auswerten des Benutzerverhaltens und der entsprechenden Leistungsgrößen wie Umsatz, Gewinn, Zufriedenheit oder Weiterempfehlungen.

    Das Fachgebiet Data Science umfasst alle Methoden und Techniken zur Extraktion von Wissen aus Datenbeständen (Kelleher und Tierney 2018). Demnach ist Analytics ein wichtiges Teilgebiet dieses Fachbereichs, geht es doch um das Erkennen von Mustern und Zusammenhängen aus strukturierten, semi-strukturierten und unstrukturierten Datensammlungen.

    1.2 Zum Prozess Knowledge Discovery in Databases

    Knowledge Discovery in Databases oder abgekürzt KDD (Ester und Sander 2013; Knoll und Meier 2009) ist der Prozess aller Teilschritte, um aus Datenbeständen Wissen zu generieren.

    1.2.1 Branchenneutraler Industriestandard

    In Abb. 1.4 ist der CRoss-Industry Standard Process für Data Mining (CRISP-DM) aufgezeigt (Chapman et al. 2000), ein branchenneutraler Industriestandard, der den Fokus auf die Wirtschaftsinformatik und die damit verbundenen betriebswirtschaftlichen Herausforderungen setzt. Ziel dabei ist, aus Datenbeständen in einem iterativen Verfahren wichtige Erkenntnisse für die Umsetzung von Geschäftsmodellen zu erwirken. Dieser Standard wurde als Prozessmodell im Rahmen eines EU-Förderprojektes entwickelt, unter anderem unter Beteiligung von Daimler-Benz (heute Daimler AG) und der Statistik- und Analyse-Software der Firma SPSS (Statistical Package for the Social Sciences) der University of Stanford, USA (heute IBM).

    ../images/502366_1_De_1_Chapter/502366_1_De_1_Fig4_HTML.png

    Abb. 1.4

    Komponenten des branchenneutralen CRISP-DM Industriestandards, angelehnt an Chapman et al. (2000)

    Der Industriestandard CRISP-DM umfasst sechs Entwicklungsschritte:

    Schritt 1 – Verständnis des Geschäftsmodells: Hier geht es um die Zielsetzung der Unternehmens- respektive Organisationsstrategie und um das Verständnis des Geschäftsmodells, um Kundenbindung und -entwicklung zu fördern. Insbesondere müssen die Ressourcen des Unternehmens respektive der Organisation, Chancen und Risiken der Umsetzung der längerfristigen Strategie sowie zeitliche Aspekte anhand der aktuellen Projektpläne berücksichtigt werden.

    Schritt 2 – Verständnis der Anwendungs- und Datendomäne: Die Auswertung wichtiger Prozesse des Unternehmens sowie die dazu benötigten Datenquellen müssen studiert und verstanden werden. Im Detail geht es um die Analyse der Geschäftsprozesse und der Datenschnittstellen, um Qualität und Vollständigkeit der Informationen einschätzen zu können.

    Schritt 3 – Vorbereitung der Datenbestände: Die strukturierten, semi-strukturierten und unstrukturierten Daten aus eigenen Datenquellen sowie aus dem Web werden zusammengetragen, auf einheitliche Formate transformiert und durch Metadaten beschrieben (logisches Datenmodell). Damit wird eine Vereinheitlichung der Datenbasis erzielt.

    Schritt 4 – Modellierung der Datenbestände: Die für die Auswertung angestrebten Datenmodelle werden ausgewählt. Beispielsweise geht es darum, bei Big Data Analytics ein adäquates Prozessdatenmodell, Entitäten-Beziehungsmodell oder Graphenmodell zu entwickeln (Meier und Kaufmann 2016), an dem die Auswertungen ausgerichtet werden.

    Schritt 5 – Evaluation der Daten: Hier müssen geeignete Methoden des Data Mining, insbesondere des Predictive oder Prescriptive Analytics respektive Soft Computing ausgewählt und auf Nützlichkeit getestet werden. Wichtige Methoden sind Entscheidungsbäume, Künstliche Neuronale Netze, Clusterverfahren, Assoziationsanalysen respektive unscharfe Methoden der Fuzzy Logic (siehe Abschn. 1.2.2). Ziel ist eine verbesserte Entscheidungsfindung für das Unternehmen respektive die Organisation.

    Schritt 6 – Nutzung der Erkenntnisse für die Organisation respektive fürs Unternehmen: Die Resultate des Big Data Analytics werden geschult und dem Personal des Unternehmens respektive der Organisation aufgezeigt. Gleichzeitig geht es darum, die Qualität des Auswertungs-, Erklärungs- und Entscheidungsmodells sowie der verwendeten Methoden des Hard Data Mining respektive Soft Data Mining (vgl. Abschn. 1.2.2) zu überprüfen, um unter anderem Rückschlüsse aufs Geschäftsmodell ziehen zu können.

    Die Empfehlungen aus dem Industriestandard CRISP-DM haben sich bei den Experten der Data Science weitgehend durchgesetzt, teilweise mit leichten firmenspezifischen Anpassungen respektive Verfeinerungen.

    1.2.2 Hard versus Soft Data Mining

    Hard Computing beruht auf der binären Logik mit den Wahrheitswerten wahr und falsch. Methoden basieren auf exakten Fakten, mathematischen oder statistischen Analysen sowie auf Berechnungen oder Auswertungen mittels Hard Data Mining. Im Gegensatz dazu versucht das Soft Computing, die Fähigkeiten des Menschen wie natürliche Sprache, Abwägen von Sachverhalten oder Intuition nachzubilden. Die Methoden des Soft Data Mining umfassen mehrwertige Logiken, approximative Ansätze, Heuristiken, evolutionäre Algorithmen, probabilistisches Schließen oder unscharfe Logik.

    Data Mining bedeutet das Schürfen nach wertvollen Informationen und Mustern in den Datenbeständen. Algorithmen helfen, noch nicht bekannte Zusammenhänge in den Daten zu extrahieren und darzustellen (siehe auch Kap. 2 über ‚Methoden des Data Mining für Big Data Analytics‘ von Peter Gluchowski, Christian Schieder und Peter Chamoni in diesem Herausgeberwerk).

    Zum Hard Data Mining zählen folgende Methoden:

    Entscheidungsbäume: Diese bestehen aus einem Wurzelknoten mit unterschiedlich vielen inneren Knoten und mindestens zwei Blättern. Jeder Knoten entspricht einer formalen Regel und jedes Blatt gibt eine Teilantwort auf das Entscheidungsproblem. Beispielsweise werden in der Notfallmedizin Entscheidungsbäume verwendet, die auf Expertise beruhen und in kurzer Zeit erfolgversprechende Notmaßnahmen aufzeigen.

    Clusterverfahren: Anhand von Ähnlichkeits- oder Distanzmaßen werden Datenobjekte in möglichst homogene Cluster (Gruppen ähnlicher Objekte) überführt: Objekte innerhalb eines Clusters sollten homogen, Objekte unterschiedlicher Cluster heterogen zueinander sein. Es geht ums Aufdecken von Ähnlichkeitsstrukturen in großen Datenbeständen wie zum Beispiel das Erkennen von Mustern in Satellitenbildern oder das Festlegen von Kundensegmenten.

    Regressionsanalyse: Die lineare Regression ist ein statistisches Verfahren, um eine beobachtete abhängige Variable mit einer oder mehreren unabhängigen Variablen zu erklären. Damit lassen sich Zusammenhänge quantitativ beschreiben. Zudem dient die Regression dazu, Werte der abhängigen Variablen zu prognostizieren. Um eine nicht-lineare Funktion zu schätzen, können iterative Algorithmen eingesetzt werden. Ziel einer Regressionsanalyse könnte sein, unterschiedliche Kommunikations- und Absatzkanäle fürs Online Marketing auszuwerten, um den Erfolg der getätigten Investitionen zu vergleichen und Optimierungen vornehmen zu können.

    Assoziationsanalyse: Diese dient dem Aufdecken von Mustern oder Zusammenhängen in Datenbeständen nach dem Schema ‚Wenn, dann …‘. Die Assoziationsanalyse beruht demnach auf einer Prämisse (Wenn A …) und einer Folgerung (… dann B). Sie verwendet Maßzahlen: Der Support drückt die Häufigkeit eines Objekts in der Datenbasis aus, die Konfidenz zählt die Folgerungen im Verhältnis zur Prämisse. Damit kann man zum Beispiel Produkte ermitteln, die häufig miteinander gekauft werden (Warenkorbanalyse), um ein Empfehlungssystem („recommender system") aufzubauen.

    Bei Big Data Analytics werden umfangreiche Datenbestände aus unterschiedlichen Quellen ausgewertet. Es liegt auf der Hand, dass solche Daten oft missverständlich, unbestimmt, ungenau, ungewiss, unsicher oder vage sind. Aus diesem Grunde drängt es sich auf, Verfahren anzuwenden, welche die Ungewissheit der Daten stärker miteinbeziehen und bewerten (vgl. V für Veracity in Abschn. 1.1.1 ). Ein Lösungsansatz besteht darin, Methoden des Soft Computing respektive Verfahren der unscharfen Logik („fuzzy logic") anzuwenden (Zadeh 1994).

    Entscheidungsfragen lassen sich bei anspruchsvollen Managementaufgaben nicht immer dichotom respektive scharf mit ja oder nein beantworten. Vielmehr geht es um ein Abwägen unterschiedlicher Einflussfaktoren und die Antwort für eine Problemlösung lautet oft ‚ja unter Vorbehalt …‘ oder ‚sowohl als auch …‘. Mit anderen Worten: Die Antwort ist unscharf („fuzzy") und kann neben ‚wahr‘ und ‚falsch‘ auch Wahrheitswerte zwischen 0 und 1 annehmen. Ein Wahrheitswert 0.7 bedeutet demnach, dass die Aussage zu 70 % wahr und zu 30 % falsch ist.

    Lotfi A. Zadeh hat 1965 mit seinem Forschungspapier ‚Fuzzy Sets‘ (Zadeh 1965) den Grundstein zur unscharfen Logik gesetzt. Unscharfe Mengen sind Mengen, bei welchen die Zugehörigkeit der Elemente zur Menge mit einer Zugehörigkeitsfunktion μ gemessen wird, die Werte auf dem Einheitsintervall [0,1] annehmen kann. Somit wird die klassische Menge von Elementen erweitert, indem jedem Element x noch sein Zugehörigkeitsmaß μ (x) zur Menge mitgegeben wird.

    Lotfi A. Zadeh formulierte Soft Computing als ‚die Fähigkeit des Menschen nachzuahmen, effektiv Methoden des vernünftigen Schließens einzusetzen, die nur approximativ und nicht exakt sind‘ (Zadeh 1994).

    Wichtige Methoden des Soft Data Mining sind:

    Fuzzy Clustering: Bei unscharfen Clusterverfahren werden Objekte nicht exklusiv einem einzigen Cluster zugeordnet. Vielmehr können sie zu unterschiedlichen Clustern gehören, abhängig von den jeweiligen Mengenzugehörigkeitsgraden. Als Beispiel wird in Abschn. 1.3.2 das Beziehungsmanagement mit individuellen Kundenwerten diskutiert (vgl. unscharfes Kundenportfolio in Abb. 1.7).

    Evolutionäre Algorithmen: Diese zählen zu den naturanalogen Optimierungsverfahren, da sie von der Entwicklung natürlicher Lebewesen inspiriert sind. Die biologische Evolution (Selektion, Rekombination, Mutation) wird mit Hilfe von Software nachgebildet, um Suchvorgänge oder Optimierungen zu verbessern. Damit lassen sich als Beispiel Düng- und Bewässerungsstrategien für landwirtschaftliche Betriebe optimieren.

    Künstliche Neuronale Netze: Solche bestehen aus einem Netzwerk von Verarbeitungseinheiten (sog. künstliche Neuronen, dem menschlichen Gehirn nachempfunden) und deren Verknüpfung untereinander. Die künstlichen Neuronen verfügen über Eingabe-, Aktivierungs- und Ausgabefunktion: Die eingegebenen Impulse werden gewichtet, mit Schwellwerten verglichen und beim Überschreiten aktiviert und weitergegeben. Künstliche Neuronale Netze eignen sich für Klassifikation, Regression und Clusterbildung. Unter anderem unterstützen sie Energieverteilungsentscheide in intelligenten Stromnetzwerken (Smart Grids).

    Probabilistisches Schließen: Probabilistic Reasoning ist eine Form des logischen Schließens, das auf Wahrscheinlichkeiten beruht und sich gegenüber der klassischen Logik unterscheidet. Jede Aussage wird mit einer bestimmten Wahrscheinlichkeit bewertet, die die Unsicherheit der Aussage ausdrücken soll. Unsicherheiten können aus Statistiken abgeleitet oder von Experten geschätzt werden. In einigen Expertensystemen wird dieser Ansatz zum Beispiel für Diagnoseunterstützung verwendet.

    Inductive Fuzzy Classification (Kaufmann 2014; Kaufmann et al. 2015): Hier handelt es sich um eine Form des überwachten Lernens („supervised learning") (Hüllermeier 2005), wobei der Lernprozess auf Beispielen beruht, um zu entscheiden, ob ein Element einer Menge zu einer vorgegebenen Klasse gehört aufgrund der vorgegebenen Attribute. So zeigen Kaufmann et al. (2015) auf, wie individuelle Marketingkampagnen damit Nachfrage und Abschluss von Cross- und Up-Selling verbessern.

    Aufgrund der oben genannten Methoden rückt das Maschinelle Lernen in den Vordergrund. Hier lernt ein künstliches Softwaresystem aus Anwendungsbeispielen, um Muster und Gesetzmäßigkeiten in den Daten zu erkennen und Verallgemeinerungen anstellen zu können. Wichtige Anwendungsfelder sind Diagnoseverfahren, Aktienmarktanalysen oder forensische Anwendungen.

    Die Vielfalt der Verfahren für Hard und Soft Data Mining konnten hier nur grob skizziert werden. Für Interessierte steht umfangreiche Literatur zur Verfügung (Ester und Sander 2013; Kruse et al. 2015; Lippe 2005; Liu 2011; Sivanandam und Deepa 2019 oder Witten et al. 2017). Die internationale Buchreihe zur Erforschung von Fuzzy Management Methods des Springer-Verlages enthält Grundlagen und Fallstudien zum Soft Computing (FMsquare 2020).

    1.2.3 Prozessschritte für Wissensgenerierung

    Beim Prozess für Knowledge Discovery (KDD) in Databases müssen Ziele für den Auswertungsauftrag erstellt, unterschiedliche Schritte zur Aufbereitung der notwendigen Daten durchlaufen, diverse Methoden des Hard wie Soft Data Mining erprobt und die Interpretation der Auswertungen vorgenommen

    Enjoying the preview?
    Page 1 of 1