Ebook56 pages1 hour

Big Data - Apache Hadoop

Name: Big Data - Apache Hadoop
Author: Bernd Fondermann
ISBN: 9783868024005

By Bernd Fondermann, Kai Spichale and Lars George

Rating: 0 out of 5 stars

()

Read preview

About this ebook

Doug Cutting hatte das Problem, das Internet (alles HTML) herunterzuladen und zu speichern. Was vor zehn Jahren schon eine Herausforderung war, ist heute, bei exponentiellem Anwachsen der Datenmenge, nicht einfacher. Es wurde Cutting schnell klar, dass die klassische Batch-Verarbeitung hier nicht ausreicht. Dann stieß er im Internet auf die Lösung: MapReduce.
MapReduce beschreibt eine verteilte Ablaufumgebung, die grob gesagt in zwei Schritten aus Inputdaten neue Daten generiert. Cutting implementierte MapReduce Mitte des vergangenen Jahrzehnts als Open Source in Java und nannte das Projekt Hadoop. Eine Einführung in MapReduce, Hadoop und die Hadoop-Datenbank Apache-HBase sind die Kernthemen dieses shortcuts der Big-Data-Experten Bernd Fondermann, Kai Spichaale und Lars George.

Skip carousel

Computers

LanguageDeutsch

Publisherentwickler.press

Release dateMar 16, 2012

ISBN9783868024005

Author

Bernd Fondermann

Related authors

Skip carousel

Related to Big Data - Apache Hadoop

Titles in the series (16)

Skip carousel

Big Data - Apache Hadoop
Ebook
Big Data - Apache Hadoop
byBernd Fondermann
Rating: 0 out of 5 stars
0 ratings
Cloud Computing Anbietervergleich: Amazon / Microsoft / Google & Co
Ebook
Cloud Computing Anbietervergleich: Amazon / Microsoft / Google & Co
byMario Meir-Huber
Rating: 0 out of 5 stars
0 ratings
Cloud Computing Grundlagen: Technisch / rechtlich / wirtschaftlich und architekturell
Ebook
Cloud Computing Grundlagen: Technisch / rechtlich / wirtschaftlich und architekturell
byMario Meir-Huber
Rating: 0 out of 5 stars
0 ratings
Datenbanken: Grundlagen und Entwurf
Ebook
Datenbanken: Grundlagen und Entwurf
byVeikko Krypczyk
Rating: 0 out of 5 stars
0 ratings
CSS: Grundlagen und Best Practices
Ebook
CSS: Grundlagen und Best Practices
byRegine Heidorn
Rating: 0 out of 5 stars
0 ratings
HTML 5 meets GWT
Ebook
HTML 5 meets GWT
byStefan Starke
Rating: 0 out of 5 stars
0 ratings
Enterprise Java Web Services
Ebook
Enterprise Java Web Services
byBernhard Löwenstein
Rating: 0 out of 5 stars
0 ratings
Magento Entwicklung: Themes, Widgets und Eigene Entitäten
Ebook
Magento Entwicklung: Themes, Widgets und Eigene Entitäten
byVinai Kopp
Rating: 0 out of 5 stars
0 ratings
Java 7: Project Coin, Generics und NIO2
Ebook
Java 7: Project Coin, Generics und NIO2
byAngelika Langer
Rating: 0 out of 5 stars
0 ratings
iOS Essentials: Frameworks, Tools und Twitter API
Ebook
iOS Essentials: Frameworks, Tools und Twitter API
byMarkus Kopf
Rating: 0 out of 5 stars
0 ratings
Onlinerecht: Grundlegende juristische Spielregeln im eCommerce
Ebook
Onlinerecht: Grundlegende juristische Spielregeln im eCommerce
byMichael Rohrlich
Rating: 0 out of 5 stars
0 ratings
NoSQL Einführung: CouchDB, MongoDB und Regis
Ebook
NoSQL Einführung: CouchDB, MongoDB und Regis
byOliver Kurowski
Rating: 0 out of 5 stars
0 ratings
Progressive Web-Apps: Offlinefähige Web-Anwendungen mit nativen Qualitäten
Ebook
Progressive Web-Apps: Offlinefähige Web-Anwendungen mit nativen Qualitäten
byManfred Steyer
Rating: 0 out of 5 stars
0 ratings
Java ME: Pragmatische Plattform für Mobile und Embedded
Ebook
Java ME: Pragmatische Plattform für Mobile und Embedded
byTam Hanna
Rating: 0 out of 5 stars
0 ratings
PHP for Office: Automatisierte Dokumentenerstellung mit PHPExcel, PHPWord und PHPPowerPoint
Ebook
PHP for Office: Automatisierte Dokumentenerstellung mit PHPExcel, PHPWord und PHPPowerPoint
byRalf Hohoff
Rating: 1 out of 5 stars
1/5
Usability von UML Editoren: Ein Vergleich
Ebook
Usability von UML Editoren: Ein Vergleich
byAndy Transchel
Rating: 0 out of 5 stars
0 ratings

Related ebooks

Skip carousel

Big Data, Fast Data
Ebook
Big Data, Fast Data
byJochen Mader
Rating: 0 out of 5 stars
0 ratings
Bootstrap kurz & gut
Ebook
Bootstrap kurz & gut
byJörg Krause
Rating: 0 out of 5 stars
0 ratings
Algorithmen: Grundlagen und Implementierung
Ebook
Algorithmen: Grundlagen und Implementierung
byVeikko Krypczyk
Rating: 0 out of 5 stars
0 ratings
GraphQL: Eine Einführung in APIs mit GraphQL
Ebook
GraphQL: Eine Einführung in APIs mit GraphQL
byDominik Kress
Rating: 0 out of 5 stars
0 ratings
Machine Learning – Die Referenz: Mit strukturierten Daten in Python arbeiten
Ebook
Machine Learning – Die Referenz: Mit strukturierten Daten in Python arbeiten
byMatt Harrison
Rating: 0 out of 5 stars
0 ratings
Vue.js für alle: Wissenswertes für Einsteiger und Experten
Ebook
Vue.js für alle: Wissenswertes für Einsteiger und Experten
byJonas Hecht
Rating: 0 out of 5 stars
0 ratings
Git kurz & gut
Ebook
Git kurz & gut
bySven Riedel
Rating: 0 out of 5 stars
0 ratings
Mobile Web-Apps mit JavaScript: Leitfaden für die professionelle Entwicklung
Ebook
Mobile Web-Apps mit JavaScript: Leitfaden für die professionelle Entwicklung
byTobias Bosch
Rating: 0 out of 5 stars
0 ratings
Vue.js kurz & gut
Ebook
Vue.js kurz & gut
byLars Peterke
Rating: 0 out of 5 stars
0 ratings
SQL Server: Performanceprobleme analysieren und beheben
Ebook
SQL Server: Performanceprobleme analysieren und beheben
byRobert Panther
Rating: 0 out of 5 stars
0 ratings
Microsoft Azure: Cloud Entwicklung für lokale Applikationen
Ebook
Microsoft Azure: Cloud Entwicklung für lokale Applikationen
byRoland Krummenacher
Rating: 0 out of 5 stars
0 ratings
Kompaktkurs C# 7
Ebook
Kompaktkurs C# 7
byHanspeter Mössenböck
Rating: 0 out of 5 stars
0 ratings
Microservices: Der Hype im Realitätscheck
Ebook
Microservices: Der Hype im Realitätscheck
byEberhard Wolff
Rating: 0 out of 5 stars
0 ratings
Agiles Projektmanagement: Scrum für Einsteiger
Ebook
Agiles Projektmanagement: Scrum für Einsteiger
byMarkus Heimrath
Rating: 0 out of 5 stars
0 ratings
.NET-Praxis: Tipps und Tricks zu .NET und Visual Studio
Ebook
.NET-Praxis: Tipps und Tricks zu .NET und Visual Studio
byDr. Holger Schwichtenberg
Rating: 0 out of 5 stars
0 ratings
Dynamische Webseiten: Einstieg in HTML, PHP und MySQL
Ebook
Dynamische Webseiten: Einstieg in HTML, PHP und MySQL
byMarco Schuchmann
Rating: 0 out of 5 stars
0 ratings
Big Data: Executive Briefing
Ebook
Big Data: Executive Briefing
byBookwire
Rating: 0 out of 5 stars
0 ratings
Praxiseinstieg Deep Learning: Mit Python, Caffe, TensorFlow und Spark eigene Deep-Learning-Anwendungen erstellen
Ebook
Praxiseinstieg Deep Learning: Mit Python, Caffe, TensorFlow und Spark eigene Deep-Learning-Anwendungen erstellen
byRamon Wartala
Rating: 0 out of 5 stars
0 ratings
Die Serverwelt von Node.js
Ebook
Die Serverwelt von Node.js
byManuel Rauber
Rating: 0 out of 5 stars
0 ratings
Windows PowerShell: Grundlagen & Scripting-Praxis für Einsteiger – Für alle Versionen
Ebook
Windows PowerShell: Grundlagen & Scripting-Praxis für Einsteiger – Für alle Versionen
byTobias Weltner
Rating: 0 out of 5 stars
0 ratings
Programmieren lernen mit Python 3: Schnelleinstieg für Beginner
Ebook
Programmieren lernen mit Python 3: Schnelleinstieg für Beginner
byMark B.
Rating: 0 out of 5 stars
0 ratings
Docker: Webseiten mittels Containerarchitektur erstellen
Ebook
Docker: Webseiten mittels Containerarchitektur erstellen
bySascha Sambale
Rating: 3 out of 5 stars
3/5
PHP für WordPress: Themes und Templates selbst entwickeln
Ebook
PHP für WordPress: Themes und Templates selbst entwickeln
byClemens Gull
Rating: 0 out of 5 stars
0 ratings
Clusterbau: Hochverfügbarkeit mit Linux
Ebook
Clusterbau: Hochverfügbarkeit mit Linux
byMichael Schwarzkopff
Rating: 0 out of 5 stars
0 ratings
Linux – kurz & gut: Die wichtigen Befehle
Ebook
Linux – kurz & gut: Die wichtigen Befehle
byDaniel J. Barrett
Rating: 4 out of 5 stars
4/5
Prinzipien des Softwaredesigns: Entwurfsstrategien für komplexe Systeme
Ebook
Prinzipien des Softwaredesigns: Entwurfsstrategien für komplexe Systeme
byJohn Ousterhout
Rating: 0 out of 5 stars
0 ratings
Weniger schlecht programmieren
Ebook
Weniger schlecht programmieren
byKathrin Passig
Rating: 4 out of 5 stars
4/5
Traumjob IT 2021: Branchenüberblick, Erfahrungsberichte und Tipps zum Berufseinstieg
Ebook
Traumjob IT 2021: Branchenüberblick, Erfahrungsberichte und Tipps zum Berufseinstieg
byBookwire
Rating: 5 out of 5 stars
5/5
Knigge für Softwarearchitekten
Ebook
Knigge für Softwarearchitekten
byGernot Starke
Rating: 0 out of 5 stars
0 ratings
Software entwickeln mit C#, WPF und dem MVVM-Konzept
Ebook
Software entwickeln mit C#, WPF und dem MVVM-Konzept
byStefan Kunick
Rating: 0 out of 5 stars
0 ratings

Computers For You

Skip carousel

Running Lean: Das How-to für erfolgreiche Innovationen
Ebook
Running Lean: Das How-to für erfolgreiche Innovationen
byAsh Maurya
Rating: 4 out of 5 stars
4/5
Niklas Luhmann: "... stattdessen ...": Eine biografische Einführung
Ebook
Niklas Luhmann: "... stattdessen ...": Eine biografische Einführung
byEberhard Blanke
Rating: 0 out of 5 stars
0 ratings
Lexikon der Symbole und Archetypen für die Traumdeutung
Ebook
Lexikon der Symbole und Archetypen für die Traumdeutung
byPeter Chairon
Rating: 5 out of 5 stars
5/5
Tastenkombinationen für den Mac: Alle wichtigen Funktionen
Ebook
Tastenkombinationen für den Mac: Alle wichtigen Funktionen
byUlrich Vermeer
Rating: 0 out of 5 stars
0 ratings
Einstieg in ChatGPT: Künstliche Intelligenz verstehen und nutzen: Ein praktischer Ratgeber für Einsteiger
Ebook
Einstieg in ChatGPT: Künstliche Intelligenz verstehen und nutzen: Ein praktischer Ratgeber für Einsteiger
byRolf Jeger
Rating: 0 out of 5 stars
0 ratings
Einstieg in den Online-Unterricht: Videokonferenzen in der Erwachsenenbildung
Ebook
Einstieg in den Online-Unterricht: Videokonferenzen in der Erwachsenenbildung
byMartin Schneider
Rating: 0 out of 5 stars
0 ratings
Datenbanken: Grundlagen und Entwurf
Ebook
Datenbanken: Grundlagen und Entwurf
byVeikko Krypczyk
Rating: 0 out of 5 stars
0 ratings
Big Data: Die neue Intelligenz des Menschen (GEO eBook)
Ebook
Big Data: Die neue Intelligenz des Menschen (GEO eBook)
byBookwire
Rating: 0 out of 5 stars
0 ratings
Einführung ins Darknet: Darknet ABC
Ebook
Einführung ins Darknet: Darknet ABC
byMartin Hoffer
Rating: 0 out of 5 stars
0 ratings
WordPress - Elementor
Ebook
WordPress - Elementor
byIsabella Krystynek
Rating: 0 out of 5 stars
0 ratings
...Als die Noten laufen lernten...Band 2: Kabarett-Operette-Revue-Film-Exil. Unterhaltungsmusik bis 1945
Ebook
...Als die Noten laufen lernten...Band 2: Kabarett-Operette-Revue-Film-Exil. Unterhaltungsmusik bis 1945
byKarin Ploog
Rating: 0 out of 5 stars
0 ratings
Laws of UX: 10 praktische Grundprinzipien für intuitives, menschenzentriertes UX-Design
Ebook
Laws of UX: 10 praktische Grundprinzipien für intuitives, menschenzentriertes UX-Design
byJon Yablonski
Rating: 0 out of 5 stars
0 ratings
Datenintensive Anwendungen designen: Konzepte für zuverlässige, skalierbare und wartbare Systeme
Ebook
Datenintensive Anwendungen designen: Konzepte für zuverlässige, skalierbare und wartbare Systeme
byMartin Kleppmann
Rating: 0 out of 5 stars
0 ratings
REST: Grundlagen und Gestaltung von REST-Diensten
Ebook
REST: Grundlagen und Gestaltung von REST-Diensten
byDaniel Murrmann
Rating: 0 out of 5 stars
0 ratings
Raspberry Pi Kinderleicht: Pi 4 mit 8 GB
Ebook
Raspberry Pi Kinderleicht: Pi 4 mit 8 GB
byMarco Reichel
Rating: 0 out of 5 stars
0 ratings
Shopware 6 Handbuch
Ebook
Shopware 6 Handbuch
byAlmut Schweinsberger
Rating: 0 out of 5 stars
0 ratings
Einsteigerhandbuch für die Obsidian-Notiz-App und Second Brain: Alles, was Sie über die Obsidian-Software wissen müssen, mit über 70 Screenshots als Anleitung
Ebook
Einsteigerhandbuch für die Obsidian-Notiz-App und Second Brain: Alles, was Sie über die Obsidian-Software wissen müssen, mit über 70 Screenshots als Anleitung
byMarc A. Palmer
Rating: 0 out of 5 stars
0 ratings
Pocket Book - Das inoffizielle Handbuch. Anleitung, Tipps, Tricks
Ebook
Pocket Book - Das inoffizielle Handbuch. Anleitung, Tipps, Tricks
byMatthias Matting
Rating: 0 out of 5 stars
0 ratings
Kybernetik, Kommunikation und Konflikt: Gregory Bateson und (s)eine kybernetische Konflikttheorie
Ebook
Kybernetik, Kommunikation und Konflikt: Gregory Bateson und (s)eine kybernetische Konflikttheorie
byLina Nagel
Rating: 0 out of 5 stars
0 ratings
Anglizismen und andere "Fremdwords" deutsch erklärt: Über 1000 aktuelle Begriffe
Ebook
Anglizismen und andere "Fremdwords" deutsch erklärt: Über 1000 aktuelle Begriffe
byHeinz C. Pütz
Rating: 0 out of 5 stars
0 ratings
Die Geschichte des Computers: Wie es bis zur Form des heutigen 'PC' kam.
Ebook
Die Geschichte des Computers: Wie es bis zur Form des heutigen 'PC' kam.
byAxel Bruns
Rating: 0 out of 5 stars
0 ratings
Business-Intelligence-Lösungen für Unternehmen
Ebook
Business-Intelligence-Lösungen für Unternehmen
byErik Purwins
Rating: 0 out of 5 stars
0 ratings
ChatGPT Plus: Durchstarten in eine neue Welt: Entdecken Sie Künstliche Intelligenz mit ChatGPT Plus und GPT-4
Ebook
ChatGPT Plus: Durchstarten in eine neue Welt: Entdecken Sie Künstliche Intelligenz mit ChatGPT Plus und GPT-4
byRolf Jeger
Rating: 0 out of 5 stars
0 ratings
Industrie 4.0 und Digitalisierung – Innovative Geschäftsmodelle wagen!
Ebook
Industrie 4.0 und Digitalisierung – Innovative Geschäftsmodelle wagen!
byBoD - Books on Demand
Rating: 0 out of 5 stars
0 ratings
Aufstieg der Roboter: Wie unsere Arbeitswelt gerade auf den Kopf gestellt wird - und wie wir darauf reagieren müssen
Ebook
Aufstieg der Roboter: Wie unsere Arbeitswelt gerade auf den Kopf gestellt wird - und wie wir darauf reagieren müssen
byMartin Ford
Rating: 0 out of 5 stars
0 ratings
So findest du den Einstieg in WordPress: Die technischen Grundlagen zu Installation, Konfiguration, Optimierung, Sicherheit, SEO
Ebook
So findest du den Einstieg in WordPress: Die technischen Grundlagen zu Installation, Konfiguration, Optimierung, Sicherheit, SEO
byClaudia Nicoleta Grimm
Rating: 0 out of 5 stars
0 ratings
Die KI Bibel, mit künstlicher Intelligenz Geld verdienen: Echte Fallbeispiele und Anleitungen zum Umsetzen
Ebook
Die KI Bibel, mit künstlicher Intelligenz Geld verdienen: Echte Fallbeispiele und Anleitungen zum Umsetzen
byJhon Dujardin
Rating: 1 out of 5 stars
1/5
Das Minecraft-Server-Buch
Ebook
Das Minecraft-Server-Buch
byTimothy L. Warner
Rating: 0 out of 5 stars
0 ratings
Machine Learning – kurz & gut: Eine Einführung mit Python, Pandas und Scikit-Learn
Ebook
Machine Learning – kurz & gut: Eine Einführung mit Python, Pandas und Scikit-Learn
byChi Nhan Nguyen
Rating: 5 out of 5 stars
5/5
Neuronale Netze selbst programmieren: Ein verständlicher Einstieg mit Python
Ebook
Neuronale Netze selbst programmieren: Ein verständlicher Einstieg mit Python
byTariq Rashid
Rating: 0 out of 5 stars
0 ratings

Related podcast episodes

Skip carousel

Ginkgo: Modellansatz 240
Podcast episode
Ginkgo: Modellansatz 240
byModellansatz
0 ratings
0% found this document useful
#87 mit Eva Schönleitner & Christian Lutz von Crate.io | CrateDB: Verteilte SQL-Datenbank für Data Insights on Scale: Crate.io ermöglicht schnelle und fundierte Einblicke in große Datenbestände.
Podcast episode
#87 mit Eva Schönleitner & Christian Lutz von Crate.io | CrateDB: Verteilte SQL-Datenbank für Data Insights on Scale: Crate.io ermöglicht schnelle und fundierte Einblicke in große Datenbestände.
byDatenbusiness Podcast
0 ratings
0% found this document useful
Datensouveränität für Unternehmen: Wie mit Gaia-X neue Geschäftsmodelle entstehen: Wie mit Gaia-X neue Geschäftsmodelle entstehen
Podcast episode
Datensouveränität für Unternehmen: Wie mit Gaia-X neue Geschäftsmodelle entstehen: Wie mit Gaia-X neue Geschäftsmodelle entstehen
byDas Ohr am Netz
0 ratings
0% found this document useful
Research Software Engineering: Modellansatz 208
Podcast episode
Research Software Engineering: Modellansatz 208
byModellansatz
0 ratings
0% found this document useful
ChatGPT: Kein Ersatz für Google, Autoren und Programmierer – noch nicht: Über eine Künstliche Intelligenz, die große alte Fragen neu aufwirft.
Podcast episode
ChatGPT: Kein Ersatz für Google, Autoren und Programmierer – noch nicht: Über eine Künstliche Intelligenz, die große alte Fragen neu aufwirft.
byKünstliche Intelligenz
0 ratings
0% found this document useful
FPGA Seitenkanäle: Modellansatz 177
Podcast episode
FPGA Seitenkanäle: Modellansatz 177
byModellansatz
0 ratings
0% found this document useful
Ausgründung Chromatographie: Modellansatz 128
Podcast episode
Ausgründung Chromatographie: Modellansatz 128
byModellansatz
0 ratings
0% found this document useful
#143 ??? Data & AI bei der BASF Coatings mit Lars Schrameyer und Dr. Marvin Pohl: Was passiert in Sachen Daten und KI beim größten zusammenhängenden Lackstandort der Welt?
Podcast episode
#143 ??? Data & AI bei der BASF Coatings mit Lars Schrameyer und Dr. Marvin Pohl: Was passiert in Sachen Daten und KI beim größten zusammenhängenden Lackstandort der Welt?
byDatenbusiness Podcast
0 ratings
0% found this document useful
#92 mit Dr. Vivien Dollinger | CEO & Co-Founder von ObjectBox | NoSQL Edge-Datenbank: ObjectBox hat es sich zum Ziel gesetzt DIE führende Edge-Datenbank zu werden.
Podcast episode
#92 mit Dr. Vivien Dollinger | CEO & Co-Founder von ObjectBox | NoSQL Edge-Datenbank: ObjectBox hat es sich zum Ziel gesetzt DIE führende Edge-Datenbank zu werden.
byDatenbusiness Podcast
0 ratings
0% found this document useful
Lichtblick in der Cloud: Wann brauchen wir Private Cloud, Public Cloud und Edge-Computing?
Podcast episode
Lichtblick in der Cloud: Wann brauchen wir Private Cloud, Public Cloud und Edge-Computing?
byDas Ohr am Netz
0 ratings
0% found this document useful
Benchmark OpenLB: Modellansatz 243
Podcast episode
Benchmark OpenLB: Modellansatz 243
byModellansatz
0 ratings
0% found this document useful
Wie Heinz Sebiger die Datev gründete und was daraus wurde: Über den Ursprung des IT-Dienstleisters der Steuerberater und seine Zukunft
Podcast episode
Wie Heinz Sebiger die Datev gründete und was daraus wurde: Über den Ursprung des IT-Dienstleisters der Steuerberater und seine Zukunft
byFAZ D:ECONOMY
0 ratings
0% found this document useful
#16 Datenchefs #12 mit Florian Wetschoreck | Co-Founder 8080 Labs | Co-Creator bamboolib: Florian tritt an Python Data Scientists 10 mal schneller zu machen.
Podcast episode
#16 Datenchefs #12 mit Florian Wetschoreck | Co-Founder 8080 Labs | Co-Creator bamboolib: Florian tritt an Python Data Scientists 10 mal schneller zu machen.
byDatenbusiness Podcast
0 ratings
0% found this document useful
Wie dir ChatGPT im PreSales stundenlange Arbeit erspart! (108)
Podcast episode
Wie dir ChatGPT im PreSales stundenlange Arbeit erspart! (108)
byPreSales Unleashed | Sales Engineering im B2B Software Vertrieb
0 ratings
0% found this document useful
Best-Practices richtig recherchieren, Länderspezifische Domains Teil 2 - #askOMR 93: 1. Podcast hören. 2. Eigene Fragen stellen. 3. ???. 4. Profit
Podcast episode
Best-Practices richtig recherchieren, Länderspezifische Domains Teil 2 - #askOMR 93: 1. Podcast hören. 2. Eigene Fragen stellen. 3. ???. 4. Profit
byOMR Education
0 ratings
0% found this document useful
Moove | "Die Software für VW & Co. um Tesla einzuholen": Jan Becker und Serkan Arslan von Apex AI im New Mobility Podcast von auto motor und sport
Podcast episode
Moove | "Die Software für VW & Co. um Tesla einzuholen": Jan Becker und Serkan Arslan von Apex AI im New Mobility Podcast von auto motor und sport
byMoove
0 ratings
0% found this document useful
Braucht Deutschland eigene KI-Modelle à la ChatGPT?: Eine Initiative aus Industrie und Wissenschaftlern fordert ein neues Rechenzentrum und mehr.
Podcast episode
Braucht Deutschland eigene KI-Modelle à la ChatGPT?: Eine Initiative aus Industrie und Wissenschaftlern fordert ein neues Rechenzentrum und mehr.
byFAZ D:ECONOMY
0 ratings
0% found this document useful
Verkehrsmodellierung I: Modellansatz 093
Podcast episode
Verkehrsmodellierung I: Modellansatz 093
byModellansatz
0 ratings
0% found this document useful
031 – Software in der modernen Gesellschaft – Gespräch mit Tom Konrad: Vor fast 10 Jahren hat der Slogan des IT-Unternehmers und Gründers von Netscape Marc Andreessen »Software isst die Welt« (»Software is eating the world«) seine Kreise gezogen. Er hatte mit einem Recht: Software ist das digitale Nervensystem unserer m...
Podcast episode
031 – Software in der modernen Gesellschaft – Gespräch mit Tom Konrad: Vor fast 10 Jahren hat der Slogan des IT-Unternehmers und Gründers von Netscape Marc Andreessen »Software isst die Welt« (»Software is eating the world«) seine Kreise gezogen. Er hatte mit einem Recht: Software ist das digitale Nervensystem unserer m...
byZukunft Denken – Podcast
0 ratings
0% found this document useful
Formoptimierung: Modellansatz 212
Podcast episode
Formoptimierung: Modellansatz 212
byModellansatz
0 ratings
0% found this document useful
Machine Learning - Maschinelles Lernen: Modellansatz 232
Podcast episode
Machine Learning - Maschinelles Lernen: Modellansatz 232
byModellansatz
0 ratings
0% found this document useful
Stell dir vor, du müsstest PowerPoint verkaufen ? (124)
Podcast episode
Stell dir vor, du müsstest PowerPoint verkaufen ? (124)
byPreSales Unleashed | Sales Engineering im B2B Software Vertrieb
0 ratings
0% found this document useful
Wieso die neuen riesigen Künstlichen Intelligenzen so brisant sind: Konzerne wie Google entwickeln KI-Systeme bislang nie dagewesener Größe, die in mehrerer Hinsicht beeindrucken
Podcast episode
Wieso die neuen riesigen Künstlichen Intelligenzen so brisant sind: Konzerne wie Google entwickeln KI-Systeme bislang nie dagewesener Größe, die in mehrerer Hinsicht beeindrucken
byFAZ D:ECONOMY
0 ratings
0% found this document useful
Nach dem Hype: Was SAP jetzt noch mit der Blockchain vorhat: Die Kurse für Bitcoin, Ether und Co. sind im Kell…
Podcast episode
Nach dem Hype: Was SAP jetzt noch mit der Blockchain vorhat: Die Kurse für Bitcoin, Ether und Co. sind im Kell…
byt3n Interview
0 ratings
0% found this document useful
#23 Datenchefs #16 mit Dr. Wolfgang Faisst | Founder ValueWorks.ai | Lehrbeauftragter | Ex-SAP: Dr. Wolfgang Faisst hat 25 Jahre Erfahrung als Intrapreneur und Manager für disruptive Innovation und skalierbares Business im digitalen Raum.
Podcast episode
#23 Datenchefs #16 mit Dr. Wolfgang Faisst | Founder ValueWorks.ai | Lehrbeauftragter | Ex-SAP: Dr. Wolfgang Faisst hat 25 Jahre Erfahrung als Intrapreneur und Manager für disruptive Innovation und skalierbares Business im digitalen Raum.
byDatenbusiness Podcast
0 ratings
0% found this document useful

Skip carousel

Cloud im Container
Raspberry Pi Geek
Article
Cloud im Container
Dec 1, 2021
8 min read
Auf Spurensuche
Linux Magazin germany
Article
Auf Spurensuche
Mar 3, 2022
10 min read
News
Linux Magazin germany
Article
News
Mar 3, 2022
6 min read
Zahlen & Trends
Linux Magazin germany
Article
Zahlen & Trends
Aug 4, 2021
7 min read
Objekt der Begierde
Linux Magazin germany
Article
Objekt der Begierde
Mar 3, 2022
8 min read
Frischzellenkur
LinuxUser
Article
Frischzellenkur
Oct 20, 2021
8 min read
Flotter Winzling
Raspberry Pi Geek
Article
Flotter Winzling
Dec 1, 2021
3 min read
Fette Beats
LinuxUser
Article
Fette Beats
Dec 16, 2021
9 min read
Isolierstation
Linux Magazin germany
Article
Isolierstation
Oct 6, 2021
10 min read
Cloud im Container
LinuxUser
Article
Cloud im Container
Jul 21, 2022
8 min read
Cloud im Container
Raspberry Pi Geek
Article
Cloud im Container
Dec 1, 2021
8 min read
Klug Verstaut
Linux Magazin germany
Article
Klug Verstaut
Jul 7, 2021
11 min read
Völlig Losgelöst
Raspberry Pi Geek
Article
Völlig Losgelöst
May 17, 2023
4 min read
Völlig Losgelöst
LinuxUser
Article
Völlig Losgelöst
May 17, 2023
4 min read
Neue Aufgaben Für Alte Macs
MacLife German
Article
Neue Aufgaben Für Alte Macs
Jan 5, 2023
9 min read
Gehäusedeckel Aufschrauben
Raspberry Pi Geek
Article
Gehäusedeckel Aufschrauben
Apr 7, 2022
10 min read
Vorschau auf 06/2022
LinuxUser
Article
Vorschau auf 06/2022
Apr 21, 2022
1 min read
Gut Organisiert
Raspberry Pi Geek
Article
Gut Organisiert
Oct 6, 2021
6 min read
Gut Organisiert
Raspberry Pi Geek
Article
Gut Organisiert
Oct 6, 2021
6 min read
Parallelisierer
LinuxUser
Article
Parallelisierer
May 19, 2022
1 min read
Lernfähig
Raspberry Pi Geek
Article
Lernfähig
May 17, 2023
6 min read
Container-Lager
Linux Magazin germany
Article
Container-Lager
Nov 3, 2021
10 min read
Lernfähig
LinuxUser
Article
Lernfähig
May 17, 2023
6 min read
Einlasskontrolle
Linux Magazin germany
Article
Einlasskontrolle
May 5, 2021
10 min read
Vorschau auf 02/2022
LinuxUser
Article
Vorschau auf 02/2022
Dec 16, 2021
1 min read
Was Geht Noch?
LinuxUser
Article
Was Geht Noch?
May 19, 2021
6 min read
Gut Organisiert
LinuxUser
Article
Gut Organisiert
Sep 15, 2021
6 min read
Doppelt Gemoppelt
Raspberry Pi Geek
Article
Doppelt Gemoppelt
May 17, 2023
4 min read
Gefahrgut-Container
Linux Magazin germany
Article
Gefahrgut-Container
Sep 1, 2021
10 min read
Doppelt Gemoppelt
LinuxUser
Article
Doppelt Gemoppelt
May 17, 2023
4 min read

Related categories

Skip carousel

Reviews for Big Data - Apache Hadoop

Rating: 0 out of 5 stars

0 ratings

0 ratings0 reviews

Book preview

Big Data - Apache Hadoop - Bernd Fondermann

Bernd Fondermann, Kai Spichale, Lars George

Big Data

Apache Hadoop

ISBN: 978-3-86802-400-5

Ein Imprint der Software & Support Media GmbH

1 Daten im großen Stil – Apache Hadoop

von Bernd Fondermann

Doug Cutting hatte ein Problem, für das Internetarchiv das Internet (sprich alles HTML) herunterzuladen und zu speichern. Das war vor zehn Jahren schon eine Herausforderung, heute ist sie mit dem exponentiellen Anwachsen der Daten nicht kleiner. Allein die schiere Datenmenge: Petabyte, also Millionen von Gigabyte.

Und selbstverständlich kann man diese Daten in einer riesigen, über das Netzwerk erreichbaren Festplatte ablegen, einem Network Attached Storage (NAS) wie sie heute verfügbar sind. Solche Lösungen sind aber nicht nur teuer, sie haben auch einen entscheidenden architektonischen Nachteil: Zum massiven Verarbeiten der Files müssen sie über das Netzwerk zum entsprechenden Programm geschleust werden. Was die Laufzeit substanziell verlängern kann. Soll also stattdessen alles in Scharen von relationalen Datenbanken untergebracht werden? Clustering von RDB ist auch heute noch kein Mainstream. Zudem sind Oracle, Postgres und Co. exzellent geeignet für normalisierte Daten. Das ist eine Eigenschaft, die Quellcode von Webseiten nicht hat. Für viele nebenläufige, beliebige Lesezugriffe sind relationale DBs zwar geeignet, aber nicht optimiert. Und wehe, es kommen ein paar Schreiboperation dazwischen. Außerdem sind sie extrem gut darin, einen konsistenten Zustand über den gesamten Bestand zu gewährleisten und strukturierte Daten miteinander zu verknüpfen. Das ist entscheidend für das E-Business, in dessen Aufschwungphase relationale Datenbanken groß geworden sind. Für die Verarbeitung von gecrawlten Webseiten sind andere Dinge viel wichtiger: Redundanz, Verteilung, Durchsatz, Skalierbarkeit auf große Datenmengen, Toleranz gegenüber Ausfällen von Teilsystemen.

Der Batch-Job, das hässliche Entlein?

Langlaufende Batch-Jobs besuchen die Websites, speichern sie historisiert ab und verarbeiten sie weiter. Es wurde Cutting schnell klar, dass die klassische Batch-Verarbeitung hier nicht ausreicht [1]. Doch wie schafft man es, dass solche Prozesse weiterlaufen, auch wenn Teile Fehler generieren, und wie kann man sie effektiv und effizient über möglichst viele Maschinen verteilen, auch wenn man nicht vorhersagen kann, wo Daten zusammenhängen und eigentlich gemeinsam verarbeitet werden müssen? Cutting stieß im Internet auf ein Paper einer Firma namens Google Inc., die dasselbe Problem hatte und eine Lösung dafür vorstellte: MapReduce beschreibt eine verteilte Ablaufumgebung, die grob gesagt in zwei Schritten aus Inputdaten neue Daten generiert. Dabei ist die Struktur von Input und Output unerheblich. Die Idee ist so einfach wie genial, aber für relational Geschulte (und wer könnte sich davon ausnehmen) fremd: In einem ersten Schritt, Map genannt, werden alle Datensätze in verteilten Prozessen gelesen, verarbeitet und die Ergebnisse unabhängig voneinander (parallelisiert) in eine Key-Value-Datenstruktur (eine Multi-Map) geschrieben. Dabei achtet man darauf, dass genau die Daten denselben Key erhalten, die im zweiten, dem Reduce-Schritt, gemeinsam weiterverarbeitet werden. Werte zu unterschiedlichen Keys werden unabhängig voneinander gegebenenfalls parallel weiterverarbeitet. So erreicht man, dass beide Phasen hochparallel und verteilt ablaufen und dennoch Zusammenhänge innerhalb von großen Datenmengen hergestellt werden können. Cutting implementierte MapReduce Mitte des vergangenen Jahrzehnts als Open Source in Java und nannte

Enjoying the preview?

Page 1 of 1

Big Data - Apache Hadoop

About this ebook

Bernd Fondermann

Related authors

Related to Big Data - Apache Hadoop

Titles in the series (16)

Related ebooks

Computers For You

Related podcast episodes

Related articles

Related categories

Reviews for Big Data - Apache Hadoop

What did you think?

Book preview

Big Data - Apache Hadoop - Bernd Fondermann

Big Data

1 Daten im großen Stil – Apache Hadoop

Der Batch-Job, das hässliche Entlein?