/ OSS / Open Source für Big Data

Open Source für Big Data

big-data-807626c18bda220b.jpeg
Moritz Rosenfeld on June 17, 2017 - 4:44 am in OSS

Data Science – die Auswertung immer größerer Datenmengen – erfordert spezielle Software. Unter dem Apache-Dach finden sich zahlreiche Big-Data-Projekte.

Zu den großen Herausforderungen, vor denen Unternehmen heute stehen, gehört die Auswertung des Datenbergs, den die Digitalisierung von immer mehr Lebensbereichen produziert. Ob Webshop oder Internet of Things, ob Netzwerk-Traffic oder Interaktionen in sozialen Netzen: Die Auswertung der anfallenden Datenmassen, häufig in (Fast-)Echtzeit, erfordert spezielle Software – Excel ist mit Data Science überfordert.

Rund um Apache Hadoop, einer Software zur verteilten Speicherung und Auswertung von Daten, ist ein Ökosystem aus Open-Source-Software zur Big-Data-Analyse entstanden. Die zahlreichen Apache-Projekte von Kafka bis Spark, von Flink bis Storm, sind auch die Grundlage der meisten kommerziellen Big-Data-Angebote und Cloud-Dienste in diesem Bereich.

Allerdings: Die Vielzahl der Projekte kann einen verzweifeln lassen. Entwickler und Data Scientists stehen daher vor der Frage, wie sie eine auf den eigenen Anwendungsfall optimierte Software-Zusammenstellung finden – die Unterschiede zwischen den verschiedenen Projekten sind manchmal subtil.

Zur Orientierung haben die Big-Data-Spezialisten Stephanie Fischer und Christian Winkler daher eine Landkarte entworfen und die zahlreichen Apache-Projekte in verschiedenen Ländern auf fünf Big-Data-Kontinenten lokalisiert: Dateneingang, Processing, Reporting, Datenspeicherung und Organisation des Workflows. Diese Landkarte und detaillierte Beschreibungen der Software finden Sie in einem Artikel aus der aktuellen iX 6/2017:

  • Big Data: Apache-Projekte zur Analyse großer Datenmengen, iX 6/2017.

(odi)

Read more on: Source

Comments are disabled