/ Software-Entwicklung / Big-Data-Schnipsel vom DataWorks Summit 2017

Big-Data-Schnipsel vom DataWorks Summit 2017

Gerfried Steube on April 9, 2017 - 3:25 pm in Software-Entwicklung

Das DataWorks Summit beziehungsweise Hadoop Summit in München haben einige Firmen für Ankündigungen im Big-Data-Umfeld genutzt. Gleichzeitig bestimmte mit der Namensänderung eine breitere Ausrichtung das Geschehen.

Am 5. und 6. April fand in München das DataWorks Summit statt. Die Veranstaltung zog laut den Betreibern gut 1400 Besucher an. Scott Gnau von Hortonworks erklärte in der Eröffnungs-Keynote die Namensänderung vom bisherigen Hadoop Summit damit, dass der Kontext deutlich breiter werde als das Hadoop-Ökosystem. Gerade die Bereiche Internet der Dinge und Machine Learning sind Themen, die zwar durchaus mit Apache Hadoop in Verbindung stehen können, aber nicht müssen.

Eine unverzichtbare Basis sei aber nach wie vor die Open-Source-Community, die wesentlich zum Erfolg von Hadoop beigetragen hat und auch Bereiche wie künstliche Intelligenz vorantreibt. Im Rahmen des Konferenzprogramms gab es daher einige Vorträge zum Thema maschinelles Lernen, die oft zu viele Interessenten anzogen, sodass die Türen wegen Überfüllung vorzeitig geschlossen blieben.

Plattform für Ankündigungen

Das Summit nutzten zahlreiche Firmen für Ankündigungen. So stellte Hortonworks als einer der Co-Hosts Version 2.6 der HDP (Hortonworks Data Platform) vor, über die heise Developer bereits berichtet hat. Piet Loubser, VP Product and Solutions, erzählte auf Rückfrage im Einzelgespräch, dass im Lauf des Jahres die Plattformen HDP für Data-at-rest und HDF (Hortonworks DataFlow) für Data-in-motion einheitliche Versionsnummer erhalten sollen. Letzteres war im Dezember als Version 2.1 erschienen. Zum Angleichen werde man sich am Release von Apache Hadoop 3 orientieren, das sich derzeit in der Alpha-Phase befindet.

MapR stellt schon seit geraumer Zeit ihre konvergente Datenplattform ins Zentrum, die unabhängig von Hadoop existiert und im Februar für Docker erschienen ist. Das Unternehmen möchte vor allem dafür und nicht primär als Hadoop-Distributor wahrgenommen werden. Auf dem Summit kündigte es die erweiterte Partnerschaft mit SAP an. So ist das MapR-Dateisystem nun Grundlage der SAP-Cloud-Infrastruktur.

Datenströme und Datenmengen im Griff

Teradata stellte die Datenmanagement-Plattform Kylo vor, die vom Tochterunternehmen Think Big entwickelt wurde und quelloffen unter Apache 2-Lizenz auf GitHub verfügbar ist. Sie soll Unternehmen einerseits beim Befüllen von Data Lakes helfen, die passenden Daten auszuwählen. Andererseits soll sie auch als Data-Wrangling-Werkzeug ähnlich wie der Wrangler von Trifacta zum Einsatz kommen. Neben einer Browser-basierten Oberfläche hat Kylo ein REST-Interface.

Bei Talend gehört das Data-Lake-Management zum Kerngeschäft. Das Unternehmen nutzte das Summit, um die Erweiterung ihrer Big Data Sandbox für die MapR Converged Data Platform vorzustellen. Talend hatte das Konzept der Sandbox als vorkonfigurierte Umgebung für Entwickler erstmals 2014 vorgestellt. Sie integriert Hadoop-Distributionen in einer virtuellen Umgebung und bietet Big-Data-Szenarien sowie interaktive Lernwerkzeuge.

Bereits im Juni steht das nächste DataWorks Summit im kalifornischen San Jose an, bevor im September eine Veranstaltung im australischen Sydney folgt. (rme)

Read more on: Source

Comments are disabled