Nachbericht Dataworks Summit Barcelona Cloudera und Hortonworks vereinigen ihre Datenplattformen
Auf der diesjährigen „Dataworks“-Konferenz in Barcelona traten Cloudera und Hortonworks erstmals gemeinsam auf. Im Januar 2019 hatten beide auf Data Science und Big Data spezialisierten Anbieter ihren Zusammenschluss vollzogen. Als ein Ergebnis wird demnächst die „Enterprise Data Cloud“ eingeführt, die vollständig auf Open Source basiert.
Anbieter zum Thema

Als Cloudera vor zehn Jahren gegründet wurde, gingen die Gründer davon aus, dass die Unternehmen ihre Daten in der Cloud speichern, verwalten und analysieren möchten. So entstand der Name Cloudera, ein Wortspiel aus Cloud und Ära.
Aber die Mehrheit der Unternehmen waren noch nicht bereit für die Cloud, sie wollten die Datenplattform vor Ort nutzen. So kam es, dass Cloudera zunächst On-Premises-Lösungen für das Speichern, Verwalten und Analysieren von Daten angeboten hat. Heute gibt es kaum noch Vorbehalte, eine Datenplattform aus der Cloud nutzen.
Nach der Fusion der beiden Unternehmen führt Cloudera nun die Hortonworks Data Platform (HDP) und Cloudera Distribution of Hadoop (CDH) in der neuen Cloudera Data Platform (CDP) zusammen. Sie bietet Machine Learning und die Analyse von Daten von überall an, vom Edge bis zu Anwendungen mit Künstlicher Intelligenz. Auf der DataWorks-Konferenz in Barcelona kündigte der Datenspezialist außerdem die Enterprise Data Cloud als die Cloud-Variante der Datenplattform an.
Die ab Juni verfügbare CDP enthält eine Vielzahl von Analyse- und Datenverarbeitungs-Frameworks, wie „Dataflow“ & Streaming, Data Engineering, Data Warehouse, Operational Database und Machine Learning. Hinzu kommen eine SQL-Schnittstelle für „HBase“-Apps, die Unterstützung von Remote-Cluster-Management, Cybersecurity-Funktionen mit „Apache Metron“ sowie Cloudera Operational Tools.
Neue Edge-Data-Management-Lösungen
Vor wenigen Tagen hat Cloudera zwei neue Edge-Data-Management-Lösungen angekündigt, mit denen Entwickler und Data-Architekten von IoT-Umgebungen leistungsfähigere Steuerelemente zum Sammeln, Transportieren und Verwalten datengesteuerter Erkenntnisse erhalten. „Cloudera Edge Management“ unterstützt Entwickler und Data-Architekten dabei, die Verarbeitung von IoT-Daten zu verbessern.
Die Software verwaltet, steuert und überwacht Agenten, um Daten von Edge-Geräten zu sammeln und bringt die Intelligenz an die Edge. Sie besteht aus einem Edge-Agenten zur Datenerfassung und -verarbeitung und einem Agentenverwaltungs-Hub mit der Bezeichnung „Edge Flow Manager“ mit einer Code-freien Drag-&-Drop-Entwicklungsumgebung.
Das zweite neue Produkt „Cloudera Flow Management“ dient der Verarbeitung und dem Management von Daten. Mit ihrer intuitiven Benutzeroberfläche, mehr als 300 Prozessoren und der „Apache-Nifi“-Registrierung bietet sie skalierbare Datenbewegungs-, Transformations- und Verwaltungsfunktionen. Zudem wird die Datenintegrationszeit verkürzt, da Petabytes an Daten von On-Premises-Rechenzentren schnell in die Cloud verschoben werden können.
Datenplattform mit 100 Prozent Open Source Code
Der Zusammenschluss der beiden Plattformen von Cloudera und Hortonworks erschien gerade unter dem Aspekt sinnvoll, dass sich ihr Programmcode zu 70 Prozent überschneidet. Die neue CDP wird wie die HDP von Hortonworks zu 100 Prozent auf Open Source-Code basieren.
Wolfgang Huber, Senior Regional Sales Director für Benelux, Central and Eastern Europe bei Cloudera, erklärt den Hintergrund: „Die Big-Data-Welt ist als Open Source entstanden. Die Innovationskraft ist viel größer, wenn Open Source für die Software-Entwicklung verwendet wird. Wenn ein Unternehmen hingegen auf Closed Source setzt, müssen die Systeme von Grund auf selbst entwickelt werden. An Open Source arbeiten weltweit Software-Entwickler und bringen so ihre Innovationen ein.“
Bei Open Source Software werden die Erlöse nicht über Lizenzierung, sondern über Support und zusätzliche Services für den Anwender generiert. Hortonworks hatte sich mit der Open-Source-Distribution für Hadoop für ein hochverfügbares Dateisystem zur Speicherung von Big Data entschieden, welches nur für spezielle Anwendungsfälle ein dezidiertes Storage-System benötigt. Für die Analyse großer Datenmengen, die nicht in Echtzeit erfolgen müssen, reicht auch die Verwendung konventioneller Server.
Upgrade auf die neue Cloudera Data Platform
Anwender des CDH- und HDP-Clusters erhalten die Möglichkeit für ein Upgrade auf die Cloudera Data Platform. Eingeschlossen sind hierbei auch vorhandene Apps, Daten und Hardware. Mit der neuen CDP erhalten sie zusätzlich Data Warehouse Tools, verbesserte Security- und Governance-Kontrolle sowie Cluster-Management und -Automation. Ebenfalls wurde das Computing-Modell angepasst. So laufen die Plattformen in virtualisierten und elastischen Infrastrukturen, außerdem wird die IT-Umgebung vom Storage-System getrennt.
Das liegt daran, dass immer mehr Unternehmen einen Hybrid- oder Multi-Cloud-Ansatz verfolgen, bei dem sich Teile der Daten im eigenen Rechenzentrum, in der Public Cloud sowie in der Private Cloud befinden. Unterstützt werden daher „Amazon Web Services“ (AWS), „Microsoft Azure“ und „Google Cloud Platform“. Aufgrund der engen Partnerschaft von Hortonworks mit IBM kommt nun als vierte Plattform die IBM Cloud dazu. Auch wenn IBM mit Watson eine Analyseplattform für IoT anbietet, betrachtet Huber dies nicht als direkte Konkurrenz, sondern als eine „Coopetition“.
Starker Trend in die Cloud
Wie Huber weiter berichtet, laufen derzeit 75 Prozent der Cloudera-Implementierungen im Rechenzentrum des Kunden. Bei 25 Prozent der neuen Installationen wählen Kunden eine Cloud-Plattform. „Derzeit sehen wir einen starken Trend hin zur Cloud“, so Huber. „Am Anfang starten die meisten Unternehmen mit einem Hybrid-Cloud-Modell, das heißt, sie nutzen das eigene Rechenzentrum und einen Cloud-Anbieter wie Amazon oder Microsoft. Die meisten Unternehmen wollen aber nicht von einem Cloud-Provider abhängig sein, was auch mit dem Workload und den Kosten zusammenhängt. Kein Unternehmen möchte in nur einer Cloud gefangen sein.“
Das Infrastruktur-Brokering könne hier ein Ausweg sein. Hierbei kann der Anwender frei wählen, über welche Cloud-Plattform er zusätzliche Computing-Ressourcen beziehen möchte.
„Wir möchten unseren Kunden die Freiheit geben, die Vorteile der jeweiligen Cloud-Plattform zu nutzen und dabei weiterhin die Tools zu verwenden, die bereits on-premise vorhanden sind. Wichtig ist dabei auch ein Sicherheits-Framework, bei dem die Zugriffsrechte für alle Data Sets gelten“, erklärt Huber.
Hierfür wurde die neue Shared Data Experience geschaffen, die Anwender bei der Datenmigration unterstützt sowie Security und Governance gewährleisten soll. Das ersetzt allerdings nicht den Schutz der IT-Infrastruktur durch eine Sicherheitslösung.
Finanzservices und Telekommunikation im Fokus
Cloudera fokussiert die weltweit 2.000 größten Unternehmen und 3.000 weitere Unternehmen nach eigenen Kriterien. Im DACH-Bereich gibt es derzeit und 100 Kunden. Als die vier wichtigsten Branchen werden der Finanz- und Bankensektor, Telekommunikation, Healthcare und Government genannt. Die Industriebranche dürfte dank IoT künftig deutlich wichtiger werden. Zum Partnersystem gehören ISVs und Lösungsanbieter wie Informatica, Qlik, SAS und Tableau, Systemintegratoren wie Accenture, Atos, Capgemini und Deloitte sowie Reseller wie Dell, HPE, Oracle und Teradata.
Mittelständischen Unternehmen empfiehlt Huber, den Cloud-Service „Altus Dataplane“ über einen der Partner zu nutzen. Hiermit lässt sich per Knopfdruck ein eigenes PaaS aufbauen, die ideale Lösung für zeitlich begrenzte Analysen.
Huber ist zuversichtlich, dass die neue Cloudera Data Platform ein Erfolg wird: „Viele unserer Kunden sind erst am Anfang ihrer Datenreise.“ Derzeit werde 80 Prozent des Umsatzwachstums durch Bestandskunden generiert. Das Big-Data-Modell sieht Huber auch mit dem Aufkommen von Künstlicher Intelligenz noch nicht als Auslaufmodell. Denn Analytics und Data Science ließen sich ohne Big Data nicht durchführen.
Im maschinellen Lernen sieht er „nichts anderes als ein Repeated Data-Science-Modell. Für uns ist der spannende Aspekt, wie die Daten effizient, sicher und über verschiedene Cloud-Umgebungen für die Analyse bereitgestellt werden.“
Bis zu 100 Use Cases für Big Data
Unter den Kunden aus der DACH-Region zeigte die Commerzbank auf der Dataworks-Konferenz vier Use Cases, die mit der HDP-Plattform umgesetzt wurden. „Wir haben aber auch Kunden, die 50 oder 100 Use Cases identifiziert haben, für die Analysen von Big Data durchgeführt werden“, berichtet Huber.
Hierbei werden die vorhandenen strukturierten Daten um weitere, unstrukturierte Daten angereichert. Ein Use Case der Commerzbank verdeutlicht das: Hierbei werden Kundendaten um Wetterdaten ergänzt, die dann in die Kreditwürdigkeit von Landwirtschaftsbetrieben einfließen. „Wir sehen den Trend, dass die Unternehmen heute immer mehr Datenquellen für die Analyse einbinden möchten, beispielsweise von Sensoren an Geräten“, so Huber.
Mit T-Mobile Austria präsentierte sich ein weiteres Unternehmen aus der DACH-Region. Der Telekommunikations-Provider konnte mithilfe der Hadoop-Plattformen HDP, „Hive“ und „Spark“ Milliarden von Netzwerkereignissen analysieren, die wichtige Erkenntnisse lieferten, um das Kundenerlebnis so schnell wie möglich zu verbessern.
Im Rahmen der „Data-Heroes“-Initiative von Cloudera wurde T-Mobile Austria zum Data Visionary ausgezeichnet. Zum Data Hero werden Kunden, die mithilfe von Cloudera-Technologien eine moderne Datenarchitektur für Hybrid- und Multi-Cloud-Umgebungen umgesetzt haben und Anwendungsfälle für Datenmanagement und Analyse entwickelt haben.
Mit HDP Softwareprogramme optimieren
Auch die Datev, ein Softwarehaus und IT-Dienstleister für Steuerberater, Wirtschaftsprüfer und Rechtsanwälte, setzt die Hortonworks Data Plattform (HDP) schon länger ein. Mit ihr wird das Benutzerverhalten von Datev-Software, die beim Kunden installiert ist, untersucht.
Derzeit werden über zwei Millionen Datensätze pro Tag von über 200.000 Anwendern analysiert. Die Ergebnisse werden dazu verwendet, die Qualität der Microsoft-basierten Programme zu verbessern. Hierbei geht es nicht nur um Softwarefehler, sondern auch die Performance der Anwendungen. Die Aufzeichnungen des Benutzerverhaltens erfolgen gemäß den Vorgaben der DSGVO, also mit Einverständniserklärung der User.
Für die Visualisierung der Reports setzt der Softwarehersteller auf das Reporting-Tool „Qlikview“ ein. Künftig soll ein dezentralisierter Ansatz bei der Datenanalyse umgesetzt werden, sodass die Fachabteilungen mithilfe von Dashboards eigenständig Reports erstellen können.
(ID:45857697)