Infrastrukturen für viele, viele, ganz viele Daten

Die Referenzarchitektur für Big Data

Seite: 2/2

Firmen zum Thema

Herausforderungen konventioneller Server- und Storage-Konfiguration unter Hadoop

Bei dem Einsatz insbesondere im Hadoop-Umfeld sind Standard-Server häufig in einer shared-nothing Architektur zu einem Cluster verbunden. Je nach Anwendungsfall werden jedoch zum Teil unterschiedliche Server- und Workload-Profile gefordert. So entstehen meist für jeden Use-Case und Fachbereich dedizierte Infrastrukturen. Das führt dazu, dass komplett unterschiedliche Workloads wie Insellösungen nebeneinanderstehen (siehe: Abbildung 1).

Abbildung 1: Konventionelle Architektur: Compute- und Speichereinheiten stehen beieinander.
Abbildung 1: Konventionelle Architektur: Compute- und Speichereinheiten stehen beieinander.
(Bild: HP)

Wenn man beispielsweise Daten im Analytics-Bereich nutzen will, die im NoSQL bearbeitet wurden, müssen sie zwischen den Systemen kopiert werden. Das erhöht die Komplexität und stellt eine Herausforderung für das System dar. Außerdem stößt die beliebig große Auslegung der Cluster mit günstiger Hardware schnell an ihre Grenzen. Anforderungen an CPU und Memory haben sich durch die schnelllebige Entwicklung des Hadoop Öko-Systems stark geändert. Zudem nimmt der Administrations- wie auch Wartungsaufwand der einzelnen Insellösungen kontinuierlich zu.

Eine moderne Referenzarchitektur

Ein moderner Ansatz für eine Referenzarchitektur auf Basis von Hadoop 2.x kommt von HP. Dabei werden die Server- und Storage-Schicht voneinander getrennt und individuell gemanagt. Sämtliche Daten werden in einem großen Storagepool (Datenlake) gespeichert und die Performance darüber so aufgebaut, dass sie NoSQL, Analytics und Hadoop abdeckt und darüber auf alle Daten zugegriffen werden kann. Dadurch reduziert sich die Komplexität extrem, zusätzlich werden weniger Rechenzentrumsstellfläche, weniger Strom und Kühlung benötigt.

Abbildung 2: Moderne Referenzarchitektur: Compute- und Speichereinheiten sind voneinander entkoppelt.
Abbildung 2: Moderne Referenzarchitektur: Compute- und Speichereinheiten sind voneinander entkoppelt.
(Bild: HP)

Der Vorteil dieser Konfiguration liegt darin, dass sie asynchrones und somit ein bedarfsgerechtes Skalieren erlaubt. Das bedeutet, man muss im Vorfeld nicht detailliert wissen, wohin sich die Anwendung entwickeln wird und man kann die Daten unstrukturiert im Datenlake ablegen.

Sowohl Workloads als auch Speicher können einem optimierten Node zugeordnet werden. Je nach Bedarf des Anwenders kann der Datenlake von Anfang an bedarfsgerecht dimensioniert und später beliebig vergrößert werden. Dasselbe gilt auch für den CPU-Bereich, der sich bei höheren Analyseanforderungen dynamisch dimensionieren lässt. Ändern sich die Anforderungen, so kann jederzeit nachjustiert werden.

Höhere Verfügbarkeit und schnellere Verarbeitung

Der Vorteil der asynchronen Skalierung liegt darin, dass mehrere Workloads auf einer Infrastruktur laufen können. Ein Bereich übernimmt das Datenbetanken, der andere gleichzeitig die Analyse. Das erlaubt sogenanntes Workload Tiering, das heißt, es können verschiedene Workloads dediziert Cluster Ressourcen zugewiesen werden. Dabei kann ein Standard Hadoop System eingesetzt werden. Eine Virtualisierung ist nicht erforderlich.

Einer der Autoren dieses Artikel ist Philipp Koik, Presales Consultant Big Data der HP Enterprise Group.
Einer der Autoren dieses Artikel ist Philipp Koik, Presales Consultant Big Data der HP Enterprise Group.
(Bild: HP)

Diese moderne Referenzarchitektur erhöht die Verfügbarkeit der Daten und die Geschwindigkeit der Verarbeitung. Sie erlaubt mehr Flexibilität und bietet Anwendern, die den Use-Case im Vorfeld nicht genau bestimmen können, mehr Spielraum für die Entwicklung.

Somit eignet sie sich sowohl für kleine und mittlere Unternehmen, als auch für den Enterprise-Bereich, um neue Geschäftsmodelle kosteneffizient und sicher zu entwickeln. Die integrierte Lösung vom Server über Storage und Netzwerk bis zur Software wird individuellen Anforderungen an Big-Data-Lösungen zukunftsorientiert gerecht. Sie ist wie ein Motor für einen SUV, der für vielseitige Zwecke einsetzbar ist.

* Andreas Bachmann ist Manager Presales HP Storage & Big Data, und Philipp Koik, Presales Consultant Big Data, HP Enterprise Group.

Artikelfiles und Artikellinks

(ID:43446460)