Suchen

Daten auf GPFS-Clustersystemen speichern

Das IBM General Parallel File System im Big-Data-Einsatz

Seite: 3/3

Firmen zum Thema

IBM Hadoop mit GPFS – Infosphere Big Insights

Auch wenn Hadoop im Big-Data-Bereich sicher das bekannteste Tool ist, hat das System in sehr großen Umgebungen im Enterprise-Umfeld noch Probleme. Der Aufbau und Betrieb erfordern viel technisches und damit teures Know-how.

Nutzen lassen sich die Vorteile von GPFS im Zusammenhang mit Hadoop, vor allem mit einer speziellen Hadoop-Distribution von IBM. Diese Distribution mit der Bezeichnung „InfoSphere BigInsights“ bietet vor allem in sehr großen Umgebungen viele Vorteile, im Vergleich zu reinen Open-Source-Umgebungen.

GPFS kann Tausende Knoten anbinden, die mit einem zentralen Knoten verwaltet werden. Zusätzlich lässt sich Massenspeicher anbinden und ebenfalls parallel nutzen.
GPFS kann Tausende Knoten anbinden, die mit einem zentralen Knoten verwaltet werden. Zusätzlich lässt sich Massenspeicher anbinden und ebenfalls parallel nutzen.
(Bild: T. Joos)

Infosphere BigInsights erweitert die Möglichkeiten von Hadoop und erlaubt neben dem Einsatz des Hadoop Distributed Filesystem (HDFS) auch die Speicherung auf GPFS. Das sorgt in dieser Distribution vor allem für die Hochverfügbarkeit, Absicherung und für ein Recovery. IBM bietet das GPFS-System auch als Storage-System unter der Bezeichnung „IBM System x GPFS Storage Server“ an.

Speichervirtualisierung mit GPFS

Neben GPFS bietet IBM auch noch eine erweiterte Version mit der Bezeichnung „Elastic Storage“ an. Dabei handelt es sich um ein Virtualisierungsprodukt für Hardware-Speicher, mit dem Unternehmen einen einzelnen Namensraum zur Verfügung stellen können.

Das System kann auch mit Hardware-Produkten anderer Hersteller zusammenarbeiten. Elastic Storage ist vor allem im Big-Data-Bereich ideal, da es alle Vorteile von GPFS bietet, aber noch besser den Speicher verwalten kann.

GPFS kann aber auch ohne Elastic Storage Datenspeicher virtualisieren. Administratoren können Datenpools zwischen virtuellen Plattenspeichern verschieben, die wiederum auf physischen Datenträgern gespeichert sind. „GPFS Native RAID (GNR)“ kann das Dateisystem noch einmal beschleunigen und zusätzlich redundant speichern. Außerdem sorgt die Technik auch hier dafür, dass die Daten immer performant und konsistent zur Verfügung stehen.

Der Autor:

Thomas Joos ist Autor zahlreicher IT-Fachbücher und Blogger auf DataCenter-Insider.

(ID:43087542)