Suchen

Daten auf GPFS-Clustersystemen speichern Das IBM General Parallel File System im Big-Data-Einsatz

| Autor / Redakteur: Thomas Joos / Nico Litzel

Geht es um die optimale und leistungsstarke Speicherung von Daten, müssen sich Administratoren Gedanken um das eingesetzte Dateisystem machen. Einer der wichtigsten Vertreter in diesem Bereich ist das „General Parallel File System“ (GPFS) von IBM.

Firmen zum Thema

Die Daten im GPFS-Cluster können im Netzwerk unterschiedlich verteilt sein, auch spezielle Massenspeicher lassen sich nutzen. Jeder Server kann parallel auf das System zugreifen.
Die Daten im GPFS-Cluster können im Netzwerk unterschiedlich verteilt sein, auch spezielle Massenspeicher lassen sich nutzen. Jeder Server kann parallel auf das System zugreifen.
(Bild: T. Joos)

GPFS ist für die Betriebssysteme AIX und Linux verfügbar. Entstanden ist das Dateisystem 1998, seitdem wurde es ständig weiterentwickelt. Bei GPFS handelt es sich – wie beim Hadoop Distributed Filesystem (HDFS) – um ein paralleles Dateisystem. Bei solchen Dateisystemen sind die Daten auf den Cluster-Knoten Server-weit verfügbar, das heißt: Server können auf alle Datenträger im Cluster schreibend zugreifen. GPFS ermöglicht in diesem Bereich sogar Zugriffe über LAN-Leitungen, auch wenn keine direkte Verbindung eines Serverknotens zum Storage-Gerät verfügbar ist.

Diese Systeme können daher Daten auf mehrere Datenträger verteilen und bieten einen sehr hohen E/A-Durchsatz. GPFS liefert eine hohe Leistung beim sequenziellen Zugriff auf große Dateien. In Echtzeit können also Dutzende Server auf die gleichen Daten schreibend und lesend zugreifen. Die Daten bleiben immer konsistent.

Die Daten werden über ein Client-Node-Server-Node-System verteilt, welches typisch für den Einsatz von Big-Data-Szenarien, wie im Falle von Hadoop. GPFS kann Berechnungen auf verschiedene Server verteilen, was ideal für Hadoop ist.

Theoretisch bietet GPFS die Möglichkeit, Tausende Knoten in einem Cluster zusammenzufassen. Funktionen wie Striping (RAID 0) und Mirorring (RAID 1) sind bereits im Dateisystem enthalten. Die Steuerung und Verwaltung des GPFS-Clusters wird von einem zentralen Server im Cluster übernommen. Die Knoten selbst können überall verteilt sein, je schneller die Datenverbindung, umso schneller ist die Datenverarbeitung.

(ID:43087542)