Exabyte-fähiges Cluster-Dateisystem von HPE

MapR XD Distributed File and Object Store mit MapR FS Exabyte-fähiges Cluster-Dateisystem von HPE

12.08.2020Autor / Redakteur: Thomas Joos / Jürgen Ehneß

Durch die Übernahme von MapR erhalten auch das dazugehörige Dateisystem „MapR FS“ und der dazugehörigen Datenspeicher „MapR XD“ bei HPE eine neue Heimat. Das Dateisystem bietet vor allem bei großen Datenmengen einige Vorteile. Die offizielle Bezeichnung des Systems ist „MapR XD Distributed File and Object Store“.

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

Data Center Group GmbH

EPS Rechenzentrum Infrastruktur GmbH

Eine der größten Herausforderungen für Speichersysteme: Big Data.
(Bild: © olemedia - stock.adobe.com)

MapR FS/XD ist ein verteiltes Dateisystem für Cluster und hat seine Stärken im Bereich der Datenspeicherung bei Big Data. Im Jahr 2019 stand MapR inklusive seines Dateisystems vor dem aus. Durch die Übernahme durch HPE wurde das System gerettet. HPE will mit MapR und MapR XD die Machine Learning-Funktionen seiner Datenplattform erweitern.

Das Dateisystem arbeitet aber nicht nur mit Hadoop zusammen, sondern bietet auch in anderen Bereichen einen echten Mehrwert. Mit MapR FS/XD wird es Anwendungen ermöglicht, gleichzeitig direkt auf die Festplatte zu lesen und zu schreiben.

Mit einem globalen Namensraum in MapR XD/FS erhalten Entwickler, Analysten und andere Anwender eine einheitliche Sicht auf Dateien und Objekte, ohne sich über den physischen Speicherort der Daten im Klaren sein zu müssen. Von dem System profitieren daher auch Unternehmen, die Datenspeicher global ausdehnen müssen, auch in die Cloud, zum Beispiel zu Microsoft Azure oder AWS S3. Natürlich ist der Nutzen von MapR XD/FS auch in mittelständischen Netzwerken sinnvoll einsetzbar, auch ohne Big-Data-Einsatz.

MapR FS/XD im Mitbewerb mit HDFS

MapR FS/XD steht im Big-Data-Bereich natürlich im direkten Mitbewerb von HDFS. Beide Dateisysteme unterstützen die Hadoop-API. Das Dateisystem erfordert bei der Einführung also keine Neuentwicklung der Anwendungen, die mit den Daten in MapR FS/XD arbeiten. Gegenüber HDFS bietet das in C/C++ geschriebene MapR FS/XD aber einige Vorteile. Das Dateisystem verhindert durch seinen C/C++ Ursprung Sperrkonflikte, wodurch die Leistungseinbußen durch die Java-Garbage Collection eliminiert werden.

Das Dateisystem der MapR-Distribution ermöglicht das Aktualisieren von Dateien. Im Vergleich dazu kann HDFS im Grunde genommen nur Daten an eine Datei anhängen, während MapR FS/XD eine Datei mit jedem beliebigen Offset schreiben kann. Auch Datenbank-Systeme können auf MapR FS/XD setzen. Diese können teilweise ihre Daten direkt auf MapR FS/XD -Datenträgern speichern, ohne Zusatztools. Dazu ist HDFS nicht in der Lage.

Hadoop Distributed File System (HDFS) kann nur aus geschlossenen Dateien lesen. Das ist ein großer Nachteil im Vergleich zu MapR FS/XD. HDFS ist über das bestehende Linux-Dateisystem geschichtet. Daher verringert eine große Anzahl von Input/Output (I/O)-Operationen die Leistung des Clusters.

Vorteile von MapR FS/XD im Vergleich zu anderen Systemen

Die Metadaten des Dateisystems werden zwischen den Knoten verteilt. Zentrale Namensknoten werden in diesem Szenario nicht benötigt, was Engpässe bei den Namensknoten beseitigt. MapR FS/XD kann lokal gemountet werden, was direktes Lesen oder Schreiben auf dem gemounteten Datenträger ermöglicht.

Bei der Verwendung von NFS-Mounts gibt es keinen Unterschied zwischen MapR FS/XD und dem lokalen Dateisystem. Es werden keine zusätzlichen Tools wie Flume benötigt, um Daten zu nutzen

MapR FS/XD unterstützt außerdem POSIX. Linux-Admins kommen mit dem Dateisystem also schnell zurecht, weil bekannte Befehle genutzt werden können. So kann zum Beispiel der Inhalt von Datenträgern mit MapR FS/XD auch mit Standard-Unix-Befehlen geöffnet werden. Der Inhalt einer Datei kann zum Beispiel mit „tail <Dateiname>“ angezeigt werden.

Datenspeicher im Exabyte-Bereich

MapR XD Distributed File and Object Store kann auch im Exabyte-Maßstab, zusammen mit der MapR-Datenplattform genutzt werden. Mit MapR XD und dem dazugehörigen Dateisystem lassen sich skalierbare und (global) verteilte Datenspeicher erstellen.

Mit MapR XD Distributed File and Object Store können natürlich strukturierte und unstrukturierte Daten gespeichert und gelesen werden. Durch die Auslegung auf Daten im Exabyte-Bereich und der Unterstützung von herkömmlichen Daten lassen sich riesige Mengen an Dateien und andere Daten gemeinsam speichern, inklusive Analysen und Operationen in einer gemeinsamen Plattform. MapR XD kann neben Hadoop auch für AI/ML, und zur Analyse von Daten außerhalb des Systems genutzt werden. Die Entwickler haben MapR XD in die MapR-Datenbank und den Ereignisspeicher für „Apache Kafka“ integriert.

Die Speicherarchitektur von MapR FS kann über mehrere Speicherpools ausgedehnt werden. Ein Speicherpool besteht aus einer oder mehreren Platten, die durch MapR FS gruppiert werden. Die Container, die die MapR-FS Daten enthalten, werden in den Speicherpools im Cluster gespeichert und zwischen diesen repliziert. Schreibvorgänge innerhalb eines Speicherpools werden zur Verbesserung der Schreibleistung über die Platten verteilt. Breite und Tiefe der Stripes sind mit dem Skript für die Platteneinrichtung konfigurierbar.

Replikation ohne RAID

Da MapR FS die Datenreplikation selbst durchführt, ist kein RAID notwendig. MapR FS speichert Daten in Containern. Diese befinden sich in den Speicherpools. Jeder Speicherpool kann eine große Anzahl an Container verwalten. Anwendungen können durch diese Struktur Dateien auch während des Schreibens lesen.

Im Durchschnitt ist die Größe eines Containers zehn bis 30 Gigabyte. Eine große Anzahl von Containern ermöglicht eine größere Skalierung und parallele Zuweisungen.

Volumes sind eine Verwaltungseinheit, mit der die Daten eines Clusters logisch organisiert werden. Ein Container gehört immer zu genau einem Volume. Auch die Replikate dieses Containers werden diesem Volume zugewiesen. Ein Volume kann problemlos zwischen 50 und 100 Millionen Container verwalten.

Ein Volume - 100 Millionen Container

Anwendungsfälle für Volumes sind Projekte, Entwicklungs- und Produktionsumgebungen oder andere logische Einheiten. Wenn ein Administrator Daten für ein spezielles Projekt organisieren will, kann er ein Volume für das Projekt erstellen. MapR FS organisiert Container, in denen die Projektdaten innerhalb des Projektvolumes gespeichert werden. Ein Cluster kann mehrere Volumes umfassen.

Auf einem Cluster mit der Enterprise Edition- oder Enterprise Database Edition-Lizenz können Volumes erstellt werden, die als Spiegel lokale oder schreibgeschützte Kopien eines gesamten Volumes speichern. Spiegel sind sinnvoll für die Lastverteilung oder die Wiederherstellung im Notfall. Administratoren können auch einen Snapshot zu einem bestimmten Zeitpunkt erstellen. Schnappschüsse sind sinnvoll für das Rollback zu einem bestimmten Datensatz. Spiegel können manuell oder mit Hilfe eines Zeitplans synchronisiert werden.

Storage-Tiering und mehrere Schichten nutzen

MapR-XD bietet eine zentrale Plattform für Mehrschicht-, Mehrtemperatur- und Multi-Cloud-Daten- Verwaltung. Bei der Mehrtemperatur lassen sich Daten in cold, warm und hot unterteilen. Dadurch ergeben sich flexible Einsatzmöglichkeiten. Das System ermöglicht es auch, Daten eines bestimmten Volumens auf bestimmten Knoten zu platzieren, zum Beispiel abhängig vom Standort oder Rack.

Die Zuordnung kann jederzeit angepasst werden. Auch das Umziehen von Daten von einer Topologie zu einer anderen, zum Beispiel von heißen SSD-basierten Knoten zu warmen HDD-basierten Knoten ist dadurch möglich.

*Thomas Joos ist freier Autor unzähliger Artikel und Fachbücher. Aif DataCenter-Insider befüllt er seinen eigenen Blog mit tippe und Tricks für Administratoren: „Toms Admin-Blog“

Artikelfiles und Artikellinks

Link: Dateisysteme für riesige Datenmengen, Teil 1: Datenspeicher für Petabyte-Umfänge

Link: Dateisysteme für riesige Datenmengen, Teil 2: Quantum Stornext FS, HDFS, HPE MapR, Qumulo QF2, Microsoft ReFS speichern Petabyte

(ID:46754103)