Performance-Benchmarking mit FIO - Hammerspace Speicher-Performance für AI-, ML- und HPC-Workloads in Kombi mit OCI

Ein Gastbeitrag von Floyd Christofferson* 5 min Lesedauer

Anbieter zum Thema

Das Unternehmen Hammerspace implementiert auf der Oracle Cloud-Infrastucture (OCI) eine NAS-Architektur, die lokale NVMe-Speicher in Tier-0- und Tier-1-Cluster integriert. So ergeben sich quasi latenzfreie Datenzugriffe direkt auf GPU-Compute-Knoten.

Mit „Hammerspace Tier-0“ lässt sich GPU-Server-lokales NVMe in eine neue Ebene von leistungsstarkem gemeinsam genutzten Speicher verwandeln. Das soll unter anderem Flash-Speicher-Arrays und Hochgeschwindigkeitsnetzwerke erübrigen oder entlasten. (Bild:  Hammerspace)
Mit „Hammerspace Tier-0“ lässt sich GPU-Server-lokales NVMe in eine neue Ebene von leistungsstarkem gemeinsam genutzten Speicher verwandeln. Das soll unter anderem Flash-Speicher-Arrays und Hochgeschwindigkeitsnetzwerke erübrigen oder entlasten.
(Bild: Hammerspace)

OCI-Instanzen sind auf hohe Durchsatzraten und niedrige Latenzen ausgelegt und setzen dabei auf dedizierte GPUs, ultraschnelle NVMe-Speicher sowie hochleistungsfähige, latenzarme Netzwerk-Fabrics. Dadurch ermöglicht die Hardwareplattform von OCI eine effiziente Verarbeitung komplexer Modelle und großskaliger Datenpipelines, sowohl in Trainings- als auch in Inferenzphasen.

Nach Angaben von Hammerspace ist die Kombination aus FIO (Flexible I/O Tester) und OCi nahezu unschlagbar: So erreicht Hammerspace Tier-0-Speed auf OCI unter realen Workloads. Anders ausgedrückt: Benchmark-Ergebnisse mit FIO unter realistischen Workloads zeigen bis zu 80 GB/s Lesedurchsatz und drastische Reduktionen bei Latenzen, während gleichzeitig die Flexibilität und Skalierbarkeit für moderne Datenpipelines erhalten bleiben.

Wichtige OCI-Compute Profile für Hammerspace-Einsätze umfassen verschiedene Instanztypen, die gezielt auf unterschiedliche Workload-Anforderungen zugeschnitten sind. Die „BM.DenseIO.E4“- und „BM.DenseIO.E5“-Instanzen eignen sich besonders für speicher- und rechenintensive Aufgaben, da sie hoch durchsatzfähige lokale NVMe-SSDs bieten, die latenzkritische Datenpipelines optimal unterstützen.

Hyperscale-NAS mit Tier-0-Performance

GPU-Instanzen, wie mit „Nvidia A100“, „H100“ oder „L40S“, sind speziell für AI/ML-Deep-Learning, Bildverarbeitung und Inferenz konzipiert. HPC-Instanzen wiederum sind auf Simulationen, Modellierungen sowie großskalige wissenschaftliche Berechnungen optimiert.

Hammerspace stellt eine NextGen NAS-Architektur vor, die globalen Datenzugriff über mehrere Speicherklassen hinweg abstrahiert und orchestriert. Dazu gehört die Fähigkeit, lokale NVMe-Speicher in jeder GPU-Server-Instanz in ein gemeinsames, hochleistungsfähiges Tier-0- und Tier-1-Speicher-Cluster (remote, persistent) innerhalb eines einheitlichen Namespace zu integrieren.

„Hammerspace Tier 0“ wurde entwickelt, um diese eingeschränkte Leistung zu aktivieren, indem diese lokalen NVMe-Geräte in ein gemeinsames Dateisystem umgewandelt werden, das der gesamte Cluster nutzen kann. Aufbauend auf Verbesserungen, die Hammerspace 2024 in den Linux-Kernel eingeführt hat, um die Leistung von Tier 0 weiter zu verbessern, enthält die aktuelle Version Hammerspace v5.2 eine entsprechende Erweiterung mit der Bezeichnung „Tier 0 Affinitization“, die Tier 0-Installationen um 'Lokalitätsbewusstsein' erweitert. (Bild:  Hammerspace)
„Hammerspace Tier 0“ wurde entwickelt, um diese eingeschränkte Leistung zu aktivieren, indem diese lokalen NVMe-Geräte in ein gemeinsames Dateisystem umgewandelt werden, das der gesamte Cluster nutzen kann. Aufbauend auf Verbesserungen, die Hammerspace 2024 in den Linux-Kernel eingeführt hat, um die Leistung von Tier 0 weiter zu verbessern, enthält die aktuelle Version Hammerspace v5.2 eine entsprechende Erweiterung mit der Bezeichnung „Tier 0 Affinitization“, die Tier 0-Installationen um 'Lokalitätsbewusstsein' erweitert.
(Bild: Hammerspace)

Im Testaufbau für den Benchmark wurde Hammerspace über OCI BM.DenseIO.E4-Instanzen bereitgestellt, jede ausgestattet mit acht direkt angebundenen NVMe-Laufwerken. Diese Knoten fungieren doppelt: sowohl als hyperkonvergente Clients als auch als verteilte Dateiserver, und liefern sowohl Speicherdurchsatz als auch Workload-Flexibilität. Diese Architektur ermöglicht dynamisches Skalieren von Workloads, von datenintensivem AI-Training bis hin zu latenzkritischen HPC-Anwendungen.

Benchmark-Methodik: FIO für realitätsnahe I/O-Profile

FIO (Flexible I/O Tester) wurde ausgewählt, da es in der Lage ist, realistische und konfigurierbare Storage-Workloads sowohl für sequentielle als auch für zufällige Lese- und Schreibzugriffe abzubilden. Durch die Möglichkeit, Blockgrößen, Queue-Tiefe sowie CPU-Affinität anzupassen, lassen sich präzise Leistungsmessungen unter produktionsnahen Bedingungen durchführen. Ziel ist die Quantifizierung der Leistung und Skalierbarkeit einer Tier-0 Speicherebene, die unter realen Betriebsbedingungen durch Hammerspace bereitgestellt wird.

Die Testumgebung im Überblick

  • 5 OCI BM.DenseIO.E4.128-Knoten mit lokalen NVMe-Laufwerken

Rollenverteilung:

  • „Anvil“ Node (Metadaten-Server): Oracle Enterprise Linux 8, RAID1-geschützte Metadaten-Volumes
  • 2 × „DSX“ Nodes (Tier-1 Storage Gateways): je 8 NVMe-SSDs, als NFS-Volumes exportiert, fungieren als externe Tier-1-Datenknoten
  • 2 × Client Nodes (Tier-0 + Compute): Dual-Rolle als Clients und Tier-0-Speicherknoten, je 8 lokale NVMe-SSDs, via NFSv3 geteilt

Netzwerk:

  • Dedizierte 50 Gbps-Verbindungen zwischen DSX- und Client-Knoten; aggregierter Durchsatz bis zu 100 Gbps (12,5 GB/s) zwischen Tier 1 und Tier 0

FIO-Benchmark-Konfigurationen: I/O-Pfadvarianten

Getestet wurde von beiden Client-Knoten aus über vier Datenplatzierungsmodelle:

  • Nur Tier-1 (DSX): Alle Daten werden auf DSX-Knoten geschrieben (extern zum Compute)
  • Tier-0 Kombiniert: Clients exportieren lokale Volumes als gemeinsames Cluster
  • Tier-0 Dediziert („Confine-To“): Daten bleiben lokal auf dem ursprünglichen Client-Knoten
  • Unified Namespace („All Volumes“): Daten werden dynamisch über DSX und beide Client-Knoten verteilt

Workload-Spezifikationen:

  • 16 Dateien × 50 GB pro Client
  • Blockgröße: 1 MB, I/O-Tiefe: 2, Direct I/O aktiviert
  • Workload-Typen: 100 Prozent sequentielle Lese-, 100 Prozent sequentielle Schreib-, 50/50 gemischte R/W-Workloads
  • Testdauer: 300 Sekunden, 3 Wiederholungen (Mittelwert)

Benchmark-Highlights:

1. 100 Prozent sequentielles Lesen

  • Tier-0 Dediziert: 80,33 GB/s Lesedurchsatz, direkte NVMe-Zugriffe ohne Netzwerklast
  • +597,3 Prozent gegenüber Tier-1
  • +54,97 Prozent gegenüber Tier-0 Kombiniert
  • +65,73 Prozent gegenüber Unified Namespace

Kernaussage: Tier-0 ermöglicht latenzfreien lokalen Datenzugriff direkt auf Compute-Knoten, so dass GPUs keine Zeit auf I/O warten müssen.

2. 100 Prozent sequentielles Schreiben

  • Schreibleistung zeigte Engpässe (wahrscheinlich NFS-Stack, Linux-Kernel oder NVMe-Interaktion)
  • Tier-0 lieferte trotzdem ca. 3× höheren Durchsatz als Tier-1
  • Unified Namespace übertraf alle Konfigurationen, getrieben durch aggregierte NVMe-Bandbreite

3. 50/50 gemischter Workload

  • Leistung entspricht dem Schreibmuster
  • Tier-1 deutlich langsamer
  • Tier-0 (dediziert und kombiniert) übertraf Tier-1 signifikant

4. Latenzreduktionen:

  • Tier-0-Konfigurationen reduzierten Latenzen über alle Workloads hinweg:
  • 7× schnellere Leselatenz
  • ~3× schnellere Schreiblatenz
  • 2,5× schneller bei gemischten Workloads (Vergleich: Tier-0 Dediziert versus Tier-1)

Hammerspace als Daten-Orchestrierungsschicht auf OCI

Hammerspace ermöglicht eine nahtlose Echtzeit-Datenorchestrierung, ohne dass hierzu physische Daten bewegt werden müssen. Der zweiphasige Migrationsprozess erleichtert die Integration von Legacy-NAS-Daten in OCI-native Workflows. In der Assimilation-Phase werden die Metadaten bestehender NAS-Systeme importiert, so dass sofortiger Zugriff innerhalb des Hammerspace-Namespaces möglich ist.

In der Orchestration-Phase werden die physischen Daten policy-basiert verschoben, ohne die Benutzer-Workflows zu unterbrechen. Auf diese Weise unterstützt Hammerspace transparente NAS-zu-OCI-Migrationen bei minimalem Ausfallrisiko.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Global Namespace: Grundlage für skalierbare Hybrid-Architekturen

Ein einheitlicher globaler Namespace reduziert Integrationsprobleme in Multi-Tenant- oder Multi-Source-Umgebungen. Hammerspace bietet dabei transparente Daten-Tiering-Funktionen zwischen NVMe, Objektspeicher und Cloud-native Volumes, ermöglicht eine einfache Integration mit SMB-, NFS- und S3-Protokollen und unterstützt policy-gesteuerte Automatisierung, um Leistung, Kosten und Verfügbarkeit optimal zu steuern.

Der Einsatz von Hammerspace auf OCI-Compute ermöglicht den Aufbau einer global verteilten, hybriden Storage-Fabric, die Tier-0 NVMe, Tier-1 externe Volumes sowie Objektspeicher nahtlos integriert. Dies bietet strategische Vorteile: Unternehmen können Speicherleistung und Kosten dynamisch an den tatsächlichen Workload-Bedarf anpassen, nur den tatsächlich verbrauchten Speicher abrechnen und Überprovisionierung vermeiden. Gleichzeitig ist die Lösung zukunftssicher, da sie problemlos für AI/ML-Anwendungen, HPC-Workloads und wachsende unstrukturierte Datenvolumina skaliert wird.

Die softwaredefinierte Architektur berücksichtigt die Compute-Platzierung und ermöglicht so maximalen Durchsatz, minimale Latenzen und optimale GPU-Auslastung, während Unternehmen gleichzeitig die architektonische Flexibilität behalten, die für zukünftige Workloads erforderlich ist.

Referenz:

(ID:50653085)