GPU-Server sind viel besser Die Ertüchtigung der eigenen IT-Infrastruktur für KI-Workloads

Ein Gastbeitrag von Michael McNerney* 3 min Lesedauer

Anbieter zum Thema

Es ist ein Rennen um den Wettbewerbsvorteil verschaffenden KI-Einsatz. Aber dafür braucht es die richtige Hardware. Große KI-Modelle, die auf enormen Mengen von Trainings- und Echtdaten basieren, profitieren von einem beschleunigten Speicherzugriff. Deshalb setzen viele IT-Verantwortliche auf GPU-Server, um große, komplexe Datensätze zu bewältigen.

Im Inneren eines Quantenbeschleunigers - doch zur Steigerung der Geschwindigkeit bei der Verarbeitung von KI-Workloads braucht es heute GPUs, TPUs, IPUs oder FPGAs .....(Bild:  frei lizenziert: Pete Linforth  /  Pixabay)
Im Inneren eines Quantenbeschleunigers - doch zur Steigerung der Geschwindigkeit bei der Verarbeitung von KI-Workloads braucht es heute GPUs, TPUs, IPUs oder FPGAs .....
(Bild: frei lizenziert: Pete Linforth / Pixabay)

Das Geheimnis zur Steigerung des Speicherdurchsatzes ist eine geringere Latenzzeit und eine höhere Bandbreite. Diese beiden Faktoren schlagen sich unmittelbar in einer verbesserten Produktivität und Leistungsfähigkeit nieder, vor allem durch neueste I/O- und Netzwerk-Technologien, die auf direktem und Remote Speicherzugriff basieren. Schnelleres Modelltraining und schnellere Auftragsabwicklung bedeuten, dass KI-gestützte Anwendungen schneller für den produktiven Einsatz bereitgestellt und genutzt werden können.

Direkter Speicherzugriff für GPUs

Direct Memory Access (DMA) wird seit den Anfängen der Computertechnik zur Beschleunigung der I/O eingesetzt. Bei DMA handelt es sich im Wesentlichen um Speicher-zu-Speicher-Übertragungen über einen Bus (oder eine andere Schnittstelle) von einem Gerät zum anderen.

Dabei wird ein Bereich von Speicheradressen direkt aus dem Speicher des Senders in den Speicher des Empfängers kopiert. Diese Funktion nimmt die CPU aus dem Prozess heraus und beschleunigt die Übertragung, indem sie die Anzahl der Kopiervorgänge reduziert, so dass die CPU die Daten des Absenders nicht in ihren Speicher kopieren und dann aus ihrem Speicher in den Speicher des Empfängers kopieren muss.

Tatsächlich ist die DMA-Leistung auf einem einzelnen System nur durch die Geschwindigkeit des Busses (oder einer anderen Schnittstelle) begrenzt, der die an einer Datenübertragung beteiligten Sende- und Empfangsgeräte verbindet. Bei PCIe 4.0 sind das 16 Gigatransfers pro Sekunde (GT/s), bei PCIe 5.0 sind es doppelt so viele (32 GT/s). Die Datenübertragungsraten sind aufgrund des Codierungs- und Paketierungs-Overheads langsamer, aber die Nennbandbreite für diese beiden PCIe-Versionen beträgt 64 Gbps (4.0) bzw. 128 Gbps (5.0). Das ist schnell!

„Supermicro SYS-421GE-TNRT“- GPU-Server mit 10 GPUs, die über „NVLink“ verbunden sind. (Bild:  Supermicro)
„Supermicro SYS-421GE-TNRT“- GPU-Server mit 10 GPUs, die über „NVLink“ verbunden sind.
(Bild: Supermicro)

Remote-DMA (RDMA) erweitert die Fähigkeit von DMA innerhalb eines einzelnen Systems auf die Arbeit zwischen zwei Systemen über eine Netzwerkverbindung. RDMA basiert in der Regel auf einer besonderen Anwendungsprogrammierschnittstelle (API), die mit spezieller Netzwerkhardware und -software zusammenarbeitet, um so viele der Vorteile von lokalem DMA zu bieten, wie die zugrunde liegende Netzwerktechnologie erlaubt.

Es gibt drei verbreitete Arten von RDMA-Technologien

  • „Nvidia NVLink“ nutzt die schnellsten proprietären Schnittstellen und Switch-Technologien, um die Datenübertragung zwischen GPUs in einem Hochgeschwindigkeitsnetzwerk zu beschleunigen. Bei den standardmäßigen MLPerf Training v3.0 Benchmarks erreicht NVLink derzeit die höchste Leistung aller Technologien.
    Eine einzelne „Nvidia H100 Tensor Core“- GPU unterstützt bis zu 18 NVLink-Verbindungen mit einer Gesamtgeschwindigkeit von bis zu 900 Gbit/s. Das ist das Siebenfache der effektiven Geschwindigkeit von PCIe 5.0.
  • Infiniband ist ein Hochgeschwindigkeits-Netzwerkstandard, der von der Infiniband Trade Association (IBTA) verwaltet wird und in Hochleistungsnetzwerken weit verbreitet ist. Die höchsten spezifizierten Datenraten liegen bei bis zu 1.200 Gb/s (mit 12 Links) für die NDR-Spezifikation ab 2022.
  • Ethernet ist eine Standard-Netzwerktechnologie mit vielen Varianten, darunter das selten verwendete TbE (~125 GBps) und das häufigere 400 GbE (50 GBps). Es hat den Vorteil, dass es erschwinglicher ist, weit verbreitet und in vielen Rechenzentren eine vertraute Technologie ist.

RDMA-Technologien können den GPU-Datenzugriff über alle drei oben genannten Netzwerktechnologien unterstützen. Jede dieser Technologien bietet ein anderes Preis-Leistungs-Verhältnis, bei dem mehr Kosten in höhere Geschwindigkeit und geringere Latenzzeiten umgesetzt werden. Unternehmen können den zugrundeliegenden Verbindungstyp wählen, der am besten zu ihrem Budget und ihren Anforderungen passt, wobei sie wissen, dass jede Option eine spezifische Kombination aus Preis und Leistung darstellt, auf die sie sich verlassen können.

Zwischen den Speichern

Da KI -Anwendungen sowohl niedrige Latenzzeiten als auch hohe Bandbreiten benötigen, hilft RDMA, die lokalen Vorteile von DMA auf Netzwerkressourcen auszuweiten, abhängig von den zugrunde liegenden Verbindungen. Dies ermöglicht einen schnellen Zugriff auf externe Daten über Storage-zu-Storage-Übertragungen zwischen Systemen (GPU-Server auf der einen Seite, Storage-System auf der anderen). Der Remote-Adapter arbeitet mit NVLink, Infiniband oder einer Hochgeschwindigkeits-Ethernet-Variante und überträgt Daten aus dem Speicher eines entfernten Systems in den Speicher einer lokalen GPU.

Der eigentliche Vorteil des Einsatzes von GPU-Servern für KI und andere anspruchsvolle Workloads, zum Beispiel 3D- oder Finite-Elemente-Analysen und Simulationen, besteht darin, dass sie die Trennung von Infrastrukturkomponenten und Workloads ermöglichen. Dies spart 20 bis 30 Pozent der CPU-Zyklen ein, die sonst für den Zugriff auf die Infrastruktur und deren Verwaltung aufgewendet werden, setzt Ressourcen frei und beschleunigt den Zugriff, indem I/O-Funktionen in die Hardware verlagert werden.

*Der Autor
Michael McNerney ist Vice President Marketing & Network Security bei Supermicro.

Bildquelle: Supermicro

(ID:49865421)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung