Das Meistern von Latenzen im Rechenzentrum Ethernet schließt locker die Lücke zu Infiniband

Von Dan Hanson* 5 min Lesedauer

Anbieter zum Thema

Infiniband galt lange als erste Wahl für latenzsensible Workloads. Doch moderne Ethernet-Technik hat erheblich aufgeholt und bietet heute durchaus eine offene, flexible und kosteneffiziente Alternative. Insbesondere das Training großer KI-Modelle erfordert leistungsstarke Verbindungen mit geringer Latenz und hohem Durchsatz zwischen GPUs.

Mit zunehmender Modellgröße und wachsenden GPU-Clustern wird das Netzwerk zur zentralen Herausforderung. InfiniBand galt lange als das Non-Plus-Ultra. Doch Ethernet-Technologien haben erheblich aufgeholt. (Bild:  Supermicro)
Mit zunehmender Modellgröße und wachsenden GPU-Clustern wird das Netzwerk zur zentralen Herausforderung. InfiniBand galt lange als das Non-Plus-Ultra. Doch Ethernet-Technologien haben erheblich aufgeholt.
(Bild: Supermicro)

Im Zentrum des verteilten KI-Trainings steht die Notwendigkeit einer schnellen und synchronisierten Kommunikation zwischen GPUs. Bei jeder Trainingsiteration verarbeiten mehrere Nodes Daten parallel und tauschen dann die Ergebnisse mit ihren Peers aus. Mit zunehmender Größe der Cluster wirken sich die Geschwindigkeit und Konsistenz dieses Austauschs direkt auf die Job Completion Time (JCT) und die Gesamtleistung aus.

Ganz besonders in Gewicht fällt hierbei nicht nur die durchschnittliche Latenz, sondern auch die Tail-Latenz, also die Verzögerung, die entsteht, wenn ein oder mehrere Pakete deutlich später als die übrigen fertiggestellt werden. Selbst eine geringe Anzahl verzögerter Pakete kann die für einen Trainingszyklus erforderliche Zeit erheblich verlängern.

Die Verzögerung, die entsteht, wenn ein oder mehrere Pakete deutlich später als die übrigen fertiggestellt werden, nennt sich Tail-Latenz. (Bild:  Supermicro)
Die Verzögerung, die entsteht, wenn ein oder mehrere Pakete deutlich später als die übrigen fertiggestellt werden, nennt sich Tail-Latenz.
(Bild: Supermicro)

Das Ergebnis ist eine längere JCT, bei der der gesamte Trainingsprozess verlangsamt wird, da er auf die Fertigstellung der langsamsten Pakete warten muss. Diese umfangreichen, latenzempfindlichen Datenaustausche zwischen GPUs, die oft als „Elephant Flows“ bezeichnet werden, sind besonders anfällig für Tail-Latenzprobleme.

In herkömmlichen Installationen hat Infiniband diese Herausforderungen mit speziell entwickelten Siliziumchips und einem gut integrierten RDMA-Software-Stack (RDMA = Remote Direct Memory Access) bewältigt. Neue Entwicklungen in der Ethernet-Technologie schließen jedoch diese Lücke und bieten eine offenere und flexiblere Option für hochleistungsfähige 'KI-Fabrics'.

Ethernet als KI-Fabric

Ethernet hat sich seit seinen Anfängen als Allzweck-Netzwerk erheblich weiterentwickelt. Mit der Einführung von RDMA over Converged Ethernet Version 2 (RoCEv2), Explicit Congestion Notification (ECN) und Dynamic Load Balancing (DLB) unterstützt Ethernet nun Workloads mit geringer Latenz und hohem Durchsatz, für die bisher Infiniband die erste Wahl war. Diese Funktionen ermöglichen einen verlustfreien Transport und eine fein abgestimmte Steuerung des Traffic, wodurch Ethernet für die Leistungsanforderungen von KI-Fabrics geeignet ist.

Erweiterungen des Rthernet-Standards wie RoCEv2 tragen erhblich dazu bei, dass die Konnektivität beschleunigt wird. (Bild:  Supermicro)
Erweiterungen des Rthernet-Standards wie RoCEv2 tragen erhblich dazu bei, dass die Konnektivität beschleunigt wird.
(Bild: Supermicro)

Die heutigen leistungsstarken Ethernet-NICs und -Switches unterstützen RDMA, um den Host-Kernel-Stack zu umgehen, wodurch die CPU-Auslastung reduziert und direkte Memory-Transfers zwischen GPUs ermöglicht werden. Diese Umgehung vermeidet unnötige Zwischenschritte und der Overhead durch CPU-Context-Switching entfällt, was besonders in Systemen wichtig ist, in denen GPUs die CPUs zahlenmäßig weit übertreffen, wie dies bei KI-Fabrics der Fall ist.

Pluspunkt: das große Ökosystem

Das offene Ökosystem von Ethernet bringt zusätzliche Vorteile mit sich. IT-Verantwortliche können aus einer Vielzahl von Anbietern, Tools und Softwareplattformen wählen, was die Flexibilität erhöht und gleichzeitig die Bindung an einen bestimmten Anbieter verringert. Dies erleichtert auch die Integration von KI-Netzwerken in bestehende Ethernet-basierte Infrastrukturen unter Verwendung vertrauter Tools und Betriebsverfahren.

Tests, in denen RoCEv2-Ethernet mit EDR Infiniband (Enhanced Data Rate) verglichen wurde, zeigen bei Verwendung ordnungsgemäß konfigurierter Netzwerke eine ähnliche Leistung über einen breiten Bereich von Paket-Größen. (Bild:  Supermicro)
Tests, in denen RoCEv2-Ethernet mit EDR Infiniband (Enhanced Data Rate) verglichen wurde, zeigen bei Verwendung ordnungsgemäß konfigurierter Netzwerke eine ähnliche Leistung über einen breiten Bereich von Paket-Größen.
(Bild: Supermicro)

Jüngste Tests, in denen RoCEv2-Ethernet mit EDR Infiniband (Enhanced Data Rate) verglichen wurde, zeigen bei Verwendung ordnungsgemäß konfigurierter Netzwerke eine ähnliche Leistung über einen breiten Bereich von Paket-Größen. Während Infiniand auf ASIC-Ebene eine etwas geringere Weiterleitungslatenz pro Hop bieten kann, wird die Leistung in der Praxis häufig durch die höhere Latenz bei der Datenübertragung zwischen der Netzwerkkarte und dem GPU-Speicher dominiert, insbesondere über PCIe-Schnittstellen. Diese Ergebnisse unterstreichen, wie weit Ethernet als KI-Fabric gekommen ist.

Elephant Flows

Bei großen KI-Workloads entstehen Leistungsengpässe oft nicht durch Rechenbeschränkungen, sondern durch Verzögerungen bei der Datenübertragung über das Netzwerk. Wenn mehrere GPUs während des Trainings synchronisiert werden müssen, tauschen sie erhebliche Datenmengen aus. Diese hohen Datenströme zwischen Beschleuniger-Nodes, „Elephant Flows“, reagieren besonders empfindlich auf Latenzschwankungen.

Heute unterstützen Ethernet-NICs und -Switches  RDMA. Dadurch wird der  Host-Kernel-Stack umgangen und die CPU-Auslastung reduziert. (Bild:  Supermicro)
Heute unterstützen Ethernet-NICs und -Switches RDMA. Dadurch wird der Host-Kernel-Stack umgangen und die CPU-Auslastung reduziert.
(Bild: Supermicro)

Eine einzige verzögerte Übertragung kann eine gesamte Iteration aufhalten, so dass die längste Übertragung zum entscheidenden Faktor für die JCT wird. Die Minimierung der Tail-Latenz ist daher unerlässlich, um die JCT innerhalb akzeptabler Grenzen zu halten.

Technologien wie ECN melden dem Absender proaktiv eine Überlastung, während ein Dynamic Load Balancer (DLB) den Datenverkehr in Echtzeit von überlasteten Pfaden umleitet. Diese Mechanismen, die jetzt in fortschrittlichen Ethernet-Switching-Plattformen verfügbar sind, tragen dazu bei, auch bei hoher Netzwerklast eine vorhersehbare Latenz aufrechtzuerhalten.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Intelligenz im Netz

Weitere Verbesserungen lassen sich durch eine intelligente Platzierung der Workloads erzielen. Durch den Einsatz von rail-optimierten Designs, bei denen Beschleuniger mit gemeinsamen Workloads in der Netzwerktopologie nahe beieinander positioniert sind, wird die Anzahl der Switch-Hops reduziert.

Wenn beispielsweise sichergestellt wird, dass nur eine einzige Zwischenstufe die kommunizierenden GPUs trennt, anstatt drei bis elf Stufen in weniger optimierten Layouts, werden die Kommunikationsverzögerungen erheblich reduziert. Dieser Ansatz verkürzt die Gesamtzeit für den Datenaustausch und mindert die Tail-Latenz, insbesondere in Kombination mit Ethernet-Fabrics, die für verlustfreie Leistung konfiguriert sind.

Thermische und energetische Herausforderungen

Da KI-Workloads immer leistungshungriger werden und die Verbindungsbandbreite auf 800G und mehr ansteigt, werden die Einschränkungen hinsichtlich Stromversorgung und thermischem Design auf Netzwerk-Fabric-Ebene immer dringlicher. Ethernet-Switches, die große GPU-Cluster unterstützen, müssen dichte Port-Konfigurationen und kontinuierliche KI-Workloads mit hohem Durchsatz bewältigen, was sowohl die Wärme-Abgabe als auch den Energieverbrauch in die Höhe treiben kann.

Um diesen Herausforderungen zu begegnen, setzen Betreiber von Rechenzentren zunehmend auf direkte Flüssigkeitskühlung (Direct Liquid Cooling, DLC). Durch die direkte Wärme-Abfuhr an der Chipoberfläche oder an der optischen Schnittstelle ermöglicht DLC eine höhere Dauerleistung und reduziert gleichzeitig die Abhängigkeit von herkömmlichen luftgekühlten Systemen. Dies trägt zur Senkung des Gesamtstromverbrauchs und zur Verbesserung der Effizienz von Rechenzentren bei.

Co-Packaged Optics

Parallel dazu entwickeln sich Co-Packaged Optics (CPO) zu einer Technologie, die den Stromverbrauch senken und die Signalintegrität verbessern kann, indem die Optik näher an das Switch-Silizium integriert wird. Die Kombination von CPO und DLC ebnet den Weg zu einer besseren Energie-Effizienz (Power Usage Effectiveness, PUE) bei gleichbleibender Bandbreite und Latenzleistung, die für KI-Workloads erforderlich sind.

Ethernet-Switches, die diese Innovationen im Bereich Kühlung und Packaging integrieren, eignen sich zunehmend für KI-Implementierungen der nächsten Generation und bieten sowohl betriebliche Effizienz als auch ökologische Nachhaltigkeit.

*Der Autor
Dan Hanson ist Director AI Fabric Product Management bei Supermicro. Er hat zudem zahlreiche Artikel zu den Themen Orchestrierung, Management, Vernetzung, Rechenleistung und Speicherung in Rechenzentren verfasst und über 13 Jahre lang bei verschiedenen Unternehmen an der Entwicklung verschiedener Netzwerke, Sicherheits-, Speicher- und Rechenzentren gearbeitet. Er hat einen BS-Abschluss in Elektrotechnik von der North Dakota State University und einen MS-Abschluss in Elektrotechnik von der Purdue University.
Sein Fazit lautet: Ethernet ist bereit für KI. Für Unternehmen, die ihre KI-Infrastruktur skalieren möchten, ist Ethernet kein Kompromiss mehr. Seine Fähigkeit, geringe Latenz, hohen Durchsatz und betriebliche Effizienz zu bieten, kombiniert mit offenen Standards und Kompatibilität mit gängigen Rechenzentrumsumgebungen, macht es zu einer überzeugenden Wahl.
Mit kontinuierlichen Fortschritten in den Bereichen RDMA, Traffic-Management und Energie-effizientes Design ist Ethernet nun gut positioniert, um die nächste Generation von GPU-Clustern in großem Maßstab zu unterstützen. Angesichts der immer weiter steigenden Anforderungen durch KI-Workloads holt Ethernet nicht nur Infiniband ein, sondern entwickelt sich auch zur bevorzugten Fabric für skalierbare, kostengünstige und zukunftsfähige KI-Implementierungen.

Bildquelle: Supermicro

(ID:50685522)