Hochleistungsfähige Ethernet-Plattform im Praxiseinsatz NVIDIA Spectrum-X bringt Supercomputer Colossus auf Touren

Von Martin Hensel 2 min Lesedauer

Anbieter zum Thema

Im amerikanischen Memphis steht der aktuell größte KI-Supercomputer namens Colossus, der von Elon Musks xAI errichtet wurde. Das System verfügt derzeit über 100.000 NVIDIA-Hopper-GPUs und soll auf 200.000 GPUs weiterwachsen. Wichtiger Teil der dafür nötigen Grundlage ist NVIDIAs Spectrum-X-Netzwerkplattform.

In xAIs KI-Supercomputer Colossus arbeiten unter anderem die Spectrum-X-Ethernet-Netzwerkplattform und GPUs von NVIDIA.(Bild:  frei lizenziert /  Pixabay)
In xAIs KI-Supercomputer Colossus arbeiten unter anderem die Spectrum-X-Ethernet-Netzwerkplattform und GPUs von NVIDIA.
(Bild: frei lizenziert / Pixabay)

NVIDIAs Spectrum-X ist laut des Herstellers ein wichtiger Faktor für die enorme Skalierbarkeit des Supercomputers. Die Netzwerkplattform soll höchste Performance für mandantenfähige, hyperskalierbare KI-Fabriken sicherstellen, die standardbasiertes Ethernet für ihr RDMA-Netzwerk („Remote Direct Memory Access“) nutzen.

xAI und NVIDIA konnten Colossus in nur 122 Tagen errichten – andere Projekte dieser Größenordnung können durchaus etliche Monate bis Jahre in Anspruch nehmen. Laut NVIDIA vergingen vom Eintreffen der ersten Server-Racks bis zum Beginn der ersten KI-Trainings sogar nur 19 Tage. xAI nutzt den Supercomputer für das Training der Grok-KI-Familie mit großen Sprachmodellen („Large Language Models“, LLMs). Der Grok-Chatbot ist für Premium-Abonnenten der Social-Media-Plattform X zugänglich.

Hohe Netzwerkleistung ohne Beeinträchtigungen

Wie NVIDIA berichtet, wurde während des Grok-Trainings eine bislang unerreichte Netzwerk-Performance erzielt. Über alle drei Netzwerkebenen hinweg wurden keinerlei Beeinträchtigungen der Anwendungslatenz oder Paketverluste aufgrund von Kollisionen im Datenfluss verzeichnet. Dank der Spectrum-X-Überlastungskontrolle konnte ein Datendurchsatz von 95 Prozent aufrechterhalten werden. Zum Vergleich: Beim Einsatz von Standard-Ethernet treten Tausende von Kollisionen auf, während der Datendurchsatz laut NVIDIA bei etwa 60 Prozent liegt.

Das Herzstück der Spectrum-X-Plattform stellt der Ethernet-Switch Spectrum SN5600 dar: Er unterstützt Port-Geschwindigkeiten von bis zu 800 Gigabit pro Sekunde und basiert auf dem Specturm-4-Switch-ASIC („Application-specific Integrated Circuit“). Um eine besonders hohe Leistung zu erzielen, hat xAI diese Switches mit BlueField-3-SuperNICs von NVIDIA kombiniert. Zudem bietet die Spectrum-X-Plattform fortschrittliche Funktionen, darunter beispielsweise Direct Data Placement, Congestion Control, verbesserte AI-Fabric-Visibility sowie Performance Isolation. Derartige Funktionen sind insbesondere für mandantenfähige GenAI-Clouds und große Unternehmensumgebungen geeignet.

„KI immer geschäftskritischer und erfordert mehr Leistung, Sicherheit, Skalierbarkeit und Kosteneffizienz“, erklärt Gilad Shainer, Senior Vice President of Networking von NVIDIA. „Die Spectrum-X-Netzwerkplattform wurde entwickelt, um Innovatoren wie xAI eine schnellere Verarbeitung, Analyse und Ausführung von KI-Workloads zu ermöglichen. Dies beschleunigt wiederum die Entwicklung, Bereitstellung und Markteinführung von KI-Lösungen“, ergänzt er.

(ID:50235165)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung