Für den Bedarf an einheitlichen Kontrollinstrumenten Compute und Netzwerk wandeln sich mit Arista und Nvidia zu einer einzigen gemanagten KI-Einheit

Quelle: Pressemitteilung Arista Networks GmbH 3 min Lesedauer

Anbieter zum Thema

Um Netzwerke für generative KI mit geringen Bearbeitungszeiten aufzubauen, können Unternehmen künftig mit Arista- und Nvidia-Technik KI-Cluster über eine einheitliche Schnittstelle Komponenten wie Netzwerke, NICs und Server konfigurieren, verwalten und überwachen. Dies sei der erste Schritt auf dem Weg zu einem herstellerübergreifenden, interoperablen Ökosystem, das die Steuerung und Koordination zwischen KI-Netzwerken und KI-Recheninfrastrukturen ermöglicht, so die Partner.

KI- und Netzwerksteuerung sollen zusammenfinden. (Bild:  frei lizenziert:  /  Pixabay)
KI- und Netzwerksteuerung sollen zusammenfinden.
(Bild: frei lizenziert: / Pixabay)

Mit der Vergrößerung von KI-Clustern und Large-Language-Modellen (LLMs) nehmen auch die Komplexität und die schiere Menge der verschiedenen Komponenten des Systems rapide zu. GPUs, NICs, Switches, optische Komponenten und Kabel müssen alle zusammenarbeiten, um ein ganzheitliches Netz zu bilden. Hilfreich wäre es, wenn den Kunden eine einheitliche Steuerung zwischen ihren KI-Servern, den NICs und GPUs gehostet zur Verfügung stände, inklusive der KI-Netzwerk-Switches auf verschiedenen Ebenen.

Diese Komponenten sind bisher zwar für die einwandfreie Bearbeitung von KI-Jobs voneinander abhängig, arbeiten jedoch unabhängig voneinander. Dies kann zu Fehlkonfigurationen oder einer falschen Abstimmung zwischen den einzelnen Modulen des gesamten Ökosystems führen, zum Beispiel zwischen den NICs und dem Switch-Netzwerk. Das kann sich erheblich auf die Dauer der Bearbeitung von KI-Jobs auswirken, da Netzwerkfehler nur sehr schwer zu diagnostizieren sind.

Große KI-Cluster erfordern außerdem ein koordiniertes Last-Management, um Datenpaketverluste oder eine zu geringe Auslastung der GPUs zu vermeiden. Zudem benötigen sie ein koordiniertes Management und Monitoring, um Rechen- und Netzwerkressourcen im Einklang zu optimieren.

Der Arista AI Agent

Arista und Nvidia gehen das Problem an. Das Herzstück einer übergreifenden Steuerung soll ein Agent auf Basis von „Arista EOS“ sein, der es dem Netzwerk und dem Host ermöglicht, miteinander zu kommunizieren und Konfigurationen zu koordinieren, um so die KI-Cluster zu optimieren. Mithilfe eines solchen Remote-AI-Agenten kann EOS, das auf Arista-Switches läuft, auch auf die direkt angeschlossenen NICs und Server ausgeweitet werden, um als ganzheitliche Lösung einen einzigen Kontroll- und Übersichtspunkt in einem KI-Rechenzentrum zu ermöglichen.

Dieser Remote-KI-Agent, der direkt auf der Nvidia-DPU „Bluefield-3“ gehostet wird oder auf dem Server läuft und Telemetriedaten von der „SuperNIC“ sammelt, ermöglicht es EOS auf dem Netzwerk-Switch selbst, Netzwerkprobleme auf dem Server zu konfigurieren, zu überwachen und zu debuggen – und so eine durchgängige Netzwerkkonfiguration und QoS-Konsistenz sicherzustellen. AI-Cluster lassen sich damit als eine einzige homogene Lösung steuern und optimieren.

John McCool, Chief Platform Officer bei Arista Networks, sagt über die neue Herangehensweise: „Arista verfolgt das Ziel, die Effizienz der Kommunikation zwischen dem eingesetzten Netzwerk und der GPU-Topologie zu verbessern, um die Job- Bearbeitungszeiten durch koordinierte Orchestrierung, Konfiguration, Validierung und Überwachung von Nvidia Accelerated Compute, Nvidia SuperNICs und der Arista-Netzwerkinfrastruktur zu verbessern.“

End-to-End-KI-Kommunikation und -Optimierung

Bis jetzt gibt es ein Demo-System. Es zeigt, wie ein Arista EOS-basierter Remote-KI-Agent ermöglicht, einen kombinierten, interdependenten KI-Cluster als eine einzige Lösung zu verwalten. EOS, das im Netzwerk läuft, kann mittels Remote-KI-Agenten auf Server oder SuperNICs ausgeweitet werden, um ein sofortiges Tracking und Reporting von Performance-Verschlechterungen oder Ausfällen zwischen Hosts und Netzwerken zu auszulösen, so dass diese schnell isoliert und die Auswirkungen minimiert werden können.

„Ethernet at Scale“ mithilfe von „Arisa EOS“(Bild:  Arista Networks)
„Ethernet at Scale“ mithilfe von „Arisa EOS“
(Bild: Arista Networks)

Da EOS-basierte Netzwerk-Switches ständig die genaue Netzwerktopologie kennen könnten, so der Herteller, ermöglicht die Ausweitung von EOS auf SuperNICs und Server mit dem Remote-KI-Agenten eine koordinierte Optimierung der Ende-zu-Ende-QoS zwischen allen Elementen im KI-Rechenzentrum. Das reduziere die Zeit für die Job-Bearbeitung.

Auch Zeus Kerravala, Principal Analyst bei ZK Research, zeigt sich überzeugt: Die Netzwerkplattformen von Arista mit den Compute-Plattformen und SuperNICs von Nvidia ermöglichten koordinierte KI-Rechenzentren. „Die neue Möglichkeit, das EOS-Betriebssystem von Arista mit Remote-KI-Agenten auf Hosts zu erweitern, verspricht, ein kritisches Problem von großen KI-Clustern zu lösen, indem ein einziger Punkt zur Steuerung und Kontrolle bereitgestellt wird, um KI-Verfügbarkeit und -Leistung als ganzheitliche Lösung zu managen“, sagter.

Arista wird die KI-Agententechnologie auf der Feier zum 10-jährigen Bestehen des Arista-Börsengangs am 5. Juni in der New Yorker Börse demonstrieren, Kundentests werden für das zweite Halbjahr 2024 erwartet. Analysten und andere Mitglieder der Finanzbranche, die an einer Teilnahme an der NYSE-Veranstaltung interessiert sind, können sich anmelden.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Artikelfiles und Artikellinks

(ID:50050104)