Nokia, die 650 Group und DE-CIX diskutieren die Zukunft von Datennetzen 5 Grundlagen für Netzwerke in einer KI-gesteuerten Welt

Ein Gastbeitrag von Thomas King* 7 min Lesedauer

Anbieter zum Thema

Generative KI wandelt sich in allen Branchen schnell von einer experimentellen Neuheit zu einer grundlegenden Technologie. Vom Gesundheitswesen und Finanzwesen bis hin zur Fertigung und dem Einzelhandel – KI-gestützte Anwendungen beginnen, die Art und Weise zu prägen, wie wir denken, arbeiten und interagieren. Aber die Datennetze werden zu Nadelöhren, oder?

Datennetze, die auf KI-Lasten vorbereitet sind, brauchen neben Kanteninferenz und Langstreckenoptik kontextsensitive, das heißt: KI-gesteuerte, Mechanismen beziehungsweise Automatismen. (Bild:  k - stock.adobe.com / KI-generiert)
Datennetze, die auf KI-Lasten vorbereitet sind, brauchen neben Kanteninferenz und Langstreckenoptik kontextsensitive, das heißt: KI-gesteuerte, Mechanismen beziehungsweise Automatismen.
(Bild: k - stock.adobe.com / KI-generiert)

Hinter jeder Chat-Eingabe, jedem Vorhersagemodell oder jedem KI-Agenten steckt eine massive, sich entwickelnde digitale Infrastruktur. Mit der wachsenden Nachfrage nach KI ist das Netzwerk zu einem entscheidenden Faktor geworden, nicht nur für die Leistung, sondern auch für die Möglichkeiten. Bei der Verschiebung geht es nicht mehr darum, Inhalte schneller bereitzustellen. Es geht darum, Künstliche Intelligenz sofort, zuverlässig und in großem Umfang bereitzustellen.

Um zu untersuchen, wie Netzwerke für diese neue Ära neu konzipiert werden, habe ich, Thomas King, mich mit Rodney Dellinger, CTO von Webscale bei Nokia, und Alan Weckel, Mitbegründer und Principal Analyst der 650 Group, zusammengesetzt, um zu überlegen, was es braucht, KI in großem Maßstab zu unterstützen. Vom Aufkommen verteilter Rechenzentren und Edge-Inferenz bis hin zur wachsenden Rolle des optischen Transports und der Automatisierung ist in der Diskussion eines mehr als deutlich geworden:

Die Zukunft der KI ist untrennbar mit der Zukunft der Vernetzung verbunden. Hier sind fünf wichtige Erkenntnisse aus unserem Gespräch.

1. KI verändert die Netzwerkinfrastruktur in beispielloser Geschwindigkeit

Das Ausmaß und die Geschwindigkeit, mit der KI die digitale Infrastruktur transformiert, ist anders als alles, was die Branche bisher gesehen hat. Da Unternehmen sich beeilen, generative KI in alles einzubetten, vom Kunden-Support bis zur Produktentwicklung, werden Rechenzentren radikal neu gestaltet und das Netzwerk stößt an seine Grenzen.

Schätzungen gehen davon aus, dass mehr als 2 Millionen Dollar pro Minute für die KI-Infrastruktur ausgegeben werden, wobei die Bereitstellung von Ports in Rechenzentren mit einer Rate von 300 bis 400 pro Minute erfolgt. "Aus der Perspektive der Infrastruktur werden wir über eine Billion Dollar für KI ausgeben", sagte Weckel, „Das entspricht etwa 400 Ports pro Minute, die im Rechenzentrum installiert werden.“

Alan Weckel ist Mitbegründer und Principal Analyst der 650 Group.(Bild:  650 Group)
Alan Weckel ist Mitbegründer und Principal Analyst der 650 Group.
(Bild: 650 Group)

zudem handelt es sich nicht um eine inkrementelle Evolution. Es ist eine umfassende Neuerfindung des digitalen Rückgrats, das unser Leben antreibt, angetrieben durch einen Anstieg des Ost-West-Verkehrs und den unersättlichen Bandbreitenbedarf GPU-intensiver Workloads.

Tempo!

Was diesen Moment so beeindruckend macht, ist die Geschwindigkeit des Übergangs. Noch vor wenigen Jahren dominierte die traditionelle Datenverarbeitung die Rechenzentrumslandschaft. Jetzt ist die KI-Infrastruktur bereit, die Führung zu übernehmen, wobei die KI-bezogene Konnektivität im Vergleich zum Vorjahr um über 100 Prozent wächst.

„So etwas haben wir noch nie gesehen“, kommentiert Weckel den Wandel. „In den vergangenen Jahren haben wir begonnen, uns zu einem Markt zu entwickeln, in dem die KI-Infrastruktur die dominierende Form der Technologie im Rechenzentrum sein wird." Wenn sich die aktuellen Trends fortsetzen, wird bis zum Ende des Jahrzehnts mehr als die Hälfte der gesamten Bandbreite von Rechenzentren für KI aufgewendet werden.

Das hat Konsequenzen. Die Betreiber stehen unter dem Druck, alles zu überdenken – von der Netzwerktopologie bis zur Kapazitätsplanung –, um mit einer neuen Generation von Anwendungen Schritt zu halten, die nicht nur einen hohen Durchsatz, sondern auch eine extrem niedrige Latenz und konsistente Leistung in großem Maßstab erfordern.

2. Training und Inferenz haben unterschiedliche Infrastrukturanforderungen

Hinter jedem KI-generierten Output steckt einer von zwei Prozessen: Training oder Inferenz, und jeder stellt sehr unterschiedliche Anforderungen an die Netzwerkinfrastruktur. Das Training großer Sprachmodelle (LLMs) erfordert enorme Datenmengen und GPU-Cluster mit hoher Dichte und Verbindungen mit extrem geringer Latenz. GPU-Cluster, die diese großen Sprachmodelle erstellen, müssen sich heute aufgrund von Latenzanforderungen im Rechenzentrum befinden.

Sie müssen zudem in eng gekoppelten Umgebungen betrieben werden, in denen die Verzögerung zwischen GPUs den Unterschied zwischen praktikablem und kostenintensivem KI-Training ausmachen kann. Im Moment bedeutet dies, dass das Training so nah wie möglich an den Daten- und Rechenressourcen stattfinden muss – oft innerhalb einer einzigen Einrichtung oder Metropolregion.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Im Gegensatz dazu ist Inferenz das, was passiert, nachdem das Modell trainiert wurde. Das geschieht zunehmend viel näher am Benutzer. „Wenn man sich vorstellt, etwas wie 'ChatGPT' zu verwenden, sind Token wie Silben", erläutert Webscale-CTO Dellinger. „Im Idealfall sollten Token alle 2 bis 500 Millisekunden generiert werden, damit es sich für einen Menschen, der die Informationen liest, natürlich anfühlt.“ Insofern ist das 'erste Mal bis zum Token' ist eine großartige Metrik, um die Latenz zu messen.

„Wenn die Inferenz komplexer und dialogorientierter wird, wird sich der Leistungsbereich noch weiter verengen. Um diese Erwartungen zu erfüllen, sind nicht nur schnellere Rechenleistungen erforderlich, sondern auch intelligentere, verteiltere Netzwerke, die KI näher an den Ort bringen, an dem sich Menschen – und Entscheidungen – befinden.

3. Verteilte KI-Workloads definieren die Vernetzung neu

Da die Nachfrage nach KI steigt, ist eine der größten Herausforderungen für Infrastrukturanbieter die Verfügbarkeit von Strom. In vielen Metropolen kann das Stromnetz den Energiebedarf von KI-Rechenzentren der nächsten Generation einfach nicht decken. „Wir stoßen in einzelnen Rechenzentren an unsere Leistungsgrenzen“, so Dellinger. „Das bedeutet, dass das KI-Training allmählich über Distanzen stattfindet – wobei vorhersehbare, deterministische Latenzzeiten zur neuen Priorität werden.“

Das alte Modell von Schulungszentren im Lagermaßstab weicht geografisch verteilten GPU-Clustern, die durch optische Verbindungen mit extrem niedriger Latenz verbunden sind. Es ist eine Neudefinition dessen, was Ost-West-Verkehr bedeutet. Das gilt nicht mehr nur auf eine einzige Anlage, sondern über Kilometer oder sogar ganze Regionen.

Wenn es nicht vorher war, macht diese neue Architektur die Rolle der Interconnection geschäftskritisch. Wir werden sehen, wie dieses Konzept der verteilten GPU-Cluster Realität wird, und Internet Exchanges (IXs) sind ein guter Ort, um das Potenzial dieser verschiedenen Rechenzentren zu kombinieren und zu erweitern.

Durch die Aggregation von Kapazitäten und die Minimierung der Latenz zwischen Standorten sind IXs einzigartig positioniert, um als neutrale, leistungsstarke Treffpunkte für verteilte KI-Workloads zu fungieren. Und es geht nicht nur um die Leistung, sondern auch um die User Experience. So betont auch Weckel: „Die Zeit bis zum ersten Token ist wirklich das Äquivalent zur Beschleunigung der Suche im KI-Zeitalter. Die Nutzer erwarten jetzt sofortige Antworten, genau wie wenn sie etwas googeln. Aus diesem Grund ist es so wertvoll, die Entfernung zwischen den Rechenzentren zu vergrößern und gleichzeitig die Latenz gering zu halten.“

4. Die Edge wird für die KI-Benutzererfahrung entscheidend sein

KI muss nicht nur leistungsstark sein; Sie muss schnell gehen. Da die Verbraucher zunehmend reibungslose Erlebnisse erwarten, wird die Latenz zu einem Dealbreaker. Aus diesem Grund rückt die Inferenz – der Prozess der Extraktion von Ergebnissen aus KI-Modellen – immer näher an den Rand.

Edge bedeutet, dass die Rechenleistung, die Anwendung und die Daten sehr nah am Benutzer sind. Wir alle hassen das 'Laderad', wenn es auftaucht. Wenn man heutzutage durch „Instagram“ oder „TikTok“ scrollt, fangen Videos einfach an. Das vermittelt ein ganz anderes User-Erlebnis. Und um dies zu erreichen, müssen Unternehmen sicherstellen, dass der Inhalt so nah wie möglich am Benutzer ist.

Rodney Dellinger ist CTO von Webscale bei Nokia.(Bild:  Nokia)
Rodney Dellinger ist CTO von Webscale bei Nokia.
(Bild: Nokia)

Cloud-Anbieter wie Cloudflare und Azure setzen LLMs bereits an der Edge ein, oft in derselben Stadt oder Region wie die Benutzer. Mit der Entwicklung der KI zu einer Reihe von interaktiven Echtzeitagenten wird diese Art der Nähe unerlässlich.

Dellinger drückte es so aus: „Da immer mehr Model-as-a-Service-Anwendungen entstehen, müssen sie näher an den Unternehmen sein, die sie nutzen, sonst wird die Latenz kaskadieren und das Kundenerlebnis wesentlich verschlechtern." In einer Post-KI-Welt ist die Edge nicht nur eine Leistungssteigerung; sie ist Voraussetzung.

5. Optik und Automatisierung werden zum Rückgrat skalierbarer KI-Netzwerke

Die Flut von KI-Anwendungen, die wir erleben, übt einen beispiellosen Druck auf die Netzwerkinfrastruktur aus, und die Optik, Glasfaserleitungen, leistet die Schwerstarbeit. Von Rechenzentrums-Fabrics bis hin zu Langstreckenverbindungen werden ständig neue Generationen optischer Technologien eingesetzt, um mit den Leistungsanforderungen Schritt zu halten. Und das reicht nicht. Dellingen sagt: „Lineare steckbare Optiken sind ein großes Gesprächsthema. Sie müssen die Optik immer näher an den Compute-Chip oder den Switching-ASIC bringen, und wir sehen bereits Requests for Proposal für 3,2 Terabit.“

Unscheinbar und doch beeindruckend: „ICE-X 800G ZR+“ bietet langstreckentaugliche Leistung in einem stromsparenden, steckbaren Formfaktor, einschließlich 800G-Übertragung über mehr als 1.700 km.(Bild:  Nokia)
Unscheinbar und doch beeindruckend: „ICE-X 800G ZR+“ bietet langstreckentaugliche Leistung in einem stromsparenden, steckbaren Formfaktor, einschließlich 800G-Übertragung über mehr als 1.700 km.
(Bild: Nokia)

Er setzt eine Produktbeschreibung hinzu: „Unsere 'Infinite Capacity Engine - Extensible (ICE-X) 800G ZR/ZR+' ist eine steckbare Transceiver-Technik, die die Leistung und Effizienz der 3-Nanometer-basierten CMOS-Technologie in Kombination mit Interoperabilität mit mehreren Anbietern nutzt, einschließlich offener probabilistischer Konstellationsgestaltung. ICE-X 800G ZR+ bietet langstreckentaugliche Leistung in einem stromsparenden, steckbaren Formfaktor, einschließlich 800G-Übertragung über mehr als 1.700 Kilometern. ICE-X 800G ZR/ZR+ werden sowohl im QSFP-DD800- als auch im OSFP-Formfaktor unterstützt.

Dellingen schwärmt: „800G ZR Plus kann bei dieser Datenrate 2.000 Kilometer zurücklegen, was für ein Pluggable dieser Größe überwltigend ist.“ Techniken wie diese lineare steckbare Optiken und kohärente Module rückten näher an die Rechenleistung selbst heran und trügen dazu bei, unnötige Umwandlungen zu vermeiden und Latenzzeiten zu minimieren. „Wir setzen uns sehr dafür ein, dass die Daten so lange wie möglich auf dem optischen Teil bleiben. Im Idealfall sollte nur eine Transformation im Router stattfinden. So lässt sich die Latenz reduzieren, weil unnötige Konversionen entfallen.“

Das reicht noch nicht

Doch Optik allein reicht nicht aus. Da Netzwerke immer verteilter, vielschichtiger und komplexer werden, ist die Automatisierung die einzige Möglichkeit, effektiv zu skalieren. „Ohne Automatisierung geht es einfach nicht“, sagt Dellinger.

Man braucht echtes Network-as-a-Service mit einem allgegenwärtigen Datenmodell, das ein disaggregiertes, plattformübergreifendes Netzwerk bewältigen kann. .

Rodney Dellinger, CTO von Webscale bei Nokia

Denn: KI-gesteuerte Workloads erfordern dynamische, deterministische Konnektivität, nicht nur statische Pipes. APIs, Self-Service-Portale und intelligente Orchestrierung werden entscheidend sein, um die Art von KI-Diensten bereitzustellen, die schnell, konsistent und skalierbar arbeiten.

*Der Autor
Dr. Thomas King ist CTO des globalen Internet-Exchange-Betreibers DE-CIX. Sein Fazit lautet: So schnell sich die künstliche Intelligenz weiterentwickelt, so schnell muss sich auch das Netzwerk weiterentwickeln. Von der Kanteninferenz bis zur Langstreckenoptik wird die Zukunft der Konnektivität den Unterschied zwischen KI als Konzept und KI als Plattform ausmachen, auf der die Zukunft realistisch aufgebaut werden kann.

Bildquelle: Nokia

Artikelfiles und Artikellinks

(ID:50414989)