Die Nachfrage nach Bandbreite nimmt weiter zu – und Künstliche Intelligenz (KI) beschleunigt diesen Trend. Schon heute hilft KI dabei, neue Effizienzniveaus zu erreichen. Schon jetzt sind Anwendungen wie „ChatGPT“ für viele Menschen in ihrem Berufs- und Privatleben unverzichtbar geworden.
Was soll im Rechenzentrum passieren? Die Antwort muss stehen bevor sich Netztwerk-Verantwortliche dem Grundatz widmen: Die Punkt-zu-Punkt Verkabelung ist weniger flexibel und erfordert mehr Einzelkabel; die strukturierte Verkabelung ist eingangs mit Mehrkosten verbunden.
(Bild: Corning)
Für die Nutzung von KI sind Rechenzentren der Grundbaustein, der das KI-Ökosystem untermauert. Um effizient und korrekt zu arbeiten, benötigt KI riesige Cluster von Grafikprozessoren (Graphic Processing Units, GPUs). Wie lassen sich diese Cluster intelligent und effizient einrichten, und was hat die Verkabelung damit zu tun?
KI-Training mit GPU-Clustern
Eine KI zu trainieren – sei es maschinelles Lernen oder Deep Learning – erfordert eine große Anzahl von GPUs, die mehrere Berechnungen gleichzeitig durchführen können. Um zu verstehen, wie dies funktioniert, ist es wichtig, die Unterschiede zwischen GPUs und Zentraleinheiten (Central Processing Unit, CPUs) zu kennen.
Wenn wir uns eine Sterneküche vorstellen, ist eine CPU der Chefkoch. Er beaufsichtigen alle Vorgänge, trifft wichtige Entscheidungen und sorgen dafür, dass alles reibungslos abläuft. Hauptprozessoren können eine Vielzahl von Aufgaben bewältigen, sind aber nicht auf eine bestimmte Sache spezialisiert.
Die GPU ist dagegen wie ein Sous-Chef, der sich auf die Zubereitung bestimmter Speisen spezialisiert hat. Der Sous-Chef kann viele Gerichte gleichzeitig zubereiten, ähnlich wie eine GPU viele Daten gleichzeitig verarbeiten kann.
Aufbau eines GPU-Cluster
Die meisten Netzwerke verwenden eine „Nvidia DGX-H100 Superpod“-Architektur für ihre KI-Workloads. Der Cluster kann in einem Middle of the Row- oder End of Row-Design angeordnet werden, was letztendlich vom spezifischen Kunden-/Rechenzentrums-Design abhängt.
Jede skalierbare Einheit oder Pod besteht aus 32 „H100„-Servern, und es gibt insgesamt acht Server-Schränke. Jeder Server-Schrank fasst vier Server, was insgesamt 256 GPUs pro Pod ergibt. Je nach den Bedürfnissen des Kunden kann ein Rechenzentrum nur ein Cluster mit vier skalierbaren Einheiten und 1.024 GPUs haben oder aber bis zu 64 skalierbare Einheiten, was über 16.000 GPUs entspricht.
Diese Server können entweder über eine Punkt-zu-Punkt Verkabelung angeschlossen werden, bei der jedes Gerät direkt mit einem anderen verbunden ist, oder über eine strukturierte Verkabelung, bei der zusätzliche Komponenten verwendet werden, um die Infrastruktur effektiver zu verwalten, insbesondere wenn die anzuschließenden Geräte nicht in unmittelbarer Nähe sind. Die Wahl der Verkabelung unterstützt die physische Konfiguration und das Layout der verschiedenen GPU-Cluster, was bei der Planung einer KI-Einrichtung entscheidend ist.
Punkt-zu-Punkt Verkabelung
Betrachten wird zunächst die Punkt-zu-Punkt Verkabelung und das kleinste Cluster mit vier skalierbaren Einheiten und 1.024 GPUs, um besser zu verstehen, wie dies funktioniert. Um dieses Cluster effektiv zu verkabeln, benötigen Rechenzentrumsbetreiber eine beträchtliche Anzahl von Patch-Kabeln, darunter 1.024 Server-zu-Switch-Kabel zur Verbindung von Knoten mit Leaf-Switches und 1.024 Kabel für Leaf-Switches zu Spine-Switches.
Bei Vorhandensein von InfinibandCore- oder Spine-Core-Switches wäre die gleiche Anzahl von Kabeln erforderlich. In diesem kleinen Cluster erfordert die Infrastruktur insgesamt 32 Leaf-Switches und 16 Spine-Switches, die die Spine-and-Leaf-Architektur für die Netzwerktopologie des Cluster bilden.
Jeder Server besteht aus acht GPUs, die jeweils einen Anschluss benötigen. Die Patch-Kabel von den GPUs werden an den Leaf-Switch angeschlossen, der sich in der Regel im Middle of Row- oder End of Row-Layout befindet. Anschließend müssen sie an den Spine-Switch angeschlossen werden, der sich möglicherweise nicht in der Nähe befindet. Das bedeutet, dass jede Verbindung von den einzelnen GPUs zum Leaf-Switch repliziert werden muss, was zu einer großen Anzahl von Einzelkabeln führt, die viel Platz im Rechenzentrum beanspruchen.
Hinweis:Corning hat für das Kompendium von DatacCenter-Insider „Krisenfeste Datacenter-Strategien“ einen ähnlichen Beitrag veröffentlicht. Interessenten können das Kompendium einfach herunterladen und/oder eine Adresse hinterlegen, zu der das Heft in gedruckter Form geliefert wird.
Was heißt ‚krisenfest‘ für Rechenzentren? Jedenfalls nicht nur Cybersecurity und physische Sicherheit – und das sind schon für sich Herkulesaufgaben. Unternehmen müssen Strategien parat haben, wie sie Veränderungen parieren und adaptieren wollen. Denn in Zeiten globaler Unsicherheiten und steigender Energiebedarfe sind Unternehmen gezwungen, ihre IT-Infrastruktur an neue Herausforderungen anzupassen. Do“ Im DataCenter Kompendium 2024, erfahren Leser wie sie Rechenzentren bei volatile Energiequellen, Softwarerisiken, neuen Kühlmethoden und den Anforderungen der Flexibilität krisenfest machen können. (PDF | ET 15.09.2024)
Krisenfeste Energie: Erfahren Sie, wie Sie volatile Stromquellen effektiv nutzen können.
Krisenfeste Software: Lernen Sie, welche Vorsichtsmaßnahmen bei der Verwendung von Open Source erforderlich sind.
Krisenfeste Modularität: Entdecken Sie die Vorteile von containerisierten Datacentern für mehr Flexibilität.
Krisenfeste Kühlung: Finden Sie Strategien zur Gewährleistung der Kühlresilienz in Ihrem Rechenzentrum.
Wenn wir jede Verbindung als ein einzelnes Patch-Kabel betrachten würden, müssten die Betreiber die Verfügbarkeit bestimmter Kabellängen auf der Grundlage der Möglichkeiten ihrer Kabellieferanten berücksichtigen. In einigen Fällen kann dies zu überschüssiger Kabellänge (Überlänge) führen, die verwaltet werden muss und Platz beansprucht.
Dieser Ansatz der Punkt-zu-Punkt Verkabelung stellt Rechenzentrumsbetreiber vor die Herausforderung, die Verkabelungsdichte und die Verfügbarkeit von Kabelkanälen für alle Verbindungen zu verwalten, einschließlich der Verbindungen vom Server zum Leaf-Switch, vom Leaf zum Spine-Switch und vom Spine zum Core-Spine-Switch. Diese Herausforderungen werden besonders deutlich, wenn das KI-Cluster skaliert oder erweitert wird.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Ist die strukturierte Verkabelung die Antwort?
Bei einer strukturierten Verkabelung hingegen werden Verteilerfelder oder -Gehäuse strategisch im Rechenzentrum positioniert, so dass die Geräte über kurze Patch-Kabel oder Mehrfaserkabel mit dem Netz verbunden werden können. Mehrfaserige Trunks sorgen für dauerhafte Verbindungen zwischen den Verteilerfeldern, die das „strukturierte“ Rückgrat dieses Systems bilden und eine dauerhafte und zuverlässige Netzinfrastruktur bieten. Das System bietet jedoch auch Flexibilität neue Anschlüsse hinzuzufügen oder von den aktiven Komponenten zu trennen.
Bei einem Backbone-Konzept mit mehrfaserigen Trunks werden alle für die GPUs benötigten Fasern in einem einzigen Kabel mit geringerem Durchmesser zusammengefasst, wodurch viel Platz gespart wird. Bei der strukturierten Verkabelung wird ein Patch-Kabel oder Mehrfaserkabel von der GPU zu einem Verteilerfeld verwendet, wobei ein Mehrfaser Trunk (MPO) durch den Kabelkanal zu einem weiteren Verteilerfeld und dann ein weiteres Patch-Kabel oder Mehrfaserkabel zum Leaf-Switch führt.
Vom Leaf-Switch aus kann dann eine ähnliche Kombination von Komponenten unter Verwendung eines Mehrfaser-Trunks als Backbone zum Spine-Switch-Bereich verlegt werden, was wesentlich weniger Platz in den Kabelkanälen des Rechenzentrums beansprucht und besonders nützlich ist, wenn größere Entfernungen überbrückt werden müssen.
Welches Layout ist das Richtige?
Ob die Wahl auf eine Punkt-zu-Punkt oder eine strukturierte Verkabelung fällt, hängt letztlich von den spezifischen Anforderungen und Einschränkungen des Rechenzentrums ab. Während eine Punkt-zu-Punkt Verkabelung in bestimmten Szenarien geeignet sein kann, ist es wichtig, die potenziellen Vorteile einer strukturierten Verkabelung zu untersuchen, insbesondere wenn die Nachfrage nach KI-Anwendungen steigt und die Größe von GPU-Clustern zunimmt. Die Punkt-zu-Punkt Verkabelung ist weniger flexibel und erfordert mehr Einzelkabel, die strukturierte Verkabelung ist eingangs mit mehr Kosten verbunden.
Diese Kosten amortisieren sich jedoch über einen längeren Zeitraum, insbesondere wenn Cluster schneller erweitert oder geändert werden können. Es können allerdings sowohl Punkt-zu-Punkt als auch strukturierte Verkabelungen je nach Standort oder Anwendung im Rechenzentrum „gemischt“ werden. So könnte ein Betreiber beispielsweise beschließen, eine Punkt-zu-Punkt Verkabelung für die Verbindung zwischen Server und Leaf-Switch zu verwenden, aber eine strukturierte Verkabelung für die Verbindung zwischen Leaf und Spine-Switch einzusetzen.
Darüber hinaus stellt das Aufkommen neuer Entwicklungen wie die „GB200“-Systeme von Nvidia Rechenzentrumsbetreiber vor zukünftige Herausforderungen. Diese fortschrittlichen Systeme können eine Neubewertung der aktuellen Verkabelungsstrategien und Infrastruktur-Layouts erforderlich machen, um optimale Leistung und Effizienz zu gewährleisten.
Schnelle und verantwortungsvolle Expansion von Rechenzentren
Mit Blick auf die Zukunft von KI-Clustern und der Infrastruktur von Rechenzentren spielt Nachhaltigkeit eine entscheidende Rolle. Rechenzentren müssen expandieren, um die zunehmenden Informationsströme zu verarbeiten, insbesondere da Maschinelles Lernen und Künstliche Intelligenz in immer mehr Branchen zum Einsatz kommen. Angesichts der Tatsache, dass die für den Betrieb und die Kühlung von Rechenzentren benötigte Energie bereits etwa 1 bis 2 Prozent des weltweiten Stromverbrauchs ausmacht, ist es unerlässlich, dass Betreiber verantwortungsbewusst wachsen.
Deshalb entwickelt Corning kleinere, dichtere Kabeldesigns unter Verwendung von Hochleistungsfasern mit kleinem Durchmesser, um zum einen die Datenübertragungskapazität zu erhöhen und gleichzeitig den CO2-Fußabdruck um bis zu 60 Prozent zu reduzieren. Die Integration solcher Verkabelungslösungen in die KI-Cluster ermöglicht es Rechenzentrumsbetreibern, nicht nur die Leistung und Effizienz zu steigern, sondern auch einen Beitrag zu einer widerstandsfähigeren, datengesteuerten und gerechteren Zukunft zu leisten.
Da sich die Landschaft der Rechenzentrumsinfrastruktur ständig weiterentwickelt, müssen Betreiber flexibel und offen für neue Methoden bleiben. Auf diese Weise können sie nicht nur ihren aktuellen Betrieb optimieren, sondern sind auch in der Lage, künftige Technologien nahtlos zu integrieren und die ständig wachsende Nachfrage nach KI-Anwendungen zu erfüllen.
*Der Autor Carlos Mora ist Market Development Manager bei Corning Optical Communications.