Wenn KI ins Rechenzentrum einzieht Wasseranschluss? Haben wir nicht!

Ein Gastbeitrag von Peter Dümig, Senior Product Manager Server von Dell Technologies Deutschland Lesedauer: 4 min |

Anbieter zum Thema

Immer mehr Unternehmen planen den Betrieb von KI-Anwendungen. Was vielen dabei nicht bewusst ist: Die nötige Hardware kann ein anderes Setup des Data Centers erfordern. Dell Technologies erklärt, worauf es bei der Implementierung ankommt.

Der Einzug von KI-Anwendungen ins Rechenzentrum will gut geplant sein - Dell weiß, worauf es dabei ankommt.
Der Einzug von KI-Anwendungen ins Rechenzentrum will gut geplant sein - Dell weiß, worauf es dabei ankommt.
(Bild: Cliff Hang / Pixabay)

Wenn Unternehmen KI-Anwendungen betreiben wollen, bekommen sie es in ihren Rechenzentren oft mit einer ganz anderen Art von IT zu tun. Künstliche Intelligenz erfordert meist deutlich leistungsfähigere Server als herkömmliche Anwendungen – diese Server verbrauchen mehr Strom und produzieren deshalb auch größere Mengen an Abwärme. Klassische Rechenzentren stoßen hier schnell an ihre Grenzen.

Um KI-fähige Hochleistungsserver zu betreiben, sind besondere Rechenzentren erforderlich, die mit einer extra starken Stromversorgung und Hochleistungs-Racks ausgestattet sind. Darüber hinaus sind spezialisierte Kühlungssysteme erforderlich, die die erzeugte Abwärme der Hochleistungsserver effizient bewältigen. Die klassische Kalt- und Warmgangeinhausung reicht dafür oft nicht mehr aus.

Die individuelle Anwendung entscheidet

Natürlich ist KI nicht gleich KI. Welche Serverleistung Unternehmen tatsächlich benötigen, hängt von der individuellen Anwendung ab, die sie umsetzen möchten. Und auch innerhalb der verschiedenen Prozesse einer KI-Anwendung gibt es Unterschiede. So benötigt das Training von KI-Modellen deutlich mehr Rechenleistung als der Inferencing-Prozess, also der Arbeitseinsatz des trainierten Modells im täglichen Betrieb. Bei einigen Anwendungen können Unternehmen beim Inferencing sogar ohne Grafikkarten auskommen. Moderne CPUs sind heute bereits in der Lage, viele Inferencing-Prozesse zu bewältigen. Damit sparen sich Unternehmen nicht nur die Kosten für eine Grafikkarte, sondern können die Server auch mit herkömmlicher Stromversorgung und Kühlung betreiben. Das zahlt sich vor allem bei industriellen Anwendungen aus, bei denen sich die Inferencing-Server im Feld befinden und nicht beliebig gekühlt werden können – etwa bei KI-Anwendungen, die durch die Messung und Auswertung optischer oder akustischer Signale den Betrieb von Anlagen vor Ort überwachen.

Für das Training von KI-Modellen sind dagegen in aller Regel Server mit Grafikkarten erforderlich. Allerdings bedeutet das nicht zwangsläufig, dass Hochleistungsserver mit entsprechender Stromversorgung und Kühlung erforderlich sind. Kleinere KI-Modelle können unter Umständen auch mit klassischen Rack-Servern trainiert werden, die mit kleineren Grafikkarten mit einer Leistungsaufnahme von jeweils etwa 500 Watt TDP bestückt sind. Standard-Rack-Server lassen sich über ihre PCI-Steckplätze mit bis zu vier Grafikkarten ausstatten, die im Falle von NVIDIA-GPUs über die NVLINK-Technologie zu einem großen Arbeitsspeicher-Pool zusammengeschaltet werden können. Da die Grafikkarten mit vergleichsweise langsamen PCI-Verbindungen arbeiten und nicht mit schnellen proprietären Bussen ausgestattet sind, haben sie auch keinen erhöhten Strombedarf sowie keine erhöhte Wärmeabgabe und können daher in Standard-Racks mit klassischer Kühlung betrieben werden.

HPC-Server erfordern andere Stromversorgung und Kühlung

Das Training größerer KI-Modelle verlangt dagegen in der Regel nach dedizierten Servern für High Performance Computing (HPC). Solche Systeme sind beispielsweise mit vier NVIDIA GPUs mit einer Leistungsaufnahme von jeweils bis zu 700 Watt TDP ausgestattet, deren Arbeitsspeicher über schnelle proprietäre Busse geclustert sind. Damit kann ein erhöhter Energiebedarf einhergehen, den herkömmliche Racks mit einer Kapazität von 10 bis 15 kW, wie sie derzeit in den meisten Rechenzentren üblich sind, nicht bewältigen können. Für solche Serveranforderungen sind Hochleistungs-Racks mit einer Leistung von 45 kW oder sogar bis zu 100 kW nötig, was wiederum eine entsprechend dimensionierte Stromversorgung in den Rechenzentren erfordert.

Auch die Hitzeabstrahlung solcher HPC-Server ist deutlich höher als bei klassischen Systemen. Um das Problem der Kühlung möglichst einfach zu lösen, hat der Markt spezielle Systeme entwickelt, die den Gegebenheiten in den Rechenzentren von Unternehmen Rechnung tragen. Denn vor allem Industrieunternehmen haben dort in der Regel keinen Wasseranschluss und können deshalb nicht ohne weiteres eine Wasser- oder DLC-Kühlung realisieren. Ein Lösungsansatz dafür sind HPC-Server, die einen so genannten „Closed Loop“ für die Kühlung umsetzen. In diesen Servern wird eine interne Wasserkühlung für die Grafikkarten verwendet, um die erzeugte Wärme effektiv über einen ausgedehnten Wärmetauscher und große Lüfter abführen. Im Gegensatz zu klassischen Rack-Servern weisen diese Server jedoch eine Höhe von vier Höheneinheiten (HE) auf. Ein alternativer Lösungsansatz sind komplett luftgekühlte HPC-Server, die dann allerdings sechs HE im Rack beanspruchen.

Solche Systeme ermöglichen Unternehmen hohe Energiedichten, ohne dabei auf eine Wasserkühlung angewiesen zu sein. Allerdings ist aufgrund ihrer Größe nur ein gewisser Platz im Rack für eine begrenzte Anzahl von Maschinen verfügbar. Für höchste Anforderungen, wie sie vor allem Forschungseinrichtungen und Universitäten, aber auch Forschungsabteilungen großer Unternehmen haben, gibt es daher kompaktere Lösungen. Sie bringen vier Grafikkarten in einem Rack-Server mit zwei HE unter und ermöglichen es dadurch, deutlich mehr Geräte in ein Rack einzubauen. Für diese Systeme ist allerdings ein Rechenzentrum mit Wasserkühlung unerlässlich.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Die Cloud als Alternative?

Peter Dümig, Senior Product Manager Server von Dell Technologies Deutschland
Peter Dümig, Senior Product Manager Server von Dell Technologies Deutschland
(Bild: Dell)

Für Unternehmen, die die Implementierung einer lokalen KI-Anwendung planen, ist es von großer Bedeutung, eng mit ihrem Softwareanbieter, ihren Beratern oder ihrer Fachabteilung zusammenzuarbeiten, um herauszufinden, welche Hardware-Anforderungen erfüllt werden müssen. Zudem sollten sie sicherstellen, dass ihr Rechenzentrum über die notwendigen Ressourcen für den Betrieb der Hardware verfügt. Es ist schließlich durchaus möglich, dass die erforderliche Infrastruktur erst noch geschaffen werden muss.

Ob die Cloud eine Alternative sein kann, um aufwändige und kostspielige Anpassungen am eigenen Rechenzentrum zu vermeiden, hängt vom individuellen Fall ab. Cloud-Anbieter benötigen natürlich dieselbe Infrastruktur und haben viel Geld in ihre KI-fähigen Systeme investiert. Daher ist die Cloud für solche Anwendungen trotz Skaleneffekten alles andere als kostengünstig. Nutzt ein Unternehmen ein Cloud-System nur wenige Stunden im Monat, kann es tatsächlich die bessere Variante sein. Bei einem Rund-um-die-Uhr-Betrieb dagegen ist On-Premises mit Sicherheit die kostengünstigere und effizientere Lösung.

(ID:49725862)