Kosten- und Energie-Effizienz im Berechnen von KI-Workloads HPC-Dienstleister Northern Data arbeitet mit AMD-CPUs und GPUs
Anbieter zum Thema
Northern Data bietet HPC-Dienstleitungen. Michel Boutouil, General Manager bei der Northern Data Software GmbH, sagt: „Der Service hat uns ebenso überzeugt wie die Flexibilität, der Open-Source-Ansatz, die Denkweise und die hochwertige und kosteneffiziente Technologie.“ Der High Performance-Spezialist hat sich für Hardware von Gigabyte bestückt mit AMD-Komponenten entschieden.

Auf dem schnell wachsenden Markt für Hochleistungs-Rechenzentren nehmen US-amerikanische Unternehmen oftmals eine Vormachtstellung ein. Doch die Konkurrenz aus Europa schläft nicht: Northern Data, ein europäischer Technologieanbieter, hat es sich zum Ziel gesetzt, noch mehr Unternehmen High-Performance Computing (HPC) Cloud-Services wie Machine Learning (ML) anzubieten.
Die Rechenzentren von Northern Data sind speziell für HPC-Workloads und moderne Software-Architekturen konzipiert und werden zu mehr als 90 Prozent mit erneuerbaren Energien betrieben. Trotzdem ist Energie-Effizienz ein Thema. Michel Boutouil, General Manager bei der Northern Data Software GmbH, sagt: „Es ist uns gelungen, den Stromverbrauch bei einem vergleichbaren Workload gegenüber anderen Cloud-Plattformen um 30 bis 40 Prozent zu senken.“
Derzeit plant Northern Data, einen lokalen Service anzubieten, der mit den neuen DSGVO-Gesetzen konform ist und die Einhaltung von Datenschutz und Datensicherheit gewährleistet. „Wir verfolgen das Ziel, den Hyperscalern für KI, Rendering und anderen HPC-Anwendungen Marktanteile abzunehmen“, führt Boutouil aus. „Wir bringen erschwingliche HPC-Anwendungen auf den Markt; denn HPC ist aus verschiedenen Gründen immer noch teuer. Dies hält kleine und mittelständische Unternehmen davon ab, in diesen Bereich Fuß zu fassen.“
Für die Umsetzung des Ziels benötigt Northern Data Technologiepartner, die die geforderte Leistung bei optimaler Kosteneffizienz liefern können. In Zusammenarbeit mit Gigabyte evaluierte das Unternehmen dabei das Potential von AMD-Technik und entschied sich für den Einsatz der „Epyc“- CPUs von AMD sowie den GPUs des Unternehmens „Instinct" , insbesondere im Hinblick auf Umfang und Kosten.
„AMD-Prozessoren sind sehr leistungsstark und Energie-efeffizient“, sagt Boutouil. „Als wir die GPU 'AMD Instinct MI50s' evaluierten, haben sie in großen Clustern besonders gut abgeschnitten, und ihr Stromverbrauch ist ebenfalls sehr niedrig.“
Die Zusammenarbeit wurde durch den direkten Dialog mit den AMD-Technikern zur Optimierung der Leistung der AMD Instinct GPUs bestärkt. „Wir stehen in engem Austausch mit dem AMD-Team und sind zuversichtlich, dass das AMD-Produkt für unsere Kunden eine gute Wahl für ML-Anwendungen ist, insbesondere in großem Maßstab.“
Schneller für nahezu die Hälfte der Kosten
Um die Leistung der AMD Instinct GPUs zu ermitteln, führte Northern Data eine Reihe von Tests durch, beginnend mit einer „Tensorflow“-Implementierung für das Training von Machin- Learnig-Frameworks. Dabei wurde gemessen, wie viele Sekunden eine Instinct MI50-GPU für das ML-Training mit 300.000 Bildern benötigte, im Vergleich zu einer typischen Infrastruktur eines großen Cloud-Anbieters. Letztere benötigte fast 9.000 Sekunden, während diere Rechendauer mithilfe der MI50-Technik deutlich unter 5.000 Sekunden lag.
Auf dieser Grundlage kam Northern Data zu dem Schluss, dass Graphical Processing Unit MI50 die Kosten für das Machine Learning-Training erheblich senken würde, weil ein vollständiger Trainingszyklus wesentlich kosteneffizienter sein könnte als bisher. Ferdinand Loesch, Software Engineer bei Northern Data, nennt Zahlen: „Bei der Vergleichsinstanz würde die Durchführung eines Experiments beispielsweise 1.987 Euro kosten. Mit AMD-Komponenten können wir das für 1.100 Euro, also für fast die Hälfte des Preises, leisten.“
Dies kann den Unterschied zwischen rentablen und unrentablen Prozessen beim Einsatz von ML ausmachen. „Beim Machine Learning führt man normalerweise mehrere Experimente durch – dabei sind verschiedene Teams involviert, die jeweils eigene Tests begleiten“, erläutert Loesch. „Das Ziel ist eine skalierbare Lösung. Wenn man am Tag 20 Experimente durchführt und davon jedes von ihnen zweitausend Euro kostet, kann das sehr schnell sehr teuer werden.“
Immer mehr Unternehmen nutzen jetzt regelmäßig auf diese Weise KI und ML. Wo die Treiber dieser Entwicklung sind, sagt Boutouil: „Soziale Medien werden eine große Rolle spielen. Und Unternehmen, die diese Art von Technologien einsetzen, werden sie beispielsweise für die Forschung nutzen. Auch Natural Language Processing (NLP) wird ins Gewicht fallen, wenn es um zukünftige Forschungs- und Analysefelder geht.“
Mit der AMD-Technologie kann Northern Data diese Felder einem breiteren Kundenkreis eröffnen, hofft er: „Da NLP immer teurer wird, geben wir KI-Startups die Chance, sich gegen große Player, die Millionen für die Ausbildung ausgeben können, zu behaupten.“
Lineare Skalierung mit AMD Instinct GPUs
In die Pläne passt es somit gut, dass die AMD Instinct GPUs auf lineare Weise skalieren: „Tensorflow Resnet50“ auf AMD Instinct MI50 GPUs verbesserte sich von etwa 400 Bildern pro Sekunde mit einer GPU auf etwa 2.250 Bilder pro Sekunde mit acht GPUs – fast genau die achtfache Leistung - was man sich erhofft hatte. Eine ähnliche Skalierbarkeit zeigte sich bei der Ausführung eines „Blender-3D-Rendering in einer Virtual Machine (VM) auf den AMD Instinct MI50 GPUs.
Die Energie-Effizienz konnte sogar noch mehr überzeugen: Acht GPUs erledigen mehr als die doppelte Arbeit per Watt, verglichen mit einer einzelnen. Der Grund: Die acht GPUs können auf einem einzigen Server mit AMD Epyc-CPU installiert werden, ohne dass die Bandbreite beeinträchtigt wird.
Möglich wird dies durch die 128 PCIe Express 4 Lanes pro Single Socket und bis zu 160 pro Dual Socket. Um diese hohen Anforderungen zu erfüllen, wurde der Server „Gigabyte G292-Z20“ aufgrund seines effizienten Designs und der Topologie ausgewählt. Diese ermöglicht einen maximalen Durchsatz für den AMD Instinct MI50.
Für ein Gehäuse mit zwei Höheneinheiten und hoher GPU-Dichte kann die Thermik eine Herausforderung darstellen. Dieser Server konnte sich allerdings bewähren, ohne die Leistung zu drosseln.
„Bei der Verteilung von Trainings-Workloads ist die sehr große Bandbreite für die GPUs sehr hilfreich“, sagt Software Engineer Loesch. Auf der Grundlage dieser positiven Resultate orderte Northern Data über 4.366 Single-Socket-Gigabyte-Server mit „AMD Epyc 7402P“-Prozessoren, die jeweils mit acht AMD Instinct MI50-GPUs ausgestattet sind.
Dies macht insgesamt 34.928 Beschleuniger aus. Von diesen Servern sind bisher etwa 2.000 im Einsatz.
Keine Kompromisse beim Stromverbrauch
Bereits jetzt zeigen sich positive Ergebnisse der Investitionen. Nicht nur, dass sich der gesenkte Stromverbaruch rechnet. „Zudem bewerten wir die Flexibilität des Open-Source-Ansatzes als sehr positiv“, so Boutouil. „Bedingt durch den niedrigeren Kostenaufwand können darüber hinaus mehr Menschen die Technologie nutzen, die bisher aus wirtschaftlichen Gründen dazu nicht in der Lage waren. Wir können schnelle Rechenzentren einrichten, und wir sind in der Lage, schnell zu skalieren, um große GPU-Cluster zu betreiben.“
Dieses Zusammenspiel eröffne zudem den Weg hin zu neuen Branchen, beispielsweise in Bereiche wie dem Gesundheitswesen, der Biotechnologie und MedTech. „Diese stellen besondere Ansprüche an Datenschutz und -sicherheit.“
Und immer wieder kommt er auf die Energie-Effizienz zurück. „Auch der CO2-Fußabdruck ist für uns besonders wichtig, wobei der geringere Stromverbrauch maßgeblich zur Energie-Effizienz beiträgt“, erörtert der Geschäftsführer. „Wir sehen unsere Rechenzentren nicht als Rechenzentrum für unsere Kunden. Vielmehr betrachten wir die IT als unseren Kunden. Auf dieser Basis versuchen wir, ein perfektes Setup aufzubauen, das zusammenspielt.“
Er fasst zusammen: „Wir haben mit Kollegen von Gigabyte und AMD zusammengearbeitet, um das optimale Setup für die Server und die optimale Leistungsdichte zu finden. Denn Platz ist Geld, und wir kaufen so wenig Platz, wie nötig.“
* Mario Silveira ist Corporate Vice President EMEA bei AMD.
Artikelfiles und Artikellinks
(ID:47619817)