Nvidia, Penguin und Pure Storage liefern Komponenten Meta plant den weltweit schnellsten KI-Supercomputer

Von Ulrike Ostler

Wie vor kurzem bekannt wurde, arbeitet Meta mit Hochdruck an einem KI-Supercomputer: der „AI Research Super Cluster“, Kurz: RSC soll der schnellste der Welt werden. Der Rechner soll mit Nvidia AI- und Management-Systemen ausgestattet sein, um die Optimierung über Tausende von Grafikprozessoren zu ermöglichen.

Anbieter zum Thema

Der „AI Research Supercluster“ (RSC) von Meta besteht aus Hunderten von „Nvidia DGX“-Systemen, die über ein „Quantum“ Infiniband-Netzwerk des Herstellers verbunden sind.
Der „AI Research Supercluster“ (RSC) von Meta besteht aus Hunderten von „Nvidia DGX“-Systemen, die über ein „Quantum“ Infiniband-Netzwerk des Herstellers verbunden sind.
(Bild: Nvidia)

Dass der Facebook-Konzern, der inzwischen Meta heißt, seine Ziele tendenziell eher hoch als niedrig steckt, ist nicht neu. Was das Unternehmen aus den USA am Montag der vergangenen vorgestellt hat, passt daher ins Bild: Im Laufe dieses Jahres will man mit der zweiten Bauphase eines KI-Superrechners fertig sein, der der schnellste sein soll.

Ehrgeizige Ziele

Geplant ist eine theoretische Rechenleistung von knapp 5 ExaFlops. Der Super-Cluster wird für die Erforschung und das Trainieren von rechenintensiven Modellen benötigt, etwa für das Natural Language Processing (NLP) von „Computer Vision“ eingesetzt. Diese Modelle können dann aus mehr als einer Billion Parametern bestehen und beispielsweise mit Hunderten von Sprachen arbeiten. Perspektivisch hilft es Meta dabei, die angekündigte Vision des „Metaverse“ wahr werden zu lassen und simultane Übersetzungen für große Gruppen zu ermöglichen, deren Mitglieder unterschiedliche Sprachen sprechen.

Nutzen will der Konzern für die Trainings anonymisierte Daten, wie versichert wird. Die Privatsphäre der Nutzerinnen und Nutzer soll also unangetastet bleiben. Die Daten blieben zudem bis kurz vor Trainingsbeginn verschlüsselt. Die für die Arbeit notwendige Entschlüsselung wiederum erfolge laut Meta erst im Speicher, ältere Datensätze würden regelmäßig gelöscht.

Auf diese Weise soll nicht mal ein physischer Zugriff auf den Supercomputer die Daten abgreifbar machen. Ein Web-basierter Angriff sei ebenso wenig möglich, da das Prestigeprojekt des Techkonzerns getrennt vom frei zugänglichen Internet laufen soll.

Technische Fakten

RSC besteht Projektangaben zufolge derzeit aus insgesamt 760 Rechenknoten, „Nvidia DGX A100“-Systeme. Sie verfügen über insgesamt 6.080 A100-GPUs die mit 200 Gigabit pro Sekunde per „Nvidia Quantum Infiniband Fabric" verbunden sind und eine TF32-Leistung von 1.896 PetaFlops liefern. Trotz der Herausforderungen durch COVID-19 habe es nur 18 Monate gedauert, um von einer RSC-Idee auf dem Papier zu einem funktionierenden KI-Supercomputer zu gelangen, so Nvidia.

Nvidia-Partner ist Penguin Computing. Das Unternehmen stellt zusätzlich verwaltete Dienste und eine KI-optimierte Infrastruktur für Meta bereit, die mit den „Altus“-Systemen des Unternehmens 46 Petabyte Cache-Speicher umfasst. Die All-Flash-Speicherfunktionen, die für RSC benötigt werden, liefern Pure Storage „Flashblade“- und „FlashArray//C-Systeme von Pure Storage.

Es ist das zweite Mal, dass Meta Nvidia-Technik als Basis für seine Forschungsinfrastruktur gewählt hat. Im Jahr 2017 baute Facebook die erste Generation dieser Infrastruktur für die KI-Forschung mit 22.000 „V100 Tensor Core“ GPUs, die 35.000 KI-Trainingsaufträge pro Tag verarbeiten. Die ersten Benchmarks von Meta haben jetzt gezeigt, dass RSC große NLP-Modelle dreimal schneller trainieren und Computer-Vision-Aufgaben 20-mal schneller ausführen kann als das vorherige System.

In einer zweiten Phase im Laufe dieses Jahres wird RSC auf 16.000 GPUs erweitert, die nach Metas Einschätzung eine KI-Leistung mit gemischter Präzision von satten 5 ExaFlops liefern werden. Zum Vergleich: Der derzeit schnellste Supercomputer „Fugaku“ liefert 442 PetaFlops (RPeak 537 Pflop/s); siehe: „Fugaku ist noch immer die Nummer 1 und Intel verliert; Die aktuelle Top500-Liste der Superrechner)“

Außerdem will Meta das Speichersystem von RSC erweitern, um bis zu einem Exabyte an Daten mit 16 Terabyte pro Sekunde zu speichern. Wenn der Supercomputer im Laufe dieses Jahres vollständig installiert ist, dürfte es sich laut Nvidia die bisher größte Kundeninstallation von DGX-A100-Technik handeln.

Im Vergleich zur bestehenden Produktions- und Forschungsinfrastruktur von Meta sollen Computer-Vision-Workflows bis zu 20 Mal schneller ausgeführt werden, die „Nvidia Collective Communication Library“ (NCCL) über neun Mal schneller laufen und große NLP-Modelle dreimal schneller trainiert werden. In der Folge könnte ein Modell mit mehreren Milliarden Parametern in drei Wochen fertig trainiert werden, statt wie bisher in neun Wochen.

Artikelfiles und Artikellinks

(ID:47964388)