Verloren im Labyrinth der IT-Begriffe? Hier finden Sie Definitionen und Basiswissen zu Rechenzentrums-IT und -Infrastruktur.

Ganz verschiedene Arten von Rechen-Turbos Was ist Accelerated Computing?

Von M.A. Jürgen Höfling

Anbieter zum Thema

Wenn es um Beschleuniger im Compute-Bereich geht, ist schnell von GPUs, DPUs, IPUs und FPGAs die Rede. Aber es gibt noch viele weitere Methoden und Techniken, Rechnern und Rechenzentren auf die Sprünge zu helfen - es entsteht das Accelerated Computing.

Beschleuniger der neuen Art: QPU-Chip von QuantWare
Beschleuniger der neuen Art: QPU-Chip von QuantWare
(Bild: Quantware)

„Accelerated Computing“? Heißt das, man steckt einen Turbochip rein und ab geht die Post? Mit Sicherheit nicht - einfach weil es einen solchen universell einsetzbaren Turbochip überhaupt nicht gibt, sieht man einmal davon ab, dass der Austausch einer bestehenden Prozessorgeneration durch eine neu entwickelte Generation den Rechenprozessen neuen Schub verleiht. In der Regel jedenfalls, sicher ist das auch nicht immer.

Wenn nämlich schon in der alten Konfiguration die Software schlecht auf die Prozessor-Architektur abgestimmt war, dann kann diese missliche Tatsache mit der neuen und rein technisch deutlich schnelleren Prozessorversion womöglich noch einmal sichtbarer werden. Was von vornherein falsch konzipiert ist, wird durch pure Rechen-Power eher noch schneller an die Wand gefahren als verbessert.

Generalisten und Spezialisten

In einem Blog-Beitrag von Nvidia zum Thema von Rick Merritt „What is Accelerated Computing?“ vom 1. September 2019, wird im Rahmen der (durchaus berechtigten) Elogen über die Leistungen der Nvidia-GPUs auch der Parallelprozessor-Pionier Inmos mit seinem Transputer als Nvidia-Mitbewerber in den frühen 1990er-Jahren erwähnt und kommentiert: „Ein sehr guter Ansatz, aber es fehlte die Softwarelandschaft darum herum.“

Ganz richtig, genau darum geht es: um die möglichst passgenaue Abstimmung von Hardware und Software. In den Frühzeiten de Prozessorbeschleunigung waren es die Koprozessoren, die besonders gut in „Mathe“ waren und die mit ihren Spezialisten-Fähigkeiten bei Gleitkomma-Operationen dem Hauptprozessor als Generalisten auf die Sprünge helfen sollten.

Später kamen dann die digitalen Signalprozessoren, die auf schnelle Kommunikation spezialisiert waren und die Grafikprozessoren (GPUs) dazu, die besonders gut Bilder aufbauen können. Der eben genannte Transputer war im Übrigen sowohl Spezialprozessor, und zwar mit dem Spezialgebiet Parallelverarbeitung, hatte aber gleichzeitig auch alle Eigenschaften eines Universalprozessors. Vielleicht war das ja seine „geschäftliche Tragik“.

Die GPUs und ihre Ausprägungen

Mittlerweile sind „beschleunigende Prozessoren“ umfassend ausdifferenziert, schon allein die als GPU bezeichneten Chips haben viele Unterarten mit ganz speziellen Fähigkeiten: Maschinelles Lernen (ML) inclusive Verarbeitung natürlicher Sprache mit ML, Bildverarbeitung, Simulationsrechnungen, Deduktionsmechanismen im KI-Bereiche und mehr.

Das Anfang 2021 eingerichtete Zentrum für nationales Hochleistungsrechnen Erlangen an der dortigen Friedrich-Alexander-Universität (NHR@FAU) ist dafür ein gutes Beispiel. Das neue Hochleistungsrechner-Cluster „Alex“ von NHR@FAU besteht aus den beiden GPU-Servern NF5468A5 und NF5488A5 von Inspur, die sich ihrerseits aus insgesamt 256 NVIDIA A100 Tensor Core GPUs und 304 NVIDIA A40 Tensor Core GPUs zusammensetzen.

Je nach Aufgabenstellung, zum Beispiel Molekulardynamiksimulationen und ML-Lösungen, wird das eine oder das andere Cluster mit Programm und Daten bestückt. Mit dieser Kombination hat man eine leistungsstarke und flexible Lösung, da verschiedene Software- und Datenkombinationen eine unterschiedliche Auslastung von CPUs, GPUs, Speicher und Festplatten erfordern.

IPUs und SmartNICs als weitere Spezialchips

Obwohl GPUs mittlerweile eine Art Baukastensystem für die unterschiedlichsten Anwendungsfelder sind, gibt es daneben noch weitere (und nicht wenige) Spezialprozessoren, die bestimmte Bereiche des Computings beschleunigen und damit auch als Turbo für das gesamte Datacenter wirken. So können neuerdings die gesamten Infrastrukturoperationen, die für den Betrieb eines lokalen Rechenzentrums oder auch eines globalen Rechenzentrumsverbund via Cloud notwendig sind, an einen Spezialprozessor wie beispielsweise die 'Infrastructure Processing Unit' (IPU) von Intel ausgelagert werden.

Ähnliche Infrastrukturspezialisten gibt es auch für (virtualisierte) Netzwerk-Infrastrukturen und Funkverbindungen (SmartNICs). Derartige Spezialprozessoren werden in aller Regel als freiprogrammierbare Logikschaltungen (FPGAs) realisiert.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Da solche Spezialchips in Server- beziehungsweise Rechenzentrums- und Cloud-Umgebungen Standard sind oder demnächst werden, kann es sicher von Vorteil sein, wenn sie – wie beispielsweise Intel für seine künftigen „Arctic-Sound-M“-GPUs vermeldet – denselben Software-Stack und dieselbe API-Schnittstelle wie die dazugehörige CPU benutzen. So muss Software für beide Plattformen nur einmal entwickelt werden. Zugegebenermaßen sind die Nutzer dann an den entsprechenden Hersteller gebunden. Na ja, man muss für alles zahlen im Leben und auch in der IT.

SGX, CLX, Infiniband

Turbo-Elemente für das Computing sind nicht nur spezielle Chips, sondern auch komplette standardisierte Architekturen, die aus Software und Hardware bestehen. Intel „Software-guarded Extensions“ (SGX) ist ein solche Architektur, bei der mit einem Hardware-Software-Mix sensible Anwendungen und Daten, beispielsweise im medizinischen Bereich, durch einen hardwaregestützten Speicherschutz vor nicht-autorisiertem Zugriff geschützt werden.

Eine zentrale „Beschleunigungs-Architektur" ist der Compute Express Link (CLX), der mittlerweile (mit Version CLX 3.0) von allen relevanten Halbleiter-, Server-, Netzwerk- und Speicher-Herstellern unterstützt wird. Bei CLX handelt es sich um ein auf dem PCIe-Bus aufbauendes Verbindungssystem, das in einem Datacenter zwischen Zentrale und Peripherie alles mit allem direkt verbinden kann, und das sehr breitbandig und mit geringster Latenz.

CLX hat nicht nur das Zeug, die Daten zwischen dem zentralen Prozessor und den Peripherie-Komponenten noch schneller fließen zu lassen, sondern sorgt tendenziell auch dafür, dass ein Rechenzentrum sehr einfach, Energie-effizient und kostengünstig modularisiert werden kann und dass sinnloser Overhead vermieden wird. Für die gerade freigegebene Version CLX 3.0 fehlen aber derzeit noch die Komponenten. Aber das wird in zwei bis vier Jahren sicher anders sein.

Im Speicher- und Netzwerkbereich ist Infiniband ein wichtiger Rechen-Turbo. Der Netzwerk-Stack entfällt bei Infiniband. Dadurch wird die CPU entlastet und viele Kopiervorgänge vermieden. Nicht ohne Grund hat vor einigen Jahren das Accelarate-Computing-Schwergewicht Nvidia den dominierenden Infiniband-Protagonisten Mellanox in sein Imperium geholt.

Infiniband ist nicht so sehr eine Netzwerktechnologie als eher eine verlängerte Busstruktur, die vorwiegend im Bereich von Serverclustern, Server-Massenspeicher-Aggregaten sowie Rechenzentrum-Verbindungen verwendet wird. Auch Infiniband ist im Übrigen (wie auch CLX 3.0) als Weiterentwicklung des PCIBus entstanden.

QPUs und Analogrechner als Beschleuniger

Zukunftsträchtige Computing-Beschleuniger sind nicht zuletzt auch Quantenkomponenten.Quantum Processing Units (QPU) sind die CPUs, DPUs oder GPUs des Quantencomputings. Sie sind allerdings tückisch, QPUs sind sozusagen Qubits zusammen mit Schrödingerscher Wellengleichung. Die letztere so zu manipulieren, dass vernünftige Rechenergebnisse herauskommen, ist bekanntlich nicht einfach.

Wer mit QPUs rechnerisch Erfahrungen sammeln will, muss diese zwar nicht unbedingt selbst bauen, er oder sie sollten aber prinzipiell verstehen, was in deren Innerem abläuft. Erfahrungen mit QPUs lässt sich einerseits durch Cloud-Angebote sammeln, andererseits können Mutigere beziehungsweise Fortgeschrittene in Sachen Quantencomputing aber auch mit den vorkonfigurierten QPUs der niederländischen Firma Quantware experimentieren.

Da wir gerade bei den Quantenrechnern sind: diese sind ja gar keine richtigen digitalen Computer, sondern eigentlich verkleidete Analogrechner. Deshalb sei hier noch eine letzte (und provokante?) Bemerkung zum Thema Accelerated Computing angefügt: Zumindest für bestimmte Problemstellungen (durchaus nicht wenige) ist ein echter, moderner Analogrechner der wahre Beschleuniger.

Denn da ist der Rechneraufbau quasi gleich die Lösung. Da kommen auch die schnellsten CPUs, GPUs, DPUs oder IPUs nicht mit.

Artikelfiles und Artikellinks

(ID:48564089)