Domain Specific Accelerator für Inferenzen KI-Computing ist eine Chimäre der digitalen Welt

Quelle: Pressemitteilung Ampere Computing 4 min Lesedauer

Anbieter zum Thema

Die Chimäre ist in der griechischen Mythologie eine Kreuzung aus Löwe, Ziege und Schlange. Sie hat den Kopf des Löwen, den Körper der Ziege mit einem weiteren Ziegenkopf auf dem Rücken und den Schwanz den Schlange. Nebenbei spuckt das Untier auch noch Feuer. Heute bezeichnet der Begriff unter anderem technische Konzepte, die auf der Kombination verschiedener Ansätze beruhen.

(Bild:  frei lizenziert: Julius H. /  Pixabay)
(Bild: frei lizenziert: Julius H. / Pixabay)

So kann man sich die Kombination von Central Processing Unit (CPU) und Domain Specific Accelerator (DSA) als eine moderne Chimäre vorstellen. Ähnlich wie die mythische Bestie besitzt dieser technologische Hybrid unterschiedliche Stärken, die zu einer einzigen, beeindruckenden Einheit kombiniert werden.

Die CPU herrscht über Kontrolle und Logik, sie steuert die Aufgaben und sorgt für Ordnung. Der DSA zeichnet sich durch seine spezialisierte parallele Verarbeitung aus, mit der er sich wiederholende Berechnungen bewältigt, die für die KI unerlässlich sind. Die Konnektivität zwischen ihnen gewährleistet eine nahtlose Kommunikation und Energieübertragung, so dass die Anwendung ihre volle Rechenleistung entfalten kann.

CPUs und DSAs für Cloud- und KI-Erfolg

In der heutigen Welt der ständig steigenden Rechenanforderungen ist es wichtig, das richtige Gleichgewicht der Rechenleistung zu finden. Von traditionellen Geschäftsanwendungen bis hin zu modernster KI benötigen Unternehmen eine flexible und effiziente Infrastruktur. Genau hier kommt die Kombination aus CPUs und DSAs zum Tragen.

CPUs sind die Gehirne von Computern, die eine große Anzahl von vielseitigen Anwendungen bewältigen. Sie zeichnen sich durch sequenzielle Verarbeitung und die Bewältigung einer breiten Palette von Aufgaben aus. CPUs allein können hauptsächlich herkömmliche KI-Inferenzmodelle sehr gut zusammen mit Large Language Models (LLMs) mit geringer Stapelgröße ausführen. Wenn jedoch mehr Leistung benötigt wird, kommen DSAs zum Einsatz.

DSAs sind auf Aufgaben wie die KI-Verarbeitung spezialisiert und daher unglaublich schnell bei der gleichzeitigen Ausführung sich wiederholender Berechnungen. Es gibt sie in vielen Formen, Größen und Bezeichnungen: GPUs, TPUs, ASICs, FPGAs, VPUs, usw. Ihre besondere Stärke macht sie zur treibenden Kraft hinter der KI-Inferenz. Wenn es um LLMs oder hochspezialisierte Modelle und Datensätze geht, bieten DSAs die zusätzlich benötigte Rohleistung.

Warum CPUs und DSAs kombinieren?

Kosteneffiziente Vielseitigkeit: Durch die Nutzung sowohl von CPUs als auch von DSAs gewinnen Cloud-Umgebungen an Flexibilität. Herkömmliche Workloads können problemlos auf CPUs ausgeführt werden, während die größten oder spezialisiertesten KI-Inferenzaufgaben auf die DSAs verlagert werden können, um die Leistung zu beschleunigen und die Kosten und Ressourcenzuweisung zu optimieren.

Nahtlose Arbeitsabläufe: Bei komplexen KI-Anwendungen arbeiten CPUs und DSAs auf komplementäre Weise zusammen. Die CPU kann die Vorverarbeitung von Daten, die Aufgabenkoordination und das Gesamt-Management übernehmen, während der DSA die komplexen und spezialisiertesten Berechnungen für das KI-Modell durchführt.

Einfache Skalierbarkeit: Cloud-Umgebungen mit einer Mischung aus CPU- und DSA-Instanzen können je nach den Anforderungen herkömmlicher Arbeitslasten und der KI-Inferenz einfach nach oben oder unten skaliert werden, um sicherzustellen, dass die Ressourcen stets effizient genutzt werden.

KI wird Teil aller Anwendungen

Isolierte künstliche Intelligenz ist Geschichte. Die Zukunft erfordert KI als wesentlichen Baustein für jeden Service und jede Anwendung. Da Server länger im Einsatz bleiben, müssen Unternehmen Ihre Infrastruktur der nächsten Generation mit möglichst vielen Rechenkernen und KI-Beschleunigung ausstatten. So stellen sie sicher, dass ihre Services heutigen und zukünftigen Anforderungen genügen.

In den folgenden Artikel sieht Jeff Wittich, Chief Product Officer von Ampere Computing, die Ausstattung für Inferenzanwendungen noch ganz anderes.

Ampere-Instanzen in der Oracle-Cloud

Ampere und Oracle Cloud Infrastructure (OCI) haben in der vergangenen Woche die Einführung von Ampere-basierten Compute-Instanzen der zweiten Generation angekündigt. Die neuen „OCI Ampere A2 Compute Instances powered by Ampere-One“böten das beste Preis-Leistungs-Verhältnis ihrer Klasse, so Ampere Computing.

Das Angebot baut auf dem Erfolg der Die neuen „OCI Ampere A2 Compute Instances powered by Ampere-One“bieten das beste Preis-Leistungs-Verhältnis ihrer Klasse, so Ampere Computing. Das Angebot baut auf den „OCI Ampere A1“Compute-Instanzen auf, die derzeit und in über 100 OCI-Diensten eingesetzt werden, darunter Oracle-Datenbankdienste wie „Heatwave MySQL“ sowie Oracle Cloud Applications.

Die OCI Ampere A2 Compute-Instanzen bieten virtuelle Maschinen mit hoher Kernanzahl und Container mit hoher Dichte auf einem einzigen Server. Jeff Wittich, Chief Product Officer bei Ampere, sagt: „OCI und Ampere begannen ihre Zusammenarbeit mit den A1-Formen. Wir haben die Vielseitigkeit dieser Shapes bei einer Vielzahl von Workloads unter Beweis gestellt, von allgemeinen Anwendungen und OCI-Diensten bis hin zu dem kürzlich angekündigten und äußerst anspruchsvollen Anwendungsfall: 'Llama3', generative KI-Dienste.“

Zu den wichtigsten Merkmalen, Preisen und Leistungskennzahlen der OCI Ampere A2 Compute Instances gehören:

  • Bis zu 78 OCPUs (1 OCPU = 2 Ampere-One Cores, 156 Cores insgesamt)
  • Bis zu 946 Gigabyte (GB) DDR5-Speicher mit 25 Prozent mehr Bandbreite im Vergleich zu A1 - Flexible VM-Größen mit bis zu 946 GB Speicher und Blockspeicher-Boot-Volumen von bis zu 32 TB
  • Netzwerkbandbreite von bis zu 78 Gigabit pro Sekunde (Gbps) Ethernet und bis zu 24 VNICs
  • ARM-basierte Cloud Compute-Preise bei 0.014 Dollar/OCPU/Stunde und 0,002 Dollar/GB/Stunde. Dabei erlauben „Oracle Flex Shapes“ den Kunden, die Anzahl der Kerne ihres Shapes auf der Grundlage ihrer tatsächlichen Arbeitslasten abzustimmen, um noch mehr Einsparungen zu erzielen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Artikelfiles und Artikellinks

(ID:50142890)