Suchen

Der gnadenlose Kampf um die bessere KI-Leistung FPGAs statt GPUs?

| Autor / Redakteur: Anna Kobylinska und Filipe Martins* / Ulrike Ostler

KI-Workloads, ob im Kernrechenzentrum oder an der Edge, lassen sich lange nicht allein mit konventionellen CPUs bewältigen. Allenthalben stellt sich die Suche nach dem Königsweg. „FPGAs oder GPUs?“ lautet immer häufiger die Frage. Nvidias Übernahme der Chip-Denkfabrik ARM hat kürzlich noch viele andere aufgeworfen.

Firmen zum Thema

Mit Durchblick: Reinraum zur Produktion von Halbleitertechnik der Pro Design Electronic GmbH in Bruckmühl bei München.
Mit Durchblick: Reinraum zur Produktion von Halbleitertechnik der Pro Design Electronic GmbH in Bruckmühl bei München.
(Bild: Pro Design Electronic GmbH)

„Die Welt, die vor uns liegt, wird maßgeblich von KI geprägt“, beschwört Simon Segars, Geschäftsführer von Arm Holdings. Unter seiner Leitung geht die britische Halbleiter- und Chip-Designer in den Besitz von Nvidia über. „Wir stehen aktuell erst am Anfang“ [der KI-Revolution]“, fügt Segars hinzu.

„Die Welt, die vor uns liegt, wird maßgeblich von KI geprägt“, so Simon Segars, Geschäftsführer von ARM Holdings.
„Die Welt, die vor uns liegt, wird maßgeblich von KI geprägt“, so Simon Segars, Geschäftsführer von ARM Holdings.
(Bild: ARM Holdings)

Sechs der Top 10 weltweit schnellsten Supercomputer nutzen Nvidias High-End-GPUs, die ultimativen Hardwarebeschleuniger der Extraklasse.

In bis zu 150 Milliarden vernetzten Geräten – von Wearables bis hin zu HPC – werkeln heute ARM-Kerne. Die Chips haben sich sowohl bei der KI-Inferenz an der Edge als auch in vielen Datacenter-Workloads bewährt und kommen in Bereichen wie der Industrie-Automation und dem autonomen Fahren verstärkt zum Einsatz, wo auch Nvidia stark vertreten ist – und auch künftig bleiben möchte.

Unter Dach und Fach: NVIDIAS Akquisition der britischen Chip-Denkfabrik ARM Holdings bringt unter anderem marktführende RISC-CPUs, marktführende GPUs und FPGA-Expertise unter einen Hut. In der Abbildung: Die ARM Server Reference Design Platform von Nvidia.
Unter Dach und Fach: NVIDIAS Akquisition der britischen Chip-Denkfabrik ARM Holdings bringt unter anderem marktführende RISC-CPUs, marktführende GPUs und FPGA-Expertise unter einen Hut. In der Abbildung: Die ARM Server Reference Design Platform von Nvidia.
(Bild: Nvidia Corporation)

Laut einem Bericht des Informationsnetzwerks vom September 2020 hatte Nvidia im Jahr 2019 an dem Markt für KI-Lernbeschleuniger in Rechenzentren einen erdrückenden Anteil von nahezu 99 Prozent, der jedoch bis zum Jahr 2023 zugunsten von ASICs auf 89 Prozent schrumpfen soll („Hot ICs, A Market Analysis of Artificial Intelligence, 5G, CMOS Image Sensors, and Memory Chips“). Im Markt für Inferenz-Chips ist Nvidia dabei, den Marktanteil zugunsten von ASICs und FPGAs noch stärker einzubüßen.

Mit der Akquisition der britischen Chip-Denkfabrik Arm Holdings setzt sich die GPU-Schmiede diesem Trend zuwider. Der Schachzug bringt marktführende RISC-CPUs, marktführende GPUs und FPGA-Entwicklungsexpertise unter einen Hut. Bei ASICs handelt es sich im Grunde genommen um „nicht-mehr-programmierbare“ FPGAs.

Die Synergie-Effekte sind beachtlich und die Integration hat auch längst bereits begonnen. Der im Dezember vergangenen Jahres vorgestellte „Orin“ SoC von Nvidia integriert Nvidias GPU-Architektur der nächsten Generation mit CPU-Kernen Arm Hercules. Die Lösung bildet das Herzstück der Plattform „Drive AGX Orn für autonome Maschinen. Solcher Beispiele gibt es zuhauf.

Eines der erklärten Hauptziele von Nvidia im Hinblick auf die Akquise der britischen Chip-Denkfabrik bestehe darin, eine „erstklassige Compute-Plattform für Rechenzentren auf Basis der ARM-Architektur“ zu schaffen und die Zukunft des Cloud-to-Edge-Computings im Hinblick auf das Training und Inferenz von tiefen neuronalen Netzen zu gestalten. Die noble GPU-Schmiede will ihre Marktposition mit neuen Kompetenzen stärken und vergisst dabei geflissentlich, die Problematik der FPGAs beim Namen zu nennen.

Denn das „Cloud-to-Edge-Computing“ dreht sich im Großen und Ganzen um FPGAs (Field Programmable Gate Arrays, siehe dazu den Definitionsartikel „Die programmierbare Schaltung im Computer: Was ist FPGA - Field Programmable Gate Array?“ ). Hier kann ARM dank strategischer Partnerschaften mit Xilinx und Gowin trumpfen.

FPGAs stellen die vermeintlich größte Bedrohung für Nvidias Dominanz in der KI-Landschaft dar. Diese erschwinglichen, vor-Ort programmierbaren Hardwarebeschleuniger bieten eine flexible Alternative zu den auch so ausgefuchsten GPUs für den Einsatz in leichtgewichtigen KI/ML-Anwendungen. Sie haben vermutlich auch das Zeug dazu, Nvidias (wenn auch wohlverdient) stolze Preise etwas kundengerechter zu gestalten.

Noch wichtiger: Sogar dort, wo die Kosten nicht den Ausschlag geben, haben es GPUs schwer, mit der flexiblen Anpassungsfähigkeit von FPGAs Schritt zu halten.

Was für ein Zufall. ARM war einst strategischer Partner des FPGA-Pioniers Altera. In Zusammenarbeit mit ARM hatte Altera zum Beispiel das erste Embedded-Entwicklungs-Toolkit mit FPGA-Adaptabilitätsfähigkeiten zum Debuggen der vor-Ort-programmierbaren Beschleuniger veröffentlicht. Intel ließ sich Altera ca. 16,7 Milliarden Dollar kosten; rund fünf Jahre später fehlt dem Chip-Riesen immer noch ein Gesamtkonzept.

Heterogen: Die Intel-FPGA-Familie „Agilex“ setzt auf eine heterogene SiP-Architektur (System-in-a-Package) in 3D, um das erste FPGA-Fabric des Nachzüglers in 10-Nanometer-Technologie mit der zweiten Generation der hauseigenen FPGA-Architektur Hyperflex zu integrieren. Das Resultat ist immerhin wahlweise ein Performance-Boost von 40 Prozent oder eine Energieersparnis von 40 Prozent beim Einsatz im Serverraum, im Netzwerk oder an der Edge.
Heterogen: Die Intel-FPGA-Familie „Agilex“ setzt auf eine heterogene SiP-Architektur (System-in-a-Package) in 3D, um das erste FPGA-Fabric des Nachzüglers in 10-Nanometer-Technologie mit der zweiten Generation der hauseigenen FPGA-Architektur Hyperflex zu integrieren. Das Resultat ist immerhin wahlweise ein Performance-Boost von 40 Prozent oder eine Energieersparnis von 40 Prozent beim Einsatz im Serverraum, im Netzwerk oder an der Edge.
(Bild: Intel Corporation)

Wie dem auch sei. FPGA-Kompetenzen scheinen jedenfalls nach wie vor heiß begehrt zu sein.

F(ür die) P(rogressiv) G(rößtmögliche) A(npassungsfähigkeit)

Der weltweite Markt für FPGAs erreichte im vergangenen Jahr (2019) einen Umsatz von schätzungsweise 9,0 Milliarden Dollar. Xilinx ist mit FPGAs groß geworden. Seit der Übernahme von Altera gehört auch Intel mit zur Partie. Laut einer aktuellen Prognose von Grand View Research werde der weltweite Umsatz mit FPGAs voraussichtlich im Zeitraum von 2020 bis 2027 mit einer durchschnittlichen jährlichen Wachstumsrate (CAGR) von 9,7 Prozent zunehmen.

Serverfähig: Das „Virtex-UltraScale+ VU23P“-FPGA von Xilinx bietet sowohl 58G-PAM4-Transceiver als auch PCIe-Gen4-Schnittstellen.
Serverfähig: Das „Virtex-UltraScale+ VU23P“-FPGA von Xilinx bietet sowohl 58G-PAM4-Transceiver als auch PCIe-Gen4-Schnittstellen.
(Bild: Xilinx Inc.)

Angetrieben sei dieses Wachstum in erster Linie durch Unternehmen, die FPGAs als eine IaaS-Ressource in der Public-Cloud nutzten, glauben die Analysten von Grand View Research. Als einen weiteren relevanten Faktor für die steigende Nachfrage identifiziert der Bericht neue Investitionen von Rechenzentrumsbetreibern. Rechenzentren würden demnach FPGA-Beschleuniger bereits in großem Umfang einsetzen und würden in den kommenden Jahren noch mehr Kapital investieren wollen.

Auch an der Edge zeigen sich FPGAs als wettbewerbsfähig. Zu der robusten Nachfrage trage unter anderem die Automobilindustrie maßgeblich bei. Entwickler von ADAS (Advanced Driver Assistance System) bevorzugen FPGAs für Anwendungen des maschinellen Sehens, welche die Fähigkeiten zur Datenverarbeitung auf höherer Ebene hervorbringen müssen und eine fein granulierte Parallelität erfordern.

Unter der Bezeichnung „16-Nanometer-FinFET+“ bietet Xilinx seit November des vergangenen Jahres (2019) automobilgerechte Schaltkreise, um ADAS-Anwendungen und autonome Fahrzeuge mit eben diesen Anforderungsprofil zu adressieren. Diese Entwicklungen sind der GPU-Schmiede Nvidia aus verständlichen Gründen ein Dorn im Auge.

GPUs arbeiten zwar auch hochparallelisiert und bandweitenoptimiert (wodurch sie besonders bei Fließkommaoperationen und Matrixmultiplikationen trumpfen können). Doch in puncto Anpassungsfähigkeit verlieren sie gegen die FPGAs das Rennen.

Die höhere Anpassungsfähigkeit von FPGAs gegenüber GPUs (von anderen Chip-Architekturen ganz zu schweigen), die niedrige(re)n Kosten und der relativ geringere Energieverbrauch verwandeln sie in eine relevante Bedrohung für Nvidias GPU-Vorherrschaft.

Masse und Klasse

Am Schnittpunkt von KI, 5G und IoT köcheln Daten nur so vor sich hin. Tuxera-Analysten zufolge kann bereits ein einzelnes vollständig autonomes Fahrzeug durch mehr als 11 Terabytes pro Tag „durchbrennen“. Das ist ein Äquivalent von 100 Filmen in 4K-Auflösung im Hinblick auf die Menge von Rohdaten, die aber in Echtzeit über Leben und Tod entscheiden können.

Die KI/ML-Transformation fördert die Entstehung neuartiger Chip-Architekturen. FPGAs können ihre Anpassungsfähigkeit bei jenen Workloads besonders gut ausspielen. Denn sie erlauben es den Chip-Designern, architektonische Anpassungen und Verbesserungen sogar nach der Inbetriebnahme beim Kunden – mittels Software – vorzunehmen. Sie bilden die ideale Hardwareplattform für Hochgeschwindigkeits-Prototyping.

FPGA-Prototyping mit bis zu 1,728 Milliarden ASIC-Logikgatter

Zu den wichtigsten Anwendungsfällen für FPGAs zählt das Prototyping neuer System- und Anwendungsarchitekturen. Die Pro Deseign Electronic GmbH aus Bruckmühl bei München hat mit der „Pro FPGA“-Serie eine hochskalierbare, modularisierte FPGA-Plattform entwickelt und im September 2020 neue Systeme in der Edition „Uno“, „Duo“ und „Quad“ auf den Markt gebracht. Diese setzen auf der neuesten Generation der „Virtex Ultrascale+ VU19P“ FPGA-Technologie von Xilinx auf.

Die Systeme der Pro Design Electronic GmbH sollen die Markteinführungszeit verkürzen, indem sie kostspielige Re-Spins vermieden und die Erstellung früher Prototypen für die Software- und Anwendungsentwicklung ermöglichen. Die Architektur der Plattform ist modular und die Module sind wiederverwendbar. Der Nutzer kann zum Beispiel das Uno-System für die Entwicklung von IP oder Subdesigns verwenden und später dieselben FPGA-Module auf ein Duo- oder Quad-Motherboard aufstecken, um sie für das Prototyping eines kompletten SoC und ASICs wiederzuverwenden.

FPGA-Baukasten: Die Pro Design Electronic GmbH aus Bruckmühl bei München hat mit der „Pro FPGA-Serie“ eine hochskalierbare, modularisierte FPGA-Plattform entwickelt.
FPGA-Baukasten: Die Pro Design Electronic GmbH aus Bruckmühl bei München hat mit der „Pro FPGA-Serie“ eine hochskalierbare, modularisierte FPGA-Plattform entwickelt.
(Bild: Pro Design Electronic GmbH)

Das Quad-System skaliert von 1 auf bis zu 4 steckbaren FPGA-Modulen vom Typ „Virtex UltraScale+ VU19P“ und bietet bis zu 192 Millionen von ASIC-Logikgattern – das 1,6-fache der Kapazität der vorherigen Generation, die noch auf „Virtex Ultrascale XCVU440“ aufsetzte. Bis zu neun Pro FPGA Quad-Systeme mit insgesamt 36 FPGA-Modulen lassen sich miteinander verbinden, um satte 1,728 Milliarden ASIC-Logikgatter auf bis zu 7728 I/Os für das FPGA-Prototyping des größten SoC-Designs (System on Chip) zu erhöhen.

Das „Pro FPGA Quad VU19P“-System bietet 58 Erweiterungssteckplätze mit einer Kapazität von insgesamt 7728 FPGA-Standard-I/O. Dies ist etwa 45 Prozent mehr als bei der vorherigen Generation. Die QUAD-Plattform bietet außerdem 16 Erweiterungsplätze mit insgesamt 192 frei zugänglichen Multi-Gigabit-Transceivern zum Anschließen und Überprüfen von Hochgeschwindigkeitsschnittstellen wie PCIe-Gen4 oder QSFP28 an.

Die FPGA-Module verwenden ein Hochgeschwindigkeits-PCB-Design mit verzögerungsangepassten Signalleitungen und High-End-PCB-Materialien für eine verbesserte Signalintegrität und eine um bis zu 30 Prozent schnellere Ausführung als die vorherige „Pro FPGA XCVU440“-basierte Produktgeneration. Durch Standard-I/O erreicht das System eine Single-Ended-Punkt-zu-Punkt-Leistung von etwa 1,4 Gigabit pro Sekunde (Gbit/s) und über die Multi-Gigabit-Transceiver (MGTs) sogar bis zu 25 Gbit/s.

FPGAs im Feldeinsatz

FPGAs sind klar auf dem Vormarsch und nicht nur in Sachen IoT. Einige Cloud-Anbieter haben auch schon bereits FPGAs als einen Service im Köcher. AWS-Kunden können FPGA-Koprozessoren unter anderem in der „F1“-Familie von „EC2“-VMs als Hardwarebeschleuniger ihrer eigenen Workloads in Anwendungen wie dem Hochfrequenzhandel einspannen.

Hyperscaler nutzen FPGAs zudem auch intern, und zwar als Beschleuniger Service-orientierter Aufgaben wie der Transportverschlüsselung, für Speicher-Caching, Video-Transcoding und die Ausführung von Deep Learning-Algorithmen. „Microsoft Azure“ setzt auf FPGAs in der Lernphase tiefer neuronaler Netze (Deep Neural Networks), zur Berechnung des Bing-Rankings, die SDN-Beschleunigung und andere ML-Workloads. Auch Google stockt den eigenen Bestand an FPGAs kontinuierlich auf und hat dafür im vergangenen Jahr allein in den Vereinigten Staaten eine Summe von über 13 Milliarden Dollar vorgesehen.

Die möglichen Nutzungsszenarien sind zahlreich und vielfältig. FPGAs kommen nicht zuletzt auch zum Beispiel in der Hochsicherheitssensorik des Verteidigungssektors zum Einsatz. Die Xilinx Inc. hat mit den „Kintex“- und Virtex-Familien FPGAs für eben solche militärischen Anwendungen im Köcher. Diese Schaltkreise verfügen über Fälschungsschutzfunktionen zur Gewährleistung der Manipulationssicherheit und können extrem rauen Umgebungen im Dauerbetrieb standhalten.

Cyber-Gefahren der Programmierbarkeit

Doch auch FPGAs haben ihre Schattenseiten. Ihre bedarfsgerechte Programmierbarkeit „im Feldeinsatz“ wird oft mit erheblichen Risiken erkauft. Zu den größten Problemen beim Entwurf und Einsatz von FPGAs zählen Gefahren des Reverse-Engineering durch Dritte, aber auch Cyber-Bedrohungen durch die bedarfsgerecht anwenderfreundliche Programmierbarkeit eben.

Wissenschaftler am Karlsruher Institut für Technologie (KIT) haben im vergangenen Jahr eine Cyber-Verwundbarkeit in FPGAs aufgedeckt: Gateways, welche die betreffenden Systeme potenziellen Manipulationen aussetzten. Schuld daran seien Schnittstellen zur Partitionierung der Leistung einer FPGA.

„Die obere Hälfte eines FPGA kann einem Kunden zugewiesen werden, die untere Hälfte einem anderen“, sagte Jonas Krautter vom ITEC (Institute of Computer Engineering) am KIT. Diese Funktionalität möge für Cloud-Dienste sehr wünschenswert sein. Doch der Mehrbenutzerzugriff auf einen FPGA-Chip könne aus Sicht der Forscher ein Gateway für Seitenkanalattacken eröffnen.

Bei einem Seitenkanalangriff gegen eine FPGA versuchen Cyber-Kriminelle, von dem Energieverbrauch eines Chips auf die gerade verarbeiteten Daten zu schließen, um dann die Verschlüsselung aufzuheben. Ein böswilliger Cloud-Service-Kunde könne solche chipinternen Messungen nutzen, um einen anderen auszuspionieren. Er könne sie auch fälschen, um die Berechnungen anderer Kunden zu verändern und den Chip zum Absturz bringen.

Harte Schale für weichen Kern

FPGA-Hardening ist keine leichte Aufgabe. Es sei wichtig, sicherzustellen, dass ein IP-Baustein – im FPGA-Fachjargon ein vorkonfigurierter Satz von Logikfunktionen (aus dem Englischen für „Intellectual Property“, warum auch immer) – niemals den Rest des SoC gefährden könne, glauben die Ingenieure von Menta, eines Anbieters von „Trusted eFPGAs“. Das ist einfacher gesagt als getan.

Ein Systemarchitekt würde beim Verdacht auf Manipulationspotenzial des Designs versuchen, die risikobehafteten Teile des Designs von der programmierbaren Logik abzuisolieren. Eine Standalone-FPGA könne aber oft nicht die hierzu erforderliche Performance liefern, nicht mit hinreichend niedrigem Energieverbrauch (in Watt) glänzen und das Ausmerzen der Fehler den Budgetrahmen sprengen.

Zur Risikominderung kommen in der Praxis des Öfteren eFPGAs (embedded FPGAs) von Anbietern wie Xilinx oder eben Menta ins Spiel. Der Einsatz von eFPGAs in einem SoC erlaubt ein deutlich flexibleres Design, senkt die Leistungsanforderungen, verbessert die Performance und reduziert die Gesamtsystemkosten.

eFPGAs nehmen eine geringere Die-Fläche in Anspruch, so dass sich die resultierenden Kosten pro SoC nachher in Grenzen halten. Der geringere Fußabdruck hängt mit dem Wegfall der voll ausgewachsenen I/O-Infrastruktur zur Bereitstellung von Chip-zu-Chip-Konnektivität auf dem PCB (Printed Circuit Board) zugunsten von einem Embedded-Konnektivitätsgewebe. Dieses lässt sich auf die Anforderungen der betreffenden Anwendung maßgeschneidert zurecht schrumpfen.

* Das Autorenduo Anna Kobylinska und Filipe Pereira Martins arbeitet für McKinley Denali Inc. (USA).

Artikelfiles und Artikellinks

(ID:46917678)