Ein Realitätscheck für die Platzhirsche des Westens KI-Chips auf der Speisekarte - die Chinesen räumen ab!

Von Anna Kobylinska und Filipe Martins* 8 min Lesedauer

Die chinesischen Technologieriesen trotzen bisher dem Handelskrieg. Eine Reihe von KI-Chips für Rechenzentren und den intelligenten Netzwerkrand aus dem Reich der Mitte verbindet architektonische Innovationen mit Kostenvorteilen. Staun!

Shenzhen kann durchaus als Chinas Technologiehauptstadt bezeichnet werden. (Bild:  安琦 王 - stock.adobe.com)
Shenzhen kann durchaus als Chinas Technologiehauptstadt bezeichnet werden.
(Bild: 安琦 王 - stock.adobe.com)

Innovative KI-Chips, die nicht die Welt kosten, sind im Rechenzentrumsumfeld heiß begehrt. In vielen Anwendungsfällen mag es zweitrangig sein, woher sie jetzt genau kommen. Hauptsache, sie können rechnen und würden sich rechnen.

Vor dem Hintergrund restriktiver Exportbeschränkungen arbeiten chinesische Hersteller schon seit Jahren daran, sich der erdrückende Dominanz westlicher Technologievorreiter zu entziehen - nicht ohne Erfolg. Einige der chinesischen Anbieter haben inzwischen bemerkenswerte technologische Fortschritte in der Entwicklung und Fertigung eigener KI-Chips erzielt. Dem einen oder anderen der westlichen Platzhirsche hat es sicherlich zu denken gegeben.

Erfinder und Erfinderinnen des photonischen Chips „Taichi-II“: Professor Lu Fang vom Fachgebiet Elektrotechnik und Professor Qionghai Dai vom Fachgebiet Automatisierung, mit ihrem Team der Tsinghua-Universität.(Bild:  Tsinghua-Universität)
Erfinder und Erfinderinnen des photonischen Chips „Taichi-II“: Professor Lu Fang vom Fachgebiet Elektrotechnik und Professor Qionghai Dai vom Fachgebiet Automatisierung, mit ihrem Team der Tsinghua-Universität.
(Bild: Tsinghua-Universität)

Das Huawei-Kronjuwel: NPUs der Ascend-Reihe

Huawei hat sich mit seiner Chip-Serie Ascend als führender chinesischer Entwickler von KI-Beschleunigern einen Namen gemacht. Der neueste KI-Chip von Huawei, der „Ascend 910C“, markiert einen bedeutenden Fortschritt in den Bestrebungen, das eigene KI-Ökosystem vom Westen zu entkoppeln. Nach Tests von Deepseek erreicht der Ascend 910C etwa 60 Prozent der Inferenzleistung von „Nvidia H100 GPU“ - ein beachtlicher Erfolg, insbesondere angesichts der angespannten geopolitischen Lage.

Bei der Ascend-Reihe handelt es sich um keine klassischen GPUs, sondern um spezialisierte KI-Beschleuniger au der Kategorie der Neural Processing Units (NPUs). Diese Chips sind speziell darauf ausgelegt, Machine-Learning-Aufgaben, insbesondere Deep-Learning-Modelle, zu verarbeiten. Sie adressieren KI-Workloads in Rechenzentren und Edge-Anwendungen.

Der Prozessor Ascend 910C verwendet eine innovative Chiplet-Packaging-Architektur für seine rund 53 Milliarden Transistoren. Diese kleineren Einheiten werden getrennt produziert und anschließend zu einem integrierten Chip verbunden. So lassen sich die hohen Transistorzahlen wirtschaftlich umsetzen.

Die Leistung des Ascend 910C lässt sich durch die fein granulierte Optimierung des „CUNN“-Kerns (Compute Unified Neural Network Core) für bestimmte Rechenoperationen, Speicherhierarchien und Datenpipelines hochschrauben; dabei soll es möglich sein, gleichzeitig auch noch die Latenz zu erhöhen und die Energie-Effizienz zu verbessern. Bei CUNN ist von einer speziellen Recheneinheit für die Ausführung neuronaler Netze die Rede.

Deepseek bietet im Übrigen native Unterstützung für die Ascend-NPUs von Huawei. Im Zusammenspiel mit der „Pytorch“-Bibliothek soll eine nahtlose Konversion von „CUDA“ zu CUNN mit nur einer Codezeile gelingen. Diese nahtlose Portabilität von Code erleichtert die Integration von Huaweis Hardware in bestehende KI-Workflows aus dem Nvidia-Ökosystem (siehe: „Frameworks für das Accelerated Computing im Vergleich; CUDA, HIP/ROCm oder Unified DNA und oneAPI auf dem Schachbrett der KI-Vorherrschaft“).

Die Entwicklung des Ascend 910C war allerdings kein Zuckerschlecken. Berichten zufolge war sein Vorläufer, der „Ascend 910B“, von Defekten geplagt, was es für Huawei schwierig gemacht haben soll, die avisierten Lieferziele zu erreichen.

Die Lernkurve

Ein wichtiges Designziel des 910C dürften Verbesserungen gewesen sein, die eine höhere Ausbeute ermöglichen sollten, ähnlich wie es Huawei beim „Kirin 9010“ geschafft hatte. Laut einem Bericht der „Financial Times“ soll es Huawei gelungen sein, die Ausbeute des 910C in nur einem Jahr von 20 Prozent auf 40 Prozent zu verdoppeln. Als Nächstes strebe Huawei eine funktionale Produktionsrate von 60 Prozent an.

Im Gegensatz zu seinem Vorgänger, dem „Ascend 910“, der mit TSMCs N7+-Prozess hergestellt wurde, nutzt der 910C den Fertigungsprozess der zweiten Generation von SMIC im 7nm-Bereich (interne Bezeichnung N+2). Diese Umstellung auf einen chinesischen Fertigungsprozess ist eine Reaktion auf US-Sanktionen, die Huawei den Zugang zu etablierten Fertigungstechnologien verwehrt haben.

Das „Atlas 900“-KI-Cluster von Huawei besteht aus Tausenden von „Ascend“-Prozessoren, HCCS, PCIe 4.0 und 100G RoCE-Schnittstellen; es nutzt die Cluster-Kommunikationsbibliothek und die Job-Scheduling-Plattform von Huawei.(Bild:  Huawei)
Das „Atlas 900“-KI-Cluster von Huawei besteht aus Tausenden von „Ascend“-Prozessoren, HCCS, PCIe 4.0 und 100G RoCE-Schnittstellen; es nutzt die Cluster-Kommunikationsbibliothek und die Job-Scheduling-Plattform von Huawei.
(Bild: Huawei)

Gerüchten zufolge lag die Ausbeute der westlichen Technologieführer bei ihren neuesten KI-Chips zeitweise unter 10 Prozent; diese Unwirtschaftlichkeit — ein Verschnitt in Höhe von 90 Prozent — soll die Preisspirale mitverursacht haben.

Huawei betreibt bereits seit Jahren eigene KI-Rechencluster mit Ascend-GPUs in 19 Städten Chinas, darunter Beijing, Shanghai und Shenzhen. Das Unternehmen plant demnächst eine Expansion in wichtige Provinzhauptstädte wie Kunming, Changsha, Changchun und Jinan. Schätzungen zufolge dürfte Huawei bis Ende 2025 etwa 1,9 Millionen seiner GPUs kreuz und quer durch China installiert haben.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Die intelligente verlustlose Konnektivität eines „Atlas 900“ HPC-/KI-Cluster via 100GE-Gewebe sei „einzigartig in der Industrie“, so Huawei.(Bild:  Huawei)
Die intelligente verlustlose Konnektivität eines „Atlas 900“ HPC-/KI-Cluster via 100GE-Gewebe sei „einzigartig in der Industrie“, so Huawei.
(Bild: Huawei)

Obwohl der Ascend 910C im Bereich der Inferenz beeindruckende Fortschritte erzielen konnte, bleibt das KI-Training eine Herausforderung. Nvidia hat hier dank dem Zusammenspiel aus Hardware und Software nach wie vor die Nase vorne. Dennoch könnte die rasante Entwicklung der chinesischen Industrie das Gleichgewicht in den kommenden Jahren kippen, sollten sich die jetzigen Technologieführer zu lange auf ihren Lorbeeren ausruhen.

Chinas HBM2-Speicher

Trotz Sanktionen — oder gerade ihretwegen — konnte China bedeutende Fortschritte in der Entwicklung eigener Speichertechnologie erzielen, vor allem HMB2 (siehe: „ "Speicherstadt" in der Mikroelektronik; Was ist High Bandwidth Memory?“). Die Speicherchips sind unter anderem für den Bau der Ascend 910-Serie von Huawei unverzichtbar. Zuvor war China bei Memory-Chips mit HBM2-Bandbreite völlig auf Importe angewiesen.

Zu den führenden chinesischen Anbietern in diesem Bereich zählen ChangXin Memory Technologies (kurz CXMT) und Wuhan Xinxin Semiconductor Manufacturing Co., Ltd. (XMC). Als die globalen Marktführer gelten die südkoreanischen Hersteller SK hynix und Samsung sowie der US-Hersteller Micron.

CXMT, Chinas führender DRAM-Hersteller, hat im vergangenen Jahr mit der Massenproduktion von HBM2-Chips begonnen—etwa zwei Jahre früher als allgemein erwartet wurde. CXMT hatte in den Ausbau einer Produktionslinie für HBM-Speicher an seinem Hauptsitz in Hefei, der Hauptstadt der chinesischen Provinz Anhui, stark investiert. Das Unternehmen ist unter anderem auch in Beijing aktiv.

Gestapelt

Seit etwa Anfang 2025 produziert auch Tongfu Microelectronics, der drittgrößte Anbieter von OSAT-Dienstleistungen (Outsourced Semiconductor Assembly and Test) der Welt, einen eigenen HBM2-Speicher, für den es unter anderem Huawei als Kunden gewinnen konnte.

HBM-Speicher verwendet speziell entwickelte DRAM-Dies, die auf einem Basisstock gestapelt und durch Silizium-Vias (TSVs) miteinander verbunden sind. Tongfu Microelectronics kann weder Speicher- noch Logikbausteine in Eigenregie fertigen. Das Unternehmen muss DRAM-Dies und Basisstocks von Drittanbietern beziehen und montiert sie dann selbst zu HBM2-Stapeln.

Mit der einheimischen Produktion von HBM2-Chips reduziert China seine Abhängigkeit von ausländischen Lieferanten und stärkt sein eigenes KI-Ökosystem. Tongfu Microelectronics betreibt im Übrigen ein Joint-Venture mit AMD (TF-AMD). Als AMD Ende 2015 kurz vor der Insolvenz stand, ging das Unternehmen ein Joint Venture mit Nantong Fujitsu Microelectronics (NFME) ein. Im Rahmen der Vereinbarung hatte AMD seine Montage- und Testeinrichtungen (ATMP) in Suzhou (China) und in Penang (Malaysia) gegen eine Finanzspritze in Höhe von 371 Millionen Dollar sowie eine Beteiligung an der neu gegründeten Einheit, ATMP (kurz für Assembly, Test, Mark, and Packaging) getauscht. Im Zuge einer späteren Umstrukturierung ging NFME in Tongfu Microelectronics auf. So entstand das Joint Venture TF-AMD.

Die Aufholjagd

Analysten zufolge liegen chinesische Chiphersteller in der HBM-Technologie etwa ein Jahrzehnt hinter den globalen Marktführern zurück. Micron, Samsung und SK Hynix produzieren bereits HBM3 und HBM3E in Serie. Die Entwicklung von HBM4 mit 2048-Bit-Technologie ist bei allen drei Unternehmen in vollem Gange. SK Hynix zielt auf eine Massenproduktion von HBM4 bis Ende 2025 oder Anfang 2026 ab und will dabei TSMCs 3-nm-Prozess nutzen (ursprünglich war bei TSMC von 12-nm- und 5-nm-Knoten die Rede).

Micron will die Massenproduktion von HBM4 im Jahr 2026 starten. HBM4 wird eine 2048-Bit-Schnittstelle pro Stack verwenden, doppelt so breit wie HBM3 mit 1024 Bit. Stapel mit bis zu 16 DRAM-Dies dürften Kapazitäten von bis zu 64 GB pro Stack bei einer Bandbreite von 1,5 TB/s erreichen.

Doch die chinesische Firmen arbeiten eng mit südkoreanischen und japanischen Herstellern von Halbleiterausrüstung zusammen, um sich die notwendigen Werkzeuge für die HBM-Entwicklung anzueignen.

Photonische Chips aus China

Parallel zu der Aufholjagd bei konventionellen Ansätzen beschreiten chinesische Forschungsinstitute auch gerne grundlegend neue Wege. Und tatsächlich könnten photonische Chips einen völlig neuen Weg für die KI-Hardware-Entwicklung eröffnen und China einen technologischen Vorsprung in diesem lukrativen Marktsegment bescheren.

So wollen chinesische Forscher mit „Taichi-II“ den ersten Prozessor der Welt entwickelt haben, der vollständig mit Licht statt mit Elektronen betrieben wird. Der photonische Chip übertrifft „Nvidia-H100“-GPUs in Sachen Energie-Effizienz und trumpft mit einer um 40 Prozent höheren Genauigkeit bei Klassifizierungsaufgaben auf.

Geteilte Freude ist doppelte Freude: Die verteilte Architektur des optischen KI-Chips „Taichi“ auf einen Blick.(Bild:  Tsinghua-Universität)
Geteilte Freude ist doppelte Freude: Die verteilte Architektur des optischen KI-Chips „Taichi“ auf einen Blick.
(Bild: Tsinghua-Universität)

Der Chip nutzt eine neuartige Trainingsmethode für optische Chips mit der Bezeichnung Fully Forward Mode (FFM) Learning. Diese Methode ermöglicht eine hochgradig parallele Verarbeitung von Informationen in Lichtwellen und macht sich dabei die Fähigkeit dieser Informationsträger zu Nutze, sich gegenseitig zu überlagern und miteinander zu interagieren.

Die Architektur macht sich zwei optische Phänomene zu Nutze: Diffraktion (Beugung) und Interferenz: Passiv verarbeitende diffraktive Einheiten komprimieren hochdimensionale Eingangsdaten. Programmierbare Mach-Zehnder-Interferometer (die so genannten MZI-Arrays) führen rekonfigurierbare Matrixmultiplikationen durch; so bewältigt der Chip eine der Schlüsseloperationen zur Ausführung neuronaler Netze.

So kommt in dem photonischen Chip Diffraktion ins Spiel.  (Bild:  Tsinghua-Universität)
So kommt in dem photonischen Chip Diffraktion ins Spiel.
(Bild: Tsinghua-Universität)

Der Hauptvorteil dieser Methode liegt in ihrer Effizienz und Geschwindigkeit. Durch die parallele Verarbeitung können komplexe Berechnungen, die für das Training von neuronalen Netzen erforderlich sind, in einem Bruchteil der Zeit durchgeführt werden, die herkömmliche elektronische Systeme dafür benötigen. Dies führt zu einer erheblichen Beschleunigung des Trainings und ermöglicht die Verarbeitung größerer Datenmengen in kürzerer Zeit. Zudem ist FFM Learning ist Energie-effizienter als traditionelle Methoden und Licht effizienter als das Rechnen in Elektronen.

Taichi-II entstand an der Tsinghua-Universität (THU), einer öffentlichen Universität in Beijing, China. Der Chip erreicht eine Energie-Effizienz von 160 Tops/Watt (160 Billionen Operationen pro Watt) und übertrifft damit konventionelle KI-Chips um den Faktor 100 bis 1000.

Aktuelle photonische Chip-Architekturen für KI-Modelle erlauben die Nutzung von Hunderten oder Tausenden von Parametern. Das reicht aus für grundlegende Aufgaben wie Mustererkennung, doch große Sprachmodelle (LLMs) wie ChatGPT benötigen in der Trainingsphase Milliarden oder sogar Billionen von Parametern.

Der Photonikprozessor besteht aus mehreren optischen Chiplets, die als eigenständige Recheneinheiten fungieren. In einem Experiment haben chinesische Forscher mehrere Chiplets zu einem System mit 13,96 Millionen künstlichen Neuronen verbunden – fast zehnmal mehr als bei nächstgrößeren konkurrierenden Entwurf (1,47 Millionen Neuronen).

Chiplets als eigenständige Recheneinheiten

Statt tiefer neuronaler Netzwerke setzt Taichi-II auf Breiten-Skalierung. Rechenaufgaben werden in Teilprobleme zerlegt. Parallele Verarbeitung erfolgt auf verteilten Chiplets, gefolgt von einer adaptiven Rekombination der Teilergebnisse. Dadurch lassen sich selbst Modelle mit Milliarden von Neuronen realisieren.

Chinesische Forscher konnten die Vorteile des Chips unter anderem bei KI-Generativaufgaben wie der Bildsynthese empirisch nachweisen. Die natürliche Handhabung von Bild-Daten durch optische Wellenfronten sei ein Grund für die bahnbrechende Performance.

*Das Autorenduo

Das Autorenduo besteht aus Anna Kobylinska und Filipe Pereia Martins. Die beiden arbeiten für McKinley Denali, Inc., USA.

Ihr Fazit lautet: Die technischen Spezifikationen und Leistungsmerkmale der jüngsten Generation chinesischer KI-Chips malen das Bild eines zunehmend unabhängigen KI-Ökosystems, das in einzelnen Bereichen erstaunliche Erfolge vollbracht hat. Besonders bemerkenswert sind chinesische Fortschritte in der Speichertechnologie und Energie-Effizienz dank Investitionen in Photonik. Respekt gebührt vielen der alternativen Designansätze, die manche technische Hürden überraschend überwinden konnten.

(ID:50371228)