Ein Realitätscheck für die Platzhirsche des WestensKI-Chips auf der Speisekarte - die Chinesen räumen ab!
Von
Anna Kobylinska und Filipe Martins*
8 min Lesedauer
Die chinesischen Technologieriesen trotzen bisher dem Handelskrieg. Eine Reihe von KI-Chips für Rechenzentren und den intelligenten Netzwerkrand aus dem Reich der Mitte verbindet architektonische Innovationen mit Kostenvorteilen. Staun!
Shenzhen kann durchaus als Chinas Technologiehauptstadt bezeichnet werden.
(Bild: 安琦 王 - stock.adobe.com)
Innovative KI-Chips, die nicht die Welt kosten, sind im Rechenzentrumsumfeld heiß begehrt. In vielen Anwendungsfällen mag es zweitrangig sein, woher sie jetzt genau kommen. Hauptsache, sie können rechnen und würden sich rechnen.
Vor dem Hintergrund restriktiver Exportbeschränkungen arbeiten chinesische Hersteller schon seit Jahren daran, sich der erdrückende Dominanz westlicher Technologievorreiter zu entziehen - nicht ohne Erfolg. Einige der chinesischen Anbieter haben inzwischen bemerkenswerte technologische Fortschritte in der Entwicklung und Fertigung eigener KI-Chips erzielt. Dem einen oder anderen der westlichen Platzhirsche hat es sicherlich zu denken gegeben.
Erfinder und Erfinderinnen des photonischen Chips „Taichi-II“: Professor Lu Fang vom Fachgebiet Elektrotechnik und Professor Qionghai Dai vom Fachgebiet Automatisierung, mit ihrem Team der Tsinghua-Universität.
(Bild: Tsinghua-Universität)
Das Huawei-Kronjuwel: NPUs der Ascend-Reihe
Huawei hat sich mit seiner Chip-Serie Ascend als führender chinesischer Entwickler von KI-Beschleunigern einen Namen gemacht. Der neueste KI-Chip von Huawei, der „Ascend 910C“, markiert einen bedeutenden Fortschritt in den Bestrebungen, das eigene KI-Ökosystem vom Westen zu entkoppeln. Nach Tests von Deepseek erreicht der Ascend 910C etwa 60 Prozent der Inferenzleistung von „Nvidia H100 GPU“ - ein beachtlicher Erfolg, insbesondere angesichts der angespannten geopolitischen Lage.
Bei der Ascend-Reihe handelt es sich um keine klassischen GPUs, sondern um spezialisierte KI-Beschleuniger au der Kategorie der Neural Processing Units (NPUs). Diese Chips sind speziell darauf ausgelegt, Machine-Learning-Aufgaben, insbesondere Deep-Learning-Modelle, zu verarbeiten. Sie adressieren KI-Workloads in Rechenzentren und Edge-Anwendungen.
Der Prozessor Ascend 910C verwendet eine innovative Chiplet-Packaging-Architektur für seine rund 53 Milliarden Transistoren. Diese kleineren Einheiten werden getrennt produziert und anschließend zu einem integrierten Chip verbunden. So lassen sich die hohen Transistorzahlen wirtschaftlich umsetzen.
Die Leistung des Ascend 910C lässt sich durch die fein granulierte Optimierung des „CUNN“-Kerns (Compute Unified Neural Network Core) für bestimmte Rechenoperationen, Speicherhierarchien und Datenpipelines hochschrauben; dabei soll es möglich sein, gleichzeitig auch noch die Latenz zu erhöhen und die Energie-Effizienz zu verbessern. Bei CUNN ist von einer speziellen Recheneinheit für die Ausführung neuronaler Netze die Rede.
Die Entwicklung des Ascend 910C war allerdings kein Zuckerschlecken. Berichten zufolge war sein Vorläufer, der „Ascend 910B“, von Defekten geplagt, was es für Huawei schwierig gemacht haben soll, die avisierten Lieferziele zu erreichen.
Die Lernkurve
Ein wichtiges Designziel des 910C dürften Verbesserungen gewesen sein, die eine höhere Ausbeute ermöglichen sollten, ähnlich wie es Huawei beim „Kirin 9010“ geschafft hatte. Laut einem Bericht der „Financial Times“ soll es Huawei gelungen sein, die Ausbeute des 910C in nur einem Jahr von 20 Prozent auf 40 Prozent zu verdoppeln. Als Nächstes strebe Huawei eine funktionale Produktionsrate von 60 Prozent an.
Im Gegensatz zu seinem Vorgänger, dem „Ascend 910“, der mit TSMCs N7+-Prozess hergestellt wurde, nutzt der 910C den Fertigungsprozess der zweiten Generation von SMIC im 7nm-Bereich (interne Bezeichnung N+2). Diese Umstellung auf einen chinesischen Fertigungsprozess ist eine Reaktion auf US-Sanktionen, die Huawei den Zugang zu etablierten Fertigungstechnologien verwehrt haben.
Das „Atlas 900“-KI-Cluster von Huawei besteht aus Tausenden von „Ascend“-Prozessoren, HCCS, PCIe 4.0 und 100G RoCE-Schnittstellen; es nutzt die Cluster-Kommunikationsbibliothek und die Job-Scheduling-Plattform von Huawei.
(Bild: Huawei)
Gerüchten zufolge lag die Ausbeute der westlichen Technologieführer bei ihren neuesten KI-Chips zeitweise unter 10 Prozent; diese Unwirtschaftlichkeit — ein Verschnitt in Höhe von 90 Prozent — soll die Preisspirale mitverursacht haben.
Huawei betreibt bereits seit Jahren eigene KI-Rechencluster mit Ascend-GPUs in 19 Städten Chinas, darunter Beijing, Shanghai und Shenzhen. Das Unternehmen plant demnächst eine Expansion in wichtige Provinzhauptstädte wie Kunming, Changsha, Changchun und Jinan. Schätzungen zufolge dürfte Huawei bis Ende 2025 etwa 1,9 Millionen seiner GPUs kreuz und quer durch China installiert haben.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Die intelligente verlustlose Konnektivität eines „Atlas 900“ HPC-/KI-Cluster via 100GE-Gewebe sei „einzigartig in der Industrie“, so Huawei.
(Bild: Huawei)
Obwohl der Ascend 910C im Bereich der Inferenz beeindruckende Fortschritte erzielen konnte, bleibt das KI-Training eine Herausforderung. Nvidia hat hier dank dem Zusammenspiel aus Hardware und Software nach wie vor die Nase vorne. Dennoch könnte die rasante Entwicklung der chinesischen Industrie das Gleichgewicht in den kommenden Jahren kippen, sollten sich die jetzigen Technologieführer zu lange auf ihren Lorbeeren ausruhen.
Chinas HBM2-Speicher
Trotz Sanktionen — oder gerade ihretwegen — konnte China bedeutende Fortschritte in der Entwicklung eigener Speichertechnologie erzielen, vor allem HMB2 (siehe: „ "Speicherstadt" in der Mikroelektronik; Was ist High Bandwidth Memory?“). Die Speicherchips sind unter anderem für den Bau der Ascend 910-Serie von Huawei unverzichtbar. Zuvor war China bei Memory-Chips mit HBM2-Bandbreite völlig auf Importe angewiesen.
Zu den führenden chinesischen Anbietern in diesem Bereich zählen ChangXin Memory Technologies (kurz CXMT) und Wuhan Xinxin Semiconductor Manufacturing Co., Ltd. (XMC). Als die globalen Marktführer gelten die südkoreanischen Hersteller SK hynix und Samsung sowie der US-Hersteller Micron.
CXMT, Chinas führender DRAM-Hersteller, hat im vergangenen Jahr mit der Massenproduktion von HBM2-Chips begonnen—etwa zwei Jahre früher als allgemein erwartet wurde. CXMT hatte in den Ausbau einer Produktionslinie für HBM-Speicher an seinem Hauptsitz in Hefei, der Hauptstadt der chinesischen Provinz Anhui, stark investiert. Das Unternehmen ist unter anderem auch in Beijing aktiv.
Gestapelt
Seit etwa Anfang 2025 produziert auch Tongfu Microelectronics, der drittgrößte Anbieter von OSAT-Dienstleistungen (Outsourced Semiconductor Assembly and Test) der Welt, einen eigenen HBM2-Speicher, für den es unter anderem Huawei als Kunden gewinnen konnte.
HBM-Speicher verwendet speziell entwickelte DRAM-Dies, die auf einem Basisstock gestapelt und durch Silizium-Vias (TSVs) miteinander verbunden sind. Tongfu Microelectronics kann weder Speicher- noch Logikbausteine in Eigenregie fertigen. Das Unternehmen muss DRAM-Dies und Basisstocks von Drittanbietern beziehen und montiert sie dann selbst zu HBM2-Stapeln.
Mit der einheimischen Produktion von HBM2-Chips reduziert China seine Abhängigkeit von ausländischen Lieferanten und stärkt sein eigenes KI-Ökosystem. Tongfu Microelectronics betreibt im Übrigen ein Joint-Venture mit AMD (TF-AMD). Als AMD Ende 2015 kurz vor der Insolvenz stand, ging das Unternehmen ein Joint Venture mit Nantong Fujitsu Microelectronics (NFME) ein. Im Rahmen der Vereinbarung hatte AMD seine Montage- und Testeinrichtungen (ATMP) in Suzhou (China) und in Penang (Malaysia) gegen eine Finanzspritze in Höhe von 371 Millionen Dollar sowie eine Beteiligung an der neu gegründeten Einheit, ATMP (kurz für Assembly, Test, Mark, and Packaging) getauscht. Im Zuge einer späteren Umstrukturierung ging NFME in Tongfu Microelectronics auf. So entstand das Joint Venture TF-AMD.
Die Aufholjagd
Analysten zufolge liegen chinesische Chiphersteller in der HBM-Technologie etwa ein Jahrzehnt hinter den globalen Marktführern zurück. Micron, Samsung und SK Hynix produzieren bereits HBM3 und HBM3E in Serie. Die Entwicklung von HBM4 mit 2048-Bit-Technologie ist bei allen drei Unternehmen in vollem Gange. SK Hynix zielt auf eine Massenproduktion von HBM4 bis Ende 2025 oder Anfang 2026 ab und will dabei TSMCs 3-nm-Prozess nutzen (ursprünglich war bei TSMC von 12-nm- und 5-nm-Knoten die Rede).
Micron will die Massenproduktion von HBM4 im Jahr 2026 starten. HBM4 wird eine 2048-Bit-Schnittstelle pro Stack verwenden, doppelt so breit wie HBM3 mit 1024 Bit. Stapel mit bis zu 16 DRAM-Dies dürften Kapazitäten von bis zu 64 GB pro Stack bei einer Bandbreite von 1,5 TB/s erreichen.
Doch die chinesische Firmen arbeiten eng mit südkoreanischen und japanischen Herstellern von Halbleiterausrüstung zusammen, um sich die notwendigen Werkzeuge für die HBM-Entwicklung anzueignen.
Photonische Chips aus China
Parallel zu der Aufholjagd bei konventionellen Ansätzen beschreiten chinesische Forschungsinstitute auch gerne grundlegend neue Wege. Und tatsächlich könnten photonische Chips einen völlig neuen Weg für die KI-Hardware-Entwicklung eröffnen und China einen technologischen Vorsprung in diesem lukrativen Marktsegment bescheren.
So wollen chinesische Forscher mit „Taichi-II“ den ersten Prozessor der Welt entwickelt haben, der vollständig mit Licht statt mit Elektronen betrieben wird. Der photonische Chip übertrifft „Nvidia-H100“-GPUs in Sachen Energie-Effizienz und trumpft mit einer um 40 Prozent höheren Genauigkeit bei Klassifizierungsaufgaben auf.
Geteilte Freude ist doppelte Freude: Die verteilte Architektur des optischen KI-Chips „Taichi“ auf einen Blick.
(Bild: Tsinghua-Universität)
Der Chip nutzt eine neuartige Trainingsmethode für optische Chips mit der Bezeichnung Fully Forward Mode (FFM) Learning. Diese Methode ermöglicht eine hochgradig parallele Verarbeitung von Informationen in Lichtwellen und macht sich dabei die Fähigkeit dieser Informationsträger zu Nutze, sich gegenseitig zu überlagern und miteinander zu interagieren.
Die Architektur macht sich zwei optische Phänomene zu Nutze: Diffraktion (Beugung) und Interferenz: Passiv verarbeitende diffraktive Einheiten komprimieren hochdimensionale Eingangsdaten. Programmierbare Mach-Zehnder-Interferometer (die so genannten MZI-Arrays) führen rekonfigurierbare Matrixmultiplikationen durch; so bewältigt der Chip eine der Schlüsseloperationen zur Ausführung neuronaler Netze.
So kommt in dem photonischen Chip Diffraktion ins Spiel.
(Bild: Tsinghua-Universität)
Der Hauptvorteil dieser Methode liegt in ihrer Effizienz und Geschwindigkeit. Durch die parallele Verarbeitung können komplexe Berechnungen, die für das Training von neuronalen Netzen erforderlich sind, in einem Bruchteil der Zeit durchgeführt werden, die herkömmliche elektronische Systeme dafür benötigen. Dies führt zu einer erheblichen Beschleunigung des Trainings und ermöglicht die Verarbeitung größerer Datenmengen in kürzerer Zeit. Zudem ist FFM Learning ist Energie-effizienter als traditionelle Methoden und Licht effizienter als das Rechnen in Elektronen.
Taichi-II entstand an der Tsinghua-Universität (THU), einer öffentlichen Universität in Beijing, China. Der Chip erreicht eine Energie-Effizienz von 160 Tops/Watt (160 Billionen Operationen pro Watt) und übertrifft damit konventionelle KI-Chips um den Faktor 100 bis 1000.
Aktuelle photonische Chip-Architekturen für KI-Modelle erlauben die Nutzung von Hunderten oder Tausenden von Parametern. Das reicht aus für grundlegende Aufgaben wie Mustererkennung, doch große Sprachmodelle (LLMs) wie ChatGPT benötigen in der Trainingsphase Milliarden oder sogar Billionen von Parametern.
Der Photonikprozessor besteht aus mehreren optischen Chiplets, die als eigenständige Recheneinheiten fungieren. In einem Experiment haben chinesische Forscher mehrere Chiplets zu einem System mit 13,96 Millionen künstlichen Neuronen verbunden – fast zehnmal mehr als bei nächstgrößeren konkurrierenden Entwurf (1,47 Millionen Neuronen).
Chiplets als eigenständige Recheneinheiten
Statt tiefer neuronaler Netzwerke setzt Taichi-II auf Breiten-Skalierung. Rechenaufgaben werden in Teilprobleme zerlegt. Parallele Verarbeitung erfolgt auf verteilten Chiplets, gefolgt von einer adaptiven Rekombination der Teilergebnisse. Dadurch lassen sich selbst Modelle mit Milliarden von Neuronen realisieren.
Chinesische Forscher konnten die Vorteile des Chips unter anderem bei KI-Generativaufgaben wie der Bildsynthese empirisch nachweisen. Die natürliche Handhabung von Bild-Daten durch optische Wellenfronten sei ein Grund für die bahnbrechende Performance.
*Das Autorenduo
Das Autorenduo besteht aus Anna Kobylinska und Filipe Pereia Martins. Die beiden arbeiten für McKinley Denali, Inc., USA.
Ihr Fazit lautet: Die technischen Spezifikationen und Leistungsmerkmale der jüngsten Generation chinesischer KI-Chips malen das Bild eines zunehmend unabhängigen KI-Ökosystems, das in einzelnen Bereichen erstaunliche Erfolge vollbracht hat. Besonders bemerkenswert sind chinesische Fortschritte in der Speichertechnologie und Energie-Effizienz dank Investitionen in Photonik. Respekt gebührt vielen der alternativen Designansätze, die manche technische Hürden überraschend überwinden konnten.