Tensordyne will Nvidia mit neuer KI-Architektur herausfordern

Weniger Chipfläche und Strom für die reine Rechenleistung Tensordyne will Nvidia mit neuer KI-Architektur herausfordern

15.06.2026 Von Paula Breukel 6 min Lesedauer

Anbieter zum Thema

Ein Münchner Start-up will die Energie-intensive Mathematik von KI-Systemen neu denken. Tensordyne ersetzt Multiplikationen durch logarithmische Verfahren und meldet bereits Vorbestellungen sowie Absichtserklärungen im Wert von mehr als 200 Millionen Dollar.

Das Tensordyne-Team (von links): Gilles Backhus (Mitgründer und KI-VP), Marc Bolitho (CEO), RK (Mitgründer und CPO).(Bild: Tensordyne) — Das Tensordyne-Team (von links): Gilles Backhus (Mitgründer und KI-VP), Marc Bolitho (CEO), RK (Mitgründer und CPO).
(Bild: Tensordyne)

Tensordyne, mit Standorten in München und Sunnyvale, hat heute sein neues System „Tensordyne Napier“ vorgestellt.

Die technischen Fakten in der Übersicht.(Bild: Tensordyne) — Die technischen Fakten in der Übersicht.
(Bild: Tensordyne)

Das Tape-Out, also die Freigabe der Chip-Designdaten an den Auftragsfertiger TSMC (Taiwan Semiconductor Manufacturing Company), ist abgeschlossen. Für die Produktion arbeitet Tensordyne mit HPE Juniper Networks, Broadcom und TSMC zusammen.

Für das vierte Quartal 2026 ist eine weitere Finanzierungsrunde (Series D) geplant. Bislang hat das Unternehmen mehr als 200 Millionen Dollar eingesammelt, unter anderem von Celesta Capital, dem Fonds von Intel-CEO Lip-Bu Tan. Das Unternehmen wurde 2017 gegründet und beschäftigt aktuell rund 115 Mitarbeiter, etwa zur Hälfte in München und Sunnyvale verteilt.

An Intel-Prozessoren haftet nun Nvidia (Bild: Intel/Dall-E/Vogel IT-Medien GmbH)

Nvidia-Chef Jensen Huang hat gestern auf der hauseigenen Konferenz GTC die Initiative „Isaac Groot“ vorgestellt, die die Entwicklung humanoider Roboter beschleunigen soll. (Bild: Nvidia)

Vom Aldi-PC zum eigenen Chip-Start-up

Gilles Backhus, Mitgründer von Tensordyne, beschreibt im Gespräch seinen Weg in die Chipbranche als nicht geplant, aber früh angelegt. Als er sechs Jahre alt war, stand der erste Aldi-PC im Wohnzimmer.

Aus der Begeisterung für Hardware wurde ein Studium der Elektrotechnik an der TU München. Direkt in die Chipentwicklung einzusteigen, war 2009 in Deutschland schwierig, deshalb ging Backhus zunächst in Richtung digitale Signalverarbeitung. Bei BMW arbeitete er anschließend mit FPGAs, frei konfigurierbaren Chips, die nah an der eigentlichen Chipentwicklung liegen.

Bildergalerie

„TDN Rack“ (Tensordyne Napier Rack) im Datacenter.(Bild: Tensordyne)

So sieht der „TDN AIP“ (Artificial Intelligence Processor) aus.(Bild: Tensordyne)

Der „TDN ACT“ (Tensordyne Napier AI Compute Tray) kombiniert 9 TDN-AIPs mit einer dedizierten CPU und Hochgeschwindigkeitsspeicher.(Bild: Tensordyne)

2012 folgte ein Werkstudentenjob in München, bei dem er erstmals selbstlernende Algorithmen trainierte, also Machine Learning, lange bevor der Begriff KI dafür gebräuchlich war. Über die Münchner Start-ups Conux und Lilium führte ihn der Weg schließlich zu seinem heutigen Mitgründer, der ihn 2017 für den Aufbau eines europäischen KI-Teams gewann.

Bis vor etwa einem Jahr leitete Backhus dieses Team, das auf seinem Höhepunkt rund 30 Personen umfasste. Heute arbeitet er auf der Produktseite, mit Fokus auf Partnerschaften und die nächste Produktgeneration.

Gartner: KI-Budgets explodieren – aber nicht dort, wo viele sie vermuten (Bild: KI-generiert)

Nvidia scheint sein Fangarme überallhin ausgestreckt zu haben. (Bild: Midjourney / KI-generiert)

Die Kerninnovation

Jede Antwort einer KI ist im Hintergrund vor allem Mathematik, genauer gesagt Multiplikationen und Additionen, sagt Backhus. Laut seinen Schilderungen laufen rund 99 Prozent der Berechnungen in einem KI-Modell auf diese beiden Operationen hinaus. Multiplikationen sind dabei deutlich teurer als Additionen, sowohl für den Menschen im Kopf als auch für einen Chip: Multiplizierer brauchen mehr Chipfläche und mehr Strom.

Tensordynes Kerninnovation, „TDN Math“, nutzt eine Rechenregel, die viele aus der Schule kennen: Der Logarithmus von A mal B entspricht dem Logarithmus von A plus dem Logarithmus von B. Damit lasse sich eine Multiplikation in eine Addition überführen, ohne klassische Multiplizierer auf dem Chip. Der eigentliche Aufwand liegt laut Backhus weniger in dieser Grundidee als in den vielen Detailproblemen, die gelöst werden müssen, um das Verfahren praxistauglich zu machen.

Der Effekt: Weniger Chipfläche und Strom für die reine Rechenleistung, mehr Platz für andere Komponenten wie Speicher, Datenanbindung oder generische Steuerlogik. Chips können laut Backhus aktuell maximal rund 800 Quadratmillimeter groß werden, größer geht es aus fertigungstechnischen Gründen nicht.

Bildergalerie

Wo ein vergleichbarer Nvidia-Chip nach seiner Einschätzung etwa 1.000 Watt benötigt, komme Tensordyne für dieselbe Aufgabe mit rund 300 Watt aus. Neben „TDN Math“ stützt sich das System auf zwei weitere Bausteine: „TDN AIP“, den hauseigenen KI-Prozessor mit SRAM- und High-Bandwidth-Memory direkt auf dem Chip, sowie „TDN Link“, die Verbindungstechnologie zwischen den Chips mit Latenzen unter einer Mikrosekunde.

Kompatibel mit Nvidia-Architektur

Software gilt vielen als größte Hürde beim Wechsel von Nvidia-Hardware: Doch Tensordyne unterstützt „PyTorch“, das verbreitetste Framework für KI-Modelle, sowie „Triton“, das vor allem bei Hyperscalern wie Microsoft und Meta verwendet wird.

Beide Integrationen sind nach Angaben von Backhus ein fortlaufender Prozess. Zusätzlich entsteht ein Model Hub auf „Hugging Face“, der mit Verfügbarkeit der Systeme freigeschaltet werden soll.

Die „Glass Bridge“ im „Corning Museum of Glas“ soll einen (glas)klaren Weg zur Nachhaltigkeit versinnbildlichen. Die abnehmbaren Glasfaser-Steckverbinderlösung der Corning-Marke „Gass Bridge“ mit edge-coupled, glaswellenleiterbasierten Steckverbindern werden auf der kommenden „Ecoc“-Messe in Kopenhagen (am Corning-Stand Nr. 2118) sowie auf dem „GF Technology Summit“ in München zu sehen sein. (Bild: Corning )

Einer Arbeitsgruppe soll Spezifikationen für Optical Compute Interconnect erarbeiten, das heißt: für engere Integration von Optik mit Rechen- und Netzwerksilizium. Eine solche benötigt die KI-Rechnerei, die auf CPUs und GPUs basiert. (Bild: © xiden - stock.adobe.com / KI-generiert)

Architektonisch orientiert sich Tensordyne bewusst an Nvidias Aufbau: Wie das Nvidia-System „NVL72“ fasst auch „Tensordyne Napier“ 72 Chips in einer Recheninheit, dem „Tensordyne Napier Inference Pod“ (TDN72). Auch ein so genanntes Scale-up Fabric, also ein Hochgeschwindigkeitsnetzwerk zwischen den Chips, das Nvidia als „Nvlink“ bezeichnet, hat Tensordyne im eigenen System.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Wer ein großes Mixture-of-Experts-Modell etwa aus der „DeepSeek“-, „Qwen“- oder „Kimi“-Familie, bislang auf 64 Nvidia-Chips betrieben hat, kann laut Backhus dieselbe Konfiguration ohne grundlegendes Umdenken übernehmen. Ein grundlegender Unterschied liege in der physischen Verbindung der Chips. Während große Nvidia-Systeme bisher über viele Kabel verbunden sind, die laut Backhus eine häufige Ausfallursache darstellen, verzichtet Tensordyne komplett darauf.

Über eine vor zwei Jahren vereinbarte Zusammenarbeit mit HPE Juniper nutzt Tensordyne deren bestehende Gehäusetechnik für Chip-zu-Chip-Kommunikation: Statt der Netzwerkkarten werden die KI-Rechenkarten von Tensordyne eingesetzt, die Verbindung erfolgt rein über Steckverbinder auf den Platinen. Die Datenübertragung läuft dabei elektrisch, nicht photonisch.

Produktion in Taiwan, Endmontage in Malaysia

Die Chips entstehen bei TSMC in Taiwan im 3-Nanometer-Verfahren. Als Partner für Chipdesign und Fertigung fungiert Broadcom, da ein Start-up laut Backhus für TSMC allein zu klein wäre, um direkt Bestellungen zu platzieren.

Auch die Platinen werden in Taiwan gefertigt. Von dort geht die Produktion nach Malaysia zu Flex, ehemals Flextronics, für die finale Systemmontage. Flex baut in derselben Fabrik auch Systeme auf Basis des Juniper-Networks-Chassis, das Tensordyne ebenfalls verwendet.

Die erste Charge umfasst nach Angaben von Backhus rund 1.000 Chips. Der zeitaufwendigste Schritt ist die einmalige Maskenfertigung, danach lassen sich Nachbestellungen deutlich schneller realisieren. Bei den verwendeten Materialien setzt Tensordyne auf den Standardprozess von TSMC, ohne Besonderheiten.

Die eigentlichen Innovationen liegen laut Backhus ausschließlich in Architektur und Mathematik, nicht in der Materialwahl.

Bildergalerie

Als aktuell größten Engpass nennt Backhus High-Bandwidth-Memory (HBM), einen Speichertyp, der auch von Nvidia und AMD verwendet wird und im Wesentlichen von Samsung, Micron und SK Hynix produziert wird.

Eine erste Chip-Generation im 7-Nanometer-Verfahren, bereits mit der logarithmischen Mathematik ausgestattet, lief nach Angaben von Backhus in Dauertests rund zweieinhalb Jahre ohne Ausfall. Er begründet das mit dem Hintergrund vieler Chipdesigner im Unternehmen, die aus dem Networking-Bereich stammen, darunter auch sein Mitgründer, ein früherer Ingenieur bei Juniper Networks.

Tower Semiconductor adressiert mit seiner Technik Connectivity innerhalb und zwischen Rechenzentren. Die israelische Company lässt unter anderem in Japan produzieren. (Bild: Tower Semiconductor)

Intel realisiert das erstes Optical Compute Interconnect (OCI), Hier ein Größenvergleich zu einer Bleistiftsspitze (links). (Bild: Intel)

Vorbestellungen und ein Hyperscaler-Deal

Tensordyne hat nach eigenen Angaben bereits Vorbestellungen von mehreren sogenannten Neo Clouds, neueren Rechenzentrumsanbietern, sowie eine unterschriebene Absichtserklärung (Joint Development Agreement) mit einem Hyperscaler, dessen Namen Backhus nicht nennen darf.

Sollte die Zusammenarbeit zum Tragen kommen, gehe es um Produkte für sehr große Nutzerzahlen. Bis Ende des Jahres rechnet Backhus mit Vorbestellungen im Bereich von 100 Millionen Dollar, einzelne Verträge bewegen sich aktuell im Bereich von 10 bis 20 Millionen Dollar.

Wenn Energie-Effizienz zur Systemfrage wird

Inferenz wird laut Backhus in den kommenden Jahren stark an Energiebedarf zulegen, getrieben unter anderem durch KI-Videogenerierung. Ein in Echtzeit erzeugter 4K-Videostream könne schnell rund 100 Kilowatt benötigen.

Effizienz hängt für Backhus an Hardware und Software gleichermaßen. Lässt sich ein Modell statt mit 16-Bit-Genauigkeit mit 4-Bit-Genauigkeit betreiben, sinkt der Stromverbrauch um den Faktor vier.

Auch die Qualität des Compilers spielt eine große Rolle: Der Unterschied zwischen einem guten und einem sehr guten Compiler könne die Auslastung eines Chips von 30 auf 90 Prozent steigern.

Vom Video-Stream zum digitalen Freund

Zum Abschluss des Gesprächs wird Backhus konkreter, wo er die größten Anwendungsfelder für schnellere, günstigere Inferenz sieht. Mit aktueller Nvidia-Hardware koste eine Stunde KI-generierter Video-Inhalte mit flexiblen Modellen, die nicht nur Avatare, sondern auch Hintergründe erzeugen, laut Backhus über 1.000 Dollar, in Echtzeit gerechnet. Tensordyne-Systeme könnten diese Kosten auf etwa 60 bis 100 US-Dollar pro Stunde senken und dabei in Echtzeit liefern, ohne Wartezeit und ohne Verlust bei der Video-Auflösung.

Damit rücken laut Backhus Anwendungen in greifbare Nähe, bei denen Mimik und Gestik Teil der Kommunikation sind: ein Videostream-Lehrer für Kinder ohne Zugang zu Schulen, medizinische Beratung, oder auch Therapie-Angebote über ein Videomodell statt nur Text und Audio.

Wenn die Qualität stimmt und der Preis bei 50 bis 100 Dollar pro Stunde liegt, würden Menschen laut Backhus auch beginnen, eine Art Beziehung zu solchen KI-Modellen aufzubauen, etwa als digitaler Freund für nachts, wenn sonst niemand verfügbar ist. Ob das eine gute Entwicklung für die Menschheit ist, lässt Backhus im Gespräch bewusst offen.

Über Jahrtausende gewachsen, muss der moralische und ethische Kompass des Menschen einer KI eingeimpft werden. (Bild: KI-generiert / Dall-E3)

Architektonisches Denken rückt in den Mittelpunkt, wenn Entwickler Arbeitsschritte zwischen Mensch und Künstlicher Intelligenz aufteilen, Kontext steuern und Ergebnisse absichern. (Bild: © Ibnu - stock.adobe.com)

Auch jenseits von Video soll Inferenz schneller werden: Wo eine komplexe Anfrage bei aktuellen KI-Assistenten heute teils über 20 Minuten dauert, sieht Backhus mit paralleler Verarbeitung über die 72 Chips eines Tensordyne-Pods Antwortzeiten im Bereich von 30 Sekunden, bei großen Mixture-of-Experts-Modellen mit bis zu 1.000 Output-Tokens pro Sekunde und Nutzer.

Wie sich die Kosten pro Million Tokens im Vergleich zu anderen Anbietern darstellen, lässt sich über den von Tensordyne veröffentlichten „Tokenomics Calculator“ auf der Unternehmenswebsite nachvollziehen.