Der Newcomer im Prozessorbau: Kalray 256 Cores in einem Prozessor

Autor / Redakteur: lic.rer.publ. Ariane Rüdiger / Ulrike Ostler

Das innovative Prozessordesign des Newcomers Kalray könnte Rechnern neue Leistungsdimensionen erschließen. Wichtigste Anwendungsgebiete in Rechenzentren sind die Ein-/Ausgabebeschleunigung, Sicherheitsanwendungen und die Vernetzung.

Firmen zum Thema

Der Kalray-Prozessor enthält insgesamt 288 Prozessorkerne.
Der Kalray-Prozessor enthält insgesamt 288 Prozessorkerne.
(Bild: Kalray)

Rechenzentren werden immer größer und die Ressourcen in ihnen sollen immer komplexere Aufgaben lösen. Doch immer wieder zeigen sich Engpässe: Mal reicht die Rechen-Power nicht, beispielsweise für komplexe Simulationen oder so genannte intelligente Algorithmen, etwa neuronale Netze. Mal ist der Speicherzugriff nicht schnell genug, dies gilt vor allem für VDI-infrastrukturen, die regelmäßig hängen, wenn morgens viele Mitarbeiter gleichzeitig in die Arbeit einsteigen.

Sicherheit wird gefordert, führt aber regelmäßig noch immer zur Verzögerung, weil Verschlüsselungsalgorithmen den Prozessor belasten oder zu langsam abgewickelt werden. Und immer mehr virtuelle Maschinen überfordern die horizontalen Transportleistungen im Rechenzentrum – also den Datentransport zwischen virtuellen Maschinen.

Mit Technologien, die aus dem Supercomputing entlehnt sind, versucht das 2008 gegründete französische Startup-Unternehmen Kalray eine ganze Reihe dieser Probleme auf einmal zu lösen. Kalray adressiert mit seinen Produkten vor allem zwei Märkte: Rechenzentren und Embedded Computing, beispielsweise bei selbstfahrenden, intelligenten Autos.

Vorbilder aus dem Supercomputing

Im Kern aller Produkte steckt mit dem MPPA ein Multiple-Core-Prozessor mit 288 Cores. Produziert wird der Prozessor in 28 Nanometer CMOS.

Bisher hat Kalray zwei Prozessorgenerationen fertiggestellt, „Andey“ und jetzt „Bostan-N“ (MPPA2-256-N) . Ein wichtiger Unterschied zwischen erster und zweiter Produktgeneration besteht darin, dass in den Bostan-Prozessor kryptographische Beschleuniger und Zufallszahlengeneratoren integriert wurden.

Den Durchsatz des neueren Chips beziffert Kalray auf maximal 128 Gigabit pro Sekunde (GBit/s) Full Duplex. Zweimal 40- oder achtmal 10-GBit/s-Ethernet-Anbindungen sind integriert, womit eine Transportgeschwindigkeit von 80 GBit/s realisierbar ist. Langsamere Geschwindigkeiten werden die Verbindungen mit dem SGMII (Serial Gigabit Media-independent Interface, SGMII)-Protokoll umgesetzt.

So kommen 288 Cores zusammen

Der Prozessor besteht aus 16 Clustern mit jeweils 16 Cores, die mit VLIW (Very Long Instruction Words) arbeiten. Datentransfer und der Zugriff auf Storage erfolgen über DDR3 mit 2*64Bit/s und über PCIe Gen3-Verbindungen mit 16 Leitungen. Dazu kommen diverse Cores in von mehreren Bereichen genutzten Funktionsmodulen, so dass insgesamt 288 Cores zusammenkommen.

Jeder Core hat eine 64-Bit-Architektur und arbeitet mit 600 MHz und kann fünf Instruktionen pro Zyklus verarbeiten. Eine Gleitkomma-Einheit entsprechend IEEE 754-2008 ist integriert. Zudem hat jeder Core ein eigenes Speicher-Management und ermöglicht Verschlüsselung mit allen gängigen Standards bei der Verarbeitung. Neben den Verschlüsselungs-Beschleunigern sind auch Elemente zur beschleunigten Erstellung von Prüfsummen integriert.

Die Cluster eines Cores teilen sich einen gemeinsamen Arbeitsspeicher von 2 Megabit. Gesteuert werden sie von einem Systemcore, ebenfalls mit Gleitkommaverarbeitung und Speicher-Management. Daten werden in einem L1-Cache gespeichert, der Datenzugriff erfolgt über intelligentes DMA (Direct Memory Access) mit 20 Mbit/s. alle Komponenten auf dem Chip mit 16 Clustern sind durch ein internes Netzwerk (NoC, Network on a Chip) mit Torus-Struktur verbunden. Die integrierten QoS-Mechanismen garantieren deterministisches Verhalten.

Verbrauch pro Core-Prozessor

Als steuernde Einheit fungieren auf jedem Ein-/Ausgabesubsystem zwei Host-Cores, die ihrerseits aus Quad-Cores bestehen. Diese vier Kerne teilen sich einen Datencache von 128 Kbit/s und eine Speichermanagement-Einheit. Sie beherrschen das symmetrische Multiprocessing unter Linux. Das Design des Prozessors ist kommunikationssparsam und einergieeffizient – jeder 256-Core-Prozessor verbraucht nach Angaben des Herstellers nur 20 Watt.

Interner Aufbau des Prozessors aus 16 Prozessorkern-Blocks mit am Rand des Prozessors realisierten allgemein nutzbaren Funktionen.
Interner Aufbau des Prozessors aus 16 Prozessorkern-Blocks mit am Rand des Prozessors realisierten allgemein nutzbaren Funktionen.
(Bild: Kalray)

Mit Hilfe des Bostan hat Kalray eine Reihe von datenzentrumstauglichen Produkten entwickelt. Einige Beispiele: Die Turbocard2, eine PCIe-Karte mit voller Höhe und Länge, die zwei Slots belegt, soll vor allem rechenintensive Anwendungen beschleunigen, wie sie in der Cloud, bei der Verschlüsselung, bei Simulationen und ähnlichen Anwendungen vorkommen. Die Karte bietet bei einem Stromverbrauch von 80 Watt eine Verarbeitungsleistung von bis zu 2,1 Milliarden Gleitkomma-Operationen pro Sekunde (TFLOPS).

Die Karte beinhaltet vier MPPA-256-Einheiten, insgesamt also über 1.000 Cores, die durch ein breitbandiges On-Chip-Netzwerk verbunden sind. Bei Bedarf können auch mehrere Turbocard3-Einheiten über die Schnittstellen des On-Chip-Netzwerks miteinander verbunden und in ein Host-System integriert werden, um die Leistung weiter zu steigern. Insgesamt verbraucht das System 110 Watt.

Der Austausch zwischen virtuellen Maschinen

Der Beschleunigung der Netzwerkverarbeitung, die insbesondere durch Kommunikation zwischen virtuellen Maschinen immer wichtiger wird, dient die Kalray Open Network Interface Card (KONIC-80). Die Karte beherrscht alle wichtigen Netzwerkprotokolle virtueller Welten: VxLAN, NVGRE ( Network Virtualization using Generic Routing Encapsulation) , GENEVE (Generic Network Virtualization Encapsulation), ein neues Tunneling-Protokoll, und TRILL (Transparent Interconnection of Lots of Links), ein IEEE-Standard für Bridges mit Routing-Funktionen.

Der mitgelieferte Netzwerk-Stack lässt sich mit C/C++ anpassen, wofür Kalray geeignetes Programmierwerkzeug anbietet. Die Karte verbraucht eine halbe Längeneinheit in voller Höhe und einen Slot. Bei einer Geschwindigkeit von 240 Millionen Paketen pro Sekunden können pro Paket bis zu 2.500 Befehle pro Paket bewältigt werden. Deshalb ist es möglich, bei Bedarf Zusatzfunktionen wie SSL, IPSEC oder Kompression mit gzip auf Pakete anzuwenden, ohne dass die Transportleistung deswegen sinkt.

Auch die Speicherverarbeitung kann der Bostan extrem beschleunigen, wenn er beispielsweise in Storage-NICs oder Offload-Karten für Aufgaben wie Verschlüsselung oder Kompression integriert wird. Fürs Ver- und Entschlüsseln empfiehlt Kalray mehrere Lösungen. Sie alle profitieren von den mit 128 Krypto-Prozessoren des MPPA-256, von denen jeder mit jeweils zwei der 256 Compute-Cores verbunden ist.

Die Verschlüsselung

Der eine von ihnen übernimmt die Ver- und Entschlüsselung mit DES, AES-128, -192 oder -256, der andere ver- und entschlüsselt ebenfalls DES, SHA-1. -256, -512. Er übernimmt aber auch beschleunigte Prüfsummenberechnungen. Laut Kalray sind mit den Ver- und Entschlüsselungsaufgaben nur 128 der 256 Cores ausgelastet. Die übrigen können sich anderen Aufgaben wie Kompression oder Deduplizierung widmen.

Die Netzwerkkarte „Konic80“ sieht Kalray am Netzterminationspunkt auf der Grenze zwischen Server und Netz. Die Krypto128, eine Spezial-Verschlüsselungskarte funktioniert als Offload-Modul für PCIe-gebundene Applikationen und wird neben dem Server implementiert. Die Turbo3-Karte will Kalray in diesem Umfeld ebenfalls neben dem Server für Applikationen wie die Kryptoanalyse einsetzen. Zu den Lösungen bietet Kalray passende Entwicklungs-Tools an.

Als Einzellösungen sind die Kalray-Produkte bereits verfügbar, und es gibt Storage-Hersteller, die sie in ihre Lösungen integrieren wollen. Namen will Jean-Pierre Demanges, Vice President Sales and Marketing, noch nicht nennen. Produkte mit integrierten Kalray-Komponenten soll es schon Ende des Jahres geben. Eine Konkurrenz zu softwarebasierenden I/O-Beschleunigern, etwa dem von Datacore, sieht Kalray nicht, obwohl sein Produkt ebenfalls parallel zu bestehenden Standard-Intel- oder AMD-Prozessoren arbeitet.

* Ariane Rüdiger arbeitet als freie Journalistin in München.

(ID:43912519)