K40 am Start, Cuda6 freigegeben, IBM im Boot und neue Supercomputer gebaut Nvidia beschleunigt das HPC-Geschäft

Redakteur: Ulrike Ostler

Der neue Grafikprozessorkarte von Nvidia auf Basis der Kepler-Architektur „Tesla K40“ bringt im Vergleich zum Vorgängermodell „K20X“ mehr Kerne, doppelt so viel Speicher, höheren Takt und Unterstützung für PCIExpress 3.0 aufs Trapez. Mit der Plattform „Cuda 6“ vereinfacht sich parallele Programmierung zudem erheblich. Neuer Nvidia-GPU-Fan ist etwa IBM und HP eröffnet ein „GPU Technical Centre of Excellence“.

Firmen zum Thema

Nvidia bringt mit Tesla K40 und Cuda 6, Partnerschaft mit IBM und Unterstützung des Linux GCC Compiler mehr GPU-Power ins Rechenzentrum.
Nvidia bringt mit Tesla K40 und Cuda 6, Partnerschaft mit IBM und Unterstützung des Linux GCC Compiler mehr GPU-Power ins Rechenzentrum.
(Bild: Nvidia)

Die Partnerschaft von IBM und Nvidia soll die Grafikprozessoren, die in Servern in Unterstützung der CPUs die Anwendungen parallelisieren und damit schneller abarbeiten können, das Ziel, diese Art des Computing auch in Unternehmensrechenzentren gebräuchlicher zu machen. Ian Buck, Vice President of Accelerated Computing bei Nvidia, drückt das folgendermaßen aus: “Diese Partnerschaft bringt Supercomputer-Rechenleistung in die Rechenzentren der Unternehmen, erweitert den Einsatz von GPU-Akzeleratoren auch auf Gebiete jenseits der traditionellen Supercomputing- und Technical-Computing-Marktbereiche.“

Grafikprozessoren, die CPUs in High Performance-Umgebungen unterstützen, sind keine Seltenheit mehr. Doch wie schnell sich das Geschäft für Nvidia entwickelt, zeigen die Abbildungen.
Grafikprozessoren, die CPUs in High Performance-Umgebungen unterstützen, sind keine Seltenheit mehr. Doch wie schnell sich das Geschäft für Nvidia entwickelt, zeigen die Abbildungen.
(Bild: Nvidia)

Die Unternehmen haben Pläne vorgestellt, bei GPU-beschleunigten Versionen des Enterprise Software-Portfolios auf „IBM Power Systems“-Basis zusammenzuarbeiten. Damit macht GPU-Beschleuniger-Technologie einen Schritt über den Bereich des Supercomputing. IBM Kunden können künftig etwa riesige Mengen von Streaming-Daten schneller verarbeiten, sichern und analysieren.

Integration der Tesla GPU in Power-Prozessoren

Unter anderem ist geplant, die Prozessorfunktionen von Nvidia Tesla GPUs in IBM Power-Prozessoren zu integrieren. Dieser Schritt könnte es vielen Unternehmen erleichtern, Supercomputing-Hardware für anspruchsvolle Rechenaufgaben und zur beschleunigten Markteinführung neuer Produkte einzusetzen.

Zudem sollen die IBM Power Systems können künftig wissenschaftliche, technische und Visualisierungs-Anwendungen, die mit dem Cuda-Programmiermodell entwickelt werden, unterstützen. Bereits im Rahmen der „OpenPower-Initiative“ angekündigt, im kommenden Jahr „Power8“-Systeme mit Nvidia Tesla herauszubringen. IBM plant auch, die Rational Enterprise-Software-Entwicklungs-Tools Supercomputing-Entwicklern zur Verfügung zu stellen.

Verteilung von Rechnerarchitekturen und GPUs in Rechenzentren.
Verteilung von Rechnerarchitekturen und GPUs in Rechenzentren.
(Bild: Nvidia)

Zur schnelleren Adaption des CPU-unterstützten Rechnen könnte ebenfalls beitragen, dass Nvidia mit der jüngsten Cuda-Version auch den Open-Source-Compiler „Linux GCC“ unterstützen wird, den meist gebrauchten im HPC-Umfeld. Die Parallelisierung funktioniert mithilfe einfacher von OpenACC rnteickelter (https://developer.nvidia.com/openacc ) Pragmas, Compiler-Anweisungen.

Center of Excellence

Ein weiterer wichtiger Partner ist HP. Das Unternehmen eröffnete kürzlich in Zusammenarbeit mit Nvidia ein neues GPU Technical Centre of Excellence. Es geht hier um HPC-Technologien, das Maximieren von Rechenleistung und Reduktion des Stromverbrauchs. Das Center befindet sich im französischen Grenoble und steht Endanwendern, Entwicklern und unabhängigen Software-Anbietern offen. HPC-Kunden und Partnern von HP, sowie Interessenten, die das werden wollen, wird der Zugang zu den Tesla- und „Grid“-Technologien von Nvidia ermöglicht.

Die schnellsten, größten, grünsten

Zur Nvidia-Kundschaft gehören die Betreiber von Supercomputern, die zehn Systeme, die am effizientesten arbeiten, also die Top 10 auf der „Green500“-Liste setzen samt und sonders Tesla-GPUs des Herstellers ein – mit einer Ausnahme: „Blue Gene von IBM.

Bildergalerie
Bildergalerie mit 10 Bildern

Der jüngste Anführer dieser Liste ist der “Tsubame-KFC“, der beim Tokyo Institute of Technology zuhause ist. Das System steht in einem offenen Ölbad und bietet 4,5 Gigaflops pro Watt (siehe: Bildergalerie). Das ist noch einmal um 25 Prozent effizienter als bei der Nummer 2 auf der Green500-Liste: Der Supercomuter, der zur der Cambridge University’s Wilkes gehört, bietet 3,6 Gigaflops pro Watt.

Auch der schnellste Supercomputer in Europa von „Piz Daint“, der mehr als 6,2 Petaflops aufbringt, nutzt jetzt Tesla K20x-GPUs – zuvor waren ausschließlich Intel-CPUs im Einsatz. Sieben Wetterinstitute – aus Deutschland, Griechenland, Italien, Polen, Russland, Rumänien und der Schweiz – nutzen das System, das im Tessiner Centro Svizzero di Calcolo Scientifico (CSCS) für Wettervorhersagen.

Tesla K40 en detail

Das Herz einer Tesla-GPU basiert auf der so genannten Kepler-Architektur. Diese hat Nvidia im vergangenen Jahr auf den Markt gebracht. Sie arbeitet quasi von Haus aus dreimal so effizient wie die Vorgänger-Prozessoren, die auf „Fermi“ basierten.

Bildergalerie
Bildergalerie mit 10 Bildern

Jetzt bringt Nvidia die GPU Tesla K40 auf den Markt. Als Beschleuniger von Prozessorleistung übertrifft die Einheit alle anderen Beschleuniger bei den zwei gängigen Maßeinheiten in der Rechenleistung: Maximal 4,29 Teraflops Gleitkommaleistung einfacher Genauigkeit und 1,43 Teraflops doppelter Genauigkeit. Real erzielbar sind bei der Matrix-Multiplikation SGEMM 3,22 Teraflops und DGEMM 1,33 Gigaflops.

Zu den weiteren Schlüsselfunktionen zählt Nvidia:

  • 12 Gigabyte schneller GDDR5-Speicher, doppelt so viel Kartenspeicher wie beim Vorgängermodell, ermöglicht die Verarbeitung und schnelle Analyse von großen Datenmengen
  • 2.880 parallele Cuda-Rechenkerne beschleunigen Applikationen bis zu zehnmal schneller als ein reines CPU-System. Damit hat Nvidia jetzt alle Rechenkerne des Kepler-Chips aktiviert.
  • Durch dynamische Parallelität lassen sich nach Bedarf stets neue Threads erzeugen. Das ermöglicht eine schnelle und einfache Verarbeitung von adaptiven und dynamischen Datenstrukturen.
  • Unterstützung von PCIe Gen-3 verdoppelt die Datentransferrate im Vergleich zu PCIe Gen-2.
  • Der Prozessortakt beträgt 745 Megahertz, beim Vorgängermodell waren es noch 732 Megahertz. Das reicht laut Vice President Buck für die meisten Anwendungen aus. Sollte eine noch höhere Frequenz benötigt werden, kann ein „Turbo-Boost“ in zwei Schritten auf 810 oder gar 875 Megahertz beschleunigen.

Insgesamt bedeutet das: Im Schnitt soll die Performance bei den HPC-üblichen Applikationen um 20 bis 40 Prozent zulegen. Bei Ansys Fluent kann die Tesla K40 gegenüber einem Knoten mit zwei Xeon E5-2680 die Performance um 90 Prozent steigern. Gegenüber der aktuell am Markt erhältlichen schnellsten CPU ist die Leistung von K40 also zehnmal höher.

Das Texas Advanced Computing Center (TACC) der University of Texas in Austin plant die Entwicklung von „Maverick“, einem neuen, interaktiven Remote-Visualisierungs- und Datenanalysesystem, das mit Tesla-K40-GPUs betrieben wird. Maverick ist voraussichtlich bereits im Januar 2014 einsatzfähig.

Cuda 6 kommt

Richtig Sinn macht der Tesla-Einsatz mit Cuda. Dabei handelt es sich um eine von Nvidia entwickelte Parallel-Computing-Plattform sowie ein Programmiermodell. Die Version 6 des Cuda-Toolkits wird voraussichtlich Anfang 2014 verfügbar sein. Mitglieder des Cuda Computing Registered Developer Program erhalten eine Nachricht, sobald der Download bereitsteht. Wer am Developer Program teilnehmen möchte, kann sich hier registrieren.

Bildergalerie
Bildergalerie mit 10 Bildern

Laut Buch ist die bedeutendste Neuerung in dieser Version das „Unified Memory“. Dabei handele es sich um „weit mehr“ als eine logische Pool-Bildung. Vielmehr erlaubt es Entwicklern Applikationen zu schreiben, die automatisch Zugriff auf den Speicher von CPU und GPU erhalten. Bisher war es notwendig, Daten jeweils manuell hin und her zu kopieren. Zum Teil muss gegenüber einer „normalen“ C/C++-Programmierung nur eine Zeile hinzugefügt werden.

Der Anwender-Nerv getroffen

Rob Hoekstra, Manager of Scalable Algorithms Department bei den Sandia National Laboratories, beschreibt den Effekt: „Durch das automatische Daten–Management des Unified Memory, können wir Kernels für die GPU sehr schnell erzeugen. Die Komplexität des Codes reduziert sich und Entwicklungszeiten werden bis zu 50 Prozent kürzer. Diese Möglichkeiten sind äußerst hilfreich, um künftige Programmierungsmodelle festzulegen und anspruchsvollere, größere Codes auf GPUs zu portieren.“

Auch das Team von Paul Doyle, CEO bei Fabric Engine Inc. kannt die Schwierigkeiten mit den Memory-Restriktionen: „Unsere Technik hat großen Studios, Spiele-Entwicklern und Animateuren geholfen, 3D-Animationen und Effekte zu erschaffen“, sagt er. „Sie alle haben uns dringend gebeten, Nvidia-GPU-Beschleunigung zu unterstützen, aber das Speicher-Management stellte sich bei komplexen Anwendungsszenarien in der Produktion als zu schwierig heraus. Mit Unified Memory wird dies automatisch abgewickelt und der Fabric-Compiler kann so die NVIDIA-GPUs ansteuern. Die Applikationen unsere Kunden laufen damit bis zu zehnmal schneller.“

Zu den weiteren Verbesserungen gehören:

  • Drop-in Libraries – Diese können automatisch die BLAS- und FFTW-Berechnungen in Applikationen um bis zum Faktor 8 beschleunigen, wenn sie einfach die vorhandenen CPU-basierten Libraries ersetzen.
  • Multi-GPU Scaling – Neu angelegte BLAS- und FFT-GPU-Libraries skalieren automatisch über bis zu acht GPUs in einem Single Node und liefern über neun Teraflops Double-Precision-Leistung pro Node. Es werden größere Workloads als je zuvor unterstützt (bis zu 512 Gigabyte). Multi-GPU Scaling lässt sich auch mit der neuen BLAS Drop-in Library nutzen.

Weiterführendes

Aktuell nutzen mehr als 240 Software-Applikationen GPU-Beschleunigung aus. Eine vollständige Liste GPU-beschleunigter Anwendungen lässt sich kostenlos heruntergeladen.

Anwender können außerdem die Tesla K40 kostenlos über remote gehostete Cluster testen. Auf der GPU-Test-Drive-Webseite finden Sie mehr Informationen dazu.

Nvdia betriebt einen Blog rund um das Thema „Parallele Programmierung“, den „Parallel Forall“-Blog. Hier finden sich technische Informationen zu einer Vielzahl paralleler Programmierungs-Themen wie Cuda C/C++, andere Programmiersprachen, OpenACC, GPU-beschleunigte Libraries sowie GPU-Programmier-Methoden.

(ID:42426060)