K40 am Start, Cuda6 freigegeben, IBM im Boot und neue Supercomputer gebaut

Nvidia beschleunigt das HPC-Geschäft

Seite: 3/3

Firmen zum Thema

Cuda 6 kommt

Richtig Sinn macht der Tesla-Einsatz mit Cuda. Dabei handelt es sich um eine von Nvidia entwickelte Parallel-Computing-Plattform sowie ein Programmiermodell. Die Version 6 des Cuda-Toolkits wird voraussichtlich Anfang 2014 verfügbar sein. Mitglieder des Cuda Computing Registered Developer Program erhalten eine Nachricht, sobald der Download bereitsteht. Wer am Developer Program teilnehmen möchte, kann sich hier registrieren.

Bildergalerie
Bildergalerie mit 10 Bildern

Laut Buch ist die bedeutendste Neuerung in dieser Version das „Unified Memory“. Dabei handele es sich um „weit mehr“ als eine logische Pool-Bildung. Vielmehr erlaubt es Entwicklern Applikationen zu schreiben, die automatisch Zugriff auf den Speicher von CPU und GPU erhalten. Bisher war es notwendig, Daten jeweils manuell hin und her zu kopieren. Zum Teil muss gegenüber einer „normalen“ C/C++-Programmierung nur eine Zeile hinzugefügt werden.

Der Anwender-Nerv getroffen

Rob Hoekstra, Manager of Scalable Algorithms Department bei den Sandia National Laboratories, beschreibt den Effekt: „Durch das automatische Daten–Management des Unified Memory, können wir Kernels für die GPU sehr schnell erzeugen. Die Komplexität des Codes reduziert sich und Entwicklungszeiten werden bis zu 50 Prozent kürzer. Diese Möglichkeiten sind äußerst hilfreich, um künftige Programmierungsmodelle festzulegen und anspruchsvollere, größere Codes auf GPUs zu portieren.“

Auch das Team von Paul Doyle, CEO bei Fabric Engine Inc. kannt die Schwierigkeiten mit den Memory-Restriktionen: „Unsere Technik hat großen Studios, Spiele-Entwicklern und Animateuren geholfen, 3D-Animationen und Effekte zu erschaffen“, sagt er. „Sie alle haben uns dringend gebeten, Nvidia-GPU-Beschleunigung zu unterstützen, aber das Speicher-Management stellte sich bei komplexen Anwendungsszenarien in der Produktion als zu schwierig heraus. Mit Unified Memory wird dies automatisch abgewickelt und der Fabric-Compiler kann so die NVIDIA-GPUs ansteuern. Die Applikationen unsere Kunden laufen damit bis zu zehnmal schneller.“

Zu den weiteren Verbesserungen gehören:

  • Drop-in Libraries – Diese können automatisch die BLAS- und FFTW-Berechnungen in Applikationen um bis zum Faktor 8 beschleunigen, wenn sie einfach die vorhandenen CPU-basierten Libraries ersetzen.
  • Multi-GPU Scaling – Neu angelegte BLAS- und FFT-GPU-Libraries skalieren automatisch über bis zu acht GPUs in einem Single Node und liefern über neun Teraflops Double-Precision-Leistung pro Node. Es werden größere Workloads als je zuvor unterstützt (bis zu 512 Gigabyte). Multi-GPU Scaling lässt sich auch mit der neuen BLAS Drop-in Library nutzen.

Weiterführendes

Aktuell nutzen mehr als 240 Software-Applikationen GPU-Beschleunigung aus. Eine vollständige Liste GPU-beschleunigter Anwendungen lässt sich kostenlos heruntergeladen.

Anwender können außerdem die Tesla K40 kostenlos über remote gehostete Cluster testen. Auf der GPU-Test-Drive-Webseite finden Sie mehr Informationen dazu.

Nvdia betriebt einen Blog rund um das Thema „Parallele Programmierung“, den „Parallel Forall“-Blog. Hier finden sich technische Informationen zu einer Vielzahl paralleler Programmierungs-Themen wie Cuda C/C++, andere Programmiersprachen, OpenACC, GPU-beschleunigte Libraries sowie GPU-Programmier-Methoden.

(ID:42426060)