Suchen

Beschleunigung mit mehr Leistung und mehr Sicherheit Nvidia-GPUs überzeugen Hardware-Anbieter und HPC-User

| Autor: Ulrike Ostler

Nvidia nutzt die seit gestern virtuell stattfindende Internationale Supercomputing-Konferenz „ISC 20“ für drei Ankündigungen: Partner-Hardware, die mit der „Ampere-100“-Technik ausgestattet werden soll, die Sicherheitssoftware „Mellanox UFM Cyber-AI“, die insbesondere die Security in HPC-Umgebungen beziehungsweise Supercomputern erhöht, und den Rekord bei einem bedeutenden Big-Data-Analytics-Benchmark.

Firmen zum Thema

Nvidia hat gestern die Plattform „Mellanox UFM Cyber-AI“ vorgestellt. Diese kommt nach dem Hack von EU-Supercomputern gerade recht und kombiniert Netzwerk-Analysen in Infiniband-Cluster und AI-gestützte Analysen zur Erkennung von Sicherheitsbedrohungen und betrieblichen Problemen.
Nvidia hat gestern die Plattform „Mellanox UFM Cyber-AI“ vorgestellt. Diese kommt nach dem Hack von EU-Supercomputern gerade recht und kombiniert Netzwerk-Analysen in Infiniband-Cluster und AI-gestützte Analysen zur Erkennung von Sicherheitsbedrohungen und betrieblichen Problemen.
(Bild: Nvidia)

Im vergangenen Monat hatte Nvidia mit „Ampere“ eine neue Architektur für Graphics Processing Units (GPUs) vorgestellt. Jetzt haben mehr als 50 HardwarepartnerSysteme mit dem Prozessor „A100“ angekündigt, darunter Asus, Atos, Cisco, Dell Technologies, Fujitsu, Gigabyte, Hewlett Packard Enterprise, Inspur, Lenovo, One Stop Systems, Quanta/QCT und Supermicro. Davon sollen 30 Systeme bereits in diesem Sommer zur Verfügung stehen, 20 weitere werden bis zum Endes dieses Jahres erwartet.

Ian Buck, Vice President und General Manager für Accelerated Computing bei Nvidia, zeigt sich begeistert: „Die Aufnahme von A100-GPUs in die Angebote führender Serverhersteller übertrifft alles, was wir bisher gesehen haben. Die schiere Vielfalt der Nvidia A100 Server unserer Partner stellt sicher, dass Kunden die besten Optionen zur Beschleunigung ihrer Rechenzentren wählen können, um eine hohe Auslastung und niedrige Gesamtbetriebskosten zu erzielen.“

Die Server lassen allesamt große Leistungssprünge erwarten: So kann der Prozessor A100 die Leistung im Vergleich zum Vorgängermodell „Volta“ um bis zu 20x steigern. Darüber hinaus punktet er mit weiteren technischen Neuerungen, darunter eine Multi-Instanz-Grafikprozessortechnologie, die es ermöglicht, einen einzelnen A100 in bis zu sieben separate Grafikprozessoren zu partitionieren, um unterschiedliche Rechenaufgaben zu bewältigen. Die dritte Generation der Nvidia-Technik „NVLink“ ermöglicht es zudem, mehrere Grafikprozessoren zu einem einzigen Grafikprozessor zusammenzufügen, und die neue strukturelle Sparsamkeitsfunktionen kann die Leistung eines Grafikprozessors verdoppeln (siehe: „Trennung von Intel-CPUs in den KI-Computern und massive Leistungssteigerung, Das technisch Machbare - Nvidia stellt Ampere-GPU vor“).

Erleichtert wird die Vielfalt der zu erwartenden Serversysteme durch den PCIe-Formfaktor für den A100, den NVIDIA jetzt vorgestellt. Er ergänzt die im Mai eingeführten Vier- und Achtwege-Konfigurationen des „Nvidia HGX A100“.

Nvidia verpackt seinen Grafikprozssor „A100“ auch in einen PCIe-Formfaktor.
Nvidia verpackt seinen Grafikprozssor „A100“ auch in einen PCIe-Formfaktor.
(Bild: Nvidia)

Die PCIe-Version ermöglicht es Serverherstellern, Rechner anzubieten, die mit einem einzelnen A100-Grafikprozessor ausgestattet sind, aber auch Servern mit 10 oder mehr Grafikprozessoren. Diese Systeme beschleunigen eine breite Palette rechenintensiver Arbeitslasten, von der Simulation des molekularen Verhaltens für die Arzneimittelentdeckung bis hin zur Erstellung besserer Finanzmodelle für Hypothekengenehmigungen.

Mehr Sicherheit für Supercomputer

Es geschah am 11. Mai 2020: Mindestens ein Dutzend Supercomputer in ganz Europa wurden abgeschaltet, nachdem versucht worden war, die Maschinen durch Cyber-Angriffe unter Kontrolle zu bringen, um sie für Krypto-Mining, speziell „Monero“, zu nutzen. Einen der Angriffe traf das System „Archer“ von der Universität Edinburgh, die Kurz vorher hatten die Mitarbeiter offenbar ein Pandemie-Modellierungs-Tool installiert.

Ebenfalls am 11. Mai legte ein weiterer Anschlag fünf Supercomputer in Deutschland lahm. Betroffen war das Baden-Württembergische Höchstleistungsrechenzentrum und sah sich veranlasst, fünf seiner Cluster offline zu schalten. Am darauffolgenden Donnerstag gab das Leibniz-Rechenzentrum bekannt, dass es den Zugang vorübergehend sperren werde. Das Jülicher Supercomputing Centre schloss sich dem an und nahm seine Systeme „Jureca“, „Judac“ und „Juwels“ vom Netz. Insgesamt sollen neun deutsche Supercomputer den Angriffen zum Opfer gefallen sein

Betroffen waren auch das Schweizerische Nationale Höchstleistungsrechenzentrum in der Schweiz (CSCS) und in Barcelona. Darüber hinaus berichtete das Computer Security Incident Response Team (EGI-CSIRT), der Organisation European Grid Infrastructure (EGI), dass es auch in China und Nordamerika Opfer gegeben habe. Die Angreifer nutzten eine Secure Shell (SSH)-Verbindung aus, über die sich akademische Forscher per Fernzugriff in das System einloggen können.

Hilfe für Infiniband-Cluster

Der Kern des Problems für die HPC-Cluster ist klar. Die Forschungsinstitute benötigen Rechen-Power ohne Ende, an Online-Transaktionen wie ein Web-Shop mit einem erhöhten Malware-Abwehr ist der Betrieb nicht angepasst. Doch Forschungsnetze wie die durch COVID19-geschaffenen, zeigen, dass die Cluster anfällig sein können.

Das will Nvidia mit seiner Security-Software „Mellanox UFM Cyber-AI“ angehen. Sie ist gedacht für Inifinband-Rechenzentren und nutzt Künstliche Intelligenz um Bedrohungen zu erkennen und um Netzwerkausfällen vorzubeugen. Die Algorithmen erfassen Betriebskadenz und Netzwerkauslastungsmuster und ziehen dabei Echtzeit- sowie historische Telemetrie- und Auslastungsdaten heran.

Es ergibt sich ein „Normalzustand“. Abweichungen, die sich aus dem Monitoring des Systemzustands und anhand von Netzwerkmodifikationen dokumentieren, lassen Leistungseinbußen, Auslastung und Profiländerungen erkennen. Die Software gibt Warnmeldungen bei anormalem System- und Anwendungsverhalten sowie bei potenziellen Systemausfällen und Bedrohungen aus und führt Korrekturmaßnahmen durch.

Sie ist auch darauf ausgerichtet, Sicherheitswarnungen bei versuchtem System-Hacking zu liefern, um unerwünschte Anwendungen, wie das berichtetet Cryptocurrency Mining, zu erkennen. Das Ergebnis ist eine verringerte Ausfallzeit des Rechenzentrums, die laut Untersuchungen des ITIC in der Regel mehr als 300.000 Dollar pro Stunde kostet.

Benchmark-Rekord

Nvidia hat den bisherigen Rekord für die Durchführung des Standard-Benchmarks für große Datenanalysen, bekannt als TPCx-BB, um fast das 20-fache übertroffen. Eine solche Messung ist in der Vergangenheit nur auf CPU-Systemen erfolgt. Der Daten-Benchmark bildet reale ETL-Funktionen ab: Extrahieren, Transformieren, Laden sowie Machine-Learning-Workflows. Die 30 Abfragen des Benchmarks umfassen große Anwendungsfälle der Datenanalyse wie Bestands-Management, Preis- und Verkaufsanalyse, Empfehlungssysteme, Kundensegmentierung sowie Stimmungsanalyse.

Die Abbildung zeigt die TPCx-BB Benchmark-Ergebnisse über 30 Abfragen. RAPIDS läuft auf 16 DGX A100-Systemen von Nvidia und liefert die relativen Leistungsgewinne pro Abfrage für 10 Terybyte-Tests.
Die Abbildung zeigt die TPCx-BB Benchmark-Ergebnisse über 30 Abfragen. RAPIDS läuft auf 16 DGX A100-Systemen von Nvidia und liefert die relativen Leistungsgewinne pro Abfrage für 10 Terybyte-Tests.
(Bild: Nvidia)

Zur Anwendung für die Datenverarbeitung und das maschinelle Lernen sind die „Rapids-Suite“, „Dask“ für die horizontale Skalierung und „UCX“ Open-Source-Bibliotheken für die ultraschnelle Kommunikation gekommen. Die Software läuft auf 16 „DGX“-Systemen, die mit A100-GPUs ausgestattet sind.

Die DGX A100-Systeme können auf einer einzigen, Software-definierten Plattform Analysen, KI-Schulungen und Schlussfolgerungen rechnen. Sie sind mit A100 Tensor Core-Grafikprozessoren und Mellanox-Netzwerken ausgestattet.

Den Benchmark hat Nvidia in 14,5 Minuten durchgezogen, verglichen mit dem derzeit führenden Ergebnis von 4,7 Stunden auf einem CPU-System ist das schnell. Die Nvidia-Rechner hatten insgesamt 128 A100-GPUs an Bord und nutzten Mellanox-Netzwerke.

Artikelfiles und Artikellinks

(ID:46664702)

Über den Autor

 Ulrike Ostler

Ulrike Ostler

Chefredakteurin, DataCenter-Insider