Kennzahlen für vergleichbare Leistung

Was ist ein Performance Benchmark (wert)?

| Autor / Redakteur: Filipe Martins und Anna Kobylinska* / Ulrike Ostler

Benchmarks bieten Kennzahlen, die erlauben kompexe Systeme zu vergleichen. Wer bei den Tests vorn liegt, gewinnt Kunden. Allerdings: Es gibt viele Performance Benchmarks und nicht alle sind so objektiv, wie sie scheinen.
Benchmarks bieten Kennzahlen, die erlauben kompexe Systeme zu vergleichen. Wer bei den Tests vorn liegt, gewinnt Kunden. Allerdings: Es gibt viele Performance Benchmarks und nicht alle sind so objektiv, wie sie scheinen. (Bild: gemeinfrei - Gadini/Pixabay / CC0)

Beim Kauf eines Systems stehen seine Leistungsmerkmale im Mittelpunkt der Betrachtung. Performance-Benchmarks sollen die Vergleichbarkeit erleichtern. Inwiefern diese Zahlen wirklich eine zuverlässige Messlatte darstellen, ist allerdings dennoch von Fall zu Fall verschieden und manchmal sind die Kennzahlen nur Schmu.

Die Aufgabe von Performance-Benchmarks besteht darin, die Leistungsmerkmale einer Lösung im Vergleich zu den Vorgängermodellen und zu aktuellen Alternativen anderer Anbieter mit harten Zahlen zu belegen. Insbesondere bei der Hardwarebeschaffung für die öffentliche Hand — für Regierungsbehörden, Forschungseinrichtungen und andere Organisationen — spielen Benchmarks eine zentrale Rolle. Aber auch in der privaten Wirtschaft können aussagekräftige Benchmarks in vielen Fällen den Weg der Auftragsvergabe glätten.

Bei Hardwarebeschleunigern ist ohne überzeugende Benchmarks kein Blumentopf zu gewinnen; in der Abbildung: die Vorstellung von „Nvidia TensorRT 3“.
Bei Hardwarebeschleunigern ist ohne überzeugende Benchmarks kein Blumentopf zu gewinnen; in der Abbildung: die Vorstellung von „Nvidia TensorRT 3“. (Bild: Nvidia)

Datacenter-Betreiber und Integratoren können bei der Anschaffung von Systemkomponenten Benchmarks der Anbieter zu Rate ziehen und bei der späteren Systemkonfiguration eigene Tests mit bewährten Benchmark-Tools laufen lassen, um die Resultate als eine Messlatte zur Performance-Optimierung zu nutzen. So sollte es möglich sein, auf die zuvor gesetzten Leistungsziele systematisch hin zu arbeiten.

Die wichtigsten Benchmarks und ihre Tücken

Für die jeweiligen Hersteller steht bei den Benchmark-Ergebnissen gewöhnlich eine Menge Geld auf dem Spiel. Wer die Vorzüge seiner Lösungen mit Benchmarks zu belegen weiß, gewinnt handfeste Wettbewerbsvorteile.

In der IT-Branche haben sich inzwischen folgende Benchmarks fest etabliert:

Ergänzendes zum Thema
 
Links zu den wichtigsten Benchmarks
  • LINPACK (siehe: Kasten unter [1]) misst die Leistung eines Computersystems bei Gleitkommaoperationen; eine stark parallelisierte Variante des Benchmarks namens HPL (für High Performance Linpack) bestimmt den Rang der weltweit stärksten Supercomputer auf der TOP500-Liste;
  • SPEC (siehe: Kasten unter [2]) ist eine Sammlung von Anwendungen der gemeinnützigen Standard Performance Evaluation Corporation zur Messung der Systemleistung in „lebensechten Nutzungsszenarien“;
  • TPC-Benchmarks (siehe: Kasten unter [3]) des Transaction Performance Processing Counsel messen die Leistung von Computersystemen bei transaktionalen Workloads;
  • DeepBench (siehe: Kasten unter [4]) ist ein quelloffener KI-Benchmark von Baidu Research zum Messen der Performance bei Rechenoperationen, welche künstlichen neuronalen Netzen (KNN) zugrunde liegen;
  • SORT umfasst eine Sammlung von Benchmarks zum Messen der Leistung des IO-Subsystems beim Sortieren von großen Datenmengen;
  • DAWNBench dient zur Evaluierung der Gesamtleistung von KI-Modellen über die gesamte Trainings- und Inferenzphase hinweg; es ermittelt Messwerte wie Trainingszeit, Trainingskosten, Inferenzlatenz und Inferenzkosten, um die Vergleichbarkeit verschiedener Optimierungsstrategien, KI-Modelle, Software-Frameworks, Cloud-Umgebungen und Hardware-Plattformen herzustellen;
  • MLPerf ermittelt die KI-Performance von ML-Frameworks, Hardwarebeschleunigern, und KI-Diensten sowohl bei Training- als auch bei Inferenz-Workloads im Rechenzentrum wie auch an der Netzwerkkante; diese Sammlung von Benchmark-Tools stützt sich auf die bewährtesten Praktiken seiner Vorgänger (darunter SPEC und TPC).

Benchmarks der Applikationshersteller

Diverse Hersteller nutzen auch gerne ihre eigenen Benchmarks; zu den prominentesten Beispielen zählen VMware und SAP, zwei Softwareschmieden mit zwei diametral unterschiedlichen Ansätzen.

  • VMmark (siehe: Kasten unter [6]),
  • SAP Standard Application Benchmarks (siehe: Kasten unter [5])

Geprüft: VMmark-Benchmarks werden vor der Veröffentlichung von einem Peer-Review-Panel auf ihre Korrektheit hin überprüft.
Geprüft: VMmark-Benchmarks werden vor der Veröffentlichung von einem Peer-Review-Panel auf ihre Korrektheit hin überprüft. (Bild: VMware)

VMware bietet mit dem VMmark 3 ein kostenfreies Tool zur Messung der Performance, Skalierbarkeit und des Energieverbrauchs eines virtualisierten Datencenters. Der Benchmark kann Vergleiche zwischen verschiedenen Virtualisierungsplattformen mit einer sehr hohen Präzision herstellen.

Die Software kombiniert häufig virtualisierte Anwendungen zu Gruppen (den so genannten „tiles“), welche echte Workloads wiedergeben sollen; die Gesamtwertung ergibt sich aus der Gesamtzahl dieser Workloads, ihrer kumulativen Leistung und anderer erforderlicher Arbeitslasten der jeweiligen Virtualisierungsplattform. Um dem Benchmark die nötige Akzeptanz zuzusichern, lässt VMware, selbst ein Unternehmen der Dell Technologies-Gruppe, die Resultate von einem Peer-Review-Panel überprüfen.

Vergleichskriterium Anwendungsleistung: Bei der Wahl von Hardware für den Einsatz mit SAP können Unternehmen SAP-zertifizierte Benchmarks zu Rate ziehen.
Vergleichskriterium Anwendungsleistung: Bei der Wahl von Hardware für den Einsatz mit SAP können Unternehmen SAP-zertifizierte Benchmarks zu Rate ziehen. (Bild: SAP)

Bei der Wahl von Hardware für SAP-Workloads können Systemintegratoren und ihre Kunden SAP-zertifizierte Benchmarks zu Rate ziehen. Diese Benchmarks entstammen der Feder von SAP-Ingenieuren und sind darauf hin optimiert, unterschiedliche Systemkonfigurationen diverser Hardware-Anbieter miteinander zu vergleichen.

SAP Standard Application Benchmarks haben sich als eine Richtschnur bei der Wahl geeigneter Systemkonfigurationen für die Bereitstellung von SAP-Lösungen mit strikt definierten Leistungsmerkmalen bewährt. Zu den wichtigsten SAP-Benchmarks zählen SAP SD (Sales and Distribution), SAPS (SAP Application Performance Standard), BWH (Business Warehouse für SAP HANA) und BWAML (SAP Business Warehouse Advanced Mixed Load Standard Benchmark).

Benchmarketing, die dunkle Seite von Performance-Benchmarks

Aufgrund der hohen Komplexität der Rechenzentrums-Hardware besteht bei der Auftragsvergabe generell Bedarf nicht „nur“ an zuverlässigen Messwerten, sondern auch an einer Art von Präsentation, welche komplizierte Sachverhalte verständlich vermittelt. Doch bei Benchmarks steckt der Teufel bekanntlich in den Details. Leider lassen die einen oder anderen Hardwarehersteller die entscheidenden Fakten über ihre Systeme schon mal gerne im Kleingedruckten versinken.

Die schiere Komplexität der Materie rund um Performance-Benchmarks (siehe dazu den Definitions-Artikel „Performance“) schafft auch gewisse Spielräume für rein illusorische Übertreibungen. Kritiker dieser Praxis ließen die Worte „Benchmarking“ und „Marketing“ augenzwinkernd zu einem selbsterklärenden Fachbegriff verschmelzen und so erhielt das Phänomen seinen Spitznamen: Benchmarketing.

Hinzu kommen rein trügerische Systemkonfigurationen. Das wohl krasseste Beispiel lieferte im Jahre 2016 Intel mit seinem Versuch, Nvidias Vorstoß ins Rechenzentrum mit zweifelhaften Benchmarks auszubremsen. Bei der Präsentation der „Knights Landing Xeon Phi“-Karten auf der High Performance Conference (ISC 2016) zog der Chip-Riese einen Vergleich zwischen der Leistung von 32 Servern mit der eigenen topaktuellen Xeon Phi-CPUs in Googlenet-Topologie mit dem „Titan“-Supercomputer. Das Problem dabei: Im Titan-Supercomputer musste die bereits vier Jahre alte „Nvidia Kepler K20“ ihren Dienst verrichten. (Bei der Knights Landing Xeon Phi handelt es sich im Wesentlichen um 72 „Atom“-CPUs auf einem Chip mit jeweils zwei AVX-512-Vektor-Einheiten pro Kern).

Schöngeredet: Auf der ISC 2016 verglich Intel eigene, topaktuelle Hardware mit veralteter Hardware des Mitbewerbers NVIDIA und kürte sich so zum Sieger der Benchmarks, wirklich keine Kunst.
Schöngeredet: Auf der ISC 2016 verglich Intel eigene, topaktuelle Hardware mit veralteter Hardware des Mitbewerbers NVIDIA und kürte sich so zum Sieger der Benchmarks, wirklich keine Kunst. (Bild: Intel)

Peinliche Mogelei

Nvidia hat an dem vermeintlichen Leistungsvorsprung von 38 Prozent von Intel Anstoß genommen; hätte der Platzhirsch die aktuelle Generation von Nvidia-GPUs mit dem hierzu passenden Interconnect getestet, wäre das Resultat anders herum ausgefallen. Die damals aktuellen Nvida-GPUs hätten laut Hersteller bis einschließlich 128 Karten linear skaliert und somit nahezu 100 Prozent der Netto-Leistung erbringen können; damit wäre das System knapp 15 Prozent performanter als Intels Knights Landing Xeon Phi-Knoten mit deren bloß 87prozentigen Netto-Leistung.

Der Branchenprimus Intel hat es in seiner aufschneiderischen Präsentation nicht bei diesem einen Benchmarketing-Trick belassen. Beim Test der Trainingsphase von neuronalen Netzen nahm das Unternehmen für sich in Anspruch, mit dem Xeon Phi-System eine 2,3-fache Performance gegenüber der „Maxwell“ GPU von Nvidia zu erbringen (für einen Vorsprung von 230 Prozent zugunsten von Intel).

Im Test kam allerdings ein veralteter „Caffe Alexnet“-Benchmark zum Einsatz. Auch hier wurde Nvidia hellhörig. Hätte Intel die aktuelle Version des Benchmarks genutzt, wären die Resultate zugunsten des Rivalen ausgefallen: Das vier Jahre alte Auslaufmodell von Nvidia wäre nicht langsamer gewesen, sondern sogar 30 Prozent schneller; ein vergleichbares System auf der Basis der damals aktuellen „Pascal“-GPU („GTX Titan X“ mit 11 TeraFLOPS und 12 Gigabyte GDDR5X) hätte Intels Systemkonfiguration sogar um 90 Prozent geschlagen, argumentierte Nvidia. Intels scheinbarer Vorteil ist damit schnell wieder verpufft.

Abgeseilt: Nach der Präsentation von Raja Koduri, SVP und Chief Architekt der Radeon Tech Group Leader bei AMD, auf dem 2017 Financial Analyst Day, musste sich Intel für die schwache KI-Performance in den Boden schämen; Koduri hat sich mit den überzeugenden Benchmarks offenbar einen Job eingehandelt, denn er ist heute als SVP der Core and Visual Computing Group bei Intel tätig.
Abgeseilt: Nach der Präsentation von Raja Koduri, SVP und Chief Architekt der Radeon Tech Group Leader bei AMD, auf dem 2017 Financial Analyst Day, musste sich Intel für die schwache KI-Performance in den Boden schämen; Koduri hat sich mit den überzeugenden Benchmarks offenbar einen Job eingehandelt, denn er ist heute als SVP der Core and Visual Computing Group bei Intel tätig. (Bild: AMD)

Beschwerden von AMD

Über Intels zweifelhafte Benchmark-Manöver hatte sich seinerzeit auch AMD lautstark beschwert und sah sich in einem Urteil der FTC (Federal Trade Commission) bestätigt (siehe: Kasten unter [9]). Intel greift routinemäßig zu den Benchmarks von BAPco, um die eigenen technischen Errungenschaften mit alternativen Lösungen zu vergleichen, konkret:

  • SYSmark (siehe: Kasten unter [7]),
  • MobileMark (siehe: Kasten unter [8]).

AMD mokierte sich über die einseitige Bevorzugung von Intel-Chip-Architekturen in diesen Benchmarks. Die SYSmark- und MobileMark-Benchmarks entstünden in einer solch intensiven Zusammenarbeit mit Intel, dass andere Chip-Architekturen systematisch benachteiligt würden. Der Chip-Riese würde „Intel-spezifische Optimierungen“ sogar im Kleingedruckten zugeben.

KI-Benchmarks und ihre Tücken: DeepBench versus MLPerf

Zum Teil liegt das Problem der unfairen Wettbewerbsvorteile auch an den Benchmarks selbst. Sogar längst etablierte Performance-Benchmarks gewähren den Unternehmen zum Teil derart üppige Freiheitsräume, dass sich damit leicht auch solche Performance-Messungen anstellen lassen, die einem bestimmten Anbieter oder einer Architektur gegenüber anderen unfaire Vorteile einräumen.

Ein Beispiel für die tückische Natur von Benchmarks liefert das bewährte DeepBench. Die Funktionsweise dieser Lösung illustriert die Herausforderungen, die auftreten, wenn es darauf ankommt, unterschiedliche Systemarchitekturen oder Hardwarekomponenten in ihrer Leistung miteinander zu vergleichen.

KI-Modelle entstehen unter Verwendung von KI-Frameworks wie „Paddlepaddle“, „Theano“, „Tensorflow“, „Torch“ und anderen. Um diese Modelle zu trainieren, nutzen KI-Frameworks hardwarespezifische KNN-Bibliotheken wie „cuDNN“ von Nvidia (für NVIDIA GPUs) oder „Intel MKL“ (für Intels Xeon-Prozessorfamilie). Diese Bibliotheken implementieren wiederum einfachere Rechenoperationen wie beispielsweise Matrizenmultiplikationen auf ihrer jeweiligen Plattform.

DeepBench verwendet eben diese Bibliotheken, um die Leistung unterschiedlicher Hardware zu vergleichen und kann daher nur diese grundlegenden Operationen erfassen. Da der Benchmark die Deep-Learning-Frameworks umgeht, kann er die besonderen Leistungsansprüche konkreter KI-Modelle nicht berücksichtigen. Es ist also nicht möglich, mit DeepBench etwa die Gesamtdauer der Trainingsphase eines neuronalen Netzes auf einer bestimmten Hardware zu ermitteln, um Vergleiche mit anderen Systemen für dieses konkrete Modell herzustellen. DeepBench misst ja „nur“ die Leistung des Systems beim Ausführen der Rechenoperationen, die einem solchen Modell theoretisch zugrunde liegen würden.

Mit MLPerf ging Ende März dieses Jahres ein neuer Benchmark an den Start, welcher die Unzulänglichkeiten etablierter Lösungen in diesem Bereich ausbügeln soll. Hinter MLPerf stehen neben Branchengrößen wie Google, Baidu, Intel und AMD auch akademische Schwergewichte wie Harvard, Stanford und UC Berkeley.

Die MLPerf-Gemeinde wählt jeweils einige typische ML-Probleme samt der zu testenden Datensätze und der qualitativen Ziele für das betreffende KI-Modell, welches es zur Lösung des so definierten Problems anhand der gegebenen Datensätze zu trainieren gilt. Typische Problemstellungen umfassen Aufgaben wie die Texterkennung in Audiodaten, die Bildklassifizierung, die Objekterkennung, Sentiment-Analyse und dergleichen andere mehr. Der Benchmark misst dann die Zeit, die bis zum Erreichen des qualitativen Ziels verstrichen ist; es gewinnt dann (hoffentlich) das beste System.

Lessons learned

Performance-Benchmarks können die Auftragsvergabe entscheidend beeinflussen, indem sie die Vergleichbarkeit von Leistung zwischen verschiedenen Systemkonfigurationen herstellen. Im Rennen um die besten KI-Systeme werden daher auch die Karten in der Benchmark-Szene neu aufgemischt.

Mit MLPerf haben Erzrivale der KI-Szene den Handschuh in den Ring geworfen, um endlich eine Plattform der Vergleichbarkeit zu schaffen. Sie soll den Innovationsträgern der KI-Szene den nötigen Rückenwind verschaffen und den Entscheidern in Rechenzentren unparteilich zu Rate stehen.

*Die Autoren

Die Autoren des Artikels, Filipe Pereira Martins und Anna Kobylinska arbeiten für McKinley Denali Inc. (USA).

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45405611 / Hybrid IT - Fujitsu Content-Hub)