Kommentar von Dominik Ulmer, Cray Von Big zu Smart mit Supercomputing Power

Autor / Redakteur: Dominik Ulmer / Nico Litzel

Umfangreiche Datenmengen fallen zwar mittlerweile täglich in den unterschiedlichsten Sport- und Businessbereichen an, aber was nützt allein die Existenz riesiger Mengen an Daten, wenn Unternehmen diese nicht effizient zu nutzen imstande sind?

Anbieter zum Thema

Der Autor: Dominik Ulmer ist VP Business Operations EMEA bei Cray
Der Autor: Dominik Ulmer ist VP Business Operations EMEA bei Cray
(Bild: Cray)

Oft wird im Bereich Big Data Analytics über Cloud-Lösungen diskutiert, im Hinblick auf Effizienz ist jedoch der Faktor Zeit entscheidend. In vielen Fällen müssen Daten innerhalb kürzester Zeit oder sogar in Echtzeit verarbeitet werden, damit richtungsweisende Entscheidungen rechtzeitig getroffen oder Erkenntnisse gewonnen werden können. Big Data braucht also Algorithmen, die Datenberge sehr schnell verständlich machen und die in einer höchst skalierbaren Umgebung erfolgreich angewendet werden können.

Dazu wird aber auch entsprechend große Rechenleistung benötigt. Und wenn dann noch besonders geringe Latenzzeiten erforderlich sind, trifft Big Data auf Supercomputing / High-Performance Computing (HPC). Experten sprechen hier von „High Performance Data Analytics“ (HPDA) oder auch von der Konvergenz von Big Data und HPC.

Eine Cloud-Lösung hat demgegenüber die großen Nachteile, dass ihre Latenzzeit zu hoch ist und dass die Daten erst einmal in die Cloud bewegt werden müssen – was wiederum Ressourcen bindet und gerade im Hinblick auf den Schutz geschäftskritischer Daten nicht zu empfehlen ist.

Konvergenz von Big Data und HPC

Die Begriffe Kohärenz und Konvergenz sind dabei keineswegs nur leere Worthülsen. So verfolgen beispielsweise Experten in der Fertigungsindustrie das Zusammenwachsen von Big Data und HPC sehr aufmerksam, da dies positive Auswirkungen auf die Produktentwicklung und das Produktdesign aber auch auf das Life Cycle Management haben kann. Die Treiber des datengesteuerten Rechnens sind auch hier der steigende Bedarf an Rechenkapazität, zum Beispiel für die Durchführung von Lastfall-Simulationen, und die erhöhte Menge an Produktdaten.

Die Datenmengen, die aus physikalischen Tests, von den Produktionsflächen und mithilfe des Kunden-Feedbacks gesammelt werden, bieten aber auch die Chance, die Produktqualität zu verbessern. In der Automobilindustrie zum Beispiel sind Simulationen (Schlagsimulationen, Strukturanalysen und Elektromagnetik) für das Produktdesign unentbehrlich, denn nur so können sichere und wettbewerbsfähige Fahrzeuge entwickelt werden.

Die Begriffe Konvergenz und Kohärenz finden daneben aber auch in der US-amerikanischen „National Strategic Computing Initiative“, im britischen „Human Brain Project“ oder in den Beiträgen der großen kommerziellen und akademischen Player auf dem Gebiet des Hochleistungsrechnens ihren Platz. Big Data verändert die Art und Weise, wie Supercomputer genutzt werden, und Supercomputer wiederum beeinflussen den Umgang mit Big Data. Sei es nun die Analyse von Fußballspielen, Wetter- und Klimamodellierungen mithilfe von IoT-Sensordaten oder auch die detaillierte Analyse von Social-Media-Daten zu einem bestimmten Thema – Analytics und Supercomputing sind untrennbar miteinander verknüpft.

Fusion von HPC und Open-Source-Enterprise-Standards

Probleme bereitet nicht nur die Menge der Daten. Auch deren Diversität und die Komplexität der Analysen stellt Unternehmen hinsichtlich Big Data Analytics vor große Herausforderungen, besonders wenn diese ohnehin mit ungebremster Cluster-Vermehrung, einer Flut an neuen Applikationen und immer größerem Zwang zu immer schnelleren Erkenntnissen zu kämpfen haben. Hinzu kommt, dass technologische Entwicklungen auch in der Big-Data-Welt keinesfalls stagnieren. „Spark“, „Hadoop“ oder Graphdatenbanken sind inzwischen in vielen Industrien allgegenwärtige Technologien. Und auch innovative Ansätze wie Deep Learning sind auf dem Vormarsch.

Um diesen grundsätzlichen Problemen zu begegnen, braucht es neue, agile Big-Data-Analytics-Lösungen, die IT-Profis und Forschern dabei helfen, für die größten Big-Data-Herausforderungen gewappnet zu sein – trotz stetig steigender Datenmengen, Komplexität und immer mehr Anwendungsbereichen. Eine Möglichkeit, diese Agilität herzustellen, ist, die Eigenschaften eines Supercomputers, nämlich enorme Rechengeschwindigkeit sowie Skalierungs- und Durchsatzraten, mit jenen einer standardisierten Enterprise-Hardware und einer Open-Source-Softwareumgebung zu kombinieren (OpenStack für das Daten-Management und „Apache Mesos„“ für die dynamische Konfiguration). Das bedeutet für den Nutzer mehr Anwendungskomfort und Flexibilität.

Im Gegensatz zu der oft zitierten „Schatten-IT“, bei der verschiedene Cluster-Architekturen jeweils für verschiedene Workloads eingesetzt werden und damit ein Problem für die Integration von Applikationen darstellt, wird mit diesem Modell auf die Verwendung einheitlicher und offener Industriestandards gesetzt. Dies ermöglicht die zeitgleiche Durchführung anspruchsvoller Analyse-Workloads – sei es Hadoop, Apache Spark oder Graph –auf einer einzigen Plattform und erleichtert zudem auch die Integration neuer Analytics-Werkzeuge.

Anwendern im Enterprise-Bereich steht durch diese Fusion von HPC-Technologie und Open Source Enterprise-Software ein leistungsfähiges Instrument zur Verfügung, um sehr schnell Einblicke in riesige Mengen unstrukturierter Daten zu gewinnen.

HPC-Komponenten für die Analyse von Big Data

Entscheidendes Element dieser Fusion ist der „Aries“-Verbindungs-Chip („Aries Interconnect“), der auch in Cray-Supercomputern erfolgreich eingesetzt wird. Dieses interne Hochgeschwindigkeits-Netzwerk ist ein verteiltes Verbindungssystem, das auf niedrige Latenz und hohe Bandbreiten ausgelegt und für hohe Messaging-Raten optimiert ist.

Netzwerkabhängige Workloads, wie Spark, laufen dadurch entsprechend schneller, Datenpakete können „im Flug“ („in-flight“) verarbeitet werden und erlauben äußerst schnelle In-Memory Analytics. Der Aries-Verbindungschip ersetzt dabei Verbindungen per Ethernet- oder Infiniband-Knoten, sodass die Notwendigkeit entfällt, ein Netzwerk-Fabric zwischen einzelnen Knoten aufzubauen, das unnötig Zeit, Support und Kapital verschlingt.

Anwendungsbeispiele aus der Wissenschaft

Ein Projekt, das maßgeblich von der HPC-Big-Data-Konvergenz profitieren wird, ist das von der Europäischen Union ins Leben gerufene Human Brain Project (HBP) am Jülich Supercomputing Centre (JSC). Hierbei handelt es sich um eine Zehn-Jahres-Initiative, die das gesamte Wissen über das menschliche Gehirn zusammenfassen und mittels computerbasierter Modelle und Simulationen nachbilden soll. Im Mittelpunkt des Projekts steht unter anderem die Entwicklung von Speicherlösungen, die auf die immensen Datenmengen ausgelegt sind, die im Zuge einer Hirn-Simulation anfallen.

Weitere Gesichtspunkte umfassen das Management des Projekts, den Workflow sowie die Bereitstellung interaktiver Simulationen. Aus diesen Daten und Simulationen können langfristig neue Instrumente entstehen, um das Gehirn und seine grundlegenden Mechanismen besser zu verstehen und dieses Wissen in der Medizin und Informatik der Zukunft anzuwenden.

Auch die „Argonne Leadership Computing Facility“ in den USA arbeitet mit datenzentrierten Anwendungen, etwa in den Bereichen Life Science, Materialwissenschaften und Machine Learning. Das Institut widmet sich der Erforschung und Optimierung verschiedener Rechenmethoden, welche die Grundlage für datengestützte Erkenntnisse in allen wissenschaftlichen Disziplinen bilden. Im Rahmen des so genannten ALCF Data Science-Programm 2016 sollen Programmteilnehmern Branchen führende Computing-Ressourcen bereitgestellt werden, um ihnen das Parsing und die Analyse gigantischer Datensätze zu ermöglichen.

Ein weiterer Anwendungsfall ist die Analyse von Genomdaten und die Genom-Sequenzierung in der Krebsforschung. Auch hier kommt es darauf an, Ergebnisse extrem schnell zu erzielen. Das Non-Profit-Forschungsinstitut Broad Institute des Massachusetts Institute of Technology (MIT) und von Harvard in den Vereinigten Staaten, das sich um ein größeres Verständnis von Krankheiten und den Fortschritt bei deren Behandlung bemüht, setzt hier neue Maßstäbe. Es konnte die Zeit, in der es die Quality Score Recalibration (QSR)-Ergebnisse aus seinem Genom-Analyse-Toolkit „GATK4“ und der Apache Spark-Pipeline erzielt, mithilfe der mit HPC-Komponenten ausgestatteten Big Data Analytics Hardware Appliance deutlich verkürzen: von 40 auf neun Minuten.

HPC – die Antwort auf bisher ungelöste Fragen

Um das Potenzial von Big Data effektiv nutzen zu können und auch dessen Risiken abzudecken, werden neue Ansätze benötigt, große Mengen an Daten schnell aufnehmen, analysieren und speichern zu können. Das erfordert die Konvergenz von HPC und Big Data Analytics und die Verwendung einer einheitlichen Plattform für die Aufnahme, Analyse und das Abfragen von Daten. Nur so kann aus Big Data Smart Data werden.

Dort, wo die Erfahrungen aus dem Bereich des Hochleistungsrechnens in den Entwurf der Datenanalyse-Umgebung eingebracht werden, entstehen bereits heute neue Ansätze, mit denen Unternehmen aus den Bereichen Pharma, Logistik, Energie, Finanzdienstleistungen und Fertigung die bisherigen Grenzen von Forschung und Entwicklung sprengen. Sie sind damit in der Lage, Antworten auf bislang ungelöste Fragen zu finden.

Artikelfiles und Artikellinks

(ID:44345319)