Distributed Machine Learning Das verteilte Trainieren Künstlicher Intelligenz steckt noch in den Kinderschuhen

Autor / Redakteur: Anna kobylinska und Filipe Pereia Martins* / Ulrike Ostler

Die datengetriebene Wertschöpfung der digitalen Transformation setzt verstärkt auf verteiltes Maschinelles Lernen. Die Vorreiter rüsten ihre IT auf, im Rechenzentrum wie auch an der lernenden Edge. Sie beschaffen neue Tools und suchen neue Kompetenzen.

Firmen zum Thema

Im Prinzip können 'Maschinen' überall 'lernen', das heißt: trainiert werden. Doch wie bringt man die Erkenntnisse in Übereinstimmung? Wie müssen dafür die Modelle gestaltet sein und welche Quanlität müssen die Daten haben. Wer bürgt für die Zuverlässigkeit?
Im Prinzip können 'Maschinen' überall 'lernen', das heißt: trainiert werden. Doch wie bringt man die Erkenntnisse in Übereinstimmung? Wie müssen dafür die Modelle gestaltet sein und welche Quanlität müssen die Daten haben. Wer bürgt für die Zuverlässigkeit?
(Bild: geralt auf Pixabay)

ML (Maschinelles Lernen), eine Teilbereich von Künstlicher Intelligenz, macht sich überall nützlich, vor allem aber an der Edge. Von autarker Logistik bis hin zur Industrierobotik: Die digitale Transformation braucht intelligente, handlungsfähige Maschinen direkt am Ort des Geschehens.

„Künstliche Intelligenz und maschinelles Lernen sind die transformativsten Technologien unserer Zeit“, urteilen IDC-Analysten im Bericht „IDC Market Scape: Worldwide Advanced Machine Learning Software Platforms 2020 Vendor Assessment“ vom Oktober 2020. Die IDC-Studie identifizierte sechs Marktführer (IBM, AWS, Microsoft, SAS, Datarobot und Mathworks) sowie die fünf Hauptherausforderer: Google, Dataiku, Cloudera, H2O.ai und Alteryx.

Eingeengt: Die IDC-Studie „Market Scape für ML-Softwareplattformen“ vom Oktober 2020 identifiziert sechs Marktführer und fünf relevante Herausforderer.
Eingeengt: Die IDC-Studie „Market Scape für ML-Softwareplattformen“ vom Oktober 2020 identifiziert sechs Marktführer und fünf relevante Herausforderer.
(Bild: IDC)

Der Markt boomt. Laut einer Prognose von IDC sollen die weltweiten Ausgaben für KI-Systeme im Jahr 2023 satte 97,9 Milliarden Dollar erreichen, mehr als das Zweieinhalbfache der 37,5 Milliarden Dollar, die noch im vergangenen Jahr (2019) anfielen. Das Analystenhaus geht im Prognosezeitraum 2018 bis 2023 von einer durchschnittlichen jährlichen Wachstumsrate (CAGR) in Höhe von 28,4 Prozent aus.

Laut einer Prognose von PWC könnte sich das deutsche Bruttoinlandsprodukt (BIP) dank KI/ML bis zum Jahr 2030 um insgesamt 11,3 Prozent vergrößern. Dieses Wachstum entspricht einer Wertschöpfung von rund 430 Milliarden Euro, also knapp über der aktuellen Gesamtwirtschaftsleistung von Ländern wie Österreich und Norwegen.

Mainstream „im großen Maßstab“

„Der Einsatz von KI hat den Wendepunkt überschritten“, kommentiert Ritu Jyoti, Program Vice President for AI Research bei IDC und einer der Autoren der oben genannten IDC-Studie. Der rasante Anstieg der digitalen Transformation habe KI „an die Spitze der Unternehmensagenda katapultiert“. Der Einsatz von maschinellem Lernen sei „in allen Geschäftsprozessen allgegenwärtig“. Auf dem Weg in den Mainstream müssten Unternehmen innovative Plattformen für maschinelles Lernen einsetzen, um nachhaltige Wettbewerbsvorteile aus dem Einsatz von KI/ML „im großen Maßstab zu realisieren“.

Das mit dem „großen Maßstab“ ist so eine Sache, zumindest was die Ausführung von KI/ML-Workloads angeht. Soll Maschinelles Lernen das Testlabor verlassen, stellen sich sofort berechtigte Fragen nach praxistauglichen Systemarchitekturen für den Produktionsbetrieb.

  • Was ist, wenn das betreffende Geschäftsproblem die Grenzen des Arbeitsspeichers eines einzelnen Serverknoten sprengt?
  • Massive Mengen an (Trainings)daten, die ein umfassendes Machine-Learning-Modell durchlaufen, liefern womöglich nichts schnell genug greifbare Resultate, um echtzeitfähig zu sein – und dann?
  • Was passiert, wenn die Berechnungsanforderungen die Kapazitäten der vorhandenen Konnektivität überschreiten?
  • Und nicht zuletzt: Wie kommt ein Schwarm von Edge-Geräten – zum Beispiel eine Flotte autarker Inspektionsdrohnen – in den Genuss der Inferenz aus dem Rechenzentrum?

Ohne Distributed Machine Learning (kurz: DML), also ohne verteiltes Maschinelles Lernen, ist da nichts zu wollen.

Geteilte Freude

Die wichtigsten Anwendungen für Distributed ML umfassen nach dem heutigen Stand der Technik zwei Hauptszenarien mit gegensätzlichen Schwerpunkten:

  • das Training von ML-Modellen in verteilten Compute-Clustern (typischerweise in einem Rechenzentrum, aber potenziell auch beispielsweise in der Industrie 4.0)
  • verteilte Edge-Inferenz (also die Anwendung von ML-Modellen an der Netzwerkkante).

Das Training von ML-Modellen in verteilten Cluster-Architekturen kommt hauptsächlich in zwei Ausprägungen zum Tragen:

  • ML-Training in GPU-Farmen mit einer massiven Kommunikationsbandbreite
  • ML-Training vernetzter Maschinen mit beschränkter Konnektivität und niedriger Kommunikationsbandbreite

Verteilte Edge-Inferenz findet hauptsächlich in zwei Szenarien statt:

  • als leichtgewichtige Edge-Inferenz via einzelne IoT-Endpunkte
  • als Hochgeschwindigkeitsinferenz über Echtzeitdaten-Streams

DML ist ein interdisziplinäres Betätigungsfeld am Schnittpunkt zwischen Distributed-Computing und Datenwissenschaften, wo sehr unterschiedliche, hochspezialisierte Kompetenzen zusammenkommen. Denn bereits das (An)Trainieren von ML-Modellen erfordert der Skalierbarkeit zuliebe fortgeschrittene Fähigkeiten zur verteilten Datenverarbeitung; danach gilt es ja auch noch, die betreffenden Endpunkte mit den resultierenden Erkenntnissen zu aktualisieren.

Aufgestapelt

Leistungsstarke DML-Architekturen entstehen auf der Basis gut abgestimmter KI/ML-Stacks.

Ein KI/ML-Stack setzt sich aus mehreren Ebenen zusammen. Idealerweise sollten diese ineinander greifen und beim Orchestrieren gut zusammenhalten. Besonders deutlich lässt sich diese Problematik am Beispiel von ML-Arbeitslasten in einem Rechenzentrum illustrieren.

Die unterste Ebene des Stacks bildet eine KI/ML-optimierte Hardware. Auf diesem Infrastrukturfundament setzen dann die Orchestrierungswerkzeuge auf, zumBeispiel Kubernetes.

Eine weitere Softwareschicht, die dann wiederum darauf aufbaut, zeichnet für das Management der Orchestrierungswerkzeuge und somit auch die Portabilität des Software-Stack zwischen verschiedenen Laufzeitumgebungen verantwortlich. Darauf setzt dann das eigentliche KI/ML-Framework auf.

Dieses lässt sich gegebenenfalls um externe Dienste, Bibliotheken und sonstige anwendungsspezifische Erweiterungen ergänzen, beispielsweise im Bereich der Bilderkennung oder Sprachanalyse. Erst oberhalb dieser Schicht entstehen die eigentlichen KI/ML-Modelle und Visualisierungen.

Die Verteilung

Aus welchen Bestandteilen sich ein bestimmter KI/ML-Stack im Einzelnen zusammensetzt, hängt also im Endeffekt von den avisierten Anwendungsszenarien ab. Dann stellt sich die Frage nach einem geeigneten Standort.

KI-Algorithmen wie künstliche Neuronale Netze für maschinelles Lernen müssen in der Inferenzphase die anfallenden Datenströme möglichst echtzeitnah verarbeiten, um zu gewährleisten, dass cyber-physische Systeme auch in Situationen mit hoher Ungewissheit und in einem stark individualisierten Kontext autark handeln können. Neuronale Netze durchlaufen üblicherweise die hierzu erforderliche Trainingsphase, welche die Verarbeitung massiver Big-Data-Bestände voraussetzt, in verteilten Anwendungsarchitekturen in einem voll ausgewachsenen Rechenzentrum; erst die Inferenzphase kann dann auf den betreffenden cyber-physischen Edge-System stattfinden, zum Beispiel in einer autonomen Drohne.

Distributed Deep Learning: Schematische Darstellung eines Tensorflow-Benchmark auf „Azure ML“.
Distributed Deep Learning: Schematische Darstellung eines Tensorflow-Benchmark auf „Azure ML“.
(Bild: Microsoft)

Im Gegensatz dazu können sich diejenigen lernenden Algorithmen, die rein historische Daten verarbeiten, zwar damit generell mehr Zeit lassen, doch für die Entwickler gestaltet sich das Ganze wohl kaum einfacher. Denn in der ursprünglichen Lernphase geht es vorrangig darum, zuvor ungekannte Zusammenhänge in massiven Datenmengen aufzudecken, statt „nur“ vorgegebenen Denkmustern durch iterative Verbesserungen zu folgen. Diese Herangehensweise ist unter dem Namen Tiefes Lernen bekannt (kurz: „DL“ aus dem Englischen für Deep Learning).

Die Qual der Wahl

Die Vielfalt von KI/ML-Frameworks und Bibliotheken ist beinahe erdrückend. Viele der leistungsstärksten dieser Lösungen sind quelloffen, was das Vertrauen in ihren Unterbau stärken und deren Weiterentwicklung fördern soll.

  • Tensorflow: Dieses quelloffene ML-Framework wurde von Google zur Durchführung komplexer nummerischer Berechnungen an Big Data entwickelt und ist heute unter anderem bei AMD, SAP, Google, Intel und Nvidia im Einsatz
  • Torch: Dieses quelloffene GPU-optimierte KI-Framework für wissenschaftliches Computing in „LuaJIT“ (einen Just-In-Time Compiler für Lua, die führende Skriptsprache der Computerspielindustrie); zu der Nutzung dieses Framework bekennen sich unter anderem Google, Facebook und Twitter.
  • Caffe: Dieses quelloffene ML-Framework von UC Berkeley für Tiefes Lernen richtet das besondere Augenmerk auf Computer-Vision
  • Theano: Bei dieser Lösung handelt es sich um eine Python-Bibliothek, mit der sich mathematische Ausdrücke mit mehrdimensionalen Arrays definieren, optimieren und auswerten lassen.
  • Apache Mahout: Dieses verteilte lineare Algebra-Framework verfügt über eine mathematisch ausgeprägte Scala-DSL (Domain-Specific Language), die es Mathematikern, Statistikern und Datenwissenschaftlern die Implementierung eigener Algorithmen erleichtern soll. Das empfohlene Back-End ist das standardmäßig verteilte Apache Spark, aber auch andere Lösungen lassen sich mit Mahout integrieren.
  • PyTorch: Dieses beliebte quelloffene Framework für Tiefes Lernen unter Verwendung von dynamischen neuronalen Netzen ermöglicht die Entwicklung von KI/ML-Algorithmen für Anwendungen wie Computer-Vision oder die Verarbeitung natürlicher Sprache in Python.
  • Keras: Bei dieser Lösung handelt es sich um eine in Python geschriebene High-Level-API für künstliche neuronale Netzwerke auf der Basis von TensorFlow, CNTK oder Theano; sie ermöglicht die schnelle Umsetzung von Experimenten.
  • Mit Hilfe zusätzlicher Bibliotheken können Entwickler den KI-Frameworks erweiterte Features wie maschinelles Sehen (OpenCV) verleihen.

Das sprichwörtliche Tüpfelchen auf dem i in einem KI-Stack bilden Visualisierungswerkzeuge wie Matlab, Seaborn oder Facets. Mit Hilfe dieser Tools können Datenwissenschaftler aus Big Data gewonnene Erkenntnisse knackig auf den Punkt bringen. Collaborative-Anwendungen und Dienste zur Workflow-Automatisierung wie Jupyter, Anaconda oder Github runden einen KI/ML-Stack ab.

Verteiltes Maschinelles Lernen steckt noch in den Kinderschuhen, zeigt jedoch bereits heute enormes Potenzial.

Fazit der Autoren

Als die führende Lösung zur Orchestrierung von KI/ML-Workloads gilt mit Abstand Kubernetes. Zur Verwaltung dieser Software setzen viele Unternehmen wiederum auf ein anderes Framework, einen Dienst oder eine Multi-Cloud-Plattform wie „HPE Ezmeral“ (siehe: „Container-Orchestrierung a la Hewlett-Packard Enterprise; Die HPE Ezmeral Container Platform“ oder „VMware Tanzu“ (siehe: „Die Zusammensetzung, die Wurzeln und der Einsatzbereich von Tanzu; VMware Tanzu: Multicloud-Bereitstellung von Kubernetes“.

Nicht jedes Unternehmen möchte seine DML-Umgebung in Eigenregie auf die Beine stellen. Für Anbieter schlüsselfertiger Lösungen eröffnet sich hier ein großer Markt.

DML selbst basteln oder lieber doch kaufen?

Im Rahmen einer Initiative rund um die Implementierung von verteiltem ML müssten sich Unternehmen mit drei grundlegenden Problemen auseinandersetzen:

  • Synchronität von verteilten Aktualisierungsgleichungen (Englisch: synchronicity of distributed update equations);
  • Konvergenz zum globalen/lokalen Optimum (Englisch: convergence to global/local optimum);
  • Verteilung von ML-Modellen zur lastgerechten Bereitstellung auf der vorhandenen Infrastruktur (Englisch: distribution of ML models).

Distributed Machine Learning in der Praxis: Edge-Analytics bei der Guavus, Inc.
Distributed Machine Learning in der Praxis: Edge-Analytics bei der Guavus, Inc.
(Bild: Guavus)

In der Planungsphase einer Bereitstellung für Distributed ML zur Lösung konkreter Geschäftsprobleme seien Unternehmen gut beraten, sich „laserscharf“ auf das Design des Denkprozesses zu konzentrieren, raten Experten des KI-Spezialisten Guavus. Der globale Anbieter KI-gestützter Analytics-Lösungen aus dem kalifornischen San Jose hat sich mit seinem innovativen DML-Ansatz in der Telekommunikationsbranche einen Namen gemacht und kann auf prominente Kunden wie auch zahlreiche Auszeichnungen verweisen. Das Unternehmen konnte für seine Technologieplattform unter anderem die deutsche Unitymedia (heute Teil von Vodafone) gewinnen.

Die Ausgaben für (schlüsselfertige) KI-Systeme in den kommenden Jahren sollen vorrangig von der Einzelhandels- und Bankenbranche getragen werden, prognostiziert IDC. Fast die Hälfte der Einzelhandelsausgaben dürfte auf automatisierte Kundendienstmitarbeiter sowie erfahrene Einkaufsberater und Produktempfehlungssysteme entfallen. In der Prognose, die im September des vergangenen Jahres (2019) veröffentlicht wurde, konnte die noch bevorstehende Pandemie natürlich keinerlei Berücksichtigung finden; inwiefern das tatsächliche Wachstum von dem Modell abweicht, bleibt abzuwarten.

McKinsey Global Institute (MGI) schätzt das Wachstumspotenzial der deutschen Wirtschaft durch KI-Technologien bis zum Jahre 2030 (jährlich 1,3 Prozent) auf etwa 16,7 Prozent. Um dieses Ziel zu erreichen, müssten allerdings 70 Prozent aller Unternehmen bis zum Jahr 2030 KI-Lösungen einsetzen, vor allem in den Bereichen automatische Bilderkennung, natürliche Sprache, virtuelle Assistenten, roboterbasierte Prozessautomatisierung und fortgeschrittenes maschinelles Lernen.

* Das Autoren-Duo Anna Kobylinska und Filipe Pereia Martins arbeitet für McKinley Denali Inc. (USA).

(ID:47124566)