Eine kaum noch überschaubare Vielzahl an KI/ML-Frameworks, -Bibliotheken und -Diensten buhlt um die Gunst innovativer Unternehmen. So wird Big Data zur Goldgrube.
15,7 Billionen US-Dollar – diese Summe können KI-Lösungen Schätzungen zufolge bis 2030 zur Weltwirtschaft beitragen.
KI-Lösungen könnten bis 2030 einen Beitrag zur Weltwirtschaft in Höhe von satten 15,7 Billionen Dollar leisten, schätzt das Beratungshaus PwC im vergangenen Jahr. Zum einen ließe sich diese zusätzliche Wertschöpfung auf Produktivitätsgewinne, zum anderen auf die gestiegene Verbrauchernachfrage zurückführen. Wie dem auch sei: Für KI-basierte Wertschöpfung müssen die betroffenen Unternehmen selbst den Grundstein legen.
Das Fazit der Autoren
KI-gestützte Wertschöpfung aus Big Data braucht grundsoliden Unterbau eines robusten KI-Stacks. Beim Entwurf einer Big-Data-Analysesoftware mit KI-Fähigkeiten betreten die Unternehmen leider immer noch Neuland. An Tücken und Stolperfallen mangelt es nicht.
Wer es dennoch schafft, die Elemente eines KI-Stacks gut aufeinander abzustimmen und der Aufgabe gerecht zu gestalten, kann aus dem enormen Potenzial, der in Big Data schlummert, mit beiden Händen schöpfen. Innovative Marktteilnehmer haben es vorgemacht: Die gewünschten Resultate lassen nicht lange auf sich warten.
Den Grundstein für KI/ML legen
Bei einem KI-Stack handelt es sich um den geballten technologischen Unterbau einer KI-Anwendung zur Datenanalyse, der sich aus einzelnen voneinander klar abgegrenzten Bestandteilen zusammensetzt. (Der Begriff Stack bezeichnete in der Informatik ursprünglich eine Datenstruktur, die eine Sammlung von Objekten speichern sollte.) Dem konzeptionellen Aufbau eines KI-Stacks widmete sich der Beitrag „Voll bestückt: KI-Engines im Bündel mit Hardware“. In dem vorliegenden Bericht geht es um praktische Herausforderungen.
Die Notwendigkeit zur Echtzeit-Auswertung massiver Datenströme stoß in den vergangenen Jahren auf sinkende Kosten der Rechenleistung und beachtliche Fortschritte in massiver Parallelisierung, nicht zuletzt dank der Cloud. Die eifrigen Versuche, komplexe mathematische Berechnungen mithilfe von KI/ML-Frameworks in moderne, skalierbare Lösungen zu gießen, können so endlich Früchte tragen.
Die Vielfalt von KI/ML-Frameworks und Bibliotheken ist beinahe erdrückend. Die leistungsstärksten dieser Lösungen sind in der Regel quelloffen, was das Vertrauen in ihren Unterbau stärken und deren Weiterentwicklung fördern soll.
Tensorflow: Dieses quelloffene ML-Framework wurde von Google zur Durchführung komplexer numerischer Berechnungen an Big Data entwickelt und ist heute unter anderem bei AMD, SAP, Google, Intel und Nvidia im Einsatz
Torch: Dieses quelloffene GPU-optimierte KI-Framework für wissenschaftliches Computing in LuaJIT (einem Just-In-Time Compiler für Lua, die führende Skriptsprache der Computerspielindustrie); zu der Nutzung dieses Frameworks bekennen sich unter anderem Google, Facebook und Twitter.
Caffe: Dieses quelloffene ML-Framework der UC Berkeley für Deep Learning richtet besonderes Augenmerk auf Computer-Vision
Theano: Bei dieser Lösung handelt es sich um eine Python-Bibliothek, mit der sich mathematische Ausdrücke mit mehrdimensionalen Arrays definieren, optimieren und auswerten lassen.
Apache Mahout: Dieses verteilte lineare Algebra-Framework verfügt über eine mathematisch ausgeprägte Scala-DSL (Domain-Specific Language), die Mathematikern, Statistikern und Datenwissenschaftlern die Implementierung eigener Algorithmen erleichtern soll. Das empfohlene Back-End ist das standardmäßig verteilte Apache Spark, aber auch andere Lösungen lassen sich mit Mahout integrieren.
Pytorch: Dieses beliebte quelloffene Framework für Deep Learning unter Verwendung von dynamischen neuronalen Netzen ermöglicht die Entwicklung von KI/ML-Algorithmen für Anwendungen wie Computer-Vision oder die Verarbeitung natürlicher Sprache in Python.
Keras: Bei dieser Lösung handelt es sich um ein in Python geschriebenes High-Level-API für künstliche neuronale Netzwerke auf der Basis von TensorFlow, CNTK oder Theano; sie ermöglicht die schnelle Umsetzung von Experimenten.
Die leistungsstärksten KI/ML-Frameworks sind in der Regel quelloffen.
Die Programmierumgebung von TensorFlow setzt sich aus mehreren API-Schichten zusammen.
(Bild: Tensorflow.org)
Mithilfe zusätzlicher Bibliotheken können Entwickler den KI-Frameworks erweiterte Features wie maschinelles Sehen (OpenCV) verleihen. Das sprichwörtliche Tüpfelchen auf dem i in einem KI-Stack bilden Visualisierungswerkzeuge wie Matlab, Seaborn oder Facets. Mithilfe dieser Tools können Datenwissenschaftler die aus Big Data gewonnenen Erkenntnisse knackig auf den Punkt bringen. Kollaborative Anwendungen und Dienste zur Workflow-Automatisierung wie Jupyter, Anaconda oder GitHub runden einen KI/ML-Stack ab.
Viele der beliebtesten quelloffenen KI/ML-Frameworks sind als vollständig gemanagte Dienste bei den großen Cloud-Anbietern im Pay-as-you-go-Bereitstellungsmodell verfügbar. So lässt sich zum Beispiel Googles „Tensorflow“ nicht nur in Googles eigener Cloud, sondern etwa auch auf AWS und Microsoft Azure nutzen. Apache Spark werkelt unter anderem im Inneren von „Azure Databricks“, einem Big-Data-Dienst von Microsoft.
Die verschiedenen Cloud-Anbieter zeigen sich bemüht, durch Alleinstellungsmerkmale wie KI-optimierte Hardwarebeschleuniger oder die verbesserte Integration mit anderen Big-Data-Diensten zu trumpfen. Googles Cloud-Implementierung von „Tensorflow“ läuft beispielsweise auf einer speziell hierzu entwickelten Chip-Architektur, der so genannten TPU (Tensor Processing Unit), einem leistungsstarken KI-Beschleuniger in ASIC-Architektur.
Die Qual der Wahl
Beim Entwurf ihrer eigenen KI/ML-Stacks betreten Unternehmen Neuland — und haben dabei die Qual der Wahl. Wer sich auf industriespezifische Lösungen wie die „Drive“-Plattform von Nvidia nicht verlassen möchte, dem steht es frei, die gewünschte KI/ML-Plattform samt der benötigten Entwicklungsumgebung auf der Basis quelloffener Frameworks zusammenzustellen, sei es in Eigenregie oder mit der tatkräftigen Unterstützung eines kompetenten Partners. Die Aufgabe erfordert ein breit gefächertes Spektrum an Kompetenzen, die sich dem einen oder anderen Mittelständler nicht so ohne Weiteres erschließen.
Viele Unternehmen vertrauen daher lieber auf schlüsselfertige Integration wie „Mindsphere Predictive Learning“, die IoT-Plattform von Siemens. Software wie Mindsphere reduzieren den administrativen Overhead und gewähren ihren Nutzern dennoch einen beachtlichen Spielraum für bedarfsgerechte Anpassungen.
Die Architektur von MindSphere auf einen Blick
(Bild: Siemens)
Mit dem Modul Predictive Learning Data Science Workbench erhalten die Nutzer von „Mindsphere“ Zugriff auf ein Apache Zeppelin Notebook für die Entwicklung von Datenmodellen für eine interaktive Datenanalyse. Siemens bietet hierzu verwaltete Zeppelin-Instanzen mit vorkonfigurierten Deep-Learning-Integrationen. Diese umfassen Lösungen wie „Tensorflow“, „Keras“ und „Theano“ sowie Bibliotheken des maschinellen Lernens wie „MLlib“ von Apache Spark an. Die Nutzer dieser Dienste reservieren die benötigte Rechenleistung und schon können sie ihre Big-Data-Bestände mithilfe eigener Datenmodelle erforschen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Eingespielt: quelloffene Orchestrierungs-Tools für KI/ML-Workloads
Als die führende Lösung zur Orchestrierung von KI/ML-Workloads gilt mit Abstand Googles quelloffene Orchestrierungsframework Kubernetes. Zur Verwaltung dieser Software setzen viele Entwicklungsschmieden wiederum ein anderes Framework namens Kubeflow ein.
KI/ML-Algorithmen wie neuronale Netze lassen zumindest in der Training-Phase massive Datenmengen über sich „ergehen“; KI/ML-Stacks müssen daher sowohl die horizontale Skalierbarkeit beherrschen als auch die Übergabe von Daten in diese verteilten Architekturen meisten. Cloud-Anbieter können hier mit eigens für diese Zwecke entwickelten Datendiensten auftrumpfen.
So kann beispielsweise „Kinesis“ von Amazon Big-Data-Ströme aus mobilen Anwendungen und anderen IoT-Endpunkten zur Auswertung durch KI in „Apache Spark“ auf „EMR“ einfließen. Ob das allerdings so gut ist, wenn personenbezogene Daten oder andere sensible Informationen in öffentlichen Clouds „die Runde machen“, mag bezweifelt werden. Denn der Einsatz von Cloud-Diensten für die Verarbeitung sensibler Daten geht trotz ausgeklügelter Schutzmaßnahmen mit erheblichen Risiken einher.
Ein KI-Stack auf AWS: Architektur einer Beispiellösung zum Auswerten von Telefongesprächen eines Contact Centers durch einen Transkriptionsservice mithilfe von KI (mit Unterstützung für Deutsch).
(Bild: AWS)
Missbrauchspotenzial
Tesla, der kalifornische Pionier autonomer Fahrzeuge, fiel in der Cloud einer Cryptomining-Attacke zum Opfer. Eine unsichere Konsole des Container-Orchestrators Kubernetes habe es Angreifern im Februar 2018 ermöglicht, die Rechenressourcen von AWS für eigene Zwecke zu entwenden. Als ein Nebeneffekt erlangten die Eindringlinge Zugang zu einem S3-Bucket mit proprietären Daten von Tesla.
Die Täter sollen hierbei den legitimen Dienst „Cloudflare“ als einen Proxy missbraucht haben, um die wahre Natur ihrer Absichten zu verschleiern. Den Vorfall haben Sicherheitsexperten von Redlock, eines Anbieters von Lösungen zur Cloud-Verteidigung, nur rein zufällig aufgedeckt. Die Eindringlinge machten sich mit ca. drei Millionen Dollar an geschürfter KryptowährungMonero auf und davon. Tesla blieb auf der AWS-Rechnung sitzen.
Der Vorfall illustriert das enorme Potenzial für den Missbrauch von Orchestrierungs-Tools wie Kubernetes in der Public-Cloud. „Die Public-Cloud-Umgebung eines Unternehmens eignet sich hervorragend [für solche Attacken]“, kommentierte seiner Zeit Gaurav Kumar, der CTO bei Redlock.
Praktisch alle relevanten KI-Frameworks sind zum Glück quelloffen und so steht es den Nutzern frei, ihre KI/ML-Algorithmen anhand der eigenen Datenbestände in einer isolierten Umgebung unternehmenseigener On-Premise-Infrastrukturen zu trainieren. Diese Vorgehensweise fordert von den Unternehmen natürlich entsprechende Kompetenzen, um ein reibungsloses Zusammenspiel der benötigten Softwarebestandteile eines KI/ML-Stacks zu gewährleisten.
Zu viel geballte Eigeninitiative: KI/ML-Systemen Grenzen setzen
Das Analystenhaus PwC warnt vor Risiken wie der Voreingenommenheit von Algorithmen und deren ethischen Implikationen. Unbeaufsichtigtes Lernen (unsupervised learning) durch KI/ML-Systeme mag unvermeidlich sein, doch auch solchen Lösungen müssen ihre Schöpfer gewisse Grenzen setzen. Eben diese Lektion musste unter anderem Microsoft lernen — zum Leidwesen der Verantwortlichen sogar noch vor den Augen der Öffentlichkeit: mit seinem KI-gestützten Twitter-Chatbot „Tay“.
Tay hatte die Aufgabe, PR-wirksame Twitter-Diskussionen mit interessierten Nutzern zu führen und sich im Laufe dieser Interaktionen mittels KI weiter zu entwickeln. Das klappte anfangs ja auch recht gut — ein paar Stunden lange. In dieser kurzen Zeit hat sich Tay von dem schelmischen Benehmen einiger Provokateure die widerlichsten Unsitten angeeignet und begann, in öffentlichen Diskussionen auf Twitter üble Eigenkreationen zum Besten zu geben — ein klassisches Beispiel von kontradiktorischem Lernen (englisch: adversarial learning). Innerhalb von weniger als 24 Stunden musste Microsoft seiner amoklaufenen KI den sprichwörtlichen Stecker ziehen.
Auch Facebook musste lernen, KI-Systemen Grenzen zu setzen. Das Unternehmen hatte zwei KI-Chatbots entwickelt, die sich menschenähnliches Verhandlungsgeschick aneignen sollten. Im Zuge ihres unbeaufsichtigten Lernens haben „Bob“ und „Alice“ stattdessen eine eigene, für Menschen völlig unverständliche Sprache entwickelt und so die „Effizienz“ ihrer Interaktionen „verbessert“. Facebook hat das Projekt eingestellt.
Nicht uneigennützig
In seiner Kritik von ungebändigter KI ist PwC nicht selbstlos. Das Analystenhaus möchte für das Problem ja auch eine Lösung gefunden haben. Mit dem Responsible AI Toolkit hat PwC eine Sammlung von anpassbaren Frameworks, Werkzeugen und Prozessen vorgestellt, mit der sich das Potenzial von KI „auf eine ethische und verantwortungsbewusste Art und Weise“ nutzen lasse.
Dank des Responsible AI Toolkits von PwC sollen Unternehmen in der Lage sein, die Früchte ihrer KI-Stacks im Hinblick auf regulatorische wie auch ethische Gesichtspunkte in den Griff zu bekommen.