Eine Grundlage für den breiten Einsatz von Agentic AI soll das Red-Hat-Produkt „AI 3“ sein. IT-Teams und KI-Entwickler sollen mit der hybriden, Cloud-nativen KI-Plattform Inferenzanwendungen möglichst schnell umsetzen können.
„Red-Hat AI 3“ ist eine Open-Source-Software, die als Plattform diverse Features und Funktionen von „AI Inference Server“, „Red Hat Enterprise Linux AI“ und „Red Hat Openshift AI“ vereint und auf die Erstellung sowie Verwaltung verteilter Inferenzanwendungen zielt.
(Bild: Red Hat)
Die Weiterentwicklung der Enterprise-AI-Plattform ist eine Kombination der jüngsten Funktionen von „Red Hat AI Inference Server“, „Red Hat Enterprise Linux AI“ (RHEL AI) und „Red Hat Openshift AI“. Letztlich soll sich dadurch die Komplexität von hochperformanter KI-Inferenz deutlich reduzieren lassen. Somit könnten Unternehmen Workloads schneller von einem Proof-of-Concept in die Produktionsphase überführen und die Zusammenarbeit rund um KI-gestützte Anwendungen verbessern, so der Anbieter.
Das Angebot trifft auf eine Phase, in der mehr und Unternehmen die Experimente ihrer KI-Projekte abschließen und vor der Herausforderung stehen, diese zu skalieren und auszurollen. Diese sind zwar größtenteils allbekannt, wie der Datenschutz und die Kostenkontrolle, und doch in der Komplexität neu, zumal neue Aufgaben dazukommen, wie das Management einer Vielzahl von Modellen.
Rick Villars, Group Vice President, Worldwide Research bei IDC, sieht ein wenig in die Glaskugel: „Das Jahr 2026 wird einen Wendepunkt markieren. Unternehmen gehen von der reinen Einführung von KI hin zu klar messbaren und wiederholbaren Geschäftsergebnissen aus ihren Investitionen über.“
Der Wendepunkt
Während sich die ersten Projekte auf das Trainieren und Testen von Modellen konzentriert hätten, liege der eigentliche Wert – und die eigentliche Herausforderung – darin, modellbasierte Erkenntnisse effizient, sicher und kosteneffizient in den operativen Betrieb zu überführen, geht er weiter. Diese Entwicklung erfordere moderne Infrastrukturen sowie Daten- und Anwendungsumgebungen mit sofort einsatzfähigen, produktionsreifen Inferenzfunktionen, die reale Skalierung und Komplexität bewältigen können.
Das gelte auch, weil Agentic AI die Inferenzlasten massiv erhöhe. „Erfolgreiche Unternehmen werden diejenigen sein, die eine einheitliche Plattform schaffen, um diese zunehmend anspruchsvollen Workloads in hybriden Cloud-Umgebungen zu orchestrieren – und nicht isoliert in einzelnen Silos.“
Der Report „The GenAI Divide: State of AI in Business“ des Massachusetts Institute of Technology „NANDA Project“ zeigt die Realität von KI im Betrieb: Rund 95 Prozent der Unternehmen erzielen keine messbaren finanziellen Erträge aus Investitionen in Höhe von rund 40 Milliarden Dollar.
Die Plattform Red Hat AI 3 biete CIOs und IT-Führungskräften biete, so der Anbieter, eine einheitliche und konsistente Umgebung. Damit sei es möglich, KI-Workloads schneller zu skalieren sowie über hybride Multi-Vendoren-Umgebungen zu verteilen und gleichzeitig die teamübergreifende Zusammenarbeit an KI-Workloads wie Agenten zu verbessern.
Aufbauend auf offenen Standards unterstützt Red Hat AI 3 Unternehmen genau dort, wo sie sich aktuell auf ihrer KI-Reise befinden. Die Plattform unterstützt jedes Modell auf jedem KI-Beschleuniger, von Rechenzentren über Public-Cloud- und souveräne KI-Umgebungen bis hin zum Edge.
Vom Training in die Praxis
Wenn Unternehmen KI-Projekte in die Produktion überführen, verschiebt sich der Fokus von Training und Feinabstimmung der Modelle hin zur Inferenz, also der Produktionsphase. Der Schwerpunkt des Einsatzes von Red Hat AI 3 liegt bei skalierbarer und möglichst kosteneffizienter Inferenz. Die Community-Projekte „vLLM“ und „llm-d“ sowie Das Red-Hat-Wissen um Modelloptimierung lieferten die Basis, um die produktionsreife und zuverlässige Bereitstellung großer Sprachmodelle (LLMs) zu ermöglichen, so Red Hat.
llm-d erlaubt eine native Ausführung von LLMs auf Kubernetes. Das Tool nutzt den Ansatz der Kubernetes-Orchestrierung und die Performance von vLLM in Kombination mit zentralen Open-Source-Technologien wie „Kubernetes Gateway API Inference Extension“, „Nvidia Dynamo Low Latency Data Transfer Library“ (NIXL) und die „DeepEP Mixture of Experts (MoE) Communication Library“.
llm-d baut auf vLLM auf und entwickelt die Single-Node-Hochleistungs-Inferenz-Engine, wird aber zu einem verteilten, konsistenten und skalierbaren Serving-System. Ziel ist eine vorhersehbare Performance, messbarer ROI und effektive Infrastrukturplanung. Alle Verbesserungen adressieren direkt die Herausforderungen, die mit der Verarbeitung hochvariabler LLM-Workloads und der Bereitstellung umfangreicher Modelle wie Mixture-of-Experts-Modellen (MoE) verbunden sind.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Daraus ergibt sich Vorteile für Unternehmen:
Sinkende Kosten und steigende Effizienz durch disaggregiertes Serving, was zu einer besseren Performance pro investiertem Euro führt.
Einfache Bedienung und maximale Zuverlässigkeit dank vordefinierter „Well-lit Paths“, die die Bereitstellung von Modellen auch im großen Maßstab auf Kubernetes optimieren.
Maximale Flexibilität durch eine plattformübergreifende Unterstützung der Bereitstellung von LLM-Inferenz auf verschiedenen Hardware-Beschleunigern, darunter Nvidia und AMD.
Eine einheitliche Plattform für das KI-Zusammenspiel
Mit Red Hat AI 3 ist aber auch entwickelt worden, um eine teamübergreifende Zusammenarbeit und und einheitliche Workflows zu fördern. Zu den neuen Funktionen, die darauf ausgerichtet sind, die für die Skalierung vom Proof-of-Concept bis zur Produktion erforderliche Produktivität und Effizienz zu gewährleisten, gehören:
Model-as-a-Service-Funktionen (MaaS) basieren auf verteilter Inferenz und ermöglichen es IT-Teams, als eigene MaaS-Anbieter zu agieren, gängige Modelle zentral bereitzustellen und sowohl KI-Entwicklern als auch KI-Anwendungen On-Demand-Zugriff zu gewähren. Dies ermöglicht ein besseres Kosten-Management und unterstützt Anwendungsfälle, die aufgrund von Datenschutz- oder Privacy-Bedenken nicht auf öffentlichen KI-Diensten ausgeführt werden können.
Der KI-Hub ermöglicht es Plattformingenieuren, grundlegende KI-Assets zu suchen, bereitzustellen und zu verwalten. Der zentrale Hub enthält einen kuratierten Katalog von Modellen, einschließlich validierter und optimierter Gen-AI-Modelle, einem Register zur Verwaltung des Lebenszyklus von Modellen und einer Produktivumgebung zur Konfiguration und Überwachung aller auf OpenShift AI laufenden KI-Assets.
„Gen AI Studio“ bietet KI-Ingenieuren eine praktische Umgebung, in der sie mit Modellen interagieren und Prototypen für KI-Anwendungen der neuen Generation noch schneller erstellen können. Mit der KI-Assets-Endpunktfunktion können Ingenieure verfügbare Modelle und MCP-Server (Model Context Protocol), die die Interaktion von Modellen mit externen Tools optimieren sollen, leichter finden und nutzen. Der integrierte Playground bietet dabei eine interaktive, zustandslose Umgebung, um mit Modellen zu experimentieren, Eingabeaufforderungen zu testen und Parameter für Anwendungsfälle wie Chat und Retrieval-Augmented Generation (RAG) anzupassen.
Neue von Red Hat validierte und optimierte Modelle sind enthalten, um die Entwicklung zu vereinfachen. Die kuratierte Auswahl umfasst beliebte Open-Source-Modelle wie „gpt-oss“ von OpenAI, „DeepSeek-R1“ und spezialisierte Modelle wie „Whisper“ für die Sprache-zu-Text-Umwandlung und „Voxtral Mini“ für sprachgesteuerte Agenten.
Die nächste Generation von KI-Agenten
KI-Agenten sind dabei, die Art und Weise, wie Anwendungen entwickelt werden, grundlegend zu verändern. Dabei stellen ihre komplexen autonomen Workflows allerdings hohe Anforderungen an die Inferenz-Fähigkeiten. Mit der Version Red Hat Openshift AI 3 will Red Hat ein Fundament für skalierbare agentenbasierte KI-Systeme legen – nicht nur durch erweiterte Inferenz-Funktionen, sondern auch durch neue Features, die sich speziell an das Management von Agenten richten.
Um die Erstellung und Bereitstellung von Agenten zu beschleunigen, hat Red Hat einen 'Unified API Layer' auf Basis des 'Llama Stack' eingeführt, um die Entwicklung konkret an Branchenstandards wie OpenAI auszurichten. Darüber hinaus setzt sich die Company für ein offeneres und interoperableres Ökosystem ein und gehört zu den Anwendern des 'Model Context Protocol'. Der aufstrebende leistungsstarke Standard soll die Interaktion von KI-Modellen mit externen Tools vereinfachen, eine zentrale Funktion moderner KI-Agenten.
Geschmeidige Modelle
Red Hat AI 3 führt darüber hinaus ein modulares und erweiterbares Toolkit zur Modellanpassung ein, das auf der bestehenden 'Instruct-Lab'-Funktionalität aufbaut. Es umfasst spezialisierte Python-Bibliotheken.
Grundlage des Toolkit sind Open-Source-Projekte wie „Docling“ für die Datenverarbeitung, das die Aufnahme unstrukturierter Dokumente in ein KI-lesbares Format vereinfachen soll.
Außerdem enthält das Toolkit ein Framework zur Erzeugung synthetischer Daten sowie einen Trainings-Hub für das Finetuning von LLMs. Ein integrierter Evaluations-Hub unterstützt KI-Ingenieure bei der Überwachung und Validierung ihrer Ergebnisse und ermöglicht, ihre eigenen Daten zu nutzen, um genauere und relevantere KI-Modelle zu entwickeln.
Stimmen der GPU-Anbieter
Beispielsweise Dan McNamara, Senior Vice President und General Manager, Server and Enterprise AI bei AMD. kommentiert mit Blick auf das hauseigene Angebot: „Red Hat bringt die verteilte KI-Inferenz in die Produktion.“ Gemeinsam habe man die Effizienz der „AMD Epyc“-Prozessoren, die Skalierbarkeit der „AMD Instinct“-GPUs und die Offenheit des „AMD ROCm“-Software-Stack integriert, um Unternehmen dabei zu unterstützen, den Schritt von der Experimentierphase zur operativen Umsetzung der nächsten KI-Generation zu meistern und Leistung sowie Skalierbarkeit in echten geschäftlichen Mehrwert zu verwandeln, über On-Premises-, Cloud- und Edge-Umgebungen hinweg.
Auch Ujval Kapasi, Vice President, Engineering AI Frameworks bei Nvidia, Bewertet die Red-Hat-Software für die unternehmenseigene Technik: „Eine skalierbare, leistungsstarke Inferenz ist der Schlüssel zur nächsten Generation generativer und agentenbasierter KI. Mit der integrierten Unterstützung für eine beschleunigte Inferenz mit den Open-Source-Technologien „Nvidia Dynamo“ und „NIXL“ bietet Red Hat AI 3 eine einheitliche Plattform, die Teams in die Lage versetzt, schnell von der Experimentierphase zur Ausführung anspruchsvoller KI-Workloads und -Agenten auch im großen Maßstab überzugehen.“