Generative KI braucht keine Programmierschnittstellen US-amerikanischer Anbieter. Offene Sprachmodelle arbeiten auch auf firmeneigener Hardware, Das heißt: Prompts und Dokumente bleiben im internen Netz. Europäische Anbieter ergänzen das Angebot mit gehosteten Modellen aus Rechenzentren innerhalb der EU.
Es gibt nicht nur einen Weg, Sprachmodelle rechnen zu lassen, auch ganz ohne US-Cloud-Anbieter.
Generative KI muss nicht über die APIs von OpenAI, Google oder anderen außereuropäischen Plattformen laufen. Offene Sprachmodelle werden auf eigenen Servern ausgeführt, der gesamte Datenverkehr bleibt im eigenen Rechenzentrum. Europäische Anbieter, darunter das französische Mistral AI, betreiben Rechenzentren innerhalb der EU und stellen Modelle mit offenen Gewichten bereit.
Unternehmen gewinnen damit Kontrolle über ihre Datenflüsse und verringern die Abhängigkeit von US-Diensten. Der folgende Überblick zeigt die Werkzeuge für den lokalen Betrieb, die Grenzen offener Modelle und einen gemischten Aufbau aus lokaler und 'gehosteter' Inferenz.
Daten bleiben im internen Netz
Öffentliche APIs übertragen jeden Prompt und alle übergebenen Dokumente an Server außerhalb Europas oder zumindest außerhalb des eigenen Netzwerks. Bei personenbezogenen Daten und Geschäftsgeheimnissen stellt dieser Transfer ein Risiko dar, trotz Verschlüsselung. Lokales Hosting löst das Problem an der Quelle; denn Anfragen verlassen das Firmennetz nicht. Auch die Trainingsdaten für angepasste Modelle bleiben unter eigener Kontrolle.
Die DSGVO und der EU AI Act verlangen Nachvollziehbarkeit über Datenverarbeitung und Verantwortlichkeiten. Ein On-Premises-Betrieb erfüllt diese Vorgaben ohne Vertragskonstrukte zur Auftragsverarbeitung in Drittländern.
Dabei dokumentieren IT-Verantwortliche, welche Daten ein Modell verarbeitet und wo Ergebnisse gespeichert werden. Für sicherheitsaffine Organisationen schafft das die nötige Evidenz gegenüber Auditoren und Aufsichtsbehörden.
Ollama startet schnell, vLLM skaliert
„Ollama“ gilt als der direkteste Weg in den lokalen Betrieb. Das Tool baut auf der Inferenz-Engine „ollama.cpp“ auf und installiert sich über ein Skript.
Nach dem Start stellt Ollama eine API auf Port 11434 bereit, teilweise kompatibel zur Schnittstelle von OpenAI. Vorhandene GPUs von Nvidia und AMD erkennt das Tool automatisch und nutzt sie für die Inferenz. Der Befehl "ollama run" startet ein Modell und lädt es bei Bedarf herunter. Für Prototypen, interne Werkzeuge und kleine Teams genügt dieser Ansatz.
„Ollama“ ermöglicht den kostenlosen Betrieb im lokalen Rechenzentrum. Das reicht für viele Dienste aus.
(Bild: Thomas Joos)
Auf produktiven Betrieb mit hohem Durchsatz zielt „vLLM“. Die Engine nutzt Paged Attention und Continuous Batching, um viele parallele Anfragen auf dedizierten GPU-Servern abzuarbeiten. Gegenüber einfachen Implementierungen steigt der Durchsatz erheblich.
Das Framework passt zu Arbeitslasten, bei denen mehrere Anwender oder Prozesse gleichzeitig auf ein Modell zugreifen. Beide Werkzeuge stellen OpenAI-kompatible Endpunkte bereit, so dass bestehende Anwendungen mit geringen Anpassungen weiterarbeiten.
Kleinere Modelle reichen für viele Aufgaben
Offene Modelle auf eigener Hardware erreichen nicht die Leistung der größten Cloud-Modelle. Für einen großen Teil der Anwendungen genügt ihre Qualität dennoch. Dokumente zusammenfassen, Texte klassifizieren, Daten extrahieren und Standard-Workflows bedienen gelingt zuverlässig. Komplexes Reasoning und anspruchsvolle kreative Aufgaben bleiben eine Domäne der großen Anbieter.
Quantisierung senkt den Speicherbedarf deutlich. Ein Modell im Format GPT-Generated Unified Format (GGUF) mit reduzierter Genauigkeit belegt einen Bruchteil des VRAM gegenüber der vollen Variante, bei geringem Qualitätsverlust. Kompakte Modelle arbeiten auf Consumer-GPUs, größere Modelle benötigen dedizierte Hardware.
Für Umgebungen mit vielen gleichzeitigen Anfragen empfehlen sich Server-GPUs. CPU-Betrieb ist möglich, liefert aber spürbar höhere Latenz.
Mistral AI hostet Modelle innerhalb der EU
Das Pariser Unternehmen Mistral AI bietet Modelle mit offenen Gewichten und kommerzielle Varianten über eine API. 'Open-weight' bedeutet, dass Entwickler die Modelle herunterladen, anpassen und auf eigener Infrastruktur betreiben.
Drei Bereitstellungswege stehen zur Wahl. Self-hosted-Deployments arbeiten auf virtueller Cloud, an der Edge oder on-premises, die Daten bleiben im eigenen Umfeld. Die Mistral Cloud betreibt die Plattform Studio auf Servern innerhalb der EU. Über Cloud-Partner, darunter Google Cloud, AWS, Azure, SAP, IBM, Snowflake, Nvidia und Outscale, ist der Zugriff mit vorhandenen Cloud-Guthaben möglich.
Mistral arbeitet DSGVO-konform und gilt als datensparsam. In den Bezahlkonten verwendet der Anbieter standardmäßig keine Eingaben für das Training. Weitere europäische Optionen ergänzen das Bild.
Aleph Alpha aus Heidelberg und das Forschungsprojekt „OpenGPT-X“ stellen Modelle mit europäischem Bezug bereit. Für Organisationen mit strengen Compliance-Vorgaben schafft die Kombination aus offenen Gewichten und EU-Hosting eine belastbare Grundlage.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Hybrid-Betrieb trennt nach Schutzbedarf
Ein gemischter Aufbau verbindet die Stärken beider Welten. Standardaufgaben ohne sensible Inhalte gehen über Cloud-Modelle, deren Leistung bei anspruchsvollen Anfragen hilft. Heikle Daten verarbeitet ein lokales Modell, das die Informationen im Haus hält. Die Verteilung folgt dem Schutzbedarf der Daten und bleibt für jeden Prozess nachvollziehbar.
Der wirtschaftliche Faktor spricht bei hohem Volumen für lokale Modelle. Die Token-basierte Abrechnung in der Cloud summiert sich im dauerhaften Produktivbetrieb. Eigene Hardware verursacht Anschaffungs- und Stromkosten, rechnet sich jedoch bei gleichmäßiger, hoher Auslastung. Da die lokale Leistung für viele Routineprozesse genügt, sinken die laufenden Kosten gegenüber reinem Cloud-Betrieb. IT-Verantwortliche steuern Datenschutz und Budget über dieselbe Architektur.
*Der Autor Thomas Joos ist unabhängiger Berater, Autor zahlreicher Artikel und Bücher. Auf DataCenter-Insider schreibt er seinen eigenen Blog mit Tipps und Tricks für Admins Sein Fazit in diesem Kontext lautet: Lokales Hosting offener Sprachmodelle gibt Unternehmen die Kontrolle über Prompts, Trainingsdaten und Verarbeitungsorte zurück. Ollama eignet sich für den schnellen Einstieg, vLLM für den produktiven Betrieb mit hohem Durchsatz. Europäische Anbieter mit EU-Rechenzentren liefern eine gehostete Variante für Teams ohne eigene GPU-Infrastruktur. Ein hybrider Aufbau verteilt Aufgaben nach Schutzbedarf und hält die Kosten kalkulierbar.