Offene Modelle auf eigenen GPU-Servern Sprachmodelle ohne US-Cloud

Von Thomas Joos 4 min Lesedauer

Anbieter zum Thema

Generative KI braucht keine Programmierschnittstellen US-amerikanischer Anbieter. Offene Sprachmodelle arbeiten auch auf firmeneigener Hardware, Das heißt: Prompts und Dokumente bleiben im internen Netz. Europäische Anbieter ergänzen das Angebot mit gehosteten Modellen aus Rechenzentren innerhalb der EU.

Es gibt nicht nur einen Weg, Sprachmodelle rechnen zu lassen, auch ganz ohne US-Cloud-Anbieter. (Bild: ©  klyaksun - stock.adobe.com)
Es gibt nicht nur einen Weg, Sprachmodelle rechnen zu lassen, auch ganz ohne US-Cloud-Anbieter.
(Bild: © klyaksun - stock.adobe.com)

Generative KI muss nicht über die APIs von OpenAI, Google oder anderen außereuropäischen Plattformen laufen. Offene Sprachmodelle werden auf eigenen Servern ausgeführt, der gesamte Datenverkehr bleibt im eigenen Rechenzentrum. Europäische Anbieter, darunter das französische Mistral AI, betreiben Rechenzentren innerhalb der EU und stellen Modelle mit offenen Gewichten bereit.

Unternehmen gewinnen damit Kontrolle über ihre Datenflüsse und verringern die Abhängigkeit von US-Diensten. Der folgende Überblick zeigt die Werkzeuge für den lokalen Betrieb, die Grenzen offener Modelle und einen gemischten Aufbau aus lokaler und 'gehosteter' Inferenz.

Daten bleiben im internen Netz

Öffentliche APIs übertragen jeden Prompt und alle übergebenen Dokumente an Server außerhalb Europas oder zumindest außerhalb des eigenen Netzwerks. Bei personenbezogenen Daten und Geschäftsgeheimnissen stellt dieser Transfer ein Risiko dar, trotz Verschlüsselung. Lokales Hosting löst das Problem an der Quelle; denn Anfragen verlassen das Firmennetz nicht. Auch die Trainingsdaten für angepasste Modelle bleiben unter eigener Kontrolle.

Die DSGVO und der EU AI Act verlangen Nachvollziehbarkeit über Datenverarbeitung und Verantwortlichkeiten. Ein On-Premises-Betrieb erfüllt diese Vorgaben ohne Vertragskonstrukte zur Auftragsverarbeitung in Drittländern.

Dabei dokumentieren IT-Verantwortliche, welche Daten ein Modell verarbeitet und wo Ergebnisse gespeichert werden. Für sicherheitsaffine Organisationen schafft das die nötige Evidenz gegenüber Auditoren und Aufsichtsbehörden.

Ollama startet schnell, vLLM skaliert

„Ollama“ gilt als der direkteste Weg in den lokalen Betrieb. Das Tool baut auf der Inferenz-Engine „ollama.cpp“ auf und installiert sich über ein Skript.

Nach dem Start stellt Ollama eine API auf Port 11434 bereit, teilweise kompatibel zur Schnittstelle von OpenAI. Vorhandene GPUs von Nvidia und AMD erkennt das Tool automatisch und nutzt sie für die Inferenz. Der Befehl "ollama run" startet ein Modell und lädt es bei Bedarf herunter. Für Prototypen, interne Werkzeuge und kleine Teams genügt dieser Ansatz.

„Ollama“ ermöglicht den kostenlosen Betrieb im lokalen Rechenzentrum. Das reicht für viele Dienste aus.(Bild:  Thomas Joos)
„Ollama“ ermöglicht den kostenlosen Betrieb im lokalen Rechenzentrum. Das reicht für viele Dienste aus.
(Bild: Thomas Joos)

Auf produktiven Betrieb mit hohem Durchsatz zielt „vLLM“. Die Engine nutzt Paged Attention und Continuous Batching, um viele parallele Anfragen auf dedizierten GPU-Servern abzuarbeiten. Gegenüber einfachen Implementierungen steigt der Durchsatz erheblich.

Das Framework passt zu Arbeitslasten, bei denen mehrere Anwender oder Prozesse gleichzeitig auf ein Modell zugreifen. Beide Werkzeuge stellen OpenAI-kompatible Endpunkte bereit, so dass bestehende Anwendungen mit geringen Anpassungen weiterarbeiten.

Kleinere Modelle reichen für viele Aufgaben

Offene Modelle auf eigener Hardware erreichen nicht die Leistung der größten Cloud-Modelle. Für einen großen Teil der Anwendungen genügt ihre Qualität dennoch. Dokumente zusammenfassen, Texte klassifizieren, Daten extrahieren und Standard-Workflows bedienen gelingt zuverlässig. Komplexes Reasoning und anspruchsvolle kreative Aufgaben bleiben eine Domäne der großen Anbieter.

Quantisierung senkt den Speicherbedarf deutlich. Ein Modell im Format GPT-Generated Unified Format (GGUF) mit reduzierter Genauigkeit belegt einen Bruchteil des VRAM gegenüber der vollen Variante, bei geringem Qualitätsverlust. Kompakte Modelle arbeiten auf Consumer-GPUs, größere Modelle benötigen dedizierte Hardware.

Für Umgebungen mit vielen gleichzeitigen Anfragen empfehlen sich Server-GPUs. CPU-Betrieb ist möglich, liefert aber spürbar höhere Latenz.

Mistral AI hostet Modelle innerhalb der EU

Das Pariser Unternehmen Mistral AI bietet Modelle mit offenen Gewichten und kommerzielle Varianten über eine API. 'Open-weight' bedeutet, dass Entwickler die Modelle herunterladen, anpassen und auf eigener Infrastruktur betreiben.

Drei Bereitstellungswege stehen zur Wahl. Self-hosted-Deployments arbeiten auf virtueller Cloud, an der Edge oder on-premises, die Daten bleiben im eigenen Umfeld. Die Mistral Cloud betreibt die Plattform Studio auf Servern innerhalb der EU. Über Cloud-Partner, darunter Google Cloud, AWS, Azure, SAP, IBM, Snowflake, Nvidia und Outscale, ist der Zugriff mit vorhandenen Cloud-Guthaben möglich.

Mistral arbeitet DSGVO-konform und gilt als datensparsam. In den Bezahlkonten verwendet der Anbieter standardmäßig keine Eingaben für das Training. Weitere europäische Optionen ergänzen das Bild.

Aleph Alpha aus Heidelberg und das Forschungsprojekt „OpenGPT-X“ stellen Modelle mit europäischem Bezug bereit. Für Organisationen mit strengen Compliance-Vorgaben schafft die Kombination aus offenen Gewichten und EU-Hosting eine belastbare Grundlage.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Hybrid-Betrieb trennt nach Schutzbedarf

Ein gemischter Aufbau verbindet die Stärken beider Welten. Standardaufgaben ohne sensible Inhalte gehen über Cloud-Modelle, deren Leistung bei anspruchsvollen Anfragen hilft. Heikle Daten verarbeitet ein lokales Modell, das die Informationen im Haus hält. Die Verteilung folgt dem Schutzbedarf der Daten und bleibt für jeden Prozess nachvollziehbar.

Der wirtschaftliche Faktor spricht bei hohem Volumen für lokale Modelle. Die Token-basierte Abrechnung in der Cloud summiert sich im dauerhaften Produktivbetrieb. Eigene Hardware verursacht Anschaffungs- und Stromkosten, rechnet sich jedoch bei gleichmäßiger, hoher Auslastung. Da die lokale Leistung für viele Routineprozesse genügt, sinken die laufenden Kosten gegenüber reinem Cloud-Betrieb. IT-Verantwortliche steuern Datenschutz und Budget über dieselbe Architektur.

*Der Autor
Thomas Joos ist unabhängiger Berater, Autor zahlreicher Artikel und Bücher. Auf DataCenter-Insider schreibt er seinen eigenen Blog mit Tipps und Tricks für Admins Sein Fazit in diesem Kontext lautet: Lokales Hosting offener Sprachmodelle gibt Unternehmen die Kontrolle über Prompts, Trainingsdaten und Verarbeitungsorte zurück. Ollama eignet sich für den schnellen Einstieg, vLLM für den produktiven Betrieb mit hohem Durchsatz. Europäische Anbieter mit EU-Rechenzentren liefern eine gehostete Variante für Teams ohne eigene GPU-Infrastruktur. Ein hybrider Aufbau verteilt Aufgaben nach Schutzbedarf und hält die Kosten kalkulierbar.

Bildquelle: Thomas Joos

(ID:50863413)