Ob in Suchmaschinen, bei der Programmcode-Erstellung oder im Kundendienst-Chat: Sprachproduktionssysteme sind zentrale Elemente der digitalen Welt und Unternehmen wie Ope.AI zentrale Spieler. Doch wie „offen“ ist OpenAI?
Die Methode hinter modernen Sprachproduktionssystemen ist pure Mathematik.
Mit seinem humanoiden Dialogsystem „ChatGPT“, das von natürlich-menschlicher Kommunikation nicht mehr zu unterscheiden ist, hat es der KI-Spezialist OpenAI in jüngster Zeit auch in die großen Publikumsmedien geschafft.
Der Chatbot gründet auf dem Sprachproduktionssystem Generative Pre-trained Transformer 3 (GPT-3), einer Art Heinzelmännchen für alles Textliche, Formel- und Zeichenhafte. Gegenüber der sprachlichen und intellektuellen Versiertheit von ChatGPT wirken die heute üblichen Kundendienst-Bots regelrecht tumb. ChatGPT reagiert unter anderem auf Rückfragen, kann sich selbst korrigieren und weist ein pöbelndes menschliches Gegenüber in seine Schranken.
Die Mathematik hinter Sprachproduktionssystemen wie GFT-3 oder BERT
Die (tatsächlich erstaunlichen) Kommunikations-Fähigkeiten von GFT-3 beruhen auf Deep-Learning-Prozessen, in denen die Textmengen vollständig automatisch, nach stochastischen Kriterien etikettiert und klassifiziert werden.
Dazu muss man wissen, dass vor einigen Jahrzehnten die maschinelle Verarbeitung natürlicher Sprache auf einer formalisierten Syntax und Semantik aufsetzte, die den Grammatiken von Programmiersprachen oder den Kalkülen der formalen Logik nachempfunden war. Heute sind es dagegen Stochastik und lineare Algebra (Vektorrechnung), in deren formale Sprache die Wörter, Sätze, Paragrafen und Texte der natürlichen Sprache kodiert werden. Zumindest ist das der methodische Ansatz, der heute vorherrschend ist.
Die als Vektoren „maskierten“ sprachlichen Einheiten lassen sich daraufhin – und das ist der Sinn dieser stochastischen Semantik – mit Algorithmen des Maschinellen Lernens verarbeiten.
Zu den leistungsfähigsten Sprachmodellen dieser Art gehören zum einen GPT-3 und zum anderen das quelloffene Sprachproduktionssystem „Bidirectional Encoder Representations from Transformers“ (BERT). Letzteres ist allerdings in seinem Anwendungsbereich deutlich enger gefasst als GFT-3, arbeitet mit erheblich weniger Parametern und hat nicht die dialogische Flexibilität und die vielfältige kommunikative Nuancierung von GFT-3 beziehungsweise ChatGPT.
Aufgrund der Methodik eines Sprachproduktionssystems wie GFT-3 und den dabei verwendeten Textcorpora aus dem Internet fließen natürlich auch sämtliche Voreinstellungen, Täuschungsversuche, Fake News und Verschwörungsmythen etc. in die Vorstellungswelt von GFT-3 und ChatGFT ein.
Deshalb wird mit Recht immer wieder betont, dass die von GPT-3 erzeugten Texte nicht selten mit Falschinformationen oder Vorurteilen gespickt seien. Das wird oft vor allem im nicht-fachlichen Publikationsumfeld als Manko dargestellt, so als ob Falschinformationen, schiefe Formulierungen und verschwurbelte Argumente nicht auch in natürlichen menschlichen Texten gang und gäbe wären.
Der oftmals gehörte Vorschlag, die KI-Texte in einem aufklärerisch-rationalen Geist zu kuratieren, kann im Sinn eines konsens-orientierten Dialogs durchaus sinnvoll sein, für die Beurteilung der KI-Modelle im Sinne der exakten Nachbildung menschlicher Kommunikation sind derartige Korrekturen aber unerheblich beziehungsweise ihrerseits eher verfälschend.
GPT-3 als Basis von ChatGPT
Diese Fähigkeiten resultieren daraus, dass ChatGPT meta-sprachliche Fähigkeiten hat, die über die bloße Dialogerzeugung weit hinausgehen. Bandwurmsätze oder komplizierte Ausdrucksweise des Gegenübers kann ChatGPT aufdröseln, weil es Grammatikregeln nicht nur anwenden kann, sondern ein Verständnis der Regeln als solcher hat, Texte nicht nur „wort-mechanisch“ versteht, sondern die Semantik tiefer erfasst und deshalb sprachliche Umschreibungen ebenso erzeugen kann wie beispielsweise daraus abzuleitende Emojis. Gleiches gilt auch für Programmiersprachen.
GPT-3 als Basis von ChatGPT ist seit 2020 im Einsatz, erzeugt täglich durchschnittlich rund 4,5 Millionen Texte und wird von Hunderten von Apps genutzt. Es wurde ab 2015 als Open-Source-KI-Projekt der damals gemeinnützigen Organisation OpenAI als Gegenpol zu entsprechenden kommerziellen KI-Projekten – hier ist vor allem „Deepmind“ von Google zu nennen – gegründet. Einer der damaligen Gründer war übrigens Elon Musk.
Die fragwürdige Offenheit von OpenAI
Ab 2019 wurde das OpenAI-Projekt sukzessive kommerzialisiert, die nicht gewinnorientierte OpenAI Inc. wurde durch die gewinnorientierte Tochterfirma OpenAI LP ergänzt. Vor einigen Jahren kaufte sich Microsoft mit einer Milliardensumme in das Unternehmen OpenAI LP ein und im Herbst 2022 wurde bekannt, dass sich die Windows-Company die Exklusivrechte auf den GFT-3-Code gesichert habe.
Elon Musk - nie um ein öffentlichkeitswirksames kritisches Wort gegenüber seiner Mitwelt verlegen - meinte denn auch danach auf Twitter, dass mit diesem Handel Microsoft OpenAI praktisch übernommen habe und das „Open“ in OpenAI nur Etikettenschwindel sei.
Ob sich nun gerade jemand wie Musk als Bannerträger für Software-Offenheit eignet, mag dahingestellt bleiben, aber dass das „Open“ im Firmennamen mehr als problematisch ist, darf man wohl eindeutig mit Ja beantworten. Auch wenn juristisch die Non-Profit-Organisation OpenAI Inc. die kommerzielle Tochtergesellschaft OpenAI LP kontrolliert, ist es eine Tatsache, dass der Code mittlerweile wirklich das Gegenteil von „quelloffen“ ist.
Auf das System kann anders als auf die Vorgängerversionen nur noch über eine kostenpflichtige API zugegriffen werden. Was den KI-Bot ChatGPT betrifft, sieht es in der Einführungsphase etwas anders aus. Hier kann die Betaversion des KI-Projekts kostenlos verwendet werden, quasi als Lohn für wertvolles Benutzer-Feedback. Für die endgültige Version dürfte dann aber ordentlich zu löhnen sein.
„Open“ scheint ein schillernder Begriff zu werden
Interessant an der Firmenentwicklung von OpenAI ist die Tatsache, dass hier ein ursprünglich quelloffenes Projekt in ein proprietäres Projekt verwandelt wurde. Um nicht missverstanden zu werden: Gemeint ist nur der Zugang zum Code, nicht von „Code for free“.
Tatsächlich geht die weltweite Entwicklung im Open Source-Bereich ja gerade den umgekehrten Weg. Man denke nur an auf Linux aufbauende Programmpakete wie die „Openshift“-Container-Plattform, die Container-Orchestrierungsplattform „Kubernetes“ oder die Software-Automatisierungs-Plattformen „Terraform“ oder „Ansible“.
Alle diese Software-Konvolute haben als proprietäre Lösungen begonnen. Mit zunehmender Reife wurde dann der Code auf Github hochgeladen und steht heute der weltweiten Community zur Verwendung und Verbesserung zur Verfügung.
GitHub? Ist da ein Zwischenruf? Richtig, GitHub wurde schon vor Jahren für eine hohe einstellige Milliardensumme von Microsoft aufgekauft. In den Verlautbarungen der Windows-Company, die „natürlich auch Linux-Plattformen voll unterstützt“, wird dieser Kauf als ein deutliches Zeichen für das Microsoft-Engagement in Richtung Open Source interpretiert.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Wer weiß: Vielleicht wird uns demnächst auch die vollständige Übernahme von OpenAI - dies hier nur einmal als Gedankenspiel – als Beispiel dafür verkauft, dass die „Microsoftianer“ im tiefsten Grund ihres Herzens eigentlich immer schon quelloffen waren.
KI-lastige Sprachproduktionssysteme und ihre Kosten
Aber: weg mit den maliziösen Tönen: Fakt ist, dass solche umfangreichen KI-lastigen Sprachproduktionssysteme wie GFT-3, das (immer noch quelloffene) System BERT oder Deepmind allein durch die Unmengen von Textcorpora, die für die maschinellen Lernschritte benötigt werden, sowie den immensen rechentechnischen Aufwand, unendlich viel (Entwicklungs-)Geld kosten. Das mag auch einer der Gründe sein, dass das oben erwähnte System BERT mittlerweile leistungsmäßig deutlich hinter GFT-3 beziehungsweise ChatGFT zurückgeblieben ist.