Verloren im Labyrinth der IT-Begriffe? Hier finden Sie Definitionen und Basiswissen zu Rechenzentrums-IT und -Infrastruktur.

Systeme für die Modellierung natürlicher Sprache Was ist BERT?

Von M.A. Jürgen Höfling

Suchmaschinen, Sprachassistenten und Robo-Chats haben Techniken zur Verarbeitung natürlicher Sprache in den letzten beiden Jahrzehnten einen riesigen Schub gegeben. Automatische Sprachproduktionssysteme wurden dabei immer „,mathematischer“. Ein Pionier in diese Richtung war BERT.

Das Sprachmodell BERT verwandelt Einzelworte und Textmengen in Ziffernfolgen in einem vieldimensionalen Vektorraum.
Das Sprachmodell BERT verwandelt Einzelworte und Textmengen in Ziffernfolgen in einem vieldimensionalen Vektorraum.
(Bild: von Gerd Altmann auf Pixabay)

„Herrliche Früchte gibt es in diesem Paradies! Die Bananen essen vor allem die Affen. Und ganz besonders die goldgelben ohne Flecken!“

Wenn derartige Texte von einer Maschine „verstanden“ werden sollen, so dass sie diese in andere Sprachen übersetzen oder auf entsprechende Fragen korrekt antworten kann, war vor einigen Dezennien noch guter Rat teuer. Damals bildete man die durch den Text transportierte Bedeutung in komplexen syntaktisch-semantischen Regelsystemen ab, deren rechentechnische Umsetzung in der Regel an zu wenig verfügbarem Speicherplatz und lahmen Prozessor-Geschwindigkeiten scheiterte.

Stochastische Semantik

Speicherplatz und Rechner-Power sind schon längst kein Thema mehr; und die Verarbeitung natürlicher Sprache gehört nicht zuletzt wegen der zentralen Stellung der Suchmaschinen in Verwaltung, Industrie und Privatsphäre zu einem der wichtigsten IT-Felder überhaupt. Diese Veränderungen haben auch die Methoden zur Verarbeitung natürlicher Sprache revolutioniert.

War vor einigen Jahrzehnten die verwendete formalisierte Syntax und Semantik den Grammatiken von Programmiersprachen oder den Kalkülen der formalen Logik nachempfunden, so sind es heute Stochastik und lineare Algebra (Vektorrechnung), in deren formale Sprache die Wörter, Sätze, Paragrafen und Texte der natürlichen Sprache kodiert werden.

Die als Vektoren „maskierten“ sprachlichen Einheiten lassen sich daraufhin – und das ist der Sinn dieser stochastischen Semantik – mit Algorithmen des Maschinellen Lernens verarbeiten. Zu den leistungsfähigsten Sprachmodellen dieser Art gehören die Systeme „Generative Pre-trained Transformer 3“ (GPT-3) und „Bidirectional Encoder Representations from Transformers“ (BERT).

Vektorisierte Texte

Mit der bloßen Umrechnung von einzelnen Wörtern in Vektoren kommt man freilich nicht sehr weit, denn unsere Sprache und unser Sprechen vollzieht sich in der Regel in langen Text- oder Sprechpassagen, in Fragen und Antworten sowie Nachfragen und Erläuterungen. Insofern bilden künstliche Sprachmodelle wie GFT-3 und BERT umfassende narrative oder dialogische Sprachsituationen mit ihren Kontexten formal ab.

Auch haben die einzelnen Elemente wie Wörter und Phrasen einer Gesprächs- oder Erzählsituation unterschiedliche Gewichte für das, was kommuniziert werden soll. Wörter wie „und“ oder „ist“ tragen – zumindest in aller Regel – weniger zum Content bei als beispielsweise „Atombombe“ oder „Angriffskrieg“. Insofern gewichten GFT-3 oder BERT Scharnierwörter geringer als Wörter mit ausgeprägtem eigenem Inhalt.

Tatsächlich spielen die Wörter in ihrer sprachlichen Gestalt aber in den genannten Sprachmodellen überhaupt keine Rolle. Sie sind vielmehr mathematische Gebilde (Vektoren), auf die mithilfe eines Künstlichen Neuronalen Netzes geeignete Rechenoperationen angewandt werden, die in der Regel aus der linearen Algebra stammen.

Wie funktioniert das?

Pionierarbeit auf diesem Gebiet leistete der tschechische Informatiker (und Google-Scholar) Tomás Mikolov mit einem Verfahren mit der Bezeichnung „word2vec“, veröffentlicht 2013 in einem Papier. Der word2vec-Algorithmus erzeugt auf der Basis eines riesigen Text-Corpus mithilfe eines Künstlichen Neuronalen Netzes einen relativ hochdimensionalen Vektorraum (Dimension 300 bei Mikolov) aus speziellen Zahlenlisten, eben den Vektoren.

Letztere sind Repräsentanten der Bedeutungen von Wörtern. Wortvektoren semantisch ähnlicher Wörter sind dabei durch einen geringen Abstand gekennzeichnet, wobei der Winkel zwischen solchen Vektoren das Maß des Abstands definiert, sprich mathematisch beispielsweise durch die Cosinus-Funktion.

Mit dieser Methode lassen sich nicht nur Ähnlichkeiten von Wort-Grundformen darstellen, sondern auch wort- und satzsyntaktische Varietäten, sprich: Steigerungsformen von Adjektiven oder Zeitformen von Verben. Das für das word2vec-Verfahren verwendete Training baut auf unstrukturierten Texten auf, das heißt die Daten müssen nicht klassifiziert („gelabelt“) sein, was die Beschaffung geeigneter Daten stark vereinfacht.

Von word2vec zu GFT-3 und BERT

Und was hat das alles mit BERT zu tun? Verfahren wie word2vec sind ein Kernmodul für Sprachproduktionssysteme wie GFT-3 und BERT. Im Folgenden werden GFT-3 und BERT in einem Atemzug genannt, da sie innerhalb einer umfassenden Taxonomie von Sprachmodellen tatsächlich mehr Ähnlichkeiten als Unterschiede aufweisen (die Unterschiede behandeln wir weiter unten). Die große Gemeinsamkeit ist eben die Mathematisierung der sprachlichen Grammatik und Lexematik.

Beide Sprachmodelle weiten die oben beschriebenen wort- und satzsyntaktischen Fähigkeiten auf Sätze, Paragrafen und unter Umständen ganze Dokumente aus. Entsprechende Sequenzen werden in beide Richtungen, also von ihrem Anfang als auch von ihrem Ende her, analysiert.

Diese Bidirektionalität ist wichtig, weil viele sprachliche Ambiguitäten quasi erst im Nachhinein, das heißt wenn das letzte Wort des Textes erfasst worden ist, aufgelöst werden können. Man denke nur an die im Deutschen übliche Endstellung des Verbs in Nebensätzen oder an die Trennung innerhalb eines Satzes bei präfigierten Verben („umfahren, aufblühen etc.) in Grundverb und Präfix.

GFT-3 und BERT im Vergleich

Es ist unmittelbar einsehbar, dass dann, wenn Texte oder ganze Dokumente, ja auch schon einzelne Sätze, vektoriell kodiert und Ähnlichkeitsbeziehungen solcher Sequenzen im Vektorraum abgebildet werden sollen, erhebliche Textvolumina analysiert, bewegt und verglichen werden müssen. Hier kommt es dann darauf an, wie einzelne Sprachmodelle solche Massen verarbeiten können. Überdies werden mit der Textmenge und der Textlänge auch die einzelnen Datenelemente immer schwieriger zu klassifizieren, weil sie sich unter Umständen nur in wenigen Nuancen unterscheiden.

Insofern spielt es eine große Rolle, mit wie vielen Parametern beispielsweise eine Sprachmodell arbeitet. Da ist GFT-3 mit seinen 175 Milliarden syntaktisch-semantischen Funktionselementen (Parametern) gegenüber BERT klar im Vorteil, weil es um den Faktor 470 umfangreicher ist. Aufgrund dieses Reservoirs hat GFT-3 gegenüber BERT auch die Nase vorn, wenn das Sprachmodell auf der Basis einer nur relativ kleinen Zahl von Beispieltexten erstellt werden soll.

Darüber hinaus ist BERT nicht für die Textproduktion („Artikelschreiben“) ausgelegt, sondern eher für Dinge wie die Analyse von Texten und eine erweiterte Suche für bestimmte Informationen. Denn anders als GFT-3 ist BERT in erster Linie für die Kodierung von Texten ausgelegt und hat kaum Kapazitäten für die Dekodierung. Des Weiteren benötigt BERT weitere Trainingsprozesse mit neuen Textbeispielen, wenn es um spezielle Anwendungsfelder geht. GFT-3 ist hier von vornherein breiter aufgestellt.

Andererseits kann der Nutzer auf GFT-3 zwar über eine Anwenderprogrammier-Schnittstelle (API) andocken, das Programmpaket selbst ist aber nicht quelloffen; BERT ist demgegenüber quelloffen und die oben angesprochenen Fein-Abstimmungs-Möglichkeiten sind für kompetente Nutzer natürlich auch eine Chance für einen kostengünstigen und flexiblen Einsatz.

Insgesamt darf man feststellen, dass die Sprachmodell-Szene eine ungeheure Dynamik aufweist und Augenblicksanalysen und Beurteilungen schnell obsolet werden können.

Artikelfiles und Artikellinks

(ID:48106680)