Maxine, Augen geradeaus! Nvidia liefert mit Jarvis vortrainierte Modelle für die Interpretation natürlicher Sprache

Redakteur: Ulrike Ostler

Wer das nicht toll, wenn alle, die in einem virtuellen Meeting oder einer virtuellen Konferenz sind, sich auch in die Augen schauten? Doch nur selten gucken alle geradeaus in die Kamera. Doch „Maxine“ kann das arrangieren. Mit dem Nvidia-Framework „Jarvis“ bietet der Hersteller vorgefertigte Deep-Learning-Modelle und Tools, mit denen sich (passende) KI-basierte Anwendungen zur Sprachkommunikation erstellen lassen.

Firmen zum Thema

Das ab sofort verfügbare „Jarvis Framework“ bietet vortrainierte Deep-Learning-Modelle und Software-Tools zur Erstellung interaktiver KI-Dienste.
Das ab sofort verfügbare „Jarvis Framework“ bietet vortrainierte Deep-Learning-Modelle und Software-Tools zur Erstellung interaktiver KI-Dienste.
(Bild: Nvidia)

Das Framework erlaubt Anwendungen, in denen natürliche Sprache erkannt, übersetzt und in Text umgewandelt wird, und zwar quasi on the fly. Dank GPU-Beschleunigung kanneine End-to-End-Sprachpipeline in weniger als 100 Millisekunden ausgeführt werden. Die Software hört zu, versteht und generiert eine Antwort schneller als ein menschlicher Wimpernschlag.

Das kann in der Cloud, im Rechenzentrum oder der Edge eingesetzt werden und das bedeutet die Möglichkeit einer sofortigen Skalierung auf Millionen von Benutzern. Unterstützt wird etwa Englisch, Koreanisch und Deutsch. Einer der ersten Anwender ist T-Mobile in den USA.

In seiner Keynote zur Konferenz GTC21, die in der vergangenen Woche stattgefunden hat, hat Nvidia-Chef Jensen Huang eine neue Welle von sprachbasierten Anwendungen in Aussicht gestellt, die bisher unmöglich zu realisieren waren oder nur von den ganz großen Konzernen und die die Interaktion zwischen Mensch und Maschine verbessern können:

  • digitale Krankenschwestern, die helfen, Patienten rund um die Uhr zu überwachen und überlastetes medizinisches Personal zu entlasten;
  • Online-Assistenten, die verstehen, wonach Verbraucher suchen und die besten Produkte empfehlen;
  • Echtzeitübersetzungen, um die grenzüberschreitende Zusammenarbeit am Arbeitsplatz zu verbessern und Zuschauern zu ermöglichen, Live-Inhalte in ihrer eigenen Sprache zu verfolgen.

Jarvis wurde mit Hilfe von Modellen entwickelt, die mehrere Millionen GPU-Stunden lang auf über 1 Milliarde Textseiten und 60.000 Stunden Sprachdaten trainiert wurden, und zwar in verschiedenen Sprachen, Akzenten, Umgebungen und Jargons.

Entwickler, die Jarvis benutzen wollen, können das Framework „TAO“ nutzen. Damit lassen sich die vorhandenen Modelle für spezifische Aufgaben, Branchen und Systeme trainieren, anpassen und optimieren. Sie wählen dazu aus dem „NGC“-Katalog von Nvidia ein mit Jarvis trainiertes Modell aus. Das Transfer Learning Toolkit hilft dabei diese auf die eigenen Daten abzustimmen, es für Durchsatz und Latenz in Echtzeit-Sprachdiensten zu optimieren. Das Modell lässt sich dann laut Nividia mit nur wenigen Zeilen Code einsetzen, so dass kein tiefes KI-Fachwissen erforderlich sei.

Das berichten die Anwender

Matthew Davis, Vice President of Product and Technology bei T-Mobile USA, sagt: „Nach der Evaluierung mehrerer automatischer Spracherkennungstechniken hat T-Mobile festgestellt, dass Jarvis ein Qualitätsmodell mit extrem niedriger Latenz liefert, das Erfahrungen ermöglicht, die unsere Kunden lieben.“

Nvidia arbeitet auch mit Mozilla Common Voice zusammen, einer Open-Source-Sammlung von Sprachdaten für Startups, Forscher und Entwickler, um sprachgesteuerte Apps, Dienste und Geräte zu trainieren. Common Voice ist der weltweit größte mehrsprachige, öffentlich zugängliche Sprachdatensatz und enthält insgesamt über 9.000 Stunden an Sprachdaten in 60 verschiedenen Sprachen. Nvidia nutzt Jarvis, um mit dem Datensatz vortrainierte Modelle zu entwickeln und diese dann der Community kostenlos zur Verfügung zu stellen.

„Wir haben Common Voice ins Leben gerufen, um Maschinen beizubringen, wie echte Menschen in ihren einzigartigen Sprachen, Akzenten und Sprachmustern sprechen“, führt Mark Surman aus, Executive Director bei Mozilla. „Nvidia und Mozilla haben die gemeinsame Vision, die Sprachtechnologie zu demokratisieren - und sicherzustellen, dass sie die reiche Vielfalt an Menschen und Stimmen widerspiegelt, die das Internet ausmachen.“

Die zur GTC21 angekündigte Jarvis Funktionen werden im zweiten Quartal des Jahres im Rahmen des laufenden offenen Beta-Programms veröffentlicht. Entwickler können es bereits vom herunterladen.

Treffen mit Maxine

Maxine ist ein GPU-beschleunigtes SDK von Nvidia mit KI-Funktionen für Entwickler. Entwickler können das Toolkit nutzen, um Anwendungen für virtuelle Zusammenarbeit und für die Content-Erstellung, etwa Video-Konferenzen und Live-Streaming, zu erstellen. Sie finden bereits optimierte Video- und Audio-Effekte sowie Augmented Reality (AR) vor, die sie zu einer End-to-End-Pipelines verketten können, Das gilt sowohl für GPU-Anwendungen in Rechenzentren als auch auf PCs. Außerdem lässt sich Maxine mit Jarvis verwenden.

(ID:47355004)