Mit 3D-Objekten und Charakteren in die Parallelwelt Nvidia-Forschung entwickelt KI-Modell zum Bevölkern virtueller Welten

Quelle: Pressemitteilung Nvidia

Anbieter zum Thema

Die riesigen virtuellen Welten, die von einer wachsenden Zahl von Unternehmen und Künstlern geschaffen werden, könnten mit einer Vielzahl von 3D-Gebäuden, -Fahrzeugen, -Charakteren und mehr bevölkert werden - dank eines KI-Modells von Nvidia Research.

„GET3D“ (Generate Explicit Textured 3D) verdankt seine Bezeichnung der Fähigkeit, explizit texturierte 3D-Meshes zu generieren - die von ihm erstellten Formen die Form von Dreiecks-Meshes haben.
„GET3D“ (Generate Explicit Textured 3D) verdankt seine Bezeichnung der Fähigkeit, explizit texturierte 3D-Meshes zu generieren - die von ihm erstellten Formen die Form von Dreiecks-Meshes haben.
(Bild: Nvidia)

Das Modell, das Nvidia im Rahmen seiner „GTC“-Konferenz vorgestellt hat, „GET3D“, erzeugt aus 2D-Bildern, mit denen trainiert wurde, 3D-Formen mit „originalgetreuen Texturen“ wie Nvidia sagt, und komplexen geometrischen Details. Diese 3D-Objekte werden in demselben Format erstellt, das auch von beliebten Grafiksoftware-Anwendungen genutzt wird, so dass die Benutzer ihre Formen sofort in 3D-Renderer und Spiele-Engines zur weiteren Bearbeitung importieren können.

Sie lassen sich somit in 3D-Darstellungen von Gebäuden, Außenbereichen oder ganzen Städten verwendet werden, die für Branchen wie Spiele, Robotik, Architektur und soziale Medien bestimmt sind. Laut Nvidia lassen sich mithilfe von GET3D kann eine praktisch unbegrenzte Anzahl von 3D-Formen auf der Grundlage der trainierten Daten erzeugen.

Beispielsweise mit einem Trainingsdatensatz von 2D-Autobildern erstellt das Modell eine Sammlung von Limousinen, Lastwagen, Rennwagen und Lieferwagen. Wenn es mit Tierbildern trainiert wird, entstehen Kreaturen wie Füchse, Nashörner, Pferde und Bären. Bei Stühlen erzeugt das Modell verschiedene Drehstühle, Esszimmer- und Liegestühle.

Sanja Fidler, Vice President der KI-Forschung bei Nvidia und Leiterin des KI-Labors in Toronto, hat das Modell entwickelt. Sie sagt: „GET3D bringt uns der Demokratisierung von KI-gestützten 3D-Erstellung von 3D-Inhalten einen Schritt näher. Die Fähigkeit, sofort texturierte 3D-Formen zu generieren, könnte für Entwickler ein entscheidender Faktor sein und ihnen helfen, virtuelle Welten schnell mit vielfältigen und interessanten Objekten zu bevölkern.

Die reale Welt ist voller Abwechslung: Straßen sind gesäumt von einzigartigen Gebäuden, mit Natur beinhalten verschiedene Fahrzeugen und unterschiedliche Menschen. Die manuelle Modellierung einer virtuellen 3D-Welt, die dies widerspiegelte, wäre bis jetzt unglaublich zeitaufwändig. Frühere generative 3D-KI-Modelle waren zwar schneller als manuelle Methoden, aber in ihrer Detailgenauigkeit begrenzt. Selbst neuere inverse Rendering-Methoden können nur 3D-Objekte erzeugen auf der Grundlage von 2D-Bildern, die aus verschiedenen Winkeln aufgenommen wurden, , so dass die Entwickler eine 3D-Form nach der anderen erstellen müssen.

GET3D kann hingegen etwa 20 Formen pro Sekunde erzeugen, wenn die Inferenz auf einem einzigen Nvidia-Grafikprozessor läuft. Je größer und vielfältiger der Trainingsdatensatz ist, von dem gelernt wird, desto vielfältiger und detaillierter die Ausgabe.

Die Grundlage sind 3D-Netze

Die Nvidia-Forscher trainierten GET3D mit synthetischen Daten, die aus 2D-Bildern von 3D-Formen gewonnen wurden, die aus verschiedenen Kamerawinkeln aufgenommen wurden. Das Team benötigte zwei Tage, um das Modell mit „Nvidia A100 Tensor Core“-GPUs in rund 1 Million Bildern zu schulen.

Die Bezeichnung GET3D verdankt das Modell seiner Fähigkeit, explizit texturierte 3D-Meshes zu generieren - was bedeutet, dass die Formen, die es erzeugt, die Form eines Dreiecksnetzes haben, ähnlich wie ein Pappmaché-Modell.

Sobald die mit GET3D Formen generiert sind, lassen sie sich wie gesagt in eine Grafikanwendung exportieren. Dort lassen sich realistische Beleuchtungseffekte hinzufügen, wenn sich das Objekt in einer Szene bewegt oder rotiert. Durch die Einbindung eines weiteren AI Tool von Nvidia Research mit der Bezeichnung „Stylegan-Nda“, können Entwickler einen bestimmten Stil zu einem Bild hinzufügen, etwa ein gerendertes Auto in ein verbranntes oder in ein Taxi umwandeln, ein normales Haus in ein Spukhaus verwandeln.

Die Forscher stellen zudem in Aussicht, dass eine künftige Version von GET3D Techniken zur Schätzung der Kameraposition verwenden könnte, damit Entwickler das Modell mit realen Daten statt mit synthetischen Datensätze verwenden können. Außerdem denken sie an eine universelle Generierung: Entwickler könnten dann GET3D auf alle Arten von 3D-Formen auf einmal trainieren, satt auf jeweils eine Objektkategorie.

(ID:48607875)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung