Vektordatenbank für strukturierte Daten von Wikipedia und Co. Wikidata lädt KI-Modelle zum Stöbern ein

Quelle: Pressemitteilung Wikimedia Deutschland 2 min Lesedauer

Anbieter zum Thema

Wikimedia hat eine Vektordatenbank für semantische Suchen in „Wikidata“ veröffentlicht. Damit sollen KI-Systeme die strukturierten Daten hinter Wikipedia und Konsorten leichter auffinden und präzise interpretieren können. Mittelfristig will das Portal offene Big-Tech-Alternativen stärken.

Eine vektorenbasierte semantische Suche soll 119 Millionen Datenobjekte in Wikidata für KI-Sprachmodelle greifbarer machen. (Bild:  Midjourney. Logo: Wikimedia. / KI-generiert)
Eine vektorenbasierte semantische Suche soll 119 Millionen Datenobjekte in Wikidata für KI-Sprachmodelle greifbarer machen.
(Bild: Midjourney. Logo: Wikimedia. / KI-generiert)

Das „Wikidata Embedding Project“ hat die strukturierten Daten in Wikidata in Vektoren übersetzt, welche in Vektorräumen komplexe Beziehungen zwischen Elementen abbilden. Damit sollen KI-Systeme (Künstliche Intelligenz) über das etablierte Model Context Protocol (MCP) Inhalte semantisch interpretieren und in natürlicher Sprache verarbeiten können. Die aktuelle Wikimedia-Suchmaschine „Cirrus Search“ sei hingegen auf Übereinstimmungen von einzelnen Stichwörtern ausgelegt und für generative KI-Modelle mit Echtzeitzugriff auf Webdaten über Retrieval Augmented Generation (RAG) weniger geeignet.

Offene Suche auf Basis von Partnermodulen

Das ab sofort verfügbare Suchsystem erlaubt es, mehrdeutige Einträge für KI-Modelle klar zu identifizieren und Ergebnisse als Bedeutungscluster im 2D- oder 3D-Format zu visualisieren. Zudem verbessert ein separates Nachjustierungs-Modell (Reranker) die Relevanz der Ergebnisse.Geleitet wurde die Entwicklung von Wikimedia Deutschland. Zwei Unternehmen waren Kooperationspartner: das Berliner Startup für semantische Suche Jina AI und die IBM-Tochter mit Fokus KI-optimierte Datenbanken Data Strax.

Ziel des Projektes ist es, der Open-Source-Community die Entwicklung von KI-Applikationen mit Rückgriff auf das breite Angebot strukturierter Daten in verschiedenen Sprachen und Darstellungsformen auf Wikidata zu ermöglichen. Wikidata ist der zentrale Speicherort für strukturierte Daten von Wikipedia, aber auch für Wikivoyage, Wiktionaryund andere Wikimedia-Projekte. Momentan unterstützt die Datenbank Suchen im gesamten Datensatz auf Englisch, Französisch und Arabisch. Spanisch und Mandarin sollen bis Jahresende 2025 folgen und weitere Sprachen nach und nach implementiert werden.

Wikimedia: Beitrag gegen KI-Exklusivität

Das Projekt soll in weiterer Perspektive einen Beitrag zu transparenteren und weniger exklusiven Large Language Models (LLMs) leisten. Dies wäre zum einen durch den Einsatz offener, verifizierbarer Datenobjekte aus Wikidata möglich. Zum anderen könne das Wikidata Embedding Project selbst zu einem Beispiel für kommende Open-Source-Projekte werden.

Denn für das Suchsystem wurden mehrere Machine-Learning-Modelle integriert und mit einer skalierbaren Vektordatenbank zu einem containerisierten Suchsystem kombiniert. Der Quellcode des Projektes (allerdings wohl nicht die Einbettungs- und Datenbankdienste von Jina AI und Data Strax) wurde unter der offenen MIT-Lizenz verfügbar gemacht.

Wikimedia erhofft sich von der Open-Source-Community mit den neuen Instrumenten künftig die Entwicklung effektiverer Tools etwa zur Faktenprüfung oder Vandalismusbekämpfung. „Wir wollen eine Infrastruktur schaffen, die es allen ermöglicht, generative KI-Anwendungen zu entwickeln, die auf überprüfbaren, freien und offenen Daten basieren“, resümiert Lydia Pintscher, Portfolio Lead für Wikidata bei Wikimedia Deutschland.

(ID:50589183)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung