10 Petabyte und mehr

Beim CERN ergänzt MongoDB relationale Datenbanken

Seite: 3/3

Anbieter zum Thema

Wie sind Daten-Provider einzubinden?

Aufgenommen im Mai dieses Jahres: Ein Proton-Proton Zentrum aus Massen-Energie von of 8 TeV.
Aufgenommen im Mai dieses Jahres: Ein Proton-Proton Zentrum aus Massen-Energie von of 8 TeV.
(Bild: CERN)
Neben der Möglichkeit, einfach und konsistent auf eine Vielzahl von Datenquellen zuzugreifen, nutzt das DAS MongoDB als dynamischen Speicher, der sämtliche Informationen zusammenträgt, die von den Anwendern in ganz unterschiedlichen Formaten und Dateistrukturen eingespeist werden.

„Wenn ein Nutzer eine Abfrage tätigt, überprüft das System, ob die MongoDB-Datenbank über die gewünschte Aggregation verfügt und gibt sie aus. Anderenfalls übernimmt das System das Aggregieren und speichert das Ergebnis in der Datenbank“, führt Kuznetsov aus.

Fehlt die initiierte Abfrage im Cache, verbindet sich das System mit den Datenquellen und Datenprovidern die über diese Information verfügen, fragt sie ab und trägt die Ergebnisse zusammen. Anschließend werden alle Resultate mithilfe eines festgelegten Identifizierungsschlüssels ähnlich einem ''Group By''-Verfahren zusammengeführt und die aggregierten Informationen in den Cache eingefügt.

Unglaubliche Mengen

„Physiker des CMS, Datenoperatoren und Datenmanager nutzen das DAS in unseren weltweiten Forschungseinrichtungen rund um die Uhr, sieben Tage in der Woche und 24 Stunden am Tag“, so Kuznetsov. „Eine durchschnittliche Abfrage umfasst Tausende Dokumente, jedes einige Kilobyte groß.“ Die Performance von MongoDB ist somit beachtlich, mit einem Durchsatz von rund 6.000 Dokumenten in der Sekunde.

Der wissenschaftlicher Mitarbeiter gerät geradezu ins Schwärmen: „Durch das schnelle und skalierbare Freitextabfragesystem und den sehr dynamischen, skalierbaren und datenagnostischen Cache verfügen wir über einen zweigleisigen Übersetzungsmechanismus von unschätzbarem Wert.“

Das DAS helfe CMS-Nutzern dabei schneller die Informationen zu finden, die sie für ihre tägliche Arbeit benötigen, um an großen Entdeckungen forschen zu können. Ohne das DAS würde das Abrufen von Informationen um ein Vielfaches länger dauern.

Ausblick auf noch mehr Masse und komplexere Abfragen

Um der wachsenden Datenmenge im Rahmen der diversen Experimente langfristig gerecht zu werden, plant das CMS, die Datenbank mittels „Sharding“ horizontal zu skalieren. Gleichzeitig setzen sich die Anwender dafür ein, über das CMS hinaus Gebrauch von der Datenbank zu machen und das Abfrage-Tool auch bei IT-Herausforderungen außerhalb des CERN einzusetzen. Kuznetsov arbeitet an der Cornell Universität mit Postgraduierten daran, die Funktionalität der Datenbank auf ähnliche Projekte auszurollen, bei denen es darauf ankommt, große Datenmengen aus verschiedenen und verteilten Systemen zuverlässig und schnell zu aggregieren.

(ID:37207450)