Suchen

Max-Planck-Institut für Radioastronomie setzt bei Pulsar-Forschung auf Grau Data ArchiveManager Astronomische Datenmengen langzeitarchivieren

Autor / Redakteur: Thilo Christ / Rainer Graefen

Wenn eine Forschungseinrichtung wie das Max-Planck-Institut in den Tiefen der Galaxien nach neuen Erkenntnissen sucht, werden große Datenmengen erzeugt, die oftmals über viele Jahre hinweg erhoben werden. Das Datenarchiv muss dementsprechend langlebig sein und mit den steigenden Ansprüchen der Forscher mitwachsen können.

Firma zum Thema

 Pulsare sind die Zeitmesser der Galaxis.
 Pulsare sind die Zeitmesser der Galaxis.
(Max-Planck-Institut)

Die Forschungsgruppe für Radioastronomische Fundamentalphysik des Max-Planck-Institut beschäftigt sich mit der kosmischen Radiostrahlung und untersucht Pulsare, um die magnetischen Kräfte der Milchstraße zu studieren. Die Beobachtungen erlauben unter anderem Tests der Allgemeinen Relativitätstheorie und alternativer Gravitationstheorien.

Die Daten hierfür stammen von dem Radioteleskop Effelsberg, das bei einer Messung in nur 30 Minuten über 100 Gigabyte an Daten erzeugt. Monatlich werden rund 18 Terabyte (TiB) an Messdaten zur Berechnung und Analyse gespeichert. Die Auswertung der Daten dauert ungleich länger.

Bildergalerie

Die Forscher sind darauf angewiesen, dass die Daten viele Jahre hinweg gespeichert sind und ein ungehinderter Zugriff jederzeit möglich ist. Realisiert hat das Max-Planck-Institut die Speicherung dieser großen Datenmengen mit dem Grau Data ArchiveManager, einer HSM- und Archiv-Software, die mehrere Petabyte an Daten sehr effizient verwalten kann.

Der Fortschritt hat seine Wurzeln im Langzeitarchiv

Das Max-Planck-Institut ist führend in der radioastronomischen Fundamentalphysik, und die Mitarbeiter in den Forschungsgruppen messen und analysieren enorm große Datenmengen. Gesetzlich ist das Institut zwar für eine Datenhaltung von zehn Jahren verpflichtet, doch die Forschungsdaten müssen wesentlich länger vorgehalten werden.

Ständig werden neue Algorithmen entwickelt, für die auch alte Datenbestände in die Berechnungen einbezogen werden. Alle über die Radioteleskope erlangten Daten auf Festplatten, also auf Online-Speicher vorzuhalten, würde die Budgets des Instituts bei weitem sprengen. Hinzu kommt, dass die Daten nicht ständig benutzt werden und oftmals längere Zeit inaktiv auf den Speichereinheiten verbleiben. Die Lösung war ein hierarchisches Speichermanagement-Konzept auf Basis der Grau HSM & Archivierungssoftware mit LTO Magnetbändern als Langzeitarchivierungsmedium.

Test, Anpassung und Produktionssystem des ArchiveManagers

Im August 2011 startete das Max-Planck-Institut gemeinsam mit GRAU DATA das Projekt mit der HSM- und Archivierungssoftware ArchiveManager. Im ersten Schritt wurde die Software auf Wunsch des Max-Planck-Instituts in kurzer Zeit auf das Betriebssystem Debian/GNU Linux portiert. Bereits im Oktober wurden die Tests erfolgreich abgeschlossen, und im November wurde die Gesamtlösung produktiv in Betrieb genommen

Die astronomischen Messdaten vom Radioteleskop Effelsberg werden im ersten Schritt im 8-Gbit-FC-SAN auf einem 120-TByte-Platten-Online-Speicher gepuffert. Server-seitig stehen leistungsfähige Fujitsu-Primergy-RX-300-S6-Systeme zur Verfügung, welche die Daten mit Hilfe des Grau Data ArchiveManagers auf die Spectralogic LTO-5 Tape Libraries in Effelsberg und Bonn redundant verlagern.

Pro Library verwaltet die Archivsoftware heute rund 350 Bänder mit je 1,5 Terabyte (TiB) Fassungsvermögen, und die Datenbestände wachsen schnell. Insgesamt ist der Datenbestand bis Mai 2012 schon auf 525 Terabyte angewachsen; das Gesamtsystem kann nach dem derzeitigen Stand jedoch ohne größere Eingriffe bis auf 3,5 Petabyte erweitert werden.

Das Band als Online-Speicher

„Im Gegensatz zu klassischen Archivsystemen in Unternehmen, wird die Band-Technologie in unserer Abteilung des Max-Planck-Instituts oftmals als erweiterter Online-Speicher genutzt, auf den die Forscher in regelmäßigen Abständen zugreifen“, erklärt Jan Behrend, IT-Spezialist beim Max-Planck-Institut den Aufbau der Speicherstruktur.

„Die Tape Libraries in Verbindung mit dem ArchiveManager sind im 1-GBit/s-Netzwerk schnell genug, um den Forschungsgruppen ihre enorm großen Datenmengen zur Verfügung zu stellen. Gleichzeitig bietet uns das Speichersystem enorme Kostenvorteile im Vergleich zu einem klassischen Online-Speicher auf Disk.“

Der Hardware-unabhängige Grau Data ArchiveManager in Verbindung mit den Fujitsu-Servern ist in der Lage, große Datenmengen sehr schnell auf die Tape Libraries zu migrieren. Die Eingangsdatenrate in das HSM-System liegt bei einem Gigabit pro Sekunde. Die Schreib-/Lesegeschwindigkeit erreicht bei optimaler Auslastung der Tape-Laufwerke bis zu 130 MiB pro Sekunde und Laufwerk, was ca. 500 GiByte/Stunde entspricht.

Verwaltung großer Datenmengen leicht gemacht

Der ArchiveManager erlaubt dem IT-Team des Forschungsinstituts eine leichte und intuitive Administration. Füllstände und Transferraten werden von der Software ständig kontrolliert. Sollte ein manueller Eingriff nötig sein, erhält der Administrator sofort eine Meldung. Auch das tägliche Backup der Metadaten in die Remote-Lokation verläuft automatisch.

Aufgrund des problemlosen Betriebs der HSM- und Archivierungssoftware entschloss sich das Max-Planck-Institut, die Mandantenfähigkeit der Lösung zu nutzen und zwei weitere Forschungsgruppen in das gesamte System mit einzubinden. Durch die Mandantenfähigkeit ließen sich separate Partitionen anlegen, wodurch eine Trennung der Daten und die separierte Nutzung der Laufwerke und Tapes gewährleistet ist.

Langfristige Open-Source-Strategie

Ein entscheidender Grund für die Nutzung der GRAU-DATA-Archiv-Software war neben den umfangreichen Funktionen die Portierung auf das Linux-Betriebssystem Debian sowie die Verfügbarkeit einer Open-Source-Variante mit nahezu gleicher Funktionalität. Das Max-Planck-Institut setzt, wie die Mehrheit der weltweiten Forschungsinstitute, auf die Betriebssystem-Plattform Linux. GRAU DATA bietet mit „OpenArchive“ die weltweit einzige linuxbasierte, professionelle Archivsoftware auf Open-Source-Basis.

„Im ersten Schritt war der ArchiveManager das optimale Produkt für uns, um einen stabilen und performanten Betrieb zu gewährleisten. Langfristig werden wir eventuell auf die Open-Source-Variante von GRAU DATA umsteigen. Die Überlegungen zielen neben eventuellen Kosteneinsparungen für Lizenzen auch darauf, dass wir als Forschungsinstitut oftmals eigene Anwendungen gestalten und schreiben.

Diese lassen sich in einer durchgängigen Open-Source-Umgebung leichter über den offenen Code der Archivierungssoftware anbinden. Zum heutigen Zeitpunkt sind wir jedoch mit dem ArchiveManager hervorragend bedient. Die Software läuft absolut zuverlässig und lässt auch bei der Administration keine Wünsche offen“, kommentiert Jan Behrend das erfolgreiche Projekt.

(ID:34610630)