Was ist ein Metrocluster?

Sicher und hochverfügbar, verteilt und nah beieinander Was ist ein Metrocluster?

02.08.2019Autor / Redakteur: Dipl. Betriebswirt Otto Geißler / Ulrike Ostler

Ein Metrocluster ist ein auf zwei (oder auch drei) Standorte auseinandergezogenes lokaler Cluster mit einem lokal gespiegelten Speicher. Beim Ausfall von Komponenten oder eines Rechenzentrums schalten Metrocluster direkt – ohne Latenz - auf ein zweites (oder drittes) um.

Anbieter zum Thema

dtm Datentechnik Moll GmbH

Data Center Group GmbH

EPS Rechenzentrum Infrastruktur GmbH

IT-Experten schätzen die Kosten, die durch Ausfälle in Rechenzentren pro Jahr entstehen, auf rund 10 Mio. Euro.
(Bild: © djama - stock.adob.com)

Hochverfügbare Datacenter bilden heute vor allem für Unternehmen eine solide Basis, die große Summen in ihre Geschäftstätigkeit investieren. Wenn Komponenten oder gar ganze Standorte ausfallen, müssen nahtlos Disaster-Recovery-Maßnahmen eingeleitet werden.

Dies ermöglicht ein Metrocluster, indem Daten zwischen zwei Speicher-Controllern synchron gespiegelt werden. Eine Metrocluster-Konfiguration besteht demnach aus zwei Controllern, die sich jeweils im selben Rechenzentrum oder oftmals an verschiedenen physischen Standorten befinden und verbunden sind. Für alle Unternehmen, die ohnehin zwei Standorte innerhalb von 50 Kilometer Umkreis besitzen oder die Ressourcen in einem von Dienstleistern betriebenen Rechenzentrum in Anspruch nehmen können, ist ein Metrocluster der ideale Ansatz, die Systeme jederzeit zugänglich zu halten.

Georedundante Rechenzentren müssen jetzt nach BSI-Regeln 200 km auseinanderliegen (gemeinfrei Pixabay)

Automatisierte Abläufe

Ein Metrocluster bietet Möglichkeiten zur Wiederherstellung nicht nur für jede einzelne Speicherkomponente und jeden Point of Failure, sondern auch im Falle eines kompletten Standortausfalls quasi durch einen einzigen Befehl. Damit macht ein einzelner Hardware-Ausfall kein totales Umschalten zwischen Standorten notwendig.

Der größte Vorteil eines Metroclusters liegt darin, dass alles automatisch ablaufen kann und kein Administrator eingreifen muss. Denn bei einer asynchronen Replikation müsste immer noch ein Mensch entscheiden, ob und wann umgeschaltet wird.

Metrocluster verlangen räumliche Nähe

Auf diese Weise garantiert eine prozessuale Automatisierung eine durchgängige Uptime für sämtliche Applikationen. Des Weiteren profitieren Unternehmen von einer einfachen Anordnung und Verwaltung.

Für den Aufbau eines Metrocluster müssen die Leitungen zwischen den Standorten eine niedrige Latenz aufweisen. Höhere Latenzzeiten vermindern die Performance des Gesamtsystems. Insofern sollte die Entfernung eines Metrocluster rund 50 Kilometer nicht überschreiten.

Metroclusters eignen sich in der Regel für europäische Unternehmen, die entweder über ein größeres Areal verfügen oder Niederlassungen in diesem Umkreis unterhalten. So kann man mit überschaubarem Aufwand und Budget die Verfügbarkeit der Systeme auf ein höheres Niveau befördern. Dagegen ist das Konzept der Metrocluster in den USA, wo die Standorte der Unternehmen oft sehr weit voneinander entfernt liegen, kaum bekannt.

Verschiedene Ausfallszenarien

Ein Cluster beinhaltet oft eine ganze Reihe von Schwachstellen. Das Konzept der Metrocluster zielt nun darauf ab, für jeden dieser Schwachpunkte eine automatische Rückfall-Lösung bereitzustellen. Infolgedessen sollen negative Auswirkungen auf Applikationen vermieden oder zumindest stark eingeschränkt werden. Die folgenden Ausfallszenarien beschreiben die Handlungsoptionen der Metrocluster-Konzeption:

Ausfall einer Festplatte

Der Administrator tauscht die Platte im laufenden Betrieb aus und die Daten werden anschließend automatisch synchronisiert. Fallen jedoch wichtige Komponenten wie zum Beispiel ein SAS-Kabel eines SAS-HBAs oder Expanders in den Disk-Shelves aus, sorgt das Multi-Pathing der Storage-Nodes dafür, dass alle Services ohne Unterbrechung online bleiben. Die fehlerhaften Teile werden im laufenden Betrieb ersetzt.

Ausfall kompletter Disk-Shelves

Die RAIDZ2-Festplattenverbünde werden zwischen den JBODs so aufgeteilt, dass auch ein kompletter JBOD-Ausfall das System hochverfügbar hält. Bei der nächsten Online-Session müssen nur die bis dahin veränderten Daten synchronisiert werden. Fällt ein kompletter Server beziehungsweise ein Storage-Node aus, übernimmt innerhalb weniger Sekunden ein zweiter Server am selben Standort die Workloads.

Ausfälle zwischen Storage-Nodes und den oberen Service-Nodes

Kommt es zu einem Ausfall eines Switches, Kabels oder Fibre-Channel-HBAs zwischen Storage-Nodes und den oberen Service-Nodes, so wird dies durch Multi-Pathing der Service-Nodes bewerkstelligt. Ein Failover auf ein anderes Data Center ist nicht erforderlich.

Ausfall eines Service-Nodes

Fällt ein ganzer Service-Node aus, kommt es bei der Nutzung von ZFS zu einer kurzen Unterbrechung des I/O-Stroms. Die Zeit für das Umschalten hängt dann von der Anzahl der Services ab, ist jedoch unabhängig vom Datenvolumen.

Ausfall eines ganzen Standorts

Bei einem kompletten Ausfall eines ganzen Standorts nutzt der Metrocluster die Redundanz des gesamten Datacenter für ein Failover und der zweite Standort übernimmt komplett alle Services. Den Servern werden dann alle Dienste bereitgestellt, wenn auch nur ein Teil der Service-Nodes, woraus eine eingeschränkte Performance resultiert.

(ID:46021396)