DataCenter-Day 2018: Konsolidierung sekundärer Datensilos Softwaredefinierte, Web-skalierende Systeme bieten Gestaltungsfreiheit
IT-Administratoren müssen Daten auf einer steigenden Zahl an physischen und virtualisierten Systemen sichern und archivieren. Darüber hinaus sollen sie Cloud-Initiativen des Managements evaluieren und Angebote öffentlicher Anbieter mit in die IT-Struktur einbinden - das Ganze natürlich gesetzeskonform und kosteneffizient. Mit herkömmlichen Technologien stoßen die Admins schnell an Grenzen.
Anbieter zum Thema

Was fehlt, ist eine inkrementell skalierbare Datensicherungs- und Datenspeicherlösung, die in der Lage ist, die bereits genannten und weitere Funktionen – wie Datenanalyse und Datei-/Objekt-Server-Dienste – zur Verfügung zu stellen. Hyperkonvergente Sekundärspeichersysteme stellen hier einen vielversprechenden Lösungsansatz dar.
Sie kombinieren einen Überbau aus intelligenter und hochskalierbarer Software und standardisierte Speicher- und Compute-Architekturen zu einer kompletten, bereichsübergreifenden Lösung. Mit ihrem Einsatz können Unternehmen nachfolgend skizzierten Problemen begegnen, die üblicherweise mit dem Betrieb klassischer Sekundärspeichersysteme verbunden sind.
Mangelnde Skalierbarkeit
Bei den marktüblichen Scale-up-Systemen wird versucht, soviel Kapazität und Rechenleistung wie möglich in einer einzigen Box unterzubringen, um wettbewerbsfähig zu bleiben. Sobald diese am Ende ihres Service- und Abschreibungszyklus sind, müssen sie gegebenenfalls gegen neue und größere Systeme ausgetauscht werden, was in der Regel auch eine langwierige Datenmigration mit sich bringt. Die Möglichkeit, Datenspeicherkapazität und Rechenleistung unabhängig voneinander in granularen Schritten zu skalieren, stellt für die meisten der aktuell auf dem Markt erhältlichen Lösungen eine extreme Herausforderung dar.
Den Anwendern von Sekundärspeichersystemen fehlt in der Regel die Möglichkeit, Visibilität darüber zu erhalten, was auf den Systemen wo gespeichert ist. Das kann dazu führen, dass Administratoren jeweils mehrere, verteilte Kopien der gleichen Daten sichern. Zusätzliche Speziallösungen für die Datenanalyse versuchen diese Missstände zu adressieren, erhöhen aber gleichzeitig die Komplexität und Kosten im Bereich der Sekundärspeicher.
Hinzu kommt, dass bei vielen Datensicherungslösungen das Augenmerk auf dem Backup, weniger hingegen auf der Wiederherstellung liegt. Administratoren verlieren infolgedessen im Fehlerfall wertvolle Zeit, da sie erst einmal die passenden Datenobjekte finden müssen, bevor diese zurückgesichert werden können.
Ineffiziente Sekundärspeichersysteme
Sekundärspeichersysteme bestehen in der Regel aus sehr leistungsfähigen Rechner- und Speicherressourcen, von denen weite Bereiche im Normalbetrieb die meiste Zeit nicht abgerufen werden. Darüber hinaus basieren sie in vielen Fällen auf der Technologie von Primärspeichersystemen. Das hat zur Folge, dass die verwendeten Betriebssysteme und Funktionen nach wie vor im Kontext der Primärspeicher optimiert sind und damit im im Widerspruch zu den Anforderungen für Sekundärspeicher stehen.
So ist der Hauptperformance-Faktor für Primärspeicher meistens die geringstmögliche Latenz, für Sekundärspeicher jedoch der höchstmöglich erzielbare Durchsatz. Die Parametrisierung für diese unterschiedlichen Leistungsfaktoren weicht stark voneinander ab.
Die sekundäre Speicherinfrastruktur setzt sich meistens aus Komponenten und Lösungen unterschiedlicher Hersteller zusammen, aufgeteilt in verschiedene, voneinander separierte Silos. Doch der Einsatz vielzähliger Komponenten, die von diversen Anbietern mit eng begrenztem Lösungshorizont stammen, steigert die Komplexität im physikalischen oder virtuellen Rechenzentrum und erhöht die Kosten signifikant. Dem lässt sich nur durch Konsolidierung entgegentreten.
Am Anfang steht die Plattform
Die Basis für die Zusammenführung von Sekundärspeichersystemen stellt eine softwaredefinierte und Web-skalierende Architektur, die es ermöglicht, die vorab beschriebenen Herausforderungen zu adressieren. Traditionelle Systeme können mit Hyperconverged Secondary Storage ersetzt werden.
Kritischer Erfolgsfaktor ist die richtige Kombination der einzelnen Design-Elemente zu einer zukunftssicheren und in alle Richtungen erweiterbaren Plattform - On-Premise und in der Cloud. Um inkrementelles und beliebiges Wachstum in einer Scale-out-Architektur ermöglichen zu können, bedarf es eines intelligenten, verteilten Dateisystems, das folgende Eigenschaften aufweisen sollte:
- Schnelle und zuverlässige Verteilung der Daten auf Cluster aus Standard-x86-Komponenten (physisch im lokalen Rechenzentrum oder virtuell in beliebigen Cloud-Umgebungen)
- Bereitstellung von speichereffizienten und flexiblen Metadaten-Strukturen
- Unterstützung eines breiten Spektrums an Speicherprotokollen (SMB, NFS S3 etc.) und damit vielfältiger Konnektivitätsoptionen
- Bereitstellung von QoS-Mechanismen
- Ausfall einzelner Komponenten als Norm hinnehmen und Selbstheilungs-Mechanismen zur Verfügung stellen
Schrittweise Erweiterung
Eine Web-skalierende Scale-out-Architektur bietet den Vorteil, dass mit einer aktuellen Kapazitäts- und Performance-Anforderungen entsprechenden Konfiguration gestartet und diese bei Bedarf schrittweise erweitert werden kann. Das verteilte Dateisystem sollte so gestaltet sein, dass die Daten und die Systemlast gleichmäßig innerhalb der existierenden Knoten verteilt werden. Zudem sollten darauf abgestimmte Algorithmen für Konsens und Konsistenz zum Einsatz kommen.
Daraus ergeben sich sich in Kombination mit intelligenten Adressierungsverfahren eine Reihe von Pluspunkten. Fällt beispielsweise während der Erstellung eines Backup ein Knoten aus, so bleibt die Backup-Operation davon unberührt, da infolge der strikten Konsistenz sichergestellt ist, dass mindestens eine valide Kopie der bereits geschriebenen Daten vorhanden ist.
Somit besteht keine Notwendigkeit, den Backup-Job abzubrechen und neu zu starten. Zusätzliche Last auf den Primärsystemen und damit verbundene Risiken werden vermieden. Analoges gilt für einen Restore-Vorgang.
Intelligente Snapshot-Verfahren
Des Weiteren lässt sich mittels intelligenter Snapshot-Verfahren eine beliebige Anzahl zeitpunktbezogener Momentaufnahmen generieren. Um an die Daten zu kommen, müssen diese lediglich eine feste Anzahl an Ebenen traversieren. Solche Methoden eröffnen auch die Möglichkeit eines sogenannten Instant-Mass-Restore.
Das heißt im Fall des kompletten Ausfalls eines Primärsystems können Hunderte oder mehr VMs quasi gleichzeitig wiederhergestellt werden, indem die Snapshots über Shares auf den Sekundärspeichersystemen an den Hypervisor präsentiert werden.
Die VMs können hochgefahren werden und dann auf die Primärsysteme verschoben werden, sobald diese wieder verfügbar sind oder ein DR-Rechenzentrum aktiviert wird. Hier geht es vor allem darum, die systemkritischen Dienste verfügbar zu machen, um danach andere Services wieder hochzufahren.
Optimale Speicherplatznutzung
In Zeiten stetig steigender Datenmengen ist Dateneffizienz ein nicht zu unterschätzender Faktor bei der Kostenkontrolle, Daten-Deduplikation mit variabler Blocklänge und Datenkompression sind in diesem Zusammenhang wichtige Elemente. Ein verteiltes Scale-out-Dateisystem ermöglicht einen möglichst weiten Fokus, so dass die Speichereffizienz optimal gesteigert werden kann. Neben den üblichen Verfahren für die Redundanz der geschriebenen Daten kann via Erasure Coding das gleiche Ziel bei weniger Speicherplatzbedarf erreicht werden.
Eine Plattform wie vorab beschrieben, kann als Target Storage für existierende Backup-Umgebungen integriert werden. Erweitert man sie um einen weiteren Software-Layer, können über eine API-Integration virtuelle Umgebungen gesichert werden.
Über Agents und andere Adapter lassen sich physische Server oder sehr spezifische virtualisierte Umgebungen anbinden und sichern. Diese lässt sich auch als Storage für unterschiedliche Speicheranwendungen einsetzen. Eine native Cloud-Integration kann dabei dafür sorgen, dass Cloud-Repositorien als weiterer Storage-Tier oder für Archivierungszwecke verwendet werden können.
Kombiniert mit der Snapshot-Technologie lassen sich schnell und einfach Klone erstellen, die man für Test/Dev verwenden kann. Nutzt man die verfügbare Rechenleistung der physischen oder virtuellen Knoten (Cloud), um Daten beim Einspielen zu indizieren, kann man diese Erkenntnisse für den Bereich Recovery und Data Analytics nutzen.
Somit gilt: Die Fokussierung auf ein softwaredefiniertes Design-Paradigma lässt die Grenzen zwischen physischem Rechenzentrum und Public Cloud verschwinden. Das, was mit physischen Standard-Komponenten aufgebaut werden kann, lässt sich mit Virtual Machine Instances gleichermaßen in der Cloud realisieren. Ergebnis sind neue Freiheitsgrade in der Gestaltung der IT-Landschaft.
* Thomas Boehle ist Senior Director Systems Engineering EMEA bei Cohesity.
(ID:45450635)