Fehlertolerante Server-Systeme

Hochverfügbarkeit per Standard

24.01.2007 | Autor / Redakteur: Ulrich Lenz / Andreas Donner

IT-Systeme sind zuverlässiger geworden, aber die Folgen des verbliebenen Ausfallrisikos sind gravierender denn je – sie können sogar die Existenz eines Unternehmens in Frage stellen. Hochverfügbare Systeme schaffen zwar Abhilfe, waren mit ihren proprietären Technologien bisher allerdings für die meisten Anwender zu teuer. Heutige fehlertolerante Server basieren deshalb auf erschwinglichen Standard-Technologien.

Zweifellos sind Computersysteme in den letzten zehn Jahren generell zuverlässiger geworden. Es macht sich bemerkbar, dass die Technologien mittlerweile ausgereift sind, dass die Hersteller über eine langjährige Erfahrung verfügen, dass ihre Produktionsprozesse besser organisiert sind und dass die Zulieferer hochwertige Komponenten bereitstellen. Wenn die IT im Unternehmen dennoch nicht verfügbar ist, dann liegt es meist an der Software – die Hardware läuft fast immer.

Aber eben nur fast immer, und dieses „fast“ kann zu einer recht unerfreulichen Angelegenheit werden. Wenn diese Computersysteme nämlich trotz aller Zuverlässigkeit doch ausfallen, dann können die Folgen unabsehbar und unkalkulierbar werden. Denn IT-Systeme sind für die Unternehmen nicht mehr nur Hilfsmittel, die Kosten sparen und Abläufe beschleunigen, sondern sie bilden heute den Kern der Geschäftsprozesse: Bleibt die IT stehen, dann bleibt alles stehen.

Konnte früher beispielsweise ein Kaufhaus bei einer Störung in den Kassensystemen notfalls noch per Hand kassieren, so ist das im Zeitalter von Scannerkassen und Warenwirtschaftssystemen nicht mehr möglich – jetzt sind Umsatzausfälle unvermeidlich. Dies gilt erst recht für Unternehmen, die ihre Geschäftsmodelle ganz auf der IT errichtet haben, wie das beim Online-Banking, -Broking, -Shopping usw. der Fall ist. Ausfälle der IT sind heute nicht mehr nur IT-Ausfälle, sondern immer auch Business-Ausfälle. Sie mögen sehr selten auftreten, aber wenn sie doch auftreten, dann können die Folgen katastrophal sein.

Mit Hochverfügbarkeit gegen das Restrisiko

Normale Server erreichen unter Unix, Linux und Windows heute eine Zuverlässigkeit von bis zu 99,9 Prozent; das klingt recht gut, bedeutet aber pro Jahr immerhin eine durchschnittliche Ausfallzeit von mehr als acht Stunden, wobei niemand weiß, wann der Fall des Falles eintritt. Spezielle Cluster-Lösungen kommen auf bis zu 99,99 Prozent Ausfallsicherheit. Dies bedeutet aber immer noch fast eine Stunde Ausfall im Jahr.

Und diese Stunde kann richtig teuer werden. Doch den wenigsten Unternehmen ist klar, wie teuer die immer mögliche Nicht-Verfügbarkeit von IT-Systemen werden kann. Contingency Research hat die Kosten für Ausfallzeiten in unterschiedlichen Branchen geschätzt und kam auf Beträge von 28.000 Dollar in der Fertigung und 2,6 Millionen Dollar bei der Verarbeitung von Kreditkartendaten. Für Broker wurden sogar 6,5 Millionen Doller ermittelt – jeweils pro Stunde IT-Ausfallzeit!

Besonders empfindlich für Störungen ist auch die Logistik: Wenn die Fertigung eines Automobilzulieferers auch nur kurz steht, hat er mit empfindlichen Vertragsstrafen zu rechnen. UPS wiederum würde der Ausfall seines Flugzeugverwaltungssystems nach eigenen Angaben rund 25.000 Dollar pro Minute kosten.

Hochverfügbare IT-Systeme bieten eine Verfügbarkeit von 99,999 Prozent („Five Nine“), was eine mittlere Ausfallzeit von etwa 5 Minuten pro Jahr bedeutet und für die meisten kommerziellen Anwendungen ausreichend ist. Solche praktisch ausfallsicheren Systeme gibt es zwar schon seit Anfang der 80er-Jahre. Allerdings waren sie aus Kostengründen bisher immer für spezielle Einsatzbereiche reserviert, meist für Anwendungen, die im wörtlichen Sinn lebenswichtig sind, also beispielsweise für Krankenhäuser, Kraftwerke oder Notruf-Leitstellen. Hier muss die Verfügbarkeit der IT-Systeme jenseits aller Kostenüberlegungen gewährleistet sein, denn Ausfälle sind hier nicht bloß teuer, sondern unter Umständen auch lebensbedrohlich.

Für kommerzielle Zwecke geeignet

Für normale, kommerzielle Einsatzzwecke sind solche ausfallsicheren Lösungen, die mit speziell gefertigter Hardware und darauf abgestimmten, proprietären Betriebssystemen arbeiten, jedoch zu teuer und zu aufwändig. Allein für die Anschaffung eines fehlertoleranten Servers mit proprietärem Betriebssystem fallen Investitionen von mehr als 250.000 Dollar an. Zumal diese proprietären System erhebliche Folgekosten verursachen, weil für diese Betriebssysteme meist auch eine speziell programmierte Anwendungssoftware erforderlich ist.

Wo Ausfallsicherheit eine Frage kaufmännischer Kalkulation und betriebswirtschaftlicher Risikobewertung ist, fällt daher meist die Entscheidung gegen solche Spezial-Systeme – man muss nolens volens die geringere Betriebssicherheit in Kauf nehmen.

Hochverfügbare Standard-Technologie

Die jüngste Entwicklung der Computer-Technik hat nun die Karten für die hochverfügbaren Systeme neu gemischt. Die erwähnte verbesserte Zuverlässigkeit normaler PC-Hardware brachte findige Techniker auf die Idee, deren Standard-Technologie als Grundlage für ausfallsichere Lösungen zu verwenden; mit Prozessoren von Intel, mit Windows als Betriebssystem, mit handelsüblichen Festplatten usw.

Der große Vorteil solcher hochverfügbaren PC-Server gegenüber den traditionellen Hochverfügbarkeits-Lösungen besteht darin, dass Anwender ihre vorhandene Anwendungssoftware ohne Programmanpassung weiter verwenden können. Sie können ihre bestehende Infrastruktur nutzen, sie müssen keine zusätzliche, aufwändige Administration betreiben und können das vorhandene Know-how anwenden.

Fehlertolerante Server, wie sie derzeit von Stratus angeboten werden, verfügen über durchgängig doppelt ausgelegte Hardwarekomponenten. Dies gilt für alle betriebswichtigen Teile und nicht nur, wie sonst in High-End-Systemen üblich, nur für Netzteile oder Festplatten. Bei Stratus-Servern sind alle Komponenten, also insbesondere Prozessoren, Speicher-Chips und I/O-Einheiten, redundant. Sollte eine Komponente ausfallen, übernimmt die jeweilige Partner-Komponente automatisch und vom Benutzer unbemerkt den Betrieb. Die Anwendung kann somit bei jedweder Störung ohne Datenverlust oder Verlust des Status der Anwendung kontinuierlich weitergeführt werden.

Damit unterscheiden sich fehlertolerante Systeme auch von softwarebasierten Hochverfügbarkeits-Lösungen wie sie etwa das Failover-Clustering bietet. Hier wird bei einem Ausfall die Programmausführung samt Daten auf einen redundanten Server verlagert, wobei die Fehlererkennung und das anschließendes Umschalten zum neuen System Ausfallzeiten von bis zu einer halben Stunde verursachen können. Da Cluster-Systeme eine weitaus aufwändigere Administration erfordern, sind die Gesamtlösungen außerdem entsprechend teuer.

Die fehlertoleranten Stratus ftServer verfügen nicht über besonders ausgewählte Hardware-Komponenten, sie erreichen ihre hohe Verfügbarkeit durch Verwendung einer Reihe richtungweisender Innovationen:

  • Die Lockstep-Softwaretechnologie synchronisiert die redundanten Hardwarekomponenten, so dass sämtliche Operationen des ftServers, einschließlich Prozessor und Arbeitsspeicher, vollständig simultan erfolgen. Weist eine Komponente eine Fehlfunktion auf, so führt die jeweilige Partnerkomponente automatisch und ohne speziellen Umschaltprozess die Arbeit fort.
  • Die „gehärteten“ Gerätetreiber tragen in erheblichem Maße zu einer höheren Verfügbarkeit und dem Schutz der Datenintegrität bei. Die Software verwaltet replizierte PCI E/A-Schnittstellen und gewährleistet den unterbrechungsfreien Systembetrieb, falls eine E/A-Schnittstelle ausfallen sollte.

Service inklusive

Wie es sich für High-End-Server gehört, sind auch diese fehlertoleranten Systeme in ein umfassendes Service-Konzept integriert. Jeder Server ist – sofern der Anwender es wünscht – Online mit dem Stratus-Service verbunden. Beim Ausfall einer – stets doppelt vorhandenen – Komponente meldet sich das System mittels einer „Call-Home-Funktion“ automatisch in der Service-Zentrale. Die passende Austausch-Komponente ist oft schon unterwegs, obwohl der Anwender den Defekt noch gar nicht bemerkt hat. Der Austausch selbst erfolgt per Plug-and-Play, es ist also kein Techniker erforderlich. Wem die doppelte Auslegung jedoch immer noch nicht sicher genug ist – was passiert, wenn ausgerechnet während der Austauschphase ein weiterer Defekt auftritt? – der kann auch auf die High-End-Version dieser High-End-Server zurückgreifen; hier sind dann alle wichtigen Komponenten dreifach vorhanden und alle Prozesse werden dreifach simultan ausgeführt.

Fazit

Durch diese Technologien erreichen die fehlertoleranten Server heute eine Ausfallsicherheit, die nicht nur deutlich über der von Cluster-Systemen liegt, sondern die auch die der meisten Großrechner und Unix-Systeme übertrifft. Eine Verfügbarkeit von mehr als 99,999 Prozent („Five Nine“), die einer ungeplanten Ausfallzeit von weniger 5 Minuten pro Jahr entspricht, erreichen die fehlertoleranten Server ohne Probleme. Aber erst die Kombination von sehr hoher Verfügbarkeit und preiswerten Standard-Technologien macht die enorme Erweiterung des Einsatzspektrums möglich. Und auf dieser Basis stellen die fehlertoleranten Server auch betriebswirtschaftlich eine echte Alternative für die Eingrenzung des Restrisikos der IT dar.

Über den Autor

Ulrich Lenz ist Senior Consultant bei Stratus Technologies in Schwalbach/Taunus

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 2001989 / Data)