Workshop I/O-Analyse am Beispiel SVC und Storwize V7000, Teil 1

Eine Performance-Bottleneck-Analyse erspart Hardware-Updates

Seite: 2/3

Firma zum Thema

Abb. 3: beschreibt das Schreib- und Leseverhalten (RW-Verhalten) des Volumes über einen kompletten Tag von 0 Uhr bis 24 Uhr. Folgende Aussagen kann man aus der Graphik ablesen:

  • Das Volume arbeitet kontinuierlich auf einem kleineren Niveau, einmal pro Stunde werden allerdings größere Mengen von Daten geschrieben und gelesen. In diesen Zeiträumen erreicht die Aktivität ca. 120 IOPS. Die normalen Antwortzeiten liegen bei zwei bis drei Millisekunden.
  • In der Zeit von 5:00 bis 6:30 Uhr steigt die Antwortzeit des Volumes, bei gleichbleibender Belastung, sprunghaft an. Statt mit 3ms antwortet das Volume nun mit 50 bis 85 Millisekunden, also eine Verschlechterung der Antwortzeit fast um den Faktor 30 ohne Veränderungen im Arbeitsverhalten des Volumes.
  • Es ist unerheblich, ob das Volume auf einem niedrigen oder hohen Niveau arbeitet. Im gesamten Zeitraum von 5:00 bis 6:30 Uhr wird das Antwortverhalten des Volumes als schlecht wahrgenommen. Bei höherer Belastung treten jetzt Peaks auf.
  • Im Zeitraum von 6:30 bis 8:15 Uhr hat sich die die Latenzzeit des Volumes verbessert. Die Latenzzeit des Backendspeichers (Bildausschnitt rechts) ist immer noch hoch.

Da die hohen Antwortzeiten von 5:00 bis 6:30 Uhr nicht mit der Aktivität des Volumes zusammenhängen, müssen sie aus einer Überlastungssituation herrühren, die an einer anderen Stelle im Speichersystem oder im SAN passiert.

Bildergalerie
Bildergalerie mit 9 Bildern

Der nächste sinnvolle Schritt ist, die Stelle zu finden, an der die Überlastung auftritt, um daraufhin die Ursache für diese Überlastung zu suchen.

Ein Blick in das SAN sagt: Alles im grünen Bereich!

Eine Analyse der SAN-Ports (Abb. 4: Datendurchsatz der SAN-Ports der SVC-Knoten) zeigt, dass im fraglichen Zeitraum von 5:00 bis 6:30 Uhr signifikant größere Datenmengen (lila) über das SAN transferiert wurden.

Gegen 4:00 Uhr gab es zwar eine Spitze von ca. 2,5 Prozent Buffer Credit Wait (gelb). Im fraglichen Zeitraum von 5:00 bis 6:30 Uhr war diese Behinderung allerdings nicht relevant ausgeprägt. Auch weitere typische SAN-Fehler wurden vom SVC im fraglichen Zeitraum nicht aufgezeichnet, so dass man sagen kann: Es gibt keine Anzeichen, das SAN als Ursache der hohen Latenzzeiten zu betrachten!

Ein proaktiv denkender Administrator wird sicherlich die gelben Nadeln zur Abendzeit im Kopf behalten. Offensichtlich treten Buffer Credit Wait % Situationen ab 800 MByte/s häufiger auf. Eine tiefere Analyse zeigt, dass die SAN-Ports sehr ungleichmäßig belastet sind, was zu einer Verschlechterung der Gesamtleistung führt. (Abb. 5: Dedizierte Port-Darstellung)

In Abbildung 5 wird ein genereller Engpass deutlich, der - wie im ersten Abschnitt beschrieben - vorhersehbar ist und sich bei wachsenden Datenmengen und Last in der Zukunft als Problem zeigen wird. Man könnte in neue Hardware investieren oder wesentlich kostengünstiger die Belastung der Ports besser ausgleichen.

Buffer Credit Wait % wird mit zunehmendem Anstieg verstärkt zu einer ernsthaften Behinderung und muss dann bei vermehrtem Auftreten dringend gelöst werden. Die Ursachen für häufiges Auftreten können in nicht ausreichenden Buffer Credits in den Switch Ports liegen oder in sogenannten „Slow Draining Devices“, die den Datenverkehr im SAN stören.

(ID:36533790)