Dreiklang aus Metrics, Traces und Logs Gezielte Auswertung von Log-Dateien legt Zusammenhänge offen

Autor / Redakteur: Dr. Dietmar Müller / Ulrike Ostler |

Ein Thema, das bei der Überwachung von Cloud-Infrastrukturen schnell ins Hintertreffen gerät, ist das Management von Log-Daten. Dabei verbergen sich hinter den Protokolldateien von Anwendungen und Netzwerkmodulen Informationsperlen, die das übergreifende System-Monitoring um einiges bereichern. Ein Gastbeitrag von Onur Aksoy, Regional Vice President DACH bei Datadog.

Anbieter zum Thema

Die Kunst der Daten-Analysten besteht darin, die wichtigen Informationen aus dem Datenberg herauszufiltern
Die Kunst der Daten-Analysten besteht darin, die wichtigen Informationen aus dem Datenberg herauszufiltern
(Bild: Datadog)

Wahre Einsichten gewinnt derjenige, der seine blinden Flecken kennt – eine klassische Weisheit, die für ein funktionierendes Cloud-Monitoring allerdings unverzichtbar ist. Nur Unternehmen, die auch in die toten Winkel ihrer Infrastruktur blicken können, haben ihre Anwendungen und Prozesse wirklich unter Kontrolle. Vor diesem Hintergrund spielen die Überwachung und Auswertung von Log File-Daten eine wichtige Rolle. Ein Muss für jede Monitoring-Strategie, zugleich aber auch eine Kostenfalle.

Protokolldateien zielgerichtet nutzen

Selbst bei kleineren Mittelständlern fallen täglich einige Gigabyte an Log-Daten aus Anwendungen, Netzwerkkomponenten und sonstiger Protokoll-basierter Software an. Je größer das Unternehmen und seine Infrastruktur, umso höher ist selbstredend auch das Datenaufkommen, das durch die Log-Einträge generiert wird. Die große Kunst der Daten-Analysten besteht darin, die richtigen und wichtigen Informationen aus diesem Datenberg herauszufiltern – die berüchtigte Nadel-im-Heuhaufen-Suche, die händisch nicht zu bewältigen ist und in vielen Organisationen mithilfe von Open Source-Lösungen wie Graylog, Fluentd oder Anwendungen aus dem ELK-Stack (Elastiksearch, Logstash und Kibana) angegangen wird.

Tools, die zunächst durch ihren Zero Cost-Charakter bestechen. Zunächst deshalb, weil ihre Konfiguration wie so oft bei Open Source-Implementierungen mehr Zeit und damit personelle Ressourcen binden kann, als im Vorfeld angenommen. Derartige Startschwierigkeiten sind bei kommerziellen Anbietern unwahrscheinlich, dafür können hier durch die variablen Preismodelle erhebliche Kosten anfallen – vor allem bei Unternehmen, die einen starken Anstieg oder ein ohnehin hohes Aufkommen an Log-Daten verzeichnen.

Log-Management aus Sicht des Monitorings denken

Einen Nachteil haben sowohl Open Source-Lösungen als auch proprietäre Log-Management-Instrumente häufig gemeinsam: Sie laufen parallel zu systemrelevanten Monitoring-Prozessen und schaffen damit nicht den Mehrwert, der ihnen theoretisch innewohnt. Um das Potenzial der Log-Daten-Erfassung besser nutzen zu können, empfiehlt sich deshalb ein Perspektivwechsel. Die Log-Integration sollte aus Sicht des übergreifenden Monitorings erfolgen, um tief genug in die vorhandenen System-Komponenten eingebettet zu sein und ein vollständiges Bild zu liefern.

Moderne Monitoring-Lösungen decken inzwischen den Bereich Log-Management ohnehin mit ab. Ihre große Stärke besteht darin, dass sie auf erprobte Funktionen aufsetzen und damit Analysen von Log-Dateien bieten, die nicht nur in Echtzeit, sondern mit maximaler Detailtiefe erfolgen.

Wir haben auf diese Anforderungen bereits 2017 mit der Übernahme von Logmatic.io reagiert. So konnten wir unsere Kernkompetenz – die Erstellung einer lückenlosen, tiefgreifenden Kennzahlenerfassung über alle Infrastrukturkomponenten hinweg – mit den Vorteilen einer intelligenten Log File-Erfassung und -Analyse verbinden. Sowohl unser Application Performance Monitoring (APM) als auch unsere Lösungen zur Erhebung von Infrastruktur-Kennzahlen verfolgen eine End-to-end-Erfassung sämtlicher Systemprozesse, die auf drei Säulen aufbaut: Metrics (Kennzahlen zur Systemperformance), Traces (End-to-End-Verfolgung von Systemanfragen) und Logs (Protokolldaten aller Systemkomponenten).

Diese Daten zu sammeln ist der Anfang, die unverzichtbare Basis. Um ein übergreifendes Verständnis von Infrastrukturen, Anwendungen und Geschäftsvorgängen zu erhalten, müssen diese drei Säulen allerdings nicht nur in der Tiefe betrachtet, sondern auch horizontal miteinander in Verbindung gebracht werden.

Das große Ganze plattformübergreifend im Blick

Insbesondere bei der Nutzung unterschiedlicher Plattformen wird eine optimale Performance von Anwendungen und Prozessen zur Herausforderung. Gibt es Probleme oder Störungen im Gesamtsystem, so ist die Analyse der Ursachen und letztlich auch ihre Behebung in heterogenen Umgebungen von erheblicher Komplexität. Ein integriertes Log-Management identifiziert die blinden Flecken über einzelne Infrastrukturelemente hinweg in Echtzeit – eine enorme Erleichterung, insbesondere bei akuten Performance-Engpässen oder kompletten Ausfällen.

Eine übergreifende Monitoring-Lösung unterstützt die Visualisierung von Log-Analyseergebnissen ebenso wie die Darstellung von allgemeinen Performance-Kennzahlen und APM-Daten in einem übersichtlichen Dashboard; idealerweise sogar in den gleichen Diagrammen und Graphen. So werden alle Informationen aus den drei Säulen Metrics, Traces und Logs auf einen Blick dargestellt, was die Identifizierung von Korrelationen um einiges erleichtert und Zusammenhänge deutlicher hervortreten lässt.

Bildergalerie

Besonders hilfreich, um das große Ganze im Blick zu behalten, ist die Arbeit mit so genannten „Log Patterns“: Hinter diesem Begriff verbergen sich spezifische Muster, denen sich einzelne Logs zuordnen lassen. So können durch den Einsatz von Log Patterns beispielsweise ausführliche Anwendungsprotokolle übersichtlich zusammengefasst werden. Darüber hinaus schafft eine derartige Aggregation von Log-Klassen die Grundlage für schnelle und detaillierte Drill Down-Analysen.

„Logging without Limits“

Insbesondere bei proprietären Log-Management-Lösungen kann eine umfassende Log-Daten-Erfassung schnell zur Kostenfalle werden. Traditionelle Logging-Tools rechnen tagesweise eine spezifische Menge an Logs ab – ohne vorgelagerte Filtermechanismen kann dieses Abrechnungsmodell schnell exorbitante Aufwände produzieren. Auf der anderen Seite kann es zu schmerzhaften Lücken im Datenbestand führen, wenn wertvolle Log-Informationen bereits vor ihrer Klassifizierung und Analyse ausgefiltert werden. Letztlich ist der Informationswert von Logs einem stetigen Wandel unterzogen, weshalb sich zu keinem Zeitpunkt sicher vorhersagen lässt, welche Log-Dateien zu welchem Zeitpunkt aussagekräftig sein wird und welche nicht.

Die Lösung für dieses Dilemma ist einfach: Wir heben derartige Limitierungen auf, indem wir die Aufnahme von Log-Informationen und ihre Indexierung entkoppeln. Datadog-Anwender können alle Log-Dateien sammeln, verarbeiten und archivieren – Kosten entstehen allerdings erst dann, wenn die Protokolldaten indiziert werden. Mit diesem flexiblen Ansatz schaffen wir nicht nur Transparenz, Datadog ist zudem in der Lage, zwei unterschiedliche Anwendungsszenarien abzubilden. Variante 1, der Einsatz der Live Tail-Funktion, liefert Echtzeit-Einblicke, Alerts und Ad hoc-Visualisierungen zu sehr günstigen Konditionen. Variante 2, die langfristige Analyse sämtlicher Log File-Informationen, besticht durch eine ausgewogene Kosten-Nutzen-Bilanz, da hier ausschließlich die Daten verarbeitet werden, die für stichhaltige Auswertungen und Prognosen tatsächlich relevant sind.

Für das gesamte Log File-Management gilt: Eine Einschränkung der zu erfassenden Log-Menge aus finanziellen Überlegungen heraus ist mit Datadog obsolet. Einer plattformübergreifenden, integrierten Log-Auswertung in Echtzeit steht durch das „Logging without Limits“-Prinzip hingegen nichts mehr im Weg.

(ID:45678407)