Suchen

Interview mit Karthik Rau, Splunk zum SignalFx Microservices APM Launch „Es geht darum, dass DevOps-Teams Unbekanntes verstehen“

| Autor / Redakteur: Sybille Zimmermann / Ulrike Ostler

Splunk hat kürzlich mit „SignalFx Microservices APM“ ein Performance Monitoring für Microservice- sowie Kubernetes-basierte Anwendungen vorgestellt. Das Werkzeug basiert laut Anbieter auf offenen Standards und bietet zudem eine KI-gesteuerte Fehlerbehebung. Das Application Performance Monitoring soll eine Brücke zwischen traditionellen und Cloud-Anwendungen schlagen. Karthik Rau, Area General Manager for Application Management bei Splunk hat DataCenter-Insider ein Interview dazu gegeben.

Firmen zum Thema

Auf dem Weg zu Cloud Native begegnen DevOPs-Teams einer Komplexität und Dynamik, die bisher unbekannt waren. Auch die die rechtzeitige Problemerkennung und -behebung ist viel schwieriger, aber umso bedeutsamer.
Auf dem Weg zu Cloud Native begegnen DevOPs-Teams einer Komplexität und Dynamik, die bisher unbekannt waren. Auch die die rechtzeitige Problemerkennung und -behebung ist viel schwieriger, aber umso bedeutsamer.
(Bild: Arek Socha auf Pixabay)

Was unterscheidet SignalFx Microservices APM von ähnlichen Anwendungen auf dem Markt?

Karthik Rau: Mit dem zunehmenden Einsatz von Microservices und Containern sind die Anwendungen dynamischer geworden. Es ist nicht ungewöhnlich, dass Container oder Bausteine der Anwendung weniger als eine Woche oder sogar nur Tage haltbar sind. Die kurzlebige Natur der Cloud-Infrastruktur, komplexe Abhängigkeiten von Hunderten und manchmal gar Tausenden von Microservices und DevOps-Teams, die mehrmals täglich Code veröffentlichen, macht die rechtzeitige Problemerkennung und -behebung viel schwieriger. Diese neue Komplexität führt häufig zu Ausfällen bei kundenrelevanten Services, einem langsamen Betrieb und Fehlern.

Um diese Probleme zu lösen, haben wir mit SignalFx Microservices APM einen anderen Ansatz gewählt. Die Software sammelt und analysiert 100 Prozent der Daten. Das ist für IT- und DevOps-Teams von Vorteil, da so kein Problem unentdeckt bleibt. Sobald die Daten erfasst sind, verwendet SignalFx eine Kombination aus Künstlicher Intelligenz und Maschinellem Lernen, um Zusammenhänge herzustellen und relevante Informationen sichtbar zu machen.

So verbringen Entwickler weniger Zeit für die Suche nach der Ursache von Problemen und haben mehr Zeit für die Lösung des Problems. Splunk ist das einzige Unternehmen, das vollständiges Monitoring und Observability in allen Phasen auf dem Weg hin zu Cloud Native.

Wer wird diese Lösung nutzen? Wen hatten Sie als Anwender im Blick?

Karthik Rau: Das Tool richtet sich an DevOps-Teams, die Anwendungen in der Cloud ausführen und in Container und Microservices investiert haben. Wir unterstützen Entwickler, die mit flexibler, offener Instrumentierung arbeiten. Angesichts der Vielzahl von Optionen für Sprachen und Frameworks und des hohen Innovationsdrucks erwarten Entwickler heutzutage offene Standards für die Instrumentierung.

Schwere und proprietäre Agenten für die Datenerfassung gehören der Vergangenheit an und sind ungeeignet für moderne Entwicklungsteams. SignalFx Microservices APM bietet eine leichtgewichtige Instrumentierung, die auf Open Source und Open Standards basieren.

Cloud-native Anwendungen, die auf Microservices basieren, sind bislang schwer zu verfolgen. Wie hat Splunk das Problem gelöst?

Karthik Rau: Moderne Anwendungen sind komplex und verteilt. Werden Daten nur unvollständig erfasst, führt das zu unentdeckten Ausreißern und Anomalien, mangelnden Erkenntnissen und einem schlechten Nutzungserlebnis beim Kunden. Um unbekannte Fehlerzustände zu erfassen und vollständig zu verstehen, müssen Unternehmen hundert Prozent der Daten erfassen und analysieren. SignalFx Microservices APM sammelt garantiert alle Trace-Daten in jedem Maßstab und analysieren diese.

Karthik Rau ist der Area General Manager for Application Management bei Splunk.
Karthik Rau ist der Area General Manager for Application Management bei Splunk.
(Bild: Splunk)

Microservices bieten viele Vorteile bezüglich Skalierung und Time-to-Market, aber sie bringen auch ihre eigenen Herausforderungen und einen hohen Grad an Komplexität mit sich. Die Infrastruktur, auf der sie ausgeführt werden, ist in der Regel aber kurzlebig und fährt sehr schnell hoch und runter. Services und einzelne Dienste lassen sich schnell skalieren, und wenn sich ihre Anzahl vervielfacht, vervielfachen sich die Interaktionen zwischen ihnen noch schneller, wodurch die Datenmenge in die Höhe schnellt und sehr komplexe Abhängigkeiten entstehen.

Oft werden mehrere Versionen desselben Microservices gleichzeitig ausgeführt, und diese Versionen werden manchmal mehrmals täglich veröffentlicht. Schließlich versuchen die DevOps-Teams, die optimalen Tools und Frameworks für jeden Microservice zu finden und verlassen sich daher stark auf Open Source und Open Standards.

In solchen Umgebungen entdecken herkömmliche APM -Tools nicht alle Probleme, da ihr Ansatz zur Verarbeitung großer Datenmengen auf Stichproben und einer manuellen und punktuellen Fehlerbehebung basiert. Sie sind zudem langsam, isoliert und binden Kunden an proprietäre Agenten. Unser Werkzeug wurde dagegen speziell für Microservices entwickelt.

Wir lösen die damit verbundenen Herausforderungen, indem wir alle Daten erfassen und analysieren. Mithilfe fortschrittlicher KI- und Streaming-Analysen erhalten wir innerhalb von Sekunden Einblicke und nutzen dazu offene Standards wie „OpenTelemetry“, den wir selbst mitgegründet haben.

Wenn zu 100 Prozent die Traces zu erfasst sind, wie genau profitieren DevOp-Teams davon?

Karthik Rau: Eine Analyse aller Traces bedeutet, dass DevOps-Teams mit vollem Detailgrad und extrem hoher Granularität das genaue Verhalten ihrer Software verstehen können, was wiederum die Bereitstellungshäufigkeit beschleunigen kann. In Kombination mit unserer „Streaming Analytics Engine“ können unsere Kunden die Auswirkungen solcher Releases in Echtzeit sehen, Meant Time to Detect (MTTD) minimieren und sofort handeln.

Mit unserem KI-basierten Troubleshooting, das alle Trace-Daten durchkämmt und automatisch Empfehlungen anzeigt, können DevOps-Teams zudem die Ursache eines Problems schnell lokalisieren und beheben, wodurch die Mean Time to Repair (MTTR) erheblich reduziert und Entwicklern enorm geholfen wird. Schließlich haben wir auch die Möglichkeit, Reaktionen über unseren Monitoring-as-Code-Ansatz zu automatisieren. Wir können DevOps-Teams in die Lage versetzen, mehrere Versionen von Code- oder Canary-Versionen bereitzustellen, die Auswirkungen jeder einzelnen Version einfach zu verfolgen und bei Problemen ein Rollback durchzuführen und so die Änderungsfehlerrate drastisch zu reduzieren und Probleme zu beheben, bevor sie sich auf den Endbenutzer auswirken.

Sie haben mit dem APM-Tool zeitgleich die allgemeine Verfügbarkeit von „Kubernetes Navigator“ angekündigt. Diese soll die Produktivität der DevOps-Teams erhöhen. Erläutern Sie kurz wie!

Karthik Rau: Das gelingt, da DevOp-Teams ihre containerisierten Daten mit dem Kubernetes Navigator in Kubernetes-Umgebungen aller Größen einsehen können. Mithilfe des Werkzeugs können DevOps-Teams Performance-Probleme erkennen, untersuchen und beheben, indem sie die große Komplexität steuern, die mit dem Betrieb von Kubernetes verbunden ist.

Kubernetes Navigator unterstützt DevOps-Teams bei der Beschleunigung der Fehlerbehebung und bietet ihnen Möglichkeiten, den Zustand von Kubernetes Clustern sofort zu verstehen. Denn um den Grund hinter Performance-Anomalien zu verstehen nutzt Kubernetes Navigator KI-gesteuerte Analysen, die automatisch Erkenntnisse und Empfehlungen anzeigen. Die Lösung beantwortet dann in Echtzeit, was Anomalien im gesamten Kubernetes Cluster verursacht – egal ob Nodes, Pods, Container oder Workloads.

Splunk verwendet häufig den Begriff „Observability“. Was ist der Unterschied zu Monitoring?

Karthik Rau: Beim Monitoring geht es darum, Dinge zu betrachten, von denen wir wissen, dass sie schief gehen können. Bei Observability geht es darum, DevOps-Teams dabei zu helfen, etwas Unbekanntes zu verstehen und effektiv darauf zu reagieren.

Dazu müssen alle Daten gesammelt und aus diesen Daten schnell intelligente Erkenntnisse abgeleitet werden. Wenn Unternehmen nicht alles beobachten, werden sie häufiger von Ausfällen betroffen sein, die sie zudem erst nachträglich entdecken. Meist geschieht das durch verärgerte Kunden über Social Media. In Folge werden die Mitarbeiter viel Zeit damit verbringen, das Problem zu beheben, anstatt sich wichtigeren Aufgaben zu widmen.

Welche Auswirkungen haben Trends wie Edge Computing und Dark Data?

Karthik Rau: Diese Trends unterstreichen erneut die Explosion der Datenmengen, die Unternehmen verarbeiten müssen, um qualitativ hochwertige und hochverfügbare Dienste bereitzustellen. Je mehr Datenquellen sie haben und je mehr Orte sie ihre Anwendungen ausführen, desto weniger traditionelle APM-Tools bieten die erforderliche Transparenz.

(ID:46528710)