Wie aus Maschinendaten Unternehmens-Werte werden Splunk fischt Juwelen aus dem Big Datennebel

Redakteur: Ulrike Ostler

Kennen Sie „Splunk“? Nein, es handelt sich nicht um das neu erfundene Wort von Pipi Langstrumpf. Es handelt sich um einen Firmennamen, der ein wenig an „Spelunke“ erinnert und im umgangsprachlichen Amerikanisch etwa „Im Trüben fischen“, „im Nebel stochern“ meint. Splunk fischt nach wertvollen Informationen in maschinengenerierten Daten.

Firma zum Thema

Im April dieses Jahres ging Splunk an die Börse; das Bild ist eine Collage, die die Mitarbeiter an diesem Tag zeigt.
Im April dieses Jahres ging Splunk an die Börse; das Bild ist eine Collage, die die Mitarbeiter an diesem Tag zeigt.
(Bild: Ostler)

Bisher wissen hauptsächlich Datacenter-Administratoren das Unternehmen, das im April dieses Jahres an der Nasdaq notiert ist; der Aktienkurs lag am Freitagmorgen bei 22,15 Euro. Denn Splunk liest in einem patentierten Verfahren Daten aus Quellen wie Dateien und Ports auf einem Host, klassifiziert die Quelle als Quelltypen wie „syslog, „access_combined“,“Apache_error“, extrahiert den Zeitstempel , teilt die Daten in individuelle Ereignisse – einzeilig oder mehrzeilig – und schreibt jedes einzelne Ereignis in einem Index auf der Festplatte.

In diesem Index lässt sich suchen. Dabei werden diese Ereignisse zurückgegeben und Felder wie „status=404“, „user=David“ extrahiert, mit den Quelltypen abgeglichen und klassifiziert, zum Beispiel „error“ und „login:“). Unter „error“ beispielsweise lassen sich alle Fehler-Einträge finden.

Der Aufbau der Splunk-Software
Der Aufbau der Splunk-Software
(Bild: Splunk)
Splunk hat eine eigene Suchsprache entwickelt, mit der sich die Ereignisse individuell durchstöbern lassen. Die „Search Processing Language“ (SPL) umfasst derzeit 70 Kommandos und Funktionen.

Kontrolle über Anwendungen

Außerdem lassen sich die Ergebnisse in Reports und Dashbords verwenden. Sie erlauben ein Monitoring in Echtzeit und ein Drill-down, um zum Beispiel Problemen auf den Grund zu gehen.

Damit ist klar, warum Splunk seine ersten Erfolge im Rechenzentrum feiern konnte. Typische Anwendungsgebiete sind das Applikations-Management, Security und Compliance, Infrastruktur und IT Management sowie Web-Analysen.

Bildergalerie
Bildergalerie mit 5 Bildern

So kann die Splunk-Software für operative Transparenz über den gesamten Applikations-Stack sorgen und helfen, die Ausfallzeiten zu reduzieren. Die Software unterstützt zudem Dev-Ops-Collaboration durch einen sicheren Zugriff auf benötigte Daten, ohne dass dazu ein Eingriff in die Live-Systeme notwendig wäre.

Splunk erkennt auch unbekannte Bedrohungen

Der Einsatz von Splunk ist nicht auf Maschinen beschränkt, die im Rechenzentrum stehen.
Der Einsatz von Splunk ist nicht auf Maschinen beschränkt, die im Rechenzentrum stehen.
(Bild: Splunk)
Für Security-Anwendungen empfiehlt sich Splunk, weil mit Hilfe der Software historische Analysen ermöglicht werden, aber auch die Visualisierung von massiven Datensätzen in Echtzeit. So lassen sich sowohl Bedrohungen von außen als auch beispielsweise Dataleakage bekämpfen. Ad-hoc-Berichte lassen sich in Minuten erstellen und Schutzmaßnahmen auch vorausschauend implementieren.

Die Algorithmen erlauben aber auch das Aufspüren und Untersuchen von Netzwerk, Server- und Speicherproblemen sowohl in physischen als auch virtuellen oder Cloud-Infrastrukturen.

Dass sich Splunk-Software darüber hinaus für die Überwachung und Optimierung Web-Anwendungen eignet, leuchtet nun fast schon von selbst ein: Die Software erlaubt Einblicke in die Ansicht und Nutzung digitaler bestände, Webseiten-Performance-Monitoring, die Analyse von Sessions und abgebrochener Kaufvorgänge beispielsweise. Ongame, ein Anbieter von B2B-Poker, der zu Spitzenzeiten rund 45.000 Besucher zählt, die gleichzeitig spielen, konnte durch den Einsatz der Splunk-Software seine Ausfallzeiten um 30 Prozent reduzieren. Das spart dem Unternehmen jährlich rund 1,9 Millionen Dollar.

Splunk endeckt neue geschäftliche Möglichkeiten

Das Beispiel deutet bereits an, dass Splunk mit dem Sammeln und der Analyse von Maschinendaten den Rechenzentrumsbereich verlässt. Markus Zirn, Product und Solutions Manager bei Splunk bestätigt, dass sich die Software von einem Tool hin zu einer Plattform entwickle. Sein Lieblingsbeispiel ist das einer Immobilienfirma aus Tokio, die sich eines Tages bei Splunk im Firmensitz, San Franzisko, ankündigte.

Das Unternehmen hatte die Idee, die Daten, die die Fahrstühle in ihren vielen (Büro-)Gebäuden lieferten, dafür zu benutzen, um frühzeitig herauszufinden, in welcher Etage und wo bald ein Mieter kündigen würde. Das Unternehmen hatte beobachtet, dass die Fahrstühle in einer solchen Etage weniger häufig frequentiert wurden.

Befördert wird die Unternehmensentwicklung hin zu einem Plattform-Anbieter unter anderem auch durch die Aufmerksamkeit, die Big Data auf sich zieht. Mit „Operational Intelligence“ fügt Splunk noch ein weiteres Stichwort hinzu, eine Form von dynamischer Analyse in Echtzeit, von Rohdaten.

Der direkte Weg zur Datenspeicherung und -auswertung

Bis jetzt seien noch keine physischen Grenzen für die Ablage in Flat-File-Systemen erkennbar, sagen die Splunk-Manager. Außerdem sei Splunk nach dem Download innerhalb einer halben Stunde einsatzfähig.
Bis jetzt seien noch keine physischen Grenzen für die Ablage in Flat-File-Systemen erkennbar, sagen die Splunk-Manager. Außerdem sei Splunk nach dem Download innerhalb einer halben Stunde einsatzfähig.
(Bild: Splunk)
Dafür müssen in dem Verfahren, das Splunk anwendet, keine Logfiles transformiert werden, um sie Datenbanken abzulegen. Parsing und Indexierung erfolgt direkt. Die Daten landen in einem Flat-Filesystem. Benuzten lässt sich fast jedes Betriebssystemformat, etwa NFS und Linux EXT.

Außerdem scheint es keine Grenze für die zu überwachende, zu speichernde und zu analysierende Datenmenge zu geben. Die größte, auf Splunk basierende Anwendung bisher verarbeitet rund 130 Terabyte pro Tag. „Bisher ist keine physische Grenze absehbar“, sagt Zirn.

Bei der Datenablage erreichen die Splunk-Algorithmen derzeit eine Komprimierung von 1:10. Analysten geraten angesichts dieser Art der Datenverarbeitung geradezu ins Schwärmen. Beim Börsengang machte die Bezeichnung von Splunk als „the Next Oracle“ die Runde.

Normalisierung adé!

Tatsächlich funktioniert das Datensammeln, Ablegen und Auswerten ganz ohne Datenbanken und Datawarehouses. Olav Strand, der bei Splunk zuständige Director für Deutschland, Österreich und der Schweiz, sagt: „Die Normalisierung der Daten, etwa für SQL-Datenbanken, ist eigentlich nur durch die Reduktion der Menge und das Einsparen von Speicher- und Rechenkapazität begründet. Das aber braucht es, zumindest in dem Umfeld, in dem wir tätig sind, nicht mehr.“

Der Splunk-Ansatz kann etwa flexibel auf veränderte Logformate reagieren, ohne zusätzlichen administrativen Aufwand. Egal welches Format die Daten haben, sie werden indiziert, auf dem Server abgelegt und brauchen nicht einmal Adapter. Anschließend können die Unternehmen den gesamten Datenpool durchsuchen und Muster erkennen, da sich die Ereignisse verschiedener Datenquellen korrelieren lassen (siehe Kasten: Splunk bei Otto).

Splunk liefert eine Engine für Maschinendaten. Doch das heißt nicht, dass nicht auch andere Big-Data-Anwendungen davon profitieren können, zum Beispiel aus dem Umfeld sozialer Netze. „Rock the Vote“ will den Anliegen und Probleme junger Wähler im politischen Tagesgeschäft der USA Gehör verschaffen.

So werden Twitter-Feeds nützlich

Mittlerweile gibt es verschiedene Arten, auf die die Splunk-Software zur Verfügung gestellt wird. Weltweit soll es nach Firmenangaben bereits 80.000 Anwender geben.
Mittlerweile gibt es verschiedene Arten, auf die die Splunk-Software zur Verfügung gestellt wird. Weltweit soll es nach Firmenangaben bereits 80.000 Anwender geben.
(Bild: Splunk)
Da diese sich vor allem über soziale Medien informieren, haben Splunk4Good, die Social-Resposibility-Intitiative von Splunk, und Rock the Vote gemeinsam eine Anwendung gebaut, die dort vorzufindende Echtzeit-Informationen zu Barack Obama und Matt Romney auf der Website der Oragnisation visualisiert hat. Bis zum Wahltag am 6. November 2012 hat die Splunk-Software sämtliche Tweets mit Hashtags , die einen Bezug zum Wahlkampf hatten, analysiert und nach den häufigsten Schlagworten zu den Präsidentschaftskandidaten aufbereitet. Die Partner sehen da als einen Beitrag zur „Demokratisierung der Daten“.

Die Splunk-Software gibt es als kostenpflichtige Enterprise-Lizenz und nun für 60 Tage kostenlos mit maximal 500 Megabyte zu indexierenden Daten. Die jüngsten Neuerungen unterstreichen den Anspruch auf eine Fortentwicklung der Software als Plattform. Seit einiger Zeit offeriert das Unternehmen mit „Splunk Storm“ beispielsweise eine AWS-Variante, die speziell Entwickler von Cloud-Applikationen adressiert.

Bildergalerie
Bildergalerie mit 5 Bildern

Neue Möglichkeiten der Anwendung offeriert aber auch „Splunk Hadoop Connect“ und „Splunk-App für Hadoop Ops“. Beide Erweiterungen sollen die Implementierung und Ausführung von Hadoop erleichtern.

Das Erfolgs-Duo: Hadoop und Splunk

Seit Kurzem gibt es einen Übergang zwischen Hadoop und Splunk, der die Ver- und Bearbeitung von Big Data vereinfacht.
Seit Kurzem gibt es einen Übergang zwischen Hadoop und Splunk, der die Ver- und Bearbeitung von Big Data vereinfacht.
(Bild: Splunk)
Splunk Hadoop Connect ermöglicht die bidirektionale Integration und damit die schnelle und zuverlässige Verschiebung von Daten zwischen Splunk Enterprise und Hadoop. Die Software ist wurde für Cloudera CDH- und Hortonworks HDP-Distributionen getestet und zertifiziert.

Somit können Anwender nun per Splunk-Software ihre Daten in Echtzeit erfassen, indexieren, analysieren und visuell aufbereiten, bevor sie die resultierenden Ereignisse dann für eine langfristige Archivierung und zusätzliche Batch-Analysen an Hadoop weiterleiten. Daten, die bereits in Hadoop gespeichert sind, lassen sich in ein ihr Splunk-System importieren.

Splunk App für HadoopOps hingegen bietet Funktionen für Echtzeit-Monitoring und -Analyse, mit denen sich der Status und die Performance der gesamten Hadoop-Umgebung überwachen lassen. Analyse und -Fehlerhebung für Hadoop geschehen über eine einzige Benutzeroberfläche, und zwar über alle Ebenen der Infrastruktur – Hadoop, Netzwerk, Switch, Rack, Betriebssystem und Datenbank.

Die jüngste Splunk-Version

Vor Kurzem nun hat Splunk die Version 5 seiner gleichnamigen Software freigegeben. Nach Angaben des Herstellers sind nun Reports bis zu 1000 Mal schneller. Zudem habe das Unternehmen die Dashboards vereinfacht.

Sie ließen sich nun leichter als bisher teilen und dynamische Drilldowns integrierten einfache Workflows. Reports und Dashboards lassen sich nach Bedarf oder ind regelmäßigen Abständen als PDF weitergeben.

Für ein besonders wertvolles Feature hält Splunk-Manager Strand die zum Patent angemeldete Index-Replizierung, denn diese sorgt für Hochverfügbarkeit. Um die Funktion nutzen zu können, lassen sich handelsübliche Standard-Storage- und Server-Systeme nutzen.

Bildergalerie
Bildergalerie mit 5 Bildern

Beim Sammeln und Indexieren von Daten die Splunk-Software mehrere identische Indexkopien vor. Fällt eine davon aus, werden die eingehenden Daten weiterhin indexiert und bereits indexierte Daten bleiben durchsuchbar. Eine solche Anwendung lässt sich über die Konsole „Splunk Manager“ aufsetzen und verwalten.

Splunk braucht Partner

Für Entwickler gibt es ab Version 5 eine robuste, versionierte Programmierschnittstelle (API) sowie SDKs für Javascript, Java, Python und PHP.

Die Verbreitung von Splunk hängt nicht ausschließlich am schwer zu greifenden Phänomen Big Data ab. „Unserer Community“ ist sehr stark und aktiv“, erläutert Stand. In der Region, in der Stand tätig ist, zählt er 25 Partnerunternehmen. 330 Applikationen gibt es bis jetzt. Die scheinbar einzige Art von maschinengenerierten Daten, die mit Splunk nicht zu bearbeiten sind, stammen aus Video-Streams.

Artikelfiles und Artikellinks

(ID:36948980)