CloudOps statt „Cloud... …Ooops!!“ CloudOps im Rechenzentrum (und außerhalb)
Anbieter zum Thema
Die dynamische Natur des hybriden IT-Betriebs ruft einen neuen Denkansatz auf den Plan: CloudOps. Vom unternehmenseigenen Kern-Datacenter über mandantenfähige Cloud-Dienste Dritter bis hin zur verteilten Edge kann sich dieser neuen Methodik weder die IT noch die operative Technik (OT) entziehen.

CloudOps (kurz für Cloud Operations) umfasst sämtliche betrieblichen Aktivitäten rund um die Bereitstellung von 'cloudifizierten' Infrastrukturen, Anwendungen und Diensten mit dem Ziel, das Leistungsprofil der IT und OT im Hinblick auf aktuelle Anforderungen kontinuierlich und zeitnah zu optimieren.
Da immer mehr IT-Abläufe in solch cloudifizierten IT-Umgebungen stattfinden, löst sich das Network Operations Center (kurz: NOC), die Steuerungszentrale von Rechenzentren der „alten Schule“, eben in CloudOps auf. In den neuen Realitäten „kodifizierter“ Infrastrukturbereitstellung (Stichwort: Infrastructure-as-Code), ist es für Unternehmen an der Zeit, den geänderten Anforderungen mit neuen Ansätzen zu begegnen.
Ein Rechenzentrum im Cloud-Betrieb: granulierte Automatisierung
CloudOps umfasst sowohl die Verwaltung von Diensten als auch die Wartung von Cloud-Infrastrukturen. Der Ansatz nimmt die Hybrid-Cloud einschließlich des nun cloudifizierten Rechenzentrums und auch noch die verteilte Edge mit ins Visier. Denn die 'Cloud' ist längst nicht mehr ein Ort, sondern eine operative Denkweise.
Indem ein Rechenzentrum CloudOps-Praktiken anwendet, kann es seinen Nutzern die gleichen oder sogar noch mehr Vorteile als ein Cloud-Anbieter bieten. Denn anders als die Public Cloud eines Hyperscalers kann es die Sicherheit seiner Nutzer angemessen priorisieren.
Der Begriff CloudOps ist eine Anspielung an DevOps, einen Ansatz zur Steigerung der Effizienz bei der Entwicklung (Dev für Development) und Bereitstellung (Ops für Operations) von Cloud-nativem Softwarecode durch die kontinuierliche Ausführung einer Reihe von Aufgaben.
DevOps zielt darauf ab, die Zusammenarbeit und Kommunikation zwischen Entwicklungsteams (Dev) und Betriebsteams (Ops) zu verbessern, um die Bereitstellung von Software-Anwendungen zu beschleunigen und dabei die Qualität der resultierenden Dienste zu verbessern. Im Rahmen von DevOps durchläuft der Code automatisierte Nachschubwege von der Entwicklung (Dev) zur Bereitstellung (Ops), typischerweise im Takt von wenigen Tagen oder sogar Stunden.
Um eine derart hohe Agilität zu ermöglichen, setzt das DevOps-Modell auf einen kontinuierlichen automatisierten Fluss iterativer Code-Verbesserungen mit anschließender Bereitstellung in einer orchestrierten Betriebsumgebung (Stichwort: Infrastructure as Code), sei es in einem Rechenzentrum oder in mehreren gleichzeitig.
CloudOps erweitert die Praktiken von DevOps auf die hybride (Multi-)Cloud unter Einbezug von Prinzipien des Cloud-Plattform-Engineering. Es kombiniert Elemente der Cloud-Architektur, des IT-Betriebs, der Anwendungsentwicklung, der Sicherheit und der Compliance, um die automatisierte Verwaltung von Anwendungen und Diensten im Cloud-Maßstab mit derselben Agilität zu ermöglichen.
:quality(80)/p7i.vogel.de/wcms/1e/46/1e463f26930118dc71e56c39acad3b97/0111199319.jpeg)
Uwe Müller von Cisco kommentiert aktuelle Trends zwischen Datacenter und Wolkenverhang
CloudOps - ein Navi durch die Multicloud
Ein verwandter Ansatz zu CloudOps ist unter dem Begriff FinOps bekannt. Bei FinOps handelt es sich um eine Reihe von Praktiken und Prinzipien, die darauf abzielen, die IT-Ausgaben einer cloudifizierten Organisation in den Griff zu bekommen, die Kostentransparenz der verschiedenen Bereitstellungsmodelle zu verbessern sowie Einsparpotenziale auszuloten. Letzteres trifft in CloudOps-Kreisen selten auf Begeisterung. Die beiden Ansätze, CloudOps und FinOps, unter einen Hut zu bringen, stellt für viele Organisationen eine erhebliche Herausforderung dar.
Eine wichtige Voraussetzung, um die Vorteile von CloudOps zu realisieren, stellt die Gewährleistung der sogenannten Full-Stack-Observability dar, in anderen Worten: der Echtzeit-Beobachtbarkeit von allen Ebenen des Stacks.
Full-Stack-Observability
Full-Stack-Observability (auf Deutsch etwa als tiefgründige Beobachtbarkeit zu umschreiben) ist die Fähigkeit, die Leistung und den Status von Anwendungen, Diensten und Infrastrukturkomponenten innerhalb eines Rechenzentrums – nach dem Vorbild der Cloud-Hyperscaler – in Echtzeit zu überwachen, um auf unvermeidlich auftretende Probleme in einem angemessenen Zeitrahmen reagieren zu können oder diese sogar vorwegzunehmen.
Full Stack Observability ist eine wichtige Voraussetzung, um Ausfallzeiten zu minimieren und ein kontinuierlich hohes Leistungsniveau zu gewährleisten.
Diese tiefgründige Beobachtbarkeit umfasst in der Regel die Überwachung mehrerer Schichten von Anwendungen und Systemen. Das Ziel besteht darin, ein möglichst vollständiges Bild der Betriebsbereitschaft zu erhalten. Hierzu ist es erforderlich, Daten aus einer Vielzahl von Quellen zu erfassen, zu aggregieren, auszuwerten und gegebenenfalls zu visualisieren: Protokolldateien (Logs), Metriken, Traces bis hin zum gelegentlichen Benutzer-Feedback.
Protokolldateien zeichnen Ereignisse auf System- oder Anwendungsebene auf: Ausnahmebedingungen, Fehlermeldungen und Warnungen. Aus diesen so genannten Logs lässt sich der Ablauf von Aktivitäten und das Verhalten des betreffenden Systems oder Dienstes ablesen.
Bei Metriken handelt es sich im Gegensatz dazu um nummerische Messwerte, die spezifische Aspekte von Anwendungen oder Infrastrukturen in Echtzeit quantifizieren, wie die Anzahl der Anfragen pro Sekunde, die Auslastung von Systemressourcen wie CPU oder RAM oder die Anzahl aufgezeichneter Fehlermeldungen (anhand von Logs). Metriken können helfen, Trends und Ereignismuster zu identifizieren, Probleme zu diagnostizieren, Engpässe zu beheben und gelegentlich Vorfälle wie Systemabstürze vorwegzunehmen.
Bei einem Trace ist von dem Ablaufpfad einer Ereigniskette die Rede. Tracing ist eine Technik zur Überwachung von Anwendungen anhand von Anfragen und Transaktionen in einer verteilten Umgebung wie beispielsweise einer Microservice-Architektur. Im Gegensatz zu Logs und Metriken, die auf der Ebene einzelner Systeme oder Anwendungen entstehen, können Traces eine Kette von Ereignissen über mehrere Systeme und Dienste hinweg nachverfolgen.
Die automatische Erfassung verschiedener Datentypen aus unterschiedlichen Komponenten eines Systems bezeichnet man mit dem Oberbegriff Telemetrie. Telemetrie-Daten können Metriken, Logs, Traces und Benachrichtigungen sowie andere Daten beinhalten. Sie schaffen in ihrer Gesamtheit ein umfassendes Bild der Gesundheit und Leistungsbereitschaft von Cloud-Infrastrukturen und -Anwendungen.
Die Implementierung von Full Stack Observability im Rechenzentrum ist eine wichtige Voraussetzung für die Fähigkeit, die Leistung und Verfügbarkeit von Anwendungen und Diensten im Rahmen von CloudOps zu optimieren. CloudOps à la Dell nach dem Vorbild von NetApp.
Die Dell-Projekte Alpine und Frontier
Einige Infrastrukturanbieter sind auch schon auf den Geschmack von CloudOps gekommen. So bietet beispielsweise Dell Technologies mit „Project Alpine“ eine Lösung für CloudOps-Teams, die die Überwachung, Verwaltung und Optimierung von Cloud-basierten Workloads und Diensten erleichtern soll. Mit „Project Frontier“ will Dell auch Edge-Clouds erobern.
Mit Dell Alpine können CloudOps-Teams die Leistung und Gesundheit ihrer Anwendungen und Infrastrukturen in Echtzeit überwachen, Probleme identifizieren und die Kosten optimieren. Dell beabsichtigt außerdem, eigene Speicherdienste in einer softwaredefinierten Cloud-Edition mit einer einheitlichen CloudOps-Konsole auf AWS, Azure und GCP zu bringen, um die Plattformen PowerProtect, PowerStore, PowerScale, PowerFlex und ObjectScale aus einer on-Premise-Bereitstellung auf diese Umgebungen zu erweitern (siehe: „Nachlese zur Dell Technologies World; Um-, auf- oder ausgesetzt? KI, Multicloud und Nachhaltigkeit bei Dell“).
:quality(80)/p7i.vogel.de/wcms/34/56/34563f2650e6c0193cb00c9fda4fe962/0112798276.jpeg)
Nachlese zur Dell Technologies World
Um-, auf- oder ausgesetzt? KI, Multicloud und Nachhaltigkeit bei Dell
Mit Project Frontier baut Dell eine Software-Betriebsplattform für die Netzwerkkante, die Unternehmen dabei unterstützen soll, Edge-Anwendungen und -Infrastrukturen im großen Maßstab sicher zu verwalten und zu orchestrieren. Dell Technologies hofft, die Komplexitäten von Edge-Computing-Operationen mit dem CloudOps-Ansatz zu meistern.
CloudOps bei Netapp und Pure Storage
Dell tritt mit seinen CloudOps-Initiativen in die Fußstapfen von Netapp und Pure Storage. Mit zwei Standbeinen, traditioneller On-Premises-Storage und der Bereitstellung softwaredefinierter Speicherlösungen in den Hyperscale-Clouds von AWS, Azure und GCP, hat es Netapp vorgemacht, wie man CloudOps richtig macht.
Seit der Übernahme von Portworx, eines Anbieters von persistentem Speicher von Kubernetes, setzt auch Pure Storage lautstark auf CloudOps. Im Rahmen von Fusion bietet Pure Storage automatisierte Überwachungs- und Empfehlungskapazitäten, die sich KI-getrieben im Abonnementmodus verwalten.
In einem zunehmend wettbewerbsintensiven Markt setzen traditionelle Speicheranbieter auf CloudOps als ein Patentrezept für das Aufbrechen von Silos.
Instrumentierung für DIY-CloudOps in der hybriden Cloud
Mit dem verstärkten Aufkommen geopolitischer Risiken, die sich auf die Versorgungsketten der IT-Industrie auswirken können, und dem steigenden Druck der Inflation sei in Unternehmen die Bereitschaft gestiegen, in Tools zu investieren, glaubt unter anderem Jevin Jensen, Vice President Intelligent CloudOps bei IDC. Firmen seien neuerdings willens, in die Automatisierung ihrer Cloud-Infrastrukturen zu investieren.
Dabei würden sie hauptsächlich drei Ziele verfolgen. Sie wollten demnach die eigene Wettbewerbsfähigkeit stärken, die Kosten unter Kontrolle bekommen und den Kunden einen Mehrwert bieten, glaubt der Analyst.
Bei der Wahl einer Cloud-Management-Plattform haben die IT-Verantwortlichen allerdings nach wie vor die Qual der Wahl. Weder quelloffene Lösungen wie „OpenStack“, „CloudStack“ oder „Eucalyptus“, noch proprietäre Alternativen wie „VMware vCloud Suite“, „Microsoft System Center“, „Red Hat Cloud Suite“, „Citrix Cloud Platform“, noch Dienste der nicht ganz selbstlosen Hyperscaler wie „Cloud Formation“ oder „OpsWorks“ von AWS oder „Azure Resource Manager“ von Microsoft oder „Cloud Deployment Manager“ von Google können CloudOps einfach mal eben aus dem Hut zaubern. Denn CloudOps ist nicht bloß ein definierter Funktionsumfang, sondern vielmehr eine Methodologie.
Tools zur Umsetzung von CloudOps gibt es dementsprechend wie Sand am Meer. Zu den leistungsstärksten Lösungen für CloudOps zählt die KI-getriebene Observability-Plattform von Dynatrace.
Mit Dynatrace können CloudOps-Teams anhand von umfassenden Telemetriedaten die Leistung und Gesundheit ihrer Anwendungen und Infrastrukturen in Echtzeit überwachen, Probleme identifizieren und die Ressourcennutzung optimieren. Dynatrace verschafft den CloudOps-Verantwortlichen Einblicke in jede Schicht des Cloud-Stacks, von der Infrastruktur bis zum Anwendungscode. Die Plattform macht sich Machine-Learning-Algorithmen zu Nutze, um Anomalien zu erkennen und Leistungsdegradationen aufzuspüren. Sie kann zudem Cloud-Arbeitslasten automatisch instrumentieren.
- n vielen DevOps-fähigen Organisationen kommt Jenkins als zentrales CloudOps-Werkzeug im Zusammenspiel mit Lösungen wie „Terraform“ oder „Ansible“ für die Infrastrukturautomatisierung zum Tragen. Die Fähigkeit zur ereignisgetriebenen Umsetzung von Code-Änderungen erleichtert die Bereitstellung von Artefakten. Zusammen mit Systemen wie „Prometheus“ und „Grafana“ meistert „Jenkins“ nebenbei die Überwachung und Alarmierung im Zusammenhang mit dem Betrieb von Cloud-Anwendungen und -Infrastrukturen.
- APM-Tools (kurz für Application Performance Management) wie „New Relic“ oder „Datadog“ meistern die Überwachung von Anwendungen auf Code-Ebene und helfen bei der Behebung von Engpässen, die im Code schlummern.
- Logging-Tools wie „ELK Stack“ oder „Splunk“ sammeln Protokolle von Cloud-Infrastrukturen und Anwendungen und analysieren diese, um Probleme zu identifizieren und Trends zu erkennen. Metriken von Cloud-Infrastrukturen und Anwendungen lassen sich mit Tools wie Prometheus oder „InfluxDB“ sammeln.
- Um den Ablauf von Anfragen in einer verteilten Cloud-Anwendung zu verfolgen und Ursache-Wirkung-Zusammenhänge im Kontext von auftretenden Engpässen nachvollziehen zu können, kommen Tracing-Tools wie „Jaeger“ oder „Zipkin“ zum Einsatz. Tracing kann insbesondere bei der Diagnose von Performance-Problemen in komplexen verteilten Anwendungen mit einer hohen Anzahl von Abhängigkeiten zwischen Komponenten hilfreich sein.
Die Implementierung von Automatisierungs-Tools und CloudOps-Praktiken kann dazu beitragen, die Bereitstellung von Diensten und Anwendungen im Rechenzentrum zu beschleunigen. Auch kann die Verwendung einer Cloud-nativen Laufzeit-Umgebung für containerisierte Anwendungen wie „Kubernetes“ oder „Docker“ dazu beitragen, dass ein Rechenzentrum flexibler und schneller auf etwaige Änderungen des Nutzungsverhaltens seiner Dienste reagieren und die Ressourcen effizienter nutzen kann.
Mit CloudOps können Unternehmen die Leistungsmerkmale ihrer Cloud-nativen Arbeitslasten verbessern, die Agilität ihres IT-Betriebs erhöhen und die systematische Vermeidung von Unwirtschaftlichkeit zum Standard machen. Welche Tools sie dabei verwenden, bleibt den IT-Verantwortlichen überlassen.
Nach den aktuellen Schätzungen von IDC dürfte der weltweite Markt für intelligente CloudOps-Software bis zum Jahre 2026 auf 31,4 Milliarden Dollar anwachsen. Damit wäre das Umsatzvolumen am Ende des Prognosezeitraums rund doppelt so groß wie im Jahre 2022 (15,3 Milliarden Dollar). Das erwartete Wachstum entspricht einer fünfjährigen durchschnittlichen jährlichen Wachstumsrate (CAGR) in Höhe von 21 Prozent, basierend auf dem gemeldeten Umsatz und nicht berichtigt um die Inflation.
Stellschrauben der hybriden Agilität
Der CloudOps-Ansatz erhöht die Skalierbarkeit, Flexibilität und Agilität einer Infrastrukturbereitstellung. Er erlaubt es den Unternehmen, neue Anwendungen und Dienste schneller bereitzustellen und die Ressourcennutzung auf die Geschäftsziele besser auszurichten.
Die Umsetzung von CloudOps-Praktiken in Edge-Clouds erfordert spezielle Fähigkeiten und Tools, die für die besonderen Herausforderungen dieser Umgebung maßgeschneidert optimiert wurden. Begrenzte Ressourcen, unzuverlässige Netzwerkverbindungen und die Notwendigkeit einer schnellen und autarken Entscheidungsfindung sind keinesfalls ein Hindernis im Hinblick auf die Umsetzung von CloudOps an der Netzwerkkante; ganz im Gegenteil: Sie können diesen Ansatz sogar begründen.
CloudOps kann im Übrigen nebenbei auch noch die Sicherheit von IT-Infrastrukturen verbessern. Die automatisierte Anwendung bewährter DevOps-Prinzipien auf die Bereitstellung und Verwaltung von Sicherheitsrichtlinien verspricht ein höheres Maß an Kontrolle über Zugriffe auf die IT-Ressourcen.
Arbeitserleichterungen mit KI
Die fortschreitende Automatisierung ruft gleichzeitig jedoch ein neues Problem auf den Plan: maschinell lernende Software, die im Namen von Menschen agieren darf.
Wenn einige Aktionen direkt von Menschen und einige von KIs ausgeführt werden, die als Cloud-Benutzer handeln, entsteht ein verzwicktes Identitätsproblem mit einer hohen Fragmentierung von Aktionen, die teils von einem Menschen, teils von einer Maschine ausgeführt werden und über APIs ineinandergreifen. Schlecht koordinierte Automatismen können auch im Rahmen von ansonsten durchdachten CloudOps-Praktiken gelegentlich Unfug anrichten.
Ungeachtet dieser und anderer Herausforderungen ist es klar: Wer zuerst kommt, mahlt zuerst. Das Rennen um die beste CloudOps-Umgebung ist in vollem Gange. Mit einem satten zweistelligen Wachstum bleibt CloudOps auf absehbare Zeit eine nicht zu unterschätzende Triebkraft für mehr Effizienz im Datacenter-Betrieb.
(ID:49623078)