Suchen

Die Zukunft des Networking findet am Netzwerkrand statt Machine Learning und Automatisierung für die Edge

| Autor / Redakteur: Julius Francis* / Ulrike Ostler

Anwendungen werden von Rechenzentren an den Netzwerkrand migrieren – und zwar in Rekordzahl. Dies eröffnet Unternehmen neue Chancen: Der Markt für Edge Computing soll bis 2022 um bis zu 36,3 Prozent jährlich wachsen. Dies wird auch durch eine schnelle Einführung des Internet der Dinge (IoT), autonome Fahrzeuge, Wertpapierhandel in Echtzeit, Content-Streaming und Multiplayer Games vorangetrieben.

Firmen zum Thema

In der bisherigen IT-Welt sind Anwendungen und Storage in zentralen Infrastrukturen, in Enterprise-Rechenzentren oder auch in Cloud und Co-Location-Datacenter organisiert. Die Wege sind kurz, das Management zentral. Jetzt wandert die IT-Infrastruktur zum Teil zur Edge. Trotzdem müssen die Anweudngen verbunden bleiben und zugleich wachsen die Anforderungen an die Reaktionsgeschwindigkeit immens.
In der bisherigen IT-Welt sind Anwendungen und Storage in zentralen Infrastrukturen, in Enterprise-Rechenzentren oder auch in Cloud und Co-Location-Datacenter organisiert. Die Wege sind kurz, das Management zentral. Jetzt wandert die IT-Infrastruktur zum Teil zur Edge. Trotzdem müssen die Anweudngen verbunden bleiben und zugleich wachsen die Anforderungen an die Reaktionsgeschwindigkeit immens.
(Bild: Brett Hondow auf Pixabay)

Diese Edge-basierten Anwendungen benötigen eine Datenübertragung, deren Latenzzeit fast bei null liegt – also in der Regel auf weniger als fünf Millisekunden definiert ist. Allerdings ist diese Anforderung für viele neue Technologien noch zu hoch.

Die Faktoren, die den Bedarf einer niedrigen Latenzzeit bestimmen, sind unterschiedlich. Bei IoT-Anwendungen erfassen Sensoren und andere Geräte enorme Datenmengen, deren Wert sich in einer einzigen Millisekunde bereits verschlechtert. Autonome Fahrzeuge benötigen Informationen in Echtzeit – nur dann sind sie in der Lage, effektiv zu navigieren und Kollisionen zu vermeiden.

Die beste Art und Weise, solche latenzempfindlichen Applikationen zu unterstützen: Anwendungen und Daten müssen möglichst nahe am Aufnahmepunkt sein. So lässt sich die Zeit für den Datentransfer reduzieren.

So erfolgen Finanztransaktionen jetzt in Zyklen von weniger als einer Millisekunde. Das aber bedeutet Geschäft. Wer daran nicht partizipiert, ist schnell weg vom Fenster. Ein Finanzdienstleister investierte deshalb mehr als 100 Millionen Dollar, um seine Aktien-Handelsplattform zu überholen und so schnellere Abschlüsse erzielen zu können.

Operative Herausforderungen

Mit dem Wachstum des Edge Computing steigen allerdings auch die betrieblichen Herausforderungen für Telekommunikationsdienstleister wie Verizon Communications Inc., AT&T Corp. und T-Mobile USA Inc. Zum einen wird durch den Umzug an den Edge das traditionelle Rechenzentrum im Wesentlichen zerteilt. Statt einer massiven Anzahl von Servern, die sich in einigen wenigen zentralisierten Rechenzentren befinden, besteht die Edge-Infrastruktur aus Tausenden kleiner Standorte.

Die meisten bestehen nur aus einer Handvoll Server. All diese Standorte müssen unterstützt werden, um Spitzenleistungen zu gewährleisten. Dies bringt die Ressourcen einer typischen IT-Gruppe an ihre Belastungsgrenze – und manchmal darüber hinaus.

Ein weiterer komplizierender Faktor sind Netzwerkfunktionen, die sich in Richtung Cloud-native Anwendungen bewegen und die auf einer virtualisierten, gemeinsam genutzten und elastischen Infrastruktur eingesetzt werden. Dies ist ein Trend, der in den letzten Jahren immer populärer wurde.

Leben und Sterben in IT-Container-Strukturen

In einer virtualisierten Umgebung besteht jeder physische Server aus Dutzenden virtuellen Maschinen und/oder Container. Diese werden extrem schnell erstellt und zerstört – und zwar weit schneller, als Menschen sie effektiv managen können. Orchestrierungs-Tools verwalten die dynamische virtuelle Umgebung im normalen Betrieb automatisch. Handelt es sich allerdings um Fehlerbehebung, wird dies von Menschen gehandhabt.

Tatsächlich ist es ein Schleudersitz, auf dem IT-Teams sitzen. Schlechte Leistung und Unterbrechungen schaden dem Geschäft der Service-Anbieter. Die IT-Mitarbeiter von Organisationen sind damit einem hohen Druck ausgesetzt, Probleme schnell und effizient zu lösen.

Die zur Identifizierung der Ursachen benötigten Informationen sind allerdings in der Regel vorhanden. Die schiere Menge der Telemetrie-Daten zu navigieren, die Hardware- und Software-Komponenten generieren, ist eine der Herausforderungen, denen sich Netzbetreiber heutzutage stellen müssen.

Machine Learning und Automatisierung

Eine datenreiche, hochdynamische, verteilte Infrastruktur ist die perfekte Umgebung für künstliche Intelligenz (KI), insbesondere für Machine Learning. Die große Stärke von Machine Learning: Die Technologie erkennt sinnvolle Muster in riesigen Datenmengen, die die Möglichkeiten der Netzbetreiber deutlich überschreiten. Auf Machine Learning basierte Werkzeugen sind in der Lage, aus Erfahrungen zu lernen, sich an neue Informationen anzupassen sowie Menschen-ähnliche Analysen extrem schnell und präzise durchführen.

Um die volle Leistungsfähigkeit von Machine Learning zu realisieren, müssen die Erkenntnisse in die Tat umgesetzt werden, eine bedeutende Herausforderung in der dynamischen, disaggregierten Welt des Edge-Computing. Hier kommt die Automatisierung ins Spiel. Mit den durch Machine Learning und Echtzeit-Kontrolle gewonnenen Informationen können automatisierte Werkzeuge physische und virtuelle Netzwerkfunktionen viel schneller und genauer als ein menschliches IT-Team bereitstellen, instanziieren und konfigurieren.

Die Kombination von Machine Learning und Automatisierung spart erhebliche Zeit. Die Technologie-Teams können diese Zeit in strategischere Initiativen investieren, die zusätzliche betriebliche Effizienz und schnellere Freigabezyklen schaffen und so letztlich zu zusätzlichen Einnahmen führen.

Skalierung von Cloud-nativen Anwendungen

Bis vor kurzem bestand der Software-Entwicklungsprozess für einen Telekommunikationsanbieter aus einer umfangreichen Reihe von Schritten, die von Abteilung zu Abteilung gingen und Monate oder sogar Jahre in Anspruch nahmen. Die Cloud-native Entwicklung hat diese so genannte „Wasserfall“-Methodik zugunsten eines schnellen, integrierten Ansatzes weitgehend obsolet gemacht. Dieser basiert auf Spitzentechnologien wie Mikrodiensten, Containern, agiler Entwicklung, kontinuierlicher Integration und Bereitstellung sowie DevOps. Infolgedessen führen Telekommunikationsanbieter immer schneller Services ein, oft mit mehreren Versionen pro Woche.

Der Schritt an den Netzwerk-Rand ist eine Herausforderung für die Skalierung von Cloud-nativen Anwendungen. Besteht die Umgebung aus einigen wenigen zentralisierten Rechenzentren, können Mitarbeiter manuell die optimale Konfiguration bestimmen, um die richtige Leistung für die virtuellen Netzwerkfunktionen, VNFs, zu gewährleisten, aus denen die Anwendung besteht.

Da sich die IT-Umgebung jedoch in Tausende kleiner Standorte mit jeweils leicht unterschiedlichen Betriebseigenschaften aufteilt, ist Machine Learning erforderlich. Unbeaufsichtigte Lernalgorithmen können alle Einzelkomponenten durch einen Vorproduktionszyklus laufen lassen. So bewerten sie, wie sie sich an einem Produktionsstandort verhalten. Das IT-Team kann diesen Ansatz nutzen, um zu gewährleisten, dass der zu testende VNF am Rand den gewünschten Betriebszustand aufweist.

Beispiel Troubleshooting

Künstliche Intelligenz und Automatisierung bieten auch bei der Fehlerbehebung innerhalb von Cloud-native Umgebungen einen erheblichen Mehrwert. Das Beispiel eines Services Providers unterstreicht dies: Er führt zehn Instanzen einer Anwendung durch, die Sprachanrufe verarbeitet – und zwar als Cloud-native Anwendung an einer Edge-Lokation. Ein Remote-Betreiber stellt fest, dass eine VNF deutlich weniger performant ist als die anderen neun.

Die erste Frage lautet: „Gibt es wirklich ein Problem?“ Gewisse Leistungsschwankungen zwischen Anwendungsinstanzen sind nicht ungewöhnlich. Somit erfordert die Beantwortung der Frage, dass der normale Bereich der VNF-Leistungswerte im tatsächlichen Betrieb gemessen wird.

Ein Mitarbeiter würde eine hohe Zahl der VNF-Instanzen über einen bestimmten Zeitraum hinweg messen und auf dieser Basis die akzeptablen Werte für die wichtigsten Leistungsindikatoren berechnen – ein zeitaufwändiger und fehleranfälliger Prozess. Er muss außerdem häufig wiederholt werden, um Software-Upgrades, den Austausch von Komponenten, Schwankungen im Verkehrsmuster und andere Parameter zu berücksichtigen, die die Leistung beeinflussen.

Troubleshooting mit der Geschwindigkeit von KI

Im Gegensatz dazu kann KI die KPIs in einem Bruchteil der Zeit bestimmen und die KPI-Werte bei Bedarf anpassen, beispielsweise wenn sich die Parameter ändern. All dies geschieht ohne Eingriff von außen. Sobald die KPI-Werte durch KI bestimmt wurden, übernimmt die Automatisierung. Ein automatisiertes Tool kontrolliert die Leistung kontinuierlich, vergleicht den realen Wert mit dem von der KI ermittelten KPI und identifiziert unterdurchschnittlich.

Diese Informationen werden an den Orchestrator weitergeleitet, um entsprechende Maßnahmen zu ergreifen. Dazu gehört beispielsweise das Hochfahren einer neuen VNF oder das Verschieben auf einen neuen physischen Server. Die Kombination aus künstlicher Intelligenz und Automatisierung unterstützt dabei, Service Level Agreements zu erfüllen. Menschliches Eingreifen ist unnötig – eine willkommene Abwechselung für Betreiber, die nächtlichen Troubleshootings überdrüssig sind.

Tools und Teams

Service Provider beschleunigen die Einführung ihrer Edge-orientierten Architekturen. Daher müssen IT-Teams neue Wege finden, um den Netzwerkbetrieb zu optimieren, unterdurchschnittliche VNFs zu beheben und SLA Compliance gewährleisten. KI-Technologien wie Machine Learning unterstützen Organisationen dabei in Kombination mit Automatisierung.

In den vergangenen Jahren gab es eine Reihe von Fortschritten, die diese KI-gesteuerte Zukunft ermöglichen. Dazu gehören Systeme und Geräte, die eine hochauflösende, hochfrequente Telemetrie bereitstellt, die sich analysieren lässt, ebenso wie hochskalierbare Nachrichten-Busse wie „Kafka“ und „Redis“, die diese Telemetrie erfassen und verarbeiten können.

Rechenkapazitäten und KI-Frameworks wie „Tensorflow“ und „Pytorch“ zur Erstellung von Modellen aus den Rohdaten der Telemetrie-Ströme gehören ebenfalls dazu. Sie können in Echtzeit feststellen, ob der Betrieb von Produktionssystemen dem Standard entspricht oder Störungen im Betrieb aufspüren.

Zusammengenommen hat dies das Potenzial, den Betrieb zu rationalisieren und Service Providern einen Wettbewerbsvorteil zu verschaffen – und zwar an der Spitze.

* Julius Francis ist Director of Product Management & Marketing, Cloud, Security & Analytics bei Juniper Networks.

(ID:46494855)