System-Management mithilfe von Open Source OpenRMC senkt die Kosten und erhöht die Energie-Effizienz

Autor / Redakteur: Wilson Guo und Han Wang * / Ulrike Ostler

Da sich viele technologische Innovationen für Rechenzentren auf die Kühlung, die Stromversorgung und das Management von Hyperscale-Rechenzentren konzentrieren, fehlen Innovation für kleine und mittelgroßer Rechenzentren. Die Stiefmütterlichkeit muss dennoch nicht hingenommen werden. Das intelligente Zeitalter verlangt nach offenen, automatisierten Betriebs- und Wartungskapazitäten.

Firmen zum Thema

Manchmal brauchen Administratoren ein wenig Magie, um die Kernkomponenten im Rechenzentrum harmonisieren zu lassen, Energie zu sparen und Verfügbarkeit zu garantieren, sprich: Automatisierung. Wie wäre e mit „OpenRMC“?
Manchmal brauchen Administratoren ein wenig Magie, um die Kernkomponenten im Rechenzentrum harmonisieren zu lassen, Energie zu sparen und Verfügbarkeit zu garantieren, sprich: Automatisierung. Wie wäre e mit „OpenRMC“?
(Bild: © pickup - stock.adobe.com)

Die digitale Transformation über alle Branchen hinweg treibt den Bau und die Innovation von Cloud-Rechenzentren voran. Dadurch nimmt die Vielfalt und Komplexität der Anwendungslasten in Rechenzentren zu: Neue Technologien wie Künstliche Intelligenz (KI) und Container werden eingeführt, Rechenressourcen werden heterogen und gebündelt, die Nachfrage nach öffentlichen, privaten und hybriden Cloud-Umgebungen steigt.

Außerdem spielen nun auch neben den traditionellen CPUs Beschleuniger-Recheneinheiten wie GPUs und FPGAs eine immer wichtigere Rolle. Während die Leistungsfähigkeit von CPUs und GPUs – Kernkomponenten von Rechenressourcen – allmählich über das Mooresche Gesetz hinausgeht, treibt der Einsatz mehrerer Kerne und fortschrittlicher Technologien den Energieverbrauch von Prozessoren und Servern in die Höhe.

Wilson Guo, Verfasser dieses Artikel, steckt tief in der Thematik. Er ist im Vorstand der OCP China Community und Senior Technology Director bei Inspur.
Wilson Guo, Verfasser dieses Artikel, steckt tief in der Thematik. Er ist im Vorstand der OCP China Community und Senior Technology Director bei Inspur.
(Bild: Inspur)

Ohnehin und schon immer machen Kühlung und Stromversorgung einen beträchtlichen Teil der Betriebskosten von Rechenzentren aus. Das wiederum übt einen enormen Kostendruck auf Unternehmen aus. Daher sind eine höhere Energienutzung sowie ein umweltfreundliches und Energie-effizientes Design von entscheidender Bedeutung, um die Wettbewerbsfähigkeit von Rechenzentren zu steigern und ein Gleichgewicht zwischen ökologischen und ökonomischen Vorteilen herzustellen.

OpenRMC, ein vielversprechendes Rack-Management für Rechenzentren

Aber aufgrund der Schwierigkeit, die Leistung und den Stromverbrauch von Servern in Echtzeit und im kleinsten Detail zu überwachen, gelingt es dem traditionellen Rechenzentrumsbetrieb nur selten, die gewünschte Energie-Effizienz zu erreichen. Ein automatisierter Rechenzentrumsbetrieb ist daher unerlässlich, um den Energieverbrauch zu senken und die Zuweisung von Serverressourcen zu optimieren. Der Schlüssel zum Erfolg liegt in der Entwicklung und Lieferung einer flexiblen und modularen Rack-Lösung für Rechenzentren.

Als Antwort auf den wachsenden und dringenden Bedarf nach einem automatisierten Rechenzentrumsbetrieb, einer besseren Systemverfügbarkeit sowie einem reduziertem Energieverbrauch hat Inspur das „OpenRMC“-Projekt initiiert und geleitet. Das Projekt nunmehr unter der Leitung von Inspur und Intel – mit Beiträgen von Microsoft und Wiwynn – arbeitet zusammen mit dem Open Compute Project (OCP) an einem Rack-Management, das Hard- und Software integriert und Rechenzentren dabei unterstützt, ihre Wirtschaftlichkeit und Effizienz zu verbessern sowie das Betriebs-Management zu vereinfachen, und das alles auf Basis von Open Source.

OCP hat bereits in den vergangenen Jahren große Fortschritte bei der Bereitstellung einer höheren Rechendichte pro Flächeneinheit, der Reduzierung der Herstellerbindung durch einheitliche Spezifikationen und der schnellen Reaktion auf unerwartete Anwendungsanforderungen erzielt. OpenRMC ermöglicht aber eine viel bessere und einfachere Überwachung des Stromverbrauchs.

Fast 30 Prozent der Leistungskapazität des Racks sind als Backup über Gebühr reserviert. Mit der genauen Telemetrie- und Leistungssteuerungsfunktion von „OpenRMC“ lässt sich die Leistungsauslastung und die Rack-Dichte um 15 Prozent bis 25 Prozent verbessern.
Fast 30 Prozent der Leistungskapazität des Racks sind als Backup über Gebühr reserviert. Mit der genauen Telemetrie- und Leistungssteuerungsfunktion von „OpenRMC“ lässt sich die Leistungsauslastung und die Rack-Dichte um 15 Prozent bis 25 Prozent verbessern.
(Bild: Inspur)

So kann in Echtzeit der aggregierte Stromverbrauch aller Geräte zusammen mit den aggregierten Leistungsmetriken gemeldet werden. Diese Daten sind notwendig, um kritischen Energieverbrauch genau zu messen und effiziente Rechenressourcen zu bestimmen (siehe: Abbildung).

Ein weiterer entscheidender Punkt, den OpenRMC adressiert, ist die Verbesserung der Offenheit und Benutzerfreundlichkeit. Beim Betrieb eines traditionellen Rechenzentrums ist jeder Serverknoten die wichtigste verwaltete Steuereinheit; denn nur wenn jeder Knoten stabil und effizient arbeiten kann, können die Systeme im gesamten Rack koordiniert und geordnet genutzt werden.

Der Baseboard Management Controller (BMC) auf dem Serverknoten ist der Schlüssel zur Verwaltung jedes Servers. Er hat die Form eines SoC, und durch seine eigenen, reichlich vorhandenen IOs verbindet der BMC viele Sensoren mit den verschiedenen Subsystemen und erhält die Informationen zur Steuerung der Umgebung. OpenRMC verwendet den BMC jedes Knotens als grundlegende Einheit für die Verwaltung und Steuerung, unterstützt die IPMI- und Redfish-Schnittstelle und implementiert Verwaltungsfunktionen wie Fernsteuerung der Stromversorgung, Serial-over-LAN, Überwachung des Betriebsstatus der CPU und des Speichers des Host-Knotens sowie Ein-/Ausschalten der Festplatten-LED.

Die physische Verbindung
Die physische Verbindung
(Bild: Inspur)

In Bezug auf Software- und Kommunikationsschnittstellen unterstützt OpenRMC neben den gängigen IPMI-Schnittstellenstandards und verschiedenen kommerziellen BMCs, wie ILO und DRAC, auch die Open-Source-Management-Software-Architektur OpenBMC. Diese Software-Architektur verwendet den Linux-Kernel zum Aufbau des SoC-Systems. Auch die Anwendungsschicht verwendet ähnliche modulare Softwarepakete, sodass der Aufbau des BMC-Verwaltungssystems eine einheitliche API verwendet und die Entwicklung und Bereitstellung der BMC-Verwaltungsfunktion eines neuen Geräts in sehr kurzer Zeit abgeschlossen werden kann.

Die Hauptmodule in der Software-Architektur
Die Hauptmodule in der Software-Architektur
(Bild: Inspur)

Darüber hinaus hat Inspur eine System-Level-Management-Suite auf Basis von OpenRMC für das Rack-Management entwickelt. Die Suite bietet Anwendern einen zuverlässigen Überblick über den Zustand aller Komponenten und Geräte im Rack, indem sie gleichzeitig Systemgeräte wie Server und Speichereinheiten, Module wie Leistungsmodule, Lüfter und Netzwerk-Switches im Rack sowie die Umgebungstemperatur überwacht. Gleichzeitig zeigt diese Management-Suite die Informationen über Visualisierungsgeräte an, um die Anforderungen an einen automatisierten Betrieb zu erfüllen.

Auf dieser Basis hat Inspur die Schnittstellenspezifikationen für das Northbound-Management definiert, das auf alle Geräte im Rack abzielt, und sie in OCP eingebracht. Damit sollen die nahtlose Verbindung und effektive Kommunikation zwischen der Northbound-Präsentation und dem Southbound-Management innerhalb des OCP-Frameworks gefördert werden.

Aktive Förderung von OpenRMC durch Intel und Microsoft

Ein Glücksfall: Auch Intel und Microsoft fördern aktiv die Innovation und Anwendung von OpenRMC. Im Jahr 2014 veröffentlichte Intel das „Intel RSD“ (RSD = Rack Scale Design), ein Referenzdesign, das die Technologie für das Ressourcen-Pooling und den flexiblen Einsatz in Rechenzentren fördern soll, um die Ressourcenauslastung zu verbessern.

Als einer der Sponsoren des OpenRMC-Projekts hat Intel das RSD-Rack-Verwaltungsmodul und die Verwaltungs-APIs (RSD RMM REST API) offengelegt und zum OCP OpenRMC-Projekt beigesteuert. Außerdem hat Intel den Referenzcode und die Methoden zum Abrufen der Parameter von Schlüsselfunktionen und -komponenten wie Gehäuse, Stromversorgung und Kühlung bereitgestellt.

Microsoft Azure stellt eine der größten öffentlichen Clouds der Welt dar und als Eigentümer von Hyperscale-Rechenzentren und Anbieter von Cloud-Computing-Diensten hat Microsoft der „OCP-Community Open-Source-Serverstandards“ (OCS) und „Olympus“ zur Verfügung gestellt. Dabei teilt Microsoft seine Erfahrungen im Bereich des Rechenzentrums-Managements mit der Community und hat bereits mehrere verschiedene RMC-Hardware-Implementierungsmethoden vorgeschlagen. Der Konzern hat auch Vorschläge für das Software-Modularisierungsdesign der OpenRMC-Firmware sowie Beispiele für den Zugriff auf den Status von Komponenten auf Rack-Ebene, das Management und die Überwachung bereitgestellt.

Mehr Effizienz und Kostenersparnis durch OpenRMC

Der Code und die Hardware-Referenzdesigns, die von den Mitgliedern des OCP-Projekts beigesteuert wurden, haben die Anwendungsfälle von OpenRMC stark diversifiziert und das Ökosystem für automatisierte Abläufe erweitert und bereichert. So gibt es nun eine Plattform und eine Kreditgarantie für die Adaption von OpenRMC-Funktionen.

Co-Autor dieses Artikel ist Dr. Han Wang, Principal Architect bei Inspur.
Co-Autor dieses Artikel ist Dr. Han Wang, Principal Architect bei Inspur.
(Bild: Inspur)

Noch befindet sich Open RMC im Anfangsstadium. Produkte, Technologien und Fähigkeiten, die den Einsatz von automatisierten Rechenzentrumsabläufen und Energiespargeräten zum Zeil haben, sind noch limitiert. Doch das ändert sich; denn mit OpenRMC kann ein auf Open-Source-Technologien basierendes Rack-Management-System skaliert werden, um sowohl große als auch kleine und mittlere Rechenzentren bei der Integration heterogener Geräte zu unterstützen und automatisierte und diffizile Abläufe zu realisieren. Auf diese Weise können Rechenzentren jeder Größe ihre IT-Betriebskosten senken, die Verwaltung vereinfachen und die Effizienz verbessern.

Um die Zuverlässigkeit und Verfügbarkeit ihrer Rechenzentren zu verbessern und Betriebsunterbrechungen aufgrund von Software- und Hardwarefehlern oder System-Upgrades zu reduzieren, suchen Rechenzentrumsbetreiber nach Möglichkeiten zur automatisierten Bereitstellung und Inspektion, zur detaillierten Fehlerdiagnose und zu intelligenten Alarmen, um einen effektiven Support für kritische Unternehmen und Daten zu gewährleisten.

* Wilson Guo ist Co-chair der OCP China Community und Senior Technology Director bei Inspur. Dr. Han Wang arbeitet als Principal Architect bei Inspur.

(ID:47350388)