Höhere Effizienz und Wirtschaftlichkeit für Primärspeicher durch KI-basierte Deduplizierung Next-Level-Storage: KI im Speicher setzt neue Maßstäbe

Autor / Redakteur: Robert Meiners* / Dr. Jürgen Ehneß

Künstliche Intelligenz (KI) ist sicherlich der nächste große Schritt, mit der Informationstechnologie noch effizienter in Unternehmen eingesetzt werden kann. Durch sie besteht die Möglichkeit, hochkomplexe Muster zu erkennen, weit vernetzte Prozesse zu automatisieren oder auch ganz neue Anwendungen zu schaffen, die mit traditioneller Software kaum möglich wären.

Firmen zum Thema

KI soll beim Datenspeichern und in der IT allgemein die Effizienz erhöhen.
KI soll beim Datenspeichern und in der IT allgemein die Effizienz erhöhen.
(Bild: gemeinfrei / Pixabay )

Der Sinn dahinter ist einfach: Mit einer höheren Effizienz und einer geringeren Fehlerrate lassen sich viele Prozesse in Unternehmen stark optimieren oder überhaupt erst realisieren. So weit zur Theorie.

In der Praxis wissen aber viele Unternehmen noch nicht ganz genau, wie und wo sie die KI am besten einsetzen sollen. Sie haben eine Ahnung, was möglich ist, und viele meinen, dass es die großen Technologiekonzerne oder Start-ups sind, die als Vorreiter die KI austesten und im Einsatz haben.

Dies stimmt nur zum Teil, denn KI steckt bereits heute in vielen im Einsatz befindlichen Produkten, ohne dass man davon auch wirklich Notiz nimmt. Eines dieser Beispiele findet man im Storage. Hier ist KI in bestimmten Systemen fest integriert, um beispielsweise eine Deduplizierung von Daten sogar im Online-Speicher zu realisieren.

Problemkind Primärspeicher und Redundanz

KI in der Storage-Technologie ist heute Realität, und das nicht nur für große Konzerne oder spezialisierte Start-ups. Doch eines nach dem anderen: zuerst zur Herausforderung, dann zur Technologie und schließlich zum Beweis.

Eine der größten Herausforderungen bei der Verwaltung von Primärspeicher ist die Volumenauslastung. Traditioneller Storage muss immer wieder mit noch größeren Systemen aufgerüstet werden. Hauptgrund dafür sind meist die schnell ausgelasteten Volumina.

Schuld daran ist nicht nur das stark wachsende Datenaufkommen, sondern viel mehr noch die ungewollte Datenredundanz – also die Redundanz, die nicht absichtlich im Sinne der Data-Safety oder der Business Continuity zu verstehen ist. Ungewünschte und damit sinnlose Redundanz ist ein Thema, das IT-Administratoren und auch dem Controlling schwer im Magen liegt. Sie verursacht ineffiziente Arbeit im Rechenzentrum, belastet die primären Speicherressourcen, und sie kostet vor allem viel Geld.

Ungewollte Redundanz ist insbesondere ein Problem bei File-Services. Dazu gehören Videos, aufwändige Präsentationen, Mitschnitte aus Online-Konferenzen und vor allem „Office“-Dokumente. Viele dieser Daten werden allein dadurch, dass sie über das Mailsystem hin- und hergeschickt werden, redundant, also mehrfach, auf den Speichersystemen gespeichert.

Administratoren haben kaum Kenntnis davon, welche Daten wo in mehrfacher Kopie auf den Primärsystemen gespeichert sind. Sie wissen nur, dass es viele sein müssen und dass sie die Systeme weitgehend unkontrolliert fluten.

Ungewollte Redundanz

Ein einfaches Rechenbeispiel verdeutlicht die Brisanz: In einem Unternehmen arbeiten 2.000 Mitarbeiter, und diese erhalten wöchentlich einen internen Newsletter mit allerlei Informationen darüber, was im Unternehmen gerade so passiert. Verteilt wird der Newsletter über das Unternehmens-Intranet mit der Option, diesen auch als PDF herunterzuladen.

So weit zur Anwendung, und nun zum Speicher: Das Intranet ist bei den IT-Verantwortlichen als eine systemrelevante Komponente definiert, und darum wird auch der Newsletter auf mindestens zwei redundanten Primärspeicher-Pools vorgehalten – ganz regulär und auch gewollt. Selbstverständlich wird von wichtigen Systemen ein Backup angelegt.

Dies hat zur Folge, dass der Newsletter bereits viermal gespeichert ist: zweimal auf den redundanten Primärsystemen und zweimal auf den redundanten Backups. Zirka 50 Prozent der Mitarbeiter lädt das PDF des Newsletters vom Intranet in ihr Home-Verzeichnis, weil es schneller und bequemer zu lesen ist. Folglich ist der Newsletter plötzlich und völlig unkontrolliert 1.004-mal auf den IT-Systemen gespeichert.

Tatsächlich sind aber auch die Home-Verzeichnisse der Mitarbeiter als systemrelevant eingestuft und werden auf den Primärsystemen gespiegelt inklusive Datensicherung. Damit ist der Newsletter insgesamt 4.004-mal im Rechenzentrum gespeichert. Und weil das PDF hübsch gestaltet ist und eine Dateigröße von 3 Megabyte aufweist, ergeben sich daraus sage und schreibe 12.012 Megabyte an ungewollter Redundanz – wohlbemerkt: pro Woche. Über das Jahr hin gesehen, sind das rund 610 Gigabyte.

Wenn man derartige Rechenbeispiele für Dateiformate mit deutlich größeren Volumina, etwa für Video oder Voice, berechnet, kann man die Not der Speicheradministratoren hinsichtlich der Speicherverwaltung, aber auch der nötigen Budgets sehr leicht nachvollziehen.

Der Ausweg mit „Künstlicher Intelligenz“

Um eine Mehrfachspeicherung derselben Daten zu vermeiden, werden vor allem beim Backup schon lange Deduplizierungstechnologien erfolgreich eingesetzt. Hier werden die Daten (meist auf Blockebene) untersucht und die Dubletten herausgefiltert – teils mit Deduplizierungsraten von über 90 Prozent. Allerdings ist diese Technologie deshalb nur bei Backups sinnvoll, da sie sehr viel Leistung und Zeit benötigt. Für Primärspeicher wären die Auswirkungen auf die Performance viel zu hoch – bis jetzt, denn die KI hat das Spiel verändert.

Huawei hat erstmals spezielle „Ascend-Chips entwickelt und fest in die Plattform der „Dorado Oceanstor“ integriert. Dieser Halbleiter sorgt mit chipbasiertem (ASIC-) Verfahren für eine leistungsfähige Mustererkennung, die sich auf KI und Deep-Learning-Technologie stützt. Damit ist die nötige Leistungsfähigkeit geschaffen, um eine Deduplizierung auch im Primärspeichersystem auf Blockebene praktisch ohne Leistungseinbußen zu realisieren.

Selbstverständlich gelten auch bei Deduplizierung auf Primärspeichersystemen wirtschaftliche Regeln. Eine Investition in die Deduplizierung auf Primärspeichersystemen rechtfertigt sich dann, wenn der Redundanzfaktor effizient gesenkt werden kann. Huawei spricht von einer minimal angestrebten Deduplikation mit Faktor drei.

Dieser scheint im ersten Moment und verglichen mit den Deduplikationsraten bei Backup-Systemen nicht besonders hoch. Entscheidend ist aber, dass dieser theoretische Minimalwert leicht um ein Mehrfaches übertroffen werden kann. An dieser Stelle treten oft externe Speicherspezialisten mit reichlich Erfahrung auf den Plan.

Sie untersuchen die Umgebung und die gespeicherten Daten beim Kunden, um eine Prognose für die Deduplizierungsrate zu geben. Wachsen beispielsweise die Volumina der File-Services stark, kann die KI im Dorado-System eine hohe Deduplizierungseffizienz erreichen.

Speicher mit KI im praktischen Einsatz

Wie immer gilt es für Behauptungen einen Beweis anzutreten, und dafür eignet sich nichts besser als ein Beispiel aus der Praxis. Die öffentliche Verwaltung der Großen Kreisstadt Radolfzell am Bodensee ist diesen Schritt gegangen.

Neben anderen Anforderungen wie einer höheren Leistung durch Flash-Speicher, der hohen Skalierbarkeit im Online-Modus und einem modernen Snapshot-Verfahren für die Sicherheit war auch die Deduplizierung der Primärspeicherdaten ein wesentlicher Aspekt im Entscheidungsprozess für die „Huawei-Dorado-V6“-Speichersysteme. Nach zuvor erfolgter Datenanalyse durch die IT-Verantwortlichen der Kommune und MTI Technology sind die Voraussetzungen für den effizienten Einsatz einer Deduplizierung festgestellt worden.

MTI installierte die Speichersysteme im Herbst 2020. Schnell nach der Inbetriebnahme war klar, dass die neuen Huawei Dorado V6 Lösungen mit ihrer hohen Leistung, Flexibilität und der KI-Technologie die Erwartungen übertreffen. Die Speicher liefern mehr Leistung, als zum Zeitpunkt der Installation benötigt wurde, was für Zukunftssicherheit sorgt.

Robert Meiners, Team Lead PreSales Germany bei MTI Technology.
Robert Meiners, Team Lead PreSales Germany bei MTI Technology.
(Bild: MTI)

Zudem kann die Stadtverwaltung Radolfzell jetzt durch die Künstliche Intelligenz und die hocheffiziente Mustererkennung bei gleicher Performance eine beachtliche Deduplizierung erreichen, was neben anderen Faktoren in deutlichen Einsparungen resultiert: Die TCO (Total Cost of Ownership) – gerechnet über den Lifecycle – wurde um rund 50 Prozent gesenkt. Quod erat demonstrandum.

* Robert Meiners ist Team Lead Presales Germany bei MTI Technology.

(ID:47318412)