Storage-Plattform für Künstliche Intelligenz Vast Data präsentiert eine Denkfabrik für KI-Anwendungen
Anbieter zum Thema
Vast Data, ein Spezialist für global verteilten, skalierbaren Storage, hat mit seiner „Vast Data Platform“ (VDP) ein System vorgestellt, das Exabyte-Storage, eine KI-Compute-Engine und eine Datenbank miteinander vereint. Die Anwendung soll dem KI-Einsatz vor allem im Bereich wissenschaftlicher Entdeckungen zugutekommen. NASA, Pixar, Zoom und Verizon gehören zu den ersten Kunden.

Die Grundlage der Vast Data Platform, die Daten vor allem aus der natürlichen Umwelt erfassen und verarbeiten soll, bildet das im März dieses Jahres vorgestellte System „Vast Datastore“: „eine skalierbare Speichergrundlage für unstrukturierte Daten, die das Storage-Tiering eliminiert“, wie CEO Renen Hallak sagt. Dieser Datastore basiert auf der „Vast-Disaggregated-Shared-Everything-Architektur“ (DASE). Sie verwendet ausschließlich Flash-Memory.
Vast Datastore bietet laut Hallak File- und Objektspeicherschnittstellen für Unternehmen und ist die erste NAS-Plattform für Unternehmen, die den Anforderungen der heutigen KI-Computing-Architekturen wie „Nvidia Super Pod“-Systemen und weltweit führenden Big-Data- und HPC-Plattformen gerecht wird. Nvidia und HPE sind mittlerweile enge technische Partner von Vast Data.
Datastore wurde nach Angaben des CEO mit „hochgradiger Systemeffizienz“ entwickelt, um die bisherige Archivierungsökonomie (Tiering) in die Flash-Infrastruktur zu bringen, wodurch der Datastore auch für Archivierungsanwendungen geeignet sei. „Die Lösung der Kosten für Flash-Speicher war entscheidend, um die Grundlage für Deep Learning für Unternehmenskunden zu schaffen, die im Laufe der Zeit Modelle auf ihre domänenspezifischen Datenbestände abstimmen wollen“, so Hallak. „Bis heute hat Vast weltweit mehr als zehn Exabyte an Daten an Kunden wie Agoda, Cegat, Ingenuity Studios, Invitae, Jump Trading, Kanal 75, Lola VFX, NASA, Pixar, Therapixel, Verizon, Zoom und viele andere ausgeliefert.“ Vast stellt auch eine Storage-Appliance her.
Vast Database
„Die meisten herkömmlichen Datenbanken, die Transaktionen verarbeiten, sind zeilenorientiert“, erläutert Hallak, „doch die meisten unstrukturierten Daten wie etwa Audio, Video und Logfiles werden in spaltenorientierten Datenbanken gespeichert.“ So mancher Hersteller sei deshalb auf eine hybride Architektur wie das 'Data Lakehouse' umgestiegen. Vast hat seine eigene Datenbank entwickelt: „Vast Database“. Hier sind Metadaten von höchster Bedeutung.
„Um unstrukturierten natürlichen Daten eine Struktur zu geben, hat Vast eine semantische Datenbankschicht nativ in das System integriert“, erläutert der CEO. „Dabei musste Vast die Kompromisse zwischen Transaktionen (zur Erfassung und Katalogisierung natürlicher Daten in Echtzeit) und Analysen (zur Analyse und Korrelation von Daten in Echtzeit) auflösen, die den Markt daran gehindert haben, Data Warehouses mit Datenbanksystemen zu vereinen.“
Hallak fährt selbstbewusst fort: „Mit der Einführung der Vast Database ist Vast nun das erste Unternehmen, das die Barrieren der transaktionalen Datenbanken bis hin zum Archiv durchbricht.“ Die Database-Engine sei ein skalierbares und ACID-transaktionales, verteiltes System, das für eine schnelle Datenerfassung konzipiert worden sei und gleichzeitig eine für Flash-Memory optimierte, spaltenförmige Datenstruktur im Exabyte-Bereich aufweise, die tiefe und schnelle Abfragen in jeder Größenordnung ermögliche.
Die Vast Data Engine
Mit einer Grundlage für strukturierte und unstrukturierte Daten benötigt die Vast Data Platform laut Hallak noch eine Engine, die Daten verfeinern und verarbeiten kann: „In der Vergangenheit waren tiefgehende Analyse- und Modelltrainingsprozesse stapelorientiert, menschengesteuert und nicht mit den zugrundeliegenden natürlichen Daten verbunden, die ungenutzt im Datenspeicher liegen. Um Daten quasi zum Leben zu erwecken und das Paradigma von Batch- zu kontinuierlichen Prozessen zu ändern (um durch Interaktionen zu lernen, wie es Menschen tun), führt Vast die „Vast Data Engine“ ein.“
Die Data Engine sei eine globale Function Execution Engine, die durch das Hinzufügen von Anwendungs-Triggern und Python-basierten Funktionen nativ in die Vast Data Platform eingebaut werde. „Durch die Kombination der Data Engine mit einem natürlichen Datenspeicher (Datastore und Database) im Exabyte-Bereich erkennt das System beispielsweise Echtzeit-Streams von Rich Content (Audio/Video), IoT-Daten und Text (Logfiles und so weiter) und trifft datengesteuerte Entscheidungen über Daten, indem es die Gesamtheit der Metadaten einer Umgebung korreliert, die sich an jedem beliebigen Ort befinden und bis ins Archiv reichen können.“ Die Metadaten machen also die Fülle an Daten erst zugänglich, so dass ein KI-Modell etwas damit anfangen kann.
Vast Dataspace
Das letzte Element der Vast-Data-Platform-Strategie ist die „Befreiung“ der Datenverarbeitung und der Daten selbst von einem einzelnen Rechenzentrum. Somit könne eine globale Föderation von Maschinen auf einer globalen Datensammlung rechnen, um die besten Erkenntnisse mit der größten Infrastruktureffizienz zu gewinnen.
„Der 'Vast Dataspace' legt die Grundlage für dieses globale System, indem er einen weltweiten Namensraum (namespace) schafft, der es jedem Standort ermöglicht, Daten von jedem Standort aus mit hoher Leistung zu speichern, abzurufen und zu verarbeiten“, führt Hallak aus. „Der Dataspace führt neue dezentralisierte Verwaltungsprinzipien ein, um den alten Zielkonflikt zwischen Konsistenz und Leistung aufzulösen.“
Darüber hinaus kann die Vast Data Platform innerhalb einer Firewall eingesetzt werden, also etwa in einer Private Cloud. Und diese sei nun in führenden Public-Cloud-Rechenzentren wie AWS, Microsoft Azure und Google Cloud (GCP) verfügbar. Die obengenannte Data Engine basiere ebenfalls auf dem Dataspace, um ein Netz von Rechenressourcen (CPUs, GPUs und DPUs) zu schaffen, das die Daten zum Compute (wenn der Compute eine größere Schwerkraft hat) oder den Compute zu den Daten (wenn die Daten eine größere Schwerkraft haben) verschieben könne.
Ein Beispiel
Als konkretes Beispiel nennt Hallak die Auswertung eines Bildes durch ein KI-Modell, das Inferenz anwende, um beispielsweise Gesichtserkennung auszuführen. Da die Analyse und das Modell Zugang zu den Metadaten hätten, lasse es sich abfragen und mit anderen Daten wie etwa Geolokation verbinden. Auf diese Weise sei es möglich, ein Gesicht mit einem Ort zu verbinden und eine Regel darauf anzuwenden. Tauche das Gesicht an einem unerwünschten Ort auf, könne ein Alarm ausgelöst werden. (Diese Nutzanwendung wurde kürzlich vom Europaparlament untersagt, aber nur für den öffentlichen Raum.)
:quality(80)/p7i.vogel.de/wcms/1e/7c/1e7c0cecc08b84e24b58ba3cde6a8a70/0113058662.jpeg)
Vast Data erhält Zertifizierung für Nvidia DGX Super Pod
Enterprise-File-Services optimieren Infrastrukturen für generative KI
Hallak fährt fort: „Durch die Lösung der Herausforderungen, die sich aus der Schwerkraft der Daten und der Rechenleistung ergeben, ist es nun möglich, eine flexible Hybrid-Cloud-Infrastruktur aufzubauen, die eine maximale Ressourceneffizienz erreicht. Dies trägt dazu bei, die Energieverschwendung in Rechenzentren zu reduzieren und die Nachhaltigkeit zu verbessern.“ Und das ist immer eine gute Sache.
Die Programmierung
Eine Plattform ist lediglich die Grundlage für die Erstellung von Anwendungen, und der Kunde freut sich, wenn ihm der Hersteller bereits Vorlagen und Bausteine liefert, denn das verkürzt die Zeit bis zur Fertigstellung der App. Hallak führt eine Reihe von Bausteinen auf: „Wir verfügen über vorgefertigte Funktionen, die einfach für die Ver- beziehungsweise Anwendung durch den Kunden da sind: PII-Datenerkennung für den Datenschutz, Ransomware-Erkennung, Metadaten-Header-Scraping (und Katalogisierung), Datenerweiterung für Deep-Learning-Schulungen, Datenstrom-Routing (nach Typ) und so weiter. Darüber hinaus verfügen wir über Demo-Umgebungen, die in Umgebungen laufen, in denen Kunden arbeiten können, um Code zu evaluieren und zu entwickeln.“
Die KI-Discovery-Engine
Die Vast Data Platform ist die Grundlage für eine „KI-Discovery-Engine“, ein einheitliches, globales Dateninfrastrukturangebot und laut Hallak „die einzige Datenplattform, die von Grund auf für die Zukunft der KI entwickelt wurde“. Diese Ausrichtung wurde von ihm im Gespräch immer wieder betont: Datenquellen aus der natürlichen Umgebung.
Damit KI-Systeme und LLM-Modelle („ChatGPT“ und so weiter) in Unternehmen den Sprung von der einfachen Wiederholung von Wissen auf Anfrage zu eigenständigen und automatischen neuen Entdeckungen und Erkenntnissen schaffen können, die zuvor unbekannt waren, benötigen sie laut CEO:
- direkten Zugang zur natürlichen Welt durch den Vast Dataspace, damit sie nicht auf langsame und ungenaue menschliche Übersetzer angewiesen sind,
- die Fähigkeit, riesige Mengen natürlicher, unstrukturierter Daten über den Vast Datastore in zugänglicher Form zu speichern,
- die Fähigkeit, unstrukturierte Rohdaten mit Hilfe der Vast Data Engine in ein Verständnis der ihnen zugrundeliegenden Merkmale umzuwandeln,
- und schließlich eine Möglichkeit, auf der Gesamtheit des Wissens aufzubauen, es abzufragen und ein besseres Verständnis dafür zu entwickeln, durch die Vast Database.
„Wir konsolidieren ganze Kategorien von IT-Infrastrukturen, um eine rekursiv rechnende Denkmaschine zu schaffen, die neue Entdeckungen ermöglicht, die bisher undenkbar waren“, so Hallak. „Mit der Vast Data Platform demokratisieren wir die KI-Dateninfrastruktur, um eine Welt neu zu erfinden, die in immer schnellerem Tempo neue Entdeckungen macht.“ Wie Ali Ghodsi, der CEO von Databricks, kürzlich vortrug, ist die Demokratisierung des Zugangs und der Nutzung von Daten die Voraussetzung für jede Art von Innovation geworden.
Nutzanwendung
Das sieht Hallak ebenso: „Während Menschen üblicherweise Jahrzehnte brauchen, um Experten auf einem Gebiet zu werden, können KI-Computer heute innerhalb weniger Minuten ein vergleichbares Spezialisierungsniveau erreichen. Durch die Verbindung dieser Systeme mit einem globalen Datenkorpus und die Möglichkeit, diese Daten in Echtzeit mit kooperativen und kontradiktorischen Deep-Learning-Techniken zu synthetisieren und zu iterieren, werden KI-Discovery-Umgebungen zu folgenden Leistungen in der Lage sein“:
- Sichten und Verarbeiten von Daten in jedem Public-Cloud- oder Private-Cloud-Rechenzentrum,
- Verstehen natürlicher Daten, indem eine abfragbare semantische Schicht in die Daten selbst eingebettet wird,
- kontinuierliche und rekursive Datenverarbeitung in Echtzeit, die sich mit jeder Interaktion weiterentwickelt.
Hallak abschließend: „Indem diese neuen Anwendungen einen Blick auf die Daten eines globalen KI-Supercomputers erhalten und das Paradigma von der Stapelverarbeitung zur konsistenten Echtzeitinterpretation und -korrelation wechselt, wird die KI mehr leisten können: die Überwindung von Krankheiten, die Entdeckung neuer Wege zur Bewältigung des Klimawandels, ein konkreter Plan zur Beendigung des Hungers in der Welt durch bahnbrechende Ansätze in der Landwirtschaft sowie völlig neue Wissenschafts- und Mathematikbereiche.“
Verfügbarkeit, Preise und Lizenzen
„Was die Preisgestaltung anbelangt, ermöglicht unser einzigartiger Ansatz zur Datensicherung und Datenreduzierung den Kunden die Bereitstellung einer leistungsstarken Dateninfrastruktur zu den gleichen Preisen wie die Archivinfrastruktur“, sagt Hallak zu den Preisen. „Für Database fallen im Vergleich zu unserem Standard-Datastore-Angebot keine zusätzlichen Kosten an. Die Data Engine wird je nach CPU-Auslastung verkauft, und diese Preise werden nächstes Jahr mit der Verfügbarkeit des Angebots bekannt gegeben.“
„Jeder Vast-Kunde hat Zugriff auf die Vast Data Platform, ohne zusätzliche Lizenzen erwerben zu müssen“, fügt der CEO hinzu. „Die Plattform katalogisiert bereits Daten, macht Metadaten abfragbar und unterstützt die Cloud-übergreifende Bereitstellung. Dies steht im Einklang mit der Idee, dass es sich nicht um separate Angebote handelt, sondern um miteinander verbundene Funktionen auf einer gemeinsamen Plattform mit einem gemeinsamen Datensatz. Da die Engine nächstes Jahr verfügbar sein wird, wird dies so bleiben.“
(ID:49639717)