Nachbericht Snowflake Summit 2024 in San Francisco Snowflake erweitert Cloud Data Platform um Polaris Catalog und Native Apps

Von Michael Matzer 7 min Lesedauer

Anbieter zum Thema

Snowflake hat auf seiner Anwenderkonferenz eine Reihe von Neuheiten auch für Entwickler vorgestellt. Die Partnerschaft mit Nvidia bedeutet die Bereitstellung von Snowflake-Funktionsmodellen auf Nvidia-beschleunigten Plattformen und die Anreicherung von Apps um Nvidia-Microservices. Der neue Polaris-Datenkatalog soll für Governance und Datensicherheit sorgen, und mit Native Apps will Snowflake seinen Markt rasch ausweiten.

Der Polaris Catalog dient als Drehscheibe für Metadaten. (Bild:  Snowflake)
Der Polaris Catalog dient als Drehscheibe für Metadaten.
(Bild: Snowflake)

Snowflake setzt auf die Nvidia-AI-Enterprise-Software, um die NeMo Retriever Microservices in sein KI-Framework Snowflake Cortex AI, Snowflakes vollständig verwaltetes Large Language Model (LLM), und seinen Vektorsuchdienst zu integrieren.

NeMo Retriever liefert mit RAG (Retrieval Augmented Generation) aufbereitete Informationen für KI-Apps in Cortex AI. Die Inferenz der KI-Apps lässt sich mit Nvidia Triton umsetzen. Dies alles soll es Unternehmen erlauben, benutzerdefinierte Modelle (Funktionsmodelle) nahtlos mit verschiedenen Geschäftsdaten zu verbinden und hochpräzise Antworten zu liefern, also ohne Halluzinationen.

Bildergalerie

Darüber hinaus wird das Sprachmodell Snowflake Arctic nun vollständig von der Nvidia-TensorRT-LLM-Software unterstützt und soll eine hochgradig optimierte Leistung liefern.

Arctic ist jetzt auch als Nvidia-NIM-Inferenz-Microservice verfügbar, so dass mehr Unternehmen auf Arctic zugreifen können. Ein neu vorgestellter Container Service erlaubt die Bereitstellung dieser Microservices, etwa auf Kubernetes. „Zusammen starten wir die neue Ära von KI, in der Kunden aus jeder Branche und auf jedem Kenntnis-Level in der Lage sind, angepasste KI-Anwendungen auf der Grundlage ihrer Unternehmensdaten leicht, effizient und vertrauensvoll zu erstellen“, sagte CEO Sridhar Ramaswamy.

Polaris Catalog

Um ein Data Lakehouse bzw. eine Data Cloud wie Snowflake zu nutzen, ist jedoch ein Metadatenkatalog unerlässlich. Dafür wurde Polaris Catalog vorgestellt, eine herstellerneutrale, offene Katalogimplementierung für Apache Iceberg, der quelloffenen Standardlösung, die ein offenes Tabellenformat erlaubt. In den nächsten 90 Tagen will Snowflake nach Ramaswamys Worten Polaris Catalog der Community bereitstellen und ab dann größere Wahlmöglichkeiten, Flexibilität und Datenkontrolle bei weiterhin maximaler Sicherheit anbieten. Die Interoperabilität für Apache Iceberg via Polaris Catalog beinhaltet unter anderem AWS, Confluent, Dremio, GCP, MS Azure und Salesforce.

„Unternehmen wünschen sich interoperable Abfragen und offene Speichersysteme – am besten ohne Vendor Lock-in. Mit der Unterstützung von Branchenführern vereinfachen wir nun weiter, wie jedes Unternehmen unkompliziert, flexibel und sicher auf seine Daten über verschiedene Systeme hinweg zugreifen kann“, sagt Christian Kleinerman, EVP of Product bei Snowflake. „Polaris Catalog unterstreicht Snowflakes Ausrichtung an Apache Iceberg und erweitert die Möglichkeiten, mit denen unsere Kunden und die gesamte Iceberg-Community ihre Daten offen, neutral und interoperabel nutzbar machen können.“

Über Polaris Catalog können Snowflake-Anwender zentralisiert über eine Stelle mit ihrer gewünschten Engine auf Iceberg-Tabellen zugreifen und das „bei voller, offener Interoperabilität“. Hierfür setzt Snowflake ganz auf das quelloffene REST-Protokoll von Iceberg, das einen offenen Standard für den Zugriff auf und die Abfrage von Daten von jeder Engine bietet, die die Iceberg Rest API unterstützt – einschließlich Apache Flink, Apache Spark, Dremio, Python, Trino und anderen.

Snowflakes Mitbewerber Databricks unterstützt in seinem Katalog „Unity“ neben Iceberg auch das Format „UniForm“, aber auch Apache Hudi. Hier tobt also gerade ein Kampf um maximale Kompatibilität und Interoperabilität. Der Ausgang des Streits entscheidet über die Marktchancen des Anbieters bei den Kunden. Databricks CEO Ali Ghodsi machte dies auf seiner eigenen Hausmesse sehr deutlich. Databricks hat deshalb kürzlich Tabular, die Firma der Iceberg-Entwickler, gekauft, um die Standards zusammenzuführen.

Dynamic Tables vs. Hybrid Tables

Auch die Tabellen selbst sind eine Arena, in der verschiedene Optionen um die Gunst der Kunden buhlen. Manche Tabellen eignen sich für unstrukturierte, andere eher für strukturierte Daten wie etwa Transaktionen. Auch wäre es kontraproduktiv, wenn ein Update die Überarbeitung einer kompletten Tabelle mit Millionen Zeilen erfordern würde.

Snowflake hat vier Tabellenformate: erstens sein Standardformat für das schnelle Lesen von Tabelleninhalten, zweitens seit kurzem in seinem „Unistore“ Hybrid Tables für persistente Transaktionen (mit Primärschlüssel und Indices), womit sich nur einzelne Felder aktualisieren lassen; drittens die neuen, proprietären Dynamic Tables, die materialisierte Ansichten für die Nutzung in ETL/ELT-Pipelines darstellen. Die vierte Option sind die erwähnten Tabellen im offenen Iceberg-Format.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Zusammen mit Snowpipe Streaming sollen Dynamic Tables es Entwicklern erlauben, Transformationspipelines mit geringer Latenz zu erstellen und so innerhalb von Snowflake KI- und ML-Modelle zu entwickeln. „Das erleichtert und beschleunigt den Weg vom Prototyp bis zur Bereitstellung leistungsstarker datenbasierter Produkte“, sagte Snowflake-Manager Cristian Kleinerman.

Benoit Dageville, President of Product und Mitgründer von Snowflake, erklärte die auffallende Abwesenheit von BI-Werkzeugen damit, dass sich an dieser Stelle die Partner von Snowflake einbringen können: Qlik, Sigma oder Dataiku. Auch bei den Cloud-Plattformen sei man bei Snowflake agnostisch. Mit Partnern wie AWS, Azure und GCP könnten Snowflake-Kunden auch die regionalen Besonderheiten berücksichtigen, so etwa GDPR in Europa. „Viele unserer Kunden nutzen mehr als eine Cloud.”

Mit dem neu vorgestellten Werkzeug Snowflake Horizon seien die Kunden in der Lage, alle Belange von Governance, Security, Datenschutz und Compliance an einer einzigen Stelle zu verwalten und umzusetzen. Mit Snowflake Trail lasse sich die Beobachtung aller Datenoperationen auf der Cloud Data Platform nachverfolgen und überwachen.

KI und Entwicklung

Snowpark ist die Entwicklungsumgebung für Snowflake. Als leicht zu bedienendes Entwicklungsinterface kommt Snowflake Notebooks nun in die Public Preview. Es sei vollständig in die Snowflake-Plattform integriert, was den Zugriff auf zentrale Entwicklerwerkzeuge wie Snowpark ML, Streamlit und Snowflake Cortex AI vereinfachen soll. In Snowflake Notebooks könnten Entwicklerinnen und Entwickler Python, SQL, CUDA und Markdown nutzen, um mit ML-Pipelines zu experimentieren, von KI-gestützten Bearbeitungsfunktionen zu profitieren und Data-Engineering-Workflows zu vereinfachen.

Python-Entwickler profitieren zudem von der Public Preview der Snowpark Pandas API, welche es erlauben soll, die gewohnte Syntax von Pandas zu nutzen und für die Ausführung auf die Leistungsfähigkeit, Skalierbarkeit und Governance von Snowflake zurückgreifen zu können.

No-Code-Entwicklung für KI

Snowflake will die KI-Entwicklung mit dem neuen Snowflake AI & ML Studio beschleunigen. Snowflake Cortex AI bietet bereits Zugang zu einer Reihe an aktuellen Sprachmodellen von Anbietern wie Google, Meta, Mistral AI und Reka sowie Snowflakes eigenem Sprachmodell, Snowflake Arctic. Unternehmen sollen damit zum Beispiel innerhalb von Minuten Chatbots entwickeln können, um so direkt mit ihren Unternehmensdaten zu „sprechen“.

Apps für Partner

Nun sollen auch Native Apps – u. a. für Container Services – die Reichweite der Snowflake-Plattform in alle Branchen und alle Regionen ausweiten. Diese sind für alle Systemintegratoren und unabhängige Entwickler (ISVs) eine Chance, die Fähigkeiten der Data-Cloud-Plattform zu nutzen, um ihren Kunden neue Apps zu liefern. Auf dem Marketplace stünden bereits rund 160 Native Apps. Ein Inline Copilot soll die Programmierung erleichtern und beschleunigen, und die Integration mit GitHub erlaube die Bereitstellung neuer Apps auf einer öffentlichen Plattform.

Snowflake in Deutschland

Snowflake baut seine Präsenz in Deutschland dynamisch aus. „Unsere Niederlassungen in Berlin und München wachsen rasch“, berichtet Country Manager Jonah Rosenboom. „Inzwischen arbeiten in Deutschland über 150 Personen im Engineering-Bereich und im Vertrieb.“ Die Hauptwünsche der Kunden, die in den Branchen Fertigung, Automotive, Gesundheitswesen und Medien/Unterhaltung zu finden sind, beträfen die Nutzung generativer KI und die Beseitigung von Datensilos.

Das Verbrauchsmodell des Pay-as-you-go bedeute, dass ein Kunde nur für das bezahle, was er nutze. Deshalb seien alle Kunden auf kosteneffiziente Nutzung bedacht, ganz gleich, auf welcher Cloud-Plattform: AWS, Azure oder GCP. „Viele Kunden nutzen mindestens zwei dieser Provider.“ Die wichtigste KI-Anwendung seien Chatbots. Je schneller diese entwickelt werden könnten, desto besser. Dabei würden die Kunden nicht von Partnern wie dbt und Fivetran unterstützt, sondern auch von Partnern, die branchenspezifische Snowflake Native Apps liefern könnten.

Deutsche Anwender: Siemens

„Siemens ist ein sehr großer Anwender von Snowflake-Technologie.“ Dietmar Mauersberger, VP of Data and AI bei Siemens, stellte seine Datenplattform während einer der ersten Keynotes vor. „Wir haben eine Wissensplattform mit 9.930 Nutzern und 45 Petabyte Volumen auf die Beine gestellt, die zehn Millionen Abfragen pro Tag beantworten kann. Rund neun Terabyte Daten werden pro Tag umgewandelt, sodass sie abgefragt und in über 1.000 Projekten verwendet werden können. Hinsichtlich unseres Finanzmodells erzielten wir eine Kostenreduktion um 99,8 Prozent – aber das glaubt uns mal wieder keiner.” Die nächsten Ziele seien digitale Zwillinge und erweiterte Predictive Maintenance. Dafür will Siemens die eigene Software Mendix in Partnerschaft mit Snowflake einsetzen. „Das ist das Herz unserer digitalen Transformation“, so Mauersberger.

Deutsche Anwender: TUI Group

Die europäische Touristikbranche ist im Umbruch – kürzlich ist FTI insolvent gegangen. Der Reiseveranstalter TUI Group hatte zunächst das Problem, dass viele seiner Vertragspartner ihre eigene Datenbasis im System hatten, die auf einer gemeinsamen Plattform vereinheitlicht werden mussten, um sie miteinander teilen zu können. Die Firmenleitung beschloss, alle Daten auf AWS S3 in der Cloud zu halten, um schnelle und effiziente Entscheidungen auf der Grundlage aktueller Daten fällen und die gesamte Customer Journey abbilden zu können. Die Datenhaltung erfolgt inzwischen auf der Grundlage der Snowflake-Cloud-Data-Platform. Die Pandemie habe die Digitalisierung und die „Time to Market“-Pipeline beschleunigt.

„Wir nutzen das gesamte Snowflake Data Warehouse, ebenso Cortex AI und die Snowpark-Entwicklungsumgebung – es ist für uns ein One stop shop“, sagte Anastasiia Stefanska, Data Analyst und zuständig für Enablement und Community. Die Prozesse seien um das Zehnfache beschleunigt worden und die Betriebseffizienz wurde gesteigert. „Nun können wir viel mehr Kunden unterstützen, auch solche, die von anderen Reisegesellschaften kommen, und mehr Mitarbeiter einstellen und ausbilden“, so Stefanska. „Die Geschäftsleitung beschloss, KI intensiv auf Snowflake zu nutzen und dafür alle Mitarbeiter zu schulen. Diese KI-Apps werden auf der Basis von Cortex AI und geeigneten LLMs auf Snowpark entwickelt. Mit dem Tool Snowflake Streamlit können wir die nötige Regionalisierung einheitlich realisieren.“

(ID:50093190)