Suchen

Daten aus mehr als zwei Dutzend Systemen in ein Data Warehouse befördern Zalando nutzt Pentaho zur Datenintegration

Autor / Redakteur: Ludger Schmitz / Ulrike Ostler

Zalando, der Online-Anbieter für Schuhe und Fashion, analysiert Geschäftsprozesse mit einem Data Warehouse, das Daten aus bis zu 30 Systemen bezieht. Mit Pentaho Data Integration geht das so einfach, das die Hälfte seiner Nutzer Business Analysten sind.

Firma zum Thema

(Bild: Zalando)

Die Zalando-Shops in 15 europäischen Märkten verzeichnen monatlich mehr als 130 Millionen Besuche. Rund die Hälfte der mehr als 15 Millionen aktiven Kunden verwenden dabei mobile Endgeräte. Im zweiten Quartal 2015 stieg der Konzernumsatz im Vergleich zum Vorjahresquartal um mehr als ein Drittel auf rund 730 Millionen Euro. Ein wesentliches Element, um IT-technisch mit dem Wachstum mitzukommen und gleichzeitig die Kosten im Griff zu behalten, ist die weitgehende Verwendung von Open-Source-Lösungen.

Vielfältige Quellen im Data Warehouse zusammengefasst

Die bei Zalando notwendigen Daten stammen aus verschiedenen operativen Systemen des Unternehmen, aber auch aus anderen, externen Quellen. Das Fundament der Zalando-IT sind 25 bis 30 Systeme, vorwiegend auf Basis des quelloffenen Datenbank-Managementsystems PostgreSQL. Für ihre Nutzung gibt es ein Vielzahl von oft selbst entwickelten, maßgeschneiderten Lösungen, wobei Zalando ebenfalls auf Open-Source-Technologien zurückgreift.

Um die Daten aus den verschiedenen operativen Systemen in ein zentrales Data Warehouse laden zu können, ist ein Tool zur Datenintegration unverzichtbar. Zalando gab dabei wegen entsprechender Erfahrungen und den verwendeten offenen Schnittstellen Open Source den Vorzug. Ab 2012 verwendete der Internet-Shop zunächst die Community-Version von Pentaho Data Integration (PDI), auch bekannt unter dem Titel „Kettle“.

Von der Community- zur Enterprise-Version

Inzwischen arbeitet Zalando mit der Enterprise Edition von PDI. Die verfügt über umfassendere Funktionen und ermöglicht es zum Beispiel, „Extract Transform Load“ (ETL) Jobs zu managen und zentral zu speichern. Darüber hinaus bietet sie eine detaillierte Einsicht in die Änderungsverläufe. Mit Funktionen zum Teilen, Blockieren, Einsammeln und Abfragen von Log-Daten, erleichtert PDI darüber hinaus das Überwachen von ETL-Jobs.

(ID:43520525)

Über den Autor

 Ludger Schmitz

Ludger Schmitz

Freiberuflicher Journalist