Daten aus mehr als zwei Dutzend Systemen in ein Data Warehouse befördern

Zalando nutzt Pentaho zur Datenintegration

| Autor / Redakteur: Ludger Schmitz / Ulrike Ostler

(Bild: Zalando)

Zalando, der Online-Anbieter für Schuhe und Fashion, analysiert Geschäftsprozesse mit einem Data Warehouse, das Daten aus bis zu 30 Systemen bezieht. Mit Pentaho Data Integration geht das so einfach, das die Hälfte seiner Nutzer Business Analysten sind.

Die Zalando-Shops in 15 europäischen Märkten verzeichnen monatlich mehr als 130 Millionen Besuche. Rund die Hälfte der mehr als 15 Millionen aktiven Kunden verwenden dabei mobile Endgeräte. Im zweiten Quartal 2015 stieg der Konzernumsatz im Vergleich zum Vorjahresquartal um mehr als ein Drittel auf rund 730 Millionen Euro. Ein wesentliches Element, um IT-technisch mit dem Wachstum mitzukommen und gleichzeitig die Kosten im Griff zu behalten, ist die weitgehende Verwendung von Open-Source-Lösungen.

Vielfältige Quellen im Data Warehouse zusammengefasst

Die bei Zalando notwendigen Daten stammen aus verschiedenen operativen Systemen des Unternehmen, aber auch aus anderen, externen Quellen. Das Fundament der Zalando-IT sind 25 bis 30 Systeme, vorwiegend auf Basis des quelloffenen Datenbank-Managementsystems PostgreSQL. Für ihre Nutzung gibt es ein Vielzahl von oft selbst entwickelten, maßgeschneiderten Lösungen, wobei Zalando ebenfalls auf Open-Source-Technologien zurückgreift.

Um die Daten aus den verschiedenen operativen Systemen in ein zentrales Data Warehouse laden zu können, ist ein Tool zur Datenintegration unverzichtbar. Zalando gab dabei wegen entsprechender Erfahrungen und den verwendeten offenen Schnittstellen Open Source den Vorzug. Ab 2012 verwendete der Internet-Shop zunächst die Community-Version von Pentaho Data Integration (PDI), auch bekannt unter dem Titel „Kettle“.

Von der Community- zur Enterprise-Version

Inzwischen arbeitet Zalando mit der Enterprise Edition von PDI. Die verfügt über umfassendere Funktionen und ermöglicht es zum Beispiel, „Extract Transform Load“ (ETL) Jobs zu managen und zentral zu speichern. Darüber hinaus bietet sie eine detaillierte Einsicht in die Änderungsverläufe. Mit Funktionen zum Teilen, Blockieren, Einsammeln und Abfragen von Log-Daten, erleichtert PDI darüber hinaus das Überwachen von ETL-Jobs.

Inhalt des Artikels:

Was meinen Sie zu diesem Thema?

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 43520525 / RZ-Tools)