Suchen

Spaltenorientierte Datenspeicherung für Hadoop Apache Parquet wird Top-Level-Projekt

| Autor / Redakteur: Dipl. -Ing. Thomas Drilling / Nico Litzel

Die Apache Software Foundation (ASF) hat das das Open-Source-Projekt „Parquet“, ein spaltenorientiertes Speicherformat für das Hadoop-Ökosystem, zum Top-Level Projekt befördert.

Parquet: Spaltenorientiertes Speicherformat für Hadoop
Parquet: Spaltenorientiertes Speicherformat für Hadoop
(Bild: Apache Software Foundation, Twitter)

Das quelloffene Parquet fungiert als spaltenorientiertes Speichersystem für das Hadoop-Ökosystem und wurde von der Apache Software Foundation aus dem Incubator der Stiftung jetzt zum Top-Level-Projekt befördert.

Mehr Effizienz bei verschachtelten Namensräumen

Parquet versteht sich als alternatives Speicherformat für das Hadoop-Ökosystem. Parquet wurde von Grund auf für den Umgang mit verschachtelten Datenstrukturen entwickelt und nutzt den „Record-shredding-and-assembly“-Algorithmus, wie er in Dremel beschrieben ist. Die Parquet-Entwickler glauben, dass sich dieser Ansatz besser zur „Verflachung“ verschachtelte Namensräume eignet und letztendlich die Latenz beim Datenzugriff verringert.

Da das Format spaltenorientiert funktioniert, ermöglicht es sehr effiziente Kompressions- und Codierungsverfahren zur Reduzierung des Speicherbedarfs. Parquet ist sehr flexibel und funktioniert über das von der jeweiligen Big-Data-Anwendung verwendete Verarbeitungs-Framework (MapReduce, Apache Spark, Scalding, Cascading, Crunch, Kite), Datenmodell (Apache Avro, Apache Thrift, Protocol Buffers, POJOs) und Abfrage-Engine (Apache Hive, Impala, HAWQ, Apache Drill, Apache Tajo, Apache Pig, Presto, Apache Spark SQL) hinweg.

Weitere Informationen

Weitere Details zu den in Parquet verwendeten Algorithmen stellt die Apache Software Foundation in der Dokumentation sowie im „alten“ GitHub-Repositorium des Projekts zur Verfügung. Seit dem Wechsel zur Apache Software Foundation steht die aktuelle Version 1.6 allerdings im zentralen Maven-Repository der Foundation zum Herunterladen zur Verfügung. Auf Github finden sich nur noch ältere Versionen. Ebenfalls sehr aufschlussreich ist eine Video-Präsentation vom letztjährigen Hadoop-Summit.

Prominente Nutzer

Twitter gehört wie Netflix und Cloudera (Impala) zu den Early Adoptors von Parquet
Twitter gehört wie Netflix und Cloudera (Impala) zu den Early Adoptors von Parquet
(Bild: Twitter)
Zu den prominentesten Nutzern von Parquet gehören Netflix, Cloudera und Twitter. Laut Chris Aniszczyk, Open-Source-Leiter von Twitter, konnte Parquet in einigen Fällen die Speicheranforderungen für große Datensätze um ein Drittel reduzieren. Bei Netflix kommt Parquet laut Daniel Weeks, Software Engineer bei Netflix, als primäres Storage-Format für Data Warehousing zum Einsatz. Mehr als sieben Petabyte des zehn Petabyte umfassenden Warehouses bei Netflix seien Daten im Parquet-Format, auf das Netflix mit einer breiten Palette an Anwendungen zugreife, darunter Apache Hive, Apache Pig, Apache Spark, PigPen, Presto und natives MapReduce.

*Der Autor:

Thomas Drilling schreibt als freier Autor und pflegt seinen eigenen Open-Source-Blog auf DataCenter-Insider.

(ID:43373196)

Über den Autor

Dipl. -Ing. Thomas Drilling

Dipl. -Ing. Thomas Drilling

IT-Consultant, Trainer, Freier Journalist