Suchen

AsterixDB soll letzte Lücken bei Big Data schließen Neue Open-Source-Datenbank für Big Data im Apache-Inkubator

Autor / Redakteur: Dipl. -Ing. Thomas Drilling / Nico Litzel

Mit dem neuen Daten-Management-System AsterixDB sollen sich künftig auch riesige Mengen semi-strukturierter Daten speichern und analysieren lassen.

AsterixDB analysiert semi-strukturierte Daten
AsterixDB analysiert semi-strukturierte Daten
(Bild: AsterixDB, UCI.edu)

Ein internationales Kernentwicklerteam der University of California (UC), Irvine, arbeitet derzeit mit weiteren Entwicklern der UC Riverside und der Hebrew University Jerusalem an einem neuen Open-Source-Datenbanksystem, genannt „Asterix DB“. Das Datenbanksystem soll eine noch bestehende Lücke im Big-Data-Segment schließen, indem es künftig auch semi-strukturierte Daten in sehr großem Umfang speichern, strukturieren und analysieren können soll.

Was ist AsterixDB?

Viele Unternehmen sammeln in Kontext von Big Data derzeit Erfahrungen mit NoSQL und orientieren sich von klassischen relationalen SQL-Datenbanken weg, obgleich es inzwischen zahlreiche Datenbank-Projekte im Big-Data-Umfeld oder als Teil der gängigen Hadoop-Distributionen gibt, die das Abfragen von Big Data mit einer SQL-ähnlichen Abfragesprache erlauben, auch in Echtzeit. Was bisher aber noch fehlt, ist ein parallel arbeitendes DBMS, das auch semi-strukturierte Daten in sehr großem Umfang verwaltet.

Asterix DB ist, ähnlich wie das derzeit äußerst populäre Mongo DB, ein hochskalierbares Daten-Management-System, das in der Lage ist, semi-strukturierte Daten zu speichern und zu indizieren. Asterix DB soll laut Aussage der Entwickler eine eigene Abfragesprache (AQL) für semistrukturierte Daten erhalten und außerdem mit Hyracks eine parallele Datenabfrage und Partitionierung erlauben. Dazu baut das System auf einem auf JSON beruhenden NoSQL-Modell (ADM) auf.

Kooperationen und Community

Während Asterix DB ursprünglich als universitäres Projekt gestartet ist, hat es sich inzwischen zu einem echten Community-Projekt entwickelt und ist seit Februar 2015 im Incubator der Apache Software Foundation.

Mit der Asterix-DB-Community wollen die Initiatoren eine möglichst international aufgestellte und heterogene Entwicklergemeinde fördern. Zusätzlich sollen durch Kooperationen, etwa mit der TU Berlin und dem Indian Institute of Technology Mumbai, weitere Partner gefunden werden, auch aus der freien Wirtschaft.

Ferner gibt es „verwandtschaftliche“ Beziehungen zu anderen Apache-Projekten, darunter auch „Apache VXQuery“, das auf der „Hyracks Data-Parallel Runtime“ basiert und Teil der Asterix-DB-Code-Basis ist.

Asterix ist zudem eng mit Apache Hadoop verwandt und enthält daher eine Unterstützung für den Zugriff auf externe, im HDFS- oder Hive-Format gespeicherte Daten. Die AQL-Abfragesprache ist zudem ähnlich mächtig und konzeptionell vergleichbar mit Apache-Pig- und Hive-Systemen zur Big-Data-Analyse.

Allerdings weist Asterix DB einige Besonderheiten bei der Art des Speicherns und Indizierens auf. So sind die Data-Storage- und Indexing-Fähigkeiten eher mit denen von HBase vergleichbar. Jedoch unterscheidet sich AsterixDB von HBase insofern, als dass dieses viel umfassender ist, nicht wie bei einem einfachen Key-Value Store.

Weitere Informationen:

https://wiki.apache.org/incubator/AsterixDBProposal

http://asterixdb.ics.uci.edu/

(ID:43293026)

Über den Autor

Dipl. -Ing. Thomas Drilling

Dipl. -Ing. Thomas Drilling

IT-Consultant, Trainer, Freier Journalist