Lupen für die Suche nach der Nadel im Heuhaufen Big Data Appliances - weder immer Hadoop noch einfach

Autor / Redakteur: Michael Matzer / Ulrike Ostler |

Big Data Appliances versprechen eine einfache Handhabung von Analysen, die auf die riesige Mengen an Rohdaten, in verschiedenen Graden strukturiert, angewendet werden. Insbesondere der Mittelstand ist der Adressat. Doch bei genauerem Hinsehen genügen viele Appliances diesem Anspruch nicht. DataCenter-Insider stellt acht vor.

Anbieter zum Thema

Dieser SGI Hadoop-Cluster umfasst 1200 Rack-Server bei einer US-Regierungsbehörde.
Dieser SGI Hadoop-Cluster umfasst 1200 Rack-Server bei einer US-Regierungsbehörde.
(Bild: SGI)

Eine Appliance ist Hardware, die für einen bestimmten Zweck mit einer bestimmten Software-Lösung bestückt und konfiguriert worden ist. Ein weiteres Merkmal ist die Einfachheit der Bedienung (ease of use), um dem spezifischen Nutzer schnell zu Ergebnissen zu verhelfen.

Das Versprechen der Hersteller von Big Data Appliances: einfache Handhabung der Analysetechniken, die auf die enorm wachsenden Mengen polystrukturierter Daten angewendet werden können.Vielfach greifen sie dabei auf Apache Hadoop und Google MapReduce als wohlbekannte Technologien zurück.

SAP HANA SP4

Da die HANA Appliance von SAP bereits vielen Lesern vertraut sein dürfte, kann man sie gut als Maßstab heranziehen, um die Kategorie der Big Data Appliances zu illustrieren. Je nachdem, wer die Appliance hergestellt hat, warten 80 bis 96 Rechenkerne darauf, mit Daten aus dem bis zu 2048 Gigabyte großen RAM eines 64-Bit-Servers gefüttert zu werden. Durch Kompression werden aus diesen 2 Terabyte dann 20 Terabyte, in einem 8-Server-Cluster also 160 Terabyte.

Mit dem Service Pack 4 hat SAP den Einsatzbereich der HANA-Appliance von der Analyse großer Datenmengen auf die Verarbeitung von Texten wie Blogs und Tweets ausgeweitet. Die Quellen für polystrukturierte Daten, ein zentrales Merkmal von Big Data, sind nicht mehr auf das „Netweaver BW“ beschränkt, sondern umfassen auch „Sybase IQ“ und „Hadoop“-Datenquellen.

Die Hadoop-Unterstützung ermöglicht laut SAP „schnellere Leistung durch das Lesen aus und das Laden in "Hive" und Hadoop Distributed File System (HDFS), schnelles Batch-Updating und Laden in SAP HANA, SAP Sybase IQ-Server und jeden anderen Datenspeicher“.

Oracle Big Data Appliance

Die Oracle Big Data Appliance besteht auf der Geräteseite aus „Exadata“, „Exalogic“ und der „Exalytics“ In-Memory Machine. Das sind schon mal 18 Oracle Sun Server mit 864 GB RAM, die aber immerhin durch schnelle Infiniband-Kabel (40 Gigabit pro Sekunde) verbunden sind.

Auf der Softwareseite finden sich Clouderas Distribution inklusive Apache Hadoop (CDH), der „Cloudera Manager“ dafür, Oracle Linux und eine Distribution der Sprache R. Neu sind zudem die Oracle Big Data Connectors, die dem Kunden helfen sollen, Datenquellen wie Hadoop, „Oracle NoSQL“ Database und „Oracle Database 11g“ anzuzapfen.

Wie schon die Zahl der nötigen Sun Server andeutet, handelt es sich hier nicht um Peanuts. Bemerkenswert ist dabei, dass als Hauptspeicher weniger Kapazität angeboten wie als von SAP HANA, nämlich nicht einmal 900 Gigabyte. Der IT-Blogger Adam Ronthal sieht in diesem System die Komplexität, die mit Oracle RAC (Real Application Cluster) verbunden ist: „Das ständige Tunen und Optimieren erfordert kleine Heerscharen von DBAs, damit eine Oracle-Umgebung reibungslos läuft.“ Und wenn Hunderte von Schaltern und Knöpfen erforderlich sind, um eine Umgebung zu tunen, vermittle dies nicht gerade den Eindruck einer Appliance.

(ID:35613520)