Neue Datenverkehrs-Infrastrukturen sind für Big Data unumgänglich "52 Petabyte pro Tag wären schon mal ein Anfang"
Big Data ist ein Phänomen: Einerseits hilft es neue Erkenntnisse zu gewinnen und Prozesse zu verbessern, andererseits gestaltet es sich als ein größeres IT-Problem. Es sprengt die üblichen Dimensionen von IT-Technik, Management und Analyse durch den Anspruch an Realtime-Performance
Anbieter zum Thema
In den 1970ern und 80ern, noch bevor das Internet seinen Siegeszug startete, verwendeten Computer-Enthusiasten und Forscher Sneakernet, um Informationen auf ein tragbares Speichergerät zu laden und so große Dateien verschieben zu können. Mit dem Aufkommen von Big Data erlebt Sneakernet nun ein Comeback.
„Bei vielen Unternehmen ist Big Data ein großes Problem“, sagte Talli Somekh, CEO von AppSoma; ein Start-up, das eine Datenplattform entwickelt, die ursprünglich für Bioinformatik entworfen wurde. „Es ist eine Frage der Physik, einige der Datensätze sind so groß, dass man sie einfach nicht in der Cloud speichern kann."
Big-Data-Software, Sensoren und noch mehr Speed
Und tatsächlich verfrachten einige der größten und technologisch fortschrittlichsten Unternehmen der Welt zunehmend gesamte Speichersysteme von einem Ort zum anderen, nur um in der Lage zu sein, Daten zu teilen.
Die Nachfrage nach höheren Kapazitäten und leistungsfähigeren Systemen treibt die Welt zur dritten Phase der Big-Data-Evolution:
- In der ersten Phase entstanden Software-Technologien wie Hadoop und NoSQL für den Umgang mit sehr großen Datenmengen.
- Und noch während diese Phase keineswegs abgeschlossen war, setzte bereits die zweite ein. In dieser begann man mit dem Ausbau von zuverlässigen, wirtschaftlichen Sensoren und anderen Vorrichtungen zum Sammeln von Daten.
- Die dritte Phase wird sich nun auf die Infrastruktur konzentrieren. Kurz gesagt, es werden Neuerungen für Hardware, Software, Netzwerke und Datenzentren zur Verwaltung von riesigen Datenmengen benötigt, die durch die ersten beiden Phasen entstanden sind.
Hyperscale-Rechenzentren, Software-defined Networking und neue Speichertechnologien stellen die ersten Schritte in Richtung eines umfassenden Innovationszyklus dar.
Die lokale Infrastruktur ist eine Sackgasse für Big-Data-Anwender
Denn aus historischer Sicht brauchen neue Ideen immer auch neue Infrastrukturen. Die Erfindung des Automobils hat das Leben grundlegend verändert. Aber dadurch wurde auch die Entstehung von Straßen, Tankstellen und Autobahnen begünstigt. Straßenbelag, der bereits Jahrzehnte früher entwickelt wurde, war plötzlich begehrt. Glühbirnen machten die Nacht zum Tag und die steigende Nachfrage nach Licht führte zu Investitionen und Innovationen in Stromnetze, die mittlerweile ganze Nationen versorgen.
Ähnliche, zusammenhängende Entwicklungen verzeichnet man nun auch bei Big Data. Denn die potenziellen Vorteile von Big Data bestehen parallel mit der Notwendigkeit, diese durch einen Durchbruch in der Speicher- und Netzwerkinfrastruktur zu unterstützen. Beispielsweise bei Sicherheitskameras: Flughafensicherheitsmanager diskutieren bereits über die Möglichkeit eines Upgrades auf Ultra-HD oder 4K. Mit dieser Art von Auflösung würden die körnigen Bilder durch präzise, detaillierte und durchsuchbare Aufzeichnungen ersetzt, was Sicherheitsrisiken reduziert.
Eine einzige Minute in 4K-Videotechnik benötigt aber etwa 5,3 GByte Speicherplatz. Die 7.000 Überwachungskameras in London würden mit 4K-Technik 52 Petabyte an Informationen an einem Tag generieren. 4K ist also nicht nur für große Fernseher geeignet. Allerdings erfordert die Nutzung der Technik eine wesentlich verbesserte Infrastruktur.
Solche Aufgaben würden Facebook in die Knie zwingen
Ähnliche infrastrukturelle Probleme ergeben sich in den Biowissenschaften. Ein einziges menschliches Genom erfordert rund 200 GByte an reiner Speicherkapazität. Die Sequenzierung einer Million menschlicher Genome würde demnach etwa 200 Petabytes erfordern.
Im Jahr 2014 lud Facebook 600 Terabyte Daten pro Tag hoch. Bei diesem Tempo würde Facebook – Besitzer einer der weltgrößten Infrastruktur an Leistungsdaten – ein Jahr benötigen, um eine Million menschlicher Genome hochzuladen.
„Und das sind nur die Rohdaten aus dem Genome Sequencer“, bemerkte Somekh. Eine tiefergehende Datenanalyse erhöht zwangsläufig die Rechenleistungsanforderungen und zwingt die Forscher zwischen einer lokalen Bearbeitung und einer Bearbeitung in der Cloud auszugleichen. Die Anforderung nach mehr Speicher steigt auch hier.
Zeitgleich zu diesen auftretende Problemen haben Physiker ein Vertriebssystem entwickelt, das Flash-Speicher- und Netzwerk-Technologien eng miteinander verbindet, um den Zugang zu rund 170 Petabyte Datensätzen aus dem Large Hadron Collider (LHC, Großer Hadronen-Speicherring) des CERN Laboratory in Genf in der Schweiz für Forschungszentren auf der ganzen Welt bereitzustellen.
Diese Rechnersysteme haben die Fähigkeit, Daten von Platte zu Platte über ein Weitverkehrsnetz mit 100 Gbit/s Geschwindigkeiten zu übertragen, was es Teilchenphysikern erlaubt, Daten mit 73 GBit/s zu analysieren. Mithilfe dieser Erkenntnisse entdecken sie neue Teilchen und Kräfte, die dazu beitragen den Aufbau des Universums zu erklären. Doch woher kommt die ausreichende Performance beim Speicher?
Noop der CPU durch Systemlatenz
Big Data ist eines der faszinierendsten Konzepte unserer Zeit. Durch Big Data gewinnen wir einen größeren Einblick in die Welt um uns herum und können dadurch Dinge verbessern. Aber Big Data wird auch einen enormen Aufwand hinter den Kulissen erfordern, um Lösungen zu schaffen, welche die Technologie auf einen kompakten, kostengünstigen, zuverlässigen und umweltbewussten Weg führen.
Traditionelle Technologien und Architekturen für Rechenzentren sind häufig nicht auf das Ausmaß und die Geschwindigkeit dieser neuen, großen Herausforderungen im Bereich Big Data ausgerichtet. Sie bieten zwar robuste Leistung, aber das geht häufig mit höheren Infrastrukturkosten, einem höheren Stromverbrauch und einer größeren Komplexität einher.
Um diese Komplexität zu verringern, wird oftmals Virtualisierung vorgeschlagen. Virtualisierung hat den ROI und die Nutzung der Server-Infrastruktur erheblich verbessert, aber auch in den größten hyper-effizienten Cloud-Operationen wie Google, werden 20 bis 50 Prozent der Rechenzyklen noch immer verschwendet, da der Prozessor auf die Daten nicht schnell genug zugreifen kann.
Dieses Problem wird als Systemlatenz bezeichnet. Und in den meisten Rechenzentren heutiger Unternehmen kann die Systemlatenz sogar noch höher sein. Das kann für das Unternehmen Millionen oder sogar Milliarden Euro Verlust pro Jahr durch verlangsamte Transaktionen bedeuten.
Flash-Technologie bietet einen Lösungsansatz. Sie reduziert den Hardware-Footprint um mehr als 90 Prozent bei gleichzeitiger I/O-Erhöhung um ein 20-faches. Die Vorteile von Flash gerade bei Zukunftsapplikationen wie Big Data. Transaktionsverarbeitung und Media Streaming legen nahe, dass die Flash-Technologie ihren Siegeszug im Rechenzentrum fortsetzen wird. Offene Speicherlösungen wie Ceph und neuartige Systemdesigns werden die Beliebtheit dieser Technologie darüber hinaus weiter steigern.
(ID:43707861)