Der De-facto Standard für den Internet-Speicher, Teil 2 1A-Transportsupport und -services zwischen alter und neuer Speicherwelt

Autor / Redakteur: lic.rer.publ. Ariane Rüdiger / Rainer Graefen

Der Zuspruch zu Amazons Webservices wächst. Die Hilfestellung des Unternehmens für die Migration von kleinen bis sehr großen Datenbeständen ist granular gestaltet. Trotzdem sollten sich Anwender klar machen, dass 1 Cent pro Gigabyte für das preiswerteste Speicherangebot nicht billig ist.

Anbieter zum Thema

Was speichert AWS S3? Grundsätzlich alles. Allerdings gibt es, wenn bestimmte Funktionen angestrebt werden, Einschränkungen. S3 speichert Daten als Objekte in sogenannten Buckets.
Was speichert AWS S3? Grundsätzlich alles. Allerdings gibt es, wenn bestimmte Funktionen angestrebt werden, Einschränkungen. S3 speichert Daten als Objekte in sogenannten Buckets.
( Amazon)

Eine weitere Option ist Reduced Redundancy, hier werden bei der zuverlässigen Vermeidung von Objektverlusten nur noch vier Neunen erreicht. „Dafür teilen wir aber im Falle eines Falles mit, welche Objekte verloren gehen“, sagt Gonzalez, so dass man sie aus anderen Quellen wieder restaurieren könne.

Seit 2012 archiviert AWS unter der Servicebezeichnung Glacier Daten in unbegrenzten Mengen auf unbegrenzt vielen virtuellen Bändern. Die Preise werden niedriger mit sinkender Zugriffsgeschwindigkeit – Glacier-Kapazität kostet nur einen Cent pro GByte und Monat.

Keine Datalakes, aber Objectbuckets

Was speichert AWS S3? Grundsätzlich alles. Allerdings gibt es, wenn bestimmte Funktionen angestrebt werden, Einschränkungen. S3 speichert Daten als Objekte in sogenannten Buckets (zu deutsch: Eimern), wobei ein Objekt bis zu 5 TByte groß sein kann – es passt also durchaus eine ganze Datenbank respektive Datenbanktabelle in ein solches Objekt, beispielsweise das Backup einer solchen.

In S3 erfolgt der Zugriff aber regelmäßig auf das gesamte Objekt – also auf das, was der Anwender als Objekt definiert und als solches auf den S3-Speicher geladen hat. Beim Datenbankzugriff will man aber regelmäßig nicht die gesamte Datenbank, sondern eben nur den Teil, der die Antwort auf die Suchabfrage enthält.

Hier rät das AWS-S3-Webforum eher zu AWS-Blockstorage (EBS).

Glück für AWS, dass die zukünftigen Datenmassen vorwiegend aus Objekten und anderen unstrukturierten Daten bestehen werden – man denke nur an die Massen von Bildern aus Video-Überwachungssystemen, Fotos, Audioaufnahmen, Messages von IoA (Internet of Anything)-Endgeräten und so weiter.

Speed und Sicherheit schließen sich nicht aus

Für mehr Speed und Skalierbarkeit hat AWS seine S3-Infrastruktur in Server, die Daten speichern, und Server, die lediglich S3-Schnittstellen handhaben, aufgeteilt. Wird mehr Kommunikationsvolumen benötigt, arbeiten mehr Schnittstellenserver, braucht man mehr Speichervolumen, wächst der Storage-Anteil der Infrastruktur. Das bewirkt, dass die Ein-/Ausgabe keinen Engpass mehr darstellt, woran Vor-Ort-Infrastrukturen nur allzu häufig kranken.

Sobald Objekte in S3 hochgeladen oder dort gelöscht werden, kann man Ereignisbenachrichtigungen über Amazon SNS (Push-Nachrichtenservice von Amazon) oder SQS (Messaging-Service von Amazon) verschicken lassen – zum Beispiel an AWS Lambda, um sofort Aktionen auszulösen, etwa einen bestimmten Workflow. AWS Lambda ist ein Datenverarbeitungsservice, durch den sich andere AWS-Services mit kundenspezifischer Logik anreichern lassen. Beispielsweise könnte man definieren, dass Mediendaten sofort beim Hochladen transkodiert werden.

Lebenszyklus-Management mit Compliance

Wer mehrere Versionen von Objekten hält, kann auf alle Versionen zugreifen und im Falle unbedachter Änderungen den vorherigen Zustand wieder herstellen. Allerdings kostet die Speicherung jeder Version etwas. Außerdem bietet S3 Funktionen für das Lebenszyklus-Management der Daten, beispielsweise können Nutzer Regeln für die Verschiebung von Speicherobjekten von einer Speicherklasse in eine andere festlegen, um die Kosten zu optimieren oder um Compliance-Regeln einzuhalten.

Auch die Sicherheit vor unbefugten Zugriffen spielt für AWS S3 eine wichtige Rolle. So werden die Daten beim Transport grundsätzlich SSL-verschlüsselt. Für die Verschlüsselung auf dem Server (Serverside Encryption, SSE) gibt es mehrere Varianten: Wählt der Kunde SSE-S3 überlässt er Amazon die Verschlüsselung und die Schlüsselverwaltung.

Bei SSE-C kommen die Schlüssel vom Kunden, die Verschlüsselung selbst übernimmt S3. Dabei braucht man für jedes Objekt einen Schlüssel, der diesem jeweils beim Upload hinzugefügt und nach der Speicherung des verschlüsselten Objekts gelöscht wird.

SSE-KMS bedeutet, dass S3 die Kundendaten mit Schlüsseln verschlüsselt, die vom AWS Key Management Service erzeugt wurden. In AWS KMS gibt es separate Berechtigungen für die Masterschlüssel. Zudem speichert die Lösung, wer wann welche Schlüssel für den Zugriff auf welche Objekte genutzt hat und wann fehlgeschlagene Versuche zum Objektzugriff durch wen durchgeführt wurden. Aktionen in S3 lassen sich über den Service CloudTrail verfolgen.

Mehrere Upload-Möglichkeiten

Wie kommen die Daten in S3? Dafür gibt es drei Möglichkeiten: Erstens lassen sich dafür die ohnehin vorhandenen Internet-Verbindungen benutzen, wobei auch keine zusätzlichen Kosten entstehen. Allerdings sind diese für größere Datenmengen, etwa im Terabyte-Bereich, zu langsam. Wenn es schneller gehen soll, stellt Amazon zwei Möglichkeiten bereit.

Zum einen Direct Connect: Darunter versteht AWS Direktverbindungen zwischen einer Kundenlokation und einem Amazon-Rechenzentrum. Sie lassen sich über VPN (Virtual Private Networking) nach 802.1q in mehrere separate logische Verbindungen auftrennen, über die Daten direkt in die vorgesehenen Buckets eingestellt werden.

Dabei stehen Verbindungsbandbreiten zwischen einem und zehn GBit/s zur Verfügung, die Portbandbreiten können von 50 MBit/s bis 10 GBit/s variieren. AWS empfiehlt Direct Connect, das in Europa zu den Rechenzentren Frankfurt und Irland möglich ist, bei großen Datensätzen, Echtzeitdaten-Feeds und für den Aufbau von Hybrid Clouds.

In letztgenanntem Anwendungsfall kann vom privaten Netzwerk eine VPN-Verbindung zu S3, aber auch zu einer oder mehreren Amazon Virtual Private Clouds (VPC) aufgebaut werden, die wiederum ihre Daten möglicherweise zum Teil in S3 speichern dürften. Wer eine AWS-VPC betreibt, kann diese so konfigurieren, dass sie direkt und sicher auf S3-Speicher zugreift. Man spricht hier von einem VPC-Endpunkt.

(ID:44067792)