Suchen

Bürgen für den Datenschutz und Bergen von Datenschätzen Der Nutzen einer Datenklassifizierung mithilfe von Metadaten

Autor / Redakteur: Siegfried Betke* / Ulrike Ostler

Wenn schon, denn schon. Eine Umsetzung der Datenschutzgrundverordnung erfordert in jedem größeren Unternehmen eine Datenklassifizierung. Erst recht gilt dies bei anderen Compliance-Vorgaben wie ISO 27001, KonTraG oder für Betreiber kritischer Infrastrukturen.

Firma zum Thema

Schutz der Daten und Schutz der Unternehmens- sowie Persönlichkeitsrechte lässt sich wirksam mithilfe von Metadaten fördern (siehe auch: Bildergalerie).
Schutz der Daten und Schutz der Unternehmens- sowie Persönlichkeitsrechte lässt sich wirksam mithilfe von Metadaten fördern (siehe auch: Bildergalerie).
(Bild: Treeconsult)

Nur eine Organisation, die markiert, welche Daten besonders zu schützen sind, nach bestimmten Zeiten zu löschen sind oder deren Zugänglichkeit einzuschränken ist, kann die Vorschriften auf Dauer und personenunabhängig befolgen und dies auch gegenüber Prüfern belegen. Und wenn ein Unternehmen schon beginnt, zu diesem Zweck Dateien mit Metadaten anzureichern, dann kann es dies auch gleich richtig tun.

Dann kann es unter Nutzung von Machine Learning den Daten weitaus mehr Infos mit auf den Weg geben. Ziel ist es dann nicht nur, für Datenschutz zu sorgen, sondern den vorhandenen Datenschatz für verschiedenste Funktionen zugänglich zu machen: Dazu gehören neben Informationssicherheit und Data Loss Prevention zum Beispiel ein intelligentes Speicher-Management und Big Data Analysen.

Unstrukturierte Daten sind eine Black Box

Beispiele folgen, doch fangen wir vorne an: Die meisten Daten in Unternehmen sind unstrukturiert. Von außen betrachtet sind sie eine Art Black Box. Sie nur für die Mitarbeiter wirklich gut nutzbar, die von ihrer Existenz wissen oder ihren Inhalt kennen. Die Frage, wie schützenswert oder wie vertraulich sie sind, können oft nur diejenigen beantworten, die sie erstellt haben. Bislang regelt die IT den Zugriff darauf meist auf der Basis von Laufwerkszugriffen und Rollenzuweisungen an die Mitarbeiter, also über Storage-zentriertes Daten-Management.

Fortschreitende Vernetzung, die Vielfalt der Endgeräte, BYOD und neue Ansätze wie DevOps und Containerization, machen den Überblick über die Daten mit diesen herkömmlichen Methoden immer schwieriger. Konnte man früher zum Beispiel Datensätze relativ einfach final löschen, gibt es heute extreme Unsicherheiten: Bei einem Storage-zentrierten Daten-Management ist nicht nachvollziehbar, wie viele Kopien einer Datei im Umlauf sind, wo sie liegen, oder ob es zu einer Datei eine aktuellere Version gibt.

Heutige Technologien machen es jedoch einfacher als je zuvor, Struktur in unstrukturierte Daten zu bekommen, um eine datenzentriertes Business zu unterstützen. Wie macht man das? Starten wir mit einem einfachen Fall der Datenklassifizierung. Eine Organisation will wissen: Welche meiner Dateien enthalten personenbezogene Daten, zum Beispiel Namen, Geburtsdaten, Adressen, Kreditkartennummern oder Zahlungsdaten? Sie will wissen, wo die Daten liegen - nicht nur bezogen auf Server und Storage-Systeme, sondern auch auf Endgeräte oder Cloud-Instanzen.

Klassifizierung: Post-it für alle Daten

Diesen Job übernimmt Klassifizierungssoftware. Lösungen wie „Titus“ crawlen durch die gesamte Unternehmensumgebung und reichern alle gefundenen Dateien mit Metadaten an. Sie bringen von Haus aus eine hohe Intelligenz mit, um praktikable Klassifizierungen durchzuführen und werden zusätzlich mittels Machine Learning immer besser, je mehr Dokumente einer Organisation sie bearbeiten.

Ein typisches Verfahren ist daher, dass man in einem Pilotprojekt zunächst einige Gigabyte an Daten klassifiziert, sich die Ergebnisse anschaut, nachjustiert, und dann nach und nach Terabytes bis hin zu Petabytes an Daten analysieren und klassifizieren lässt. So wird das System auf die Dateien im jeweiligen Unternehmen trainiert.

Bildergalerie
Bildergalerie mit 7 Bildern

Da auch unstrukturierte Dokumente meist einer gewissen Logik folgen, erreichen die heutigen Tools bei der Klassifizierung mittels Machine Learning Trefferquoten von nahezu 100 Prozent - und in jedem Fall mehr, als bei einer aufwändigen manuellen Bearbeitung erreichbar wären. Der Administrationsaufwand ist nach den ersten Weichenstellungen äußerst gering, und mit nur wenigen wenigen Kilobyte pro Datei fällt auch der Footprint der Metadaten kaum ins Gewicht.

Die entstandenen Metadaten kann man sich vorstellen wie ein Post-it, den das Unternehmen an die Black Box klebt, um zu wissen, welche Informationen enthalten sind und wie damit umzugehen ist, ohne die Datei zu öffnen. Einziger Unterschied: Die Metadaten lassen sich nicht unbemerkt entfernen.

Wie klassifiziert ein Unternehmen richtig?

In der Regel werden Daten in eine von vier Geheimhaltungsstufen eingeordnet. Diese reichen von „öffentlich“, über „intern“ und „vertraulich“ bis hin zu „sehr vertraulich“. Es wird darüber hinaus zusätzlich markiert, welche Art von personenbezogenen Daten (siehe oben) in dem Dokument enthalten sind. Die Klassifizierung basiert auf unterschiedlichen Dimensionen wie „Beeinträchtigung der Aufgabenerfüllung“, „Gefährdung für Leib und Leben“, „finanzielle Auswirkungen“ und „Datenschutz“.

Entscheidend ist die Dimension, die den höchsten Geheimhaltungsgrad verlangt (siehe Grafik „Vererbung Schutzgrad“). Vertrauliche Dokumente dürfen dann zum Beispiel nur rollenbasierte an autorisierte Personen weitergegeben werden, sehr vertrauliche Dokumente ausschließlich an einen namentlich festgelegten Personenkreis. Die Vertraulichkeitsstufe vererbt sich auf jede Kopie und im Fall von Ordnern auf jedes Dokument darin.

Damit kommen wir zum Punkt „Wenn schon, denn schon“.

Heutige Klassifizierungssoftware-Produkte sind potenziell mächtige Instrumente, die unseren Umgang mit unstrukturierten Daten völlig verändern können: Zusätzlich zur Vertraulichkeitsstufe und DSGVO-relevanten Informationen kann eine solche Software im gleichen Rutsch weitere Merkmale in die Metadaten schreiben. Zum Beispiel lässt sich konkret definieren, welche Daten nicht auf einen USB-Datenträger geschrieben werden dürfen, welche nicht in die Cloud verschoben werden dürfen, welche nur in einem bestimmten Land gespeichert werden dürfen oder welche nur in verschlüsselter Form abgespeichert werden dürfen.

Customized Metadata

Und weiter: Ein Finanzinstitut könnte alle Dokumente markieren, die sich auf Bausparverträge beziehen. Eine Klinik könnte Patientenakten als solche kennzeichnen, ein Maschinenbauer Konstruktionspläne. Durch Anbindung externer Datenbanken oder Nutzung von Algorithmen können Metadaten um Informationen angereichert werden, die gar nicht im Ursprungsdokument enthalten waren.

Zum Beispiel können Vertriebsdokumente anhand der Postleitzahl in den Metadaten einer bestimmten Vertriebsregion zugeordnet und der Zugriff anschließend auf die entsprechenden Mitarbeiter eingeschränkt werden. Der Granularität und Fantasie sind keine Grenzen gesetzt, die Metadaten lassen sich auf den individuellen Bedarf der Organisation maßschneidern („customized metadata“).

Bildergalerie
Bildergalerie mit 7 Bildern

Unternehmen setzen bei der Transition in ein metadatenbasiertes Daten-Management meist auf Vollautomatisierung und Regeln, um den vorhandenen Datenbestand anzureichern. Dagegen nutzen sie bei neu angelegten Dokumenten oft die halb-automatisierte Anreicherung von Metadaten.

Das heißt, der Anwender erhält beim Speichern einen Vorschlag der Software, wie die Datei zu klassifizieren ist. Der Anwender kann diese Empfehlung modifizieren. Die Abweichungen werden dokumentiert und je nach Konfiguration reportet.

Nach einem ähnlichen Prinzip konfigurieren viele Unternehmen den Umgang mit vertraulichen Daten: Will zum Beispiel ein Mitarbeiter eine als „intern“ markierte Datei an eine externe Mail-Adresse senden, erhält er einen Warnhinweis. Diese kann er per Mausklick 'overrulen'. Der Administrator erhält Informationen, wie oft Mitarbeiter sich über die Empfehlungen hinwegsetzen und wird genauer hinschauen, wenn dies in einer Abteilung oder bei einem Mitarbeiter häufig der Fall ist.

Der Nutzen von Metadaten: Von Firewalls bis Big Data

Liegen erst einmal Metadaten vor, lassen sich diese von anderen Systemen über den gesamten Data Lake hinweg nutzen, um Mehrwert zu generieren. Einige Beispiele dafür:

  • Firewalls, wie „Clavister“ - Welche Dateien dürfen von einem Netzwerksegment in ein anderes verschoben werden?
  • Data Loss Prevention, wie von McAfee - Welche Dateien dürfen das Unternehmen verlassen?
  • Managed File Transfer, wie „Moveit“ - Welche Dateien dürfen nur über MFT an Partner versendet werden?
  • Global File Share Services, wie „Hammerspace“ - Wo werden Daten gespeichert (welches Storage-System, welches Land, welche Cloud)? Wann werden Daten auf billigeren Speicher verschoben oder gelöscht?
  • Enterprise Managed Archive (EMA), wie „Artec“ - Wie werden Daten DSGVO-konform und revisionssicher aufbewahrt?
  • Analytics Software, wie „Teradata“ - Wo sind alle Verträge einer bestimmten Kategorie, damit ich diese automatisiert auswerten lassen kann (Big Data Analyse).

Der Bottom-up-Ansatz im Daten-Management

Metadatenbasiertes Daten-Management verändert den Umgang mit Daten also ganz grundsätzlich. Klug gestaltete Gesamtlösungen bieten erhebliche Vorteile bei Datenschutz, Sicherheit und Kostenstruktur - und das, ohne dass Unternehmen ihre IT-Infrastruktur anfassen müssten. Es ergänzt vorhandene Top-Down-Ansätze im Daten-Management sozusagen um einen Bottom-Up-Ansatz: Neben einen rein hierarchischen Ansatz tritt eine „innere Führung“ von Daten.

Siegfried Betke ist Senior Data Management Consultant bei Treeconsult.
Siegfried Betke ist Senior Data Management Consultant bei Treeconsult.
(Bild: Treeconsult)

Eine Gesamtlösung ist eine jeweils auf ein bestimmtes Unternehmen zugeschnittene Individuallösung, die aus einer Klassifizierungssoftware und mehreren Softwareprodukten als Nutznießern besteht. Wichtig für den Erfolg ist, dass Unternehmen in der Transition die erforderlichen Metadaten und Kategorien zum Anfang mit erfahrenen Beratern definieren und die Systeme sorgsam trainieren.

Davon abgesehen ist die Einführung erstaunlich einfach. Die Klassifizierung ist meist innerhalb weniger Tage abgeschlossen und bietet anschließend einen nie gekannten Überblick über den gesamten Data Lake - also den gesamten Datenbestand über alle Backend-Systeme, Endgeräte und Cloud-Instanzen hinweg.

* Siegfried Betke ist Daten-Mangement Consultant bei der Treeconsult GmbH.

(ID:46918062)