Datenerkennung und Definition von Metadaten Datenprofilierung von Datenbank-, Flat-File- und Dark-Data-Quellen

Quelle: Pressemitteilung

Datenprofile, Scans, E-R-Diagramme und Bewertungen von Datenqualität sind wertvolle Prädikate für die Datenanalyse. Das Werkzeug „IRI Voracity“ der Jet-Software GmbH bietet innerhalb einer Konsole, die auf dem Framework „Eclipse“ aufgebaut ist, mehrere Tools zur Datenerkennung und Definition von Metadaten für die Suche und Organisation von Datenquellen auf lokalen und entfernten Systemen.

Anbieter zum Thema

Mithilfe von „IRI Voracity“ der Jet-Software GmbH Daten erkennen und Metadaten definieren Definition Datenquellen auf lokalen und entfernten Systemen organsieren - die Daten bekommen ein Profil.
Mithilfe von „IRI Voracity“ der Jet-Software GmbH Daten erkennen und Metadaten definieren Definition Datenquellen auf lokalen und entfernten Systemen organsieren - die Daten bekommen ein Profil.
(Bild: gemeinfrei / Pixabay )

Seit 1993 pflegt die Jet-Software GmbH eine Kooperation mit der Innovative Routines International Inc. (IRI) aus Florida. Jetzt besitzt das Unternehmen aus Babenhausen die deutschen Vertriebsrechte für die IRI-Produkte. Mit diesen lassen sich folgende Aufgaben angehen:

„IRI Voracity“soll eine Plattform für das Data-Management End-to-End sein.
„IRI Voracity“soll eine Plattform für das Data-Management End-to-End sein.
(Bild: Jet-Software GmbH)

Datenklassifizierung: In diesem Aufgabenbereich geht es um das Definieren von unternehmensweiten Datenklassenbibliotheken, das automatisierte Durchsuchen von Quellen und das Katalogisieren der darin enthaltenen Daten. Schließlich sind die Transformations- und Schutzregeln anzuwenden, die zuvor den Klassen zugeordnet wurden.

Metadatenermittlung: Hier verbinden sich Administratoren:innen mit strukturierten und semistrukturierten Dateien und relationalen Datenbanken. Sie definieren oder re-definieren Spaltennamen, Offsets und Datentypen, damit die Metadaten für die Datenquellen in zentralen Datendefinitionsdateien (DDFs) gespeichert, gemeinsam genutzt und wieder verwendet werden können; denn sie sind mit jeder IRI-Software-Anwendung kompatibel.

Datenbank-Profiling: Administratoren:innen erstellen Statistiken, überprüfen die referentielle Integrität und suchen nach Lookup-, Zeichenketten-, Muster- und Fuzzy-Matching-Werten in jeder mit JDBC verbundenen Datenquelle.

Flat-File Profiling: Admins erzeugen Statistiken und suchen nach Lookup-, Zeichenketten-, Muster- und Fuzzy-Matching-Werten in jedem sequentiellen Dateiformat, das IRI unterstützt.

ER-Diagrammerstellung: Hier lassen sich unternehmensweite Datenklassenbibliotheken definieren, Quellen automatisiert durchsuchen und die darin enthaltenen Daten katalogisieren. Dabei werden Transformations- und Schutzregeln angewandt, die den Klassen zugeordnet wurden.

Verzeichnisdaten-Klassensuche: Der Assistent für die Suche nach Verzeichnisdatenklassen in der IRI-Workbench (WB) gleicht Daten in strukturierten Dateien innerhalb eines oder mehrerer Verzeichnisse mit konfigurierten Datenklassen ab. Der Suchprozess vergleicht die Übereinstimmungen in den Datenklassen mit den Daten in diesen Dateien, um die beste Übereinstimmung zu ermitteln, falls vorhanden. Die Übereinstimmungen können entweder Muster oder festgelegte Dateisuchvorgänge sein. Wenn nur einige wenige, ausgewählte strukturierte Dateien durchsucht werden müssen, lässt sich ein Editor der Datenklassenbibliothek nutzen, um schnellere Ergebnisse zu erhalten.

Schema-Mustersuche: Diese Funktion umfasst das Erstellen von Statistiken und die Suche nach Lookup-, Zeichenketten-, Muster- und Fuzzy-Matching-Werten in jedem sequentiellen Dateiformat, das IRI unterstützt. Auf diese Weise lassen sich diese Ergebnisse auch mit Datenklassen verknüpfen.

Dark-Data-Suche: Die Suche nach Daten, die sich quasi `verstecken`, gestaltet sich nicht immer einfach. Mit dem IRI-Tool werden Daten in Nachschlagdateien von MS Office- und Outlook-Dateien, .pdf- und .rtf-Dokumenten, NoSQL-DB-Sammlungen, HTML-, JSON-, XML- oder anderen Textdateien (Log-Dateien) sowie in Bildern und Gesichtern gesucht. Diese `dunklen Daten“ und die zugehörigen Metadaten lassen sich in Flat-, abfragebereite DDF-Files extrahieren und gleichzeitig mit „IRI Darkshield maskieren.

Schema Datenklassensuche: Die Aufgabe besteht darin, alle Datenschemata, die den Attributen von Datenklassen oder Datenklassengruppen entsprechen, zu finden und zu nutzen. Dabei lassen sich einzelne Spalte im Schema scannen - und nicht eine Tabelle auf einmal. Die Funktion lässt sich in Verbindung mit dem Assistenten für die Maskierung der Datenklasse DB nutzen. Es gibt auch einen Assistenten zur Verzeichnisdatenklassensuche (und die entsprechende Maskierung von Datenklassen-Dateien), um PII in einer oder mehreren Flat-Files zu finden und zu de-identifizieren, die über ein LAN verteilt sind.

Bewertung der Datenqualität: Musterdefinitions- und Berechnungsvalidierungsskripts erlauben, die Formate und Werte von Daten, die in Datenklassen oder -gruppen (Katalogen) definiert sind, für die Zwecke der Ermittlung und Funktionsregelzuweisung, zum Beispiel bei Voracity-Bereinigungs-, Transformations- oder Maskierungsaufträgen, zu lokalisieren und zu überprüfen. Admins können auch die "if-then-else-Logik" auf Feldebene und "iscompare"-Funktionen von „SortCL“ verwenden, um Nullwerte und falsche Datenformate in DB-Tabellen und Flat-Files zu isolieren. Oder sie verwenden Outer-Joins, um Quellwerte, die nicht mit Master-(Referenz-)Datensätzen übereinstimmen, in Silos zu speichern.

(ID:48084928)