Hier erhalten Sie eine kurze Übersicht über die Bereinigung von Personendaten. Wir beginnen dabei mit den einfachsten Fällen. In mehreren Schritten möchten wir Sie dann bis zu den sehr komplexen Aufgaben führen. Deshalb startet unsere Reise durch das Thema mit dem Bereinigen von Personendaten aus einer Quelle. Sie endet mit dem Bereinigen und Zusammenführen von Personendaten aus mehreren unterschiedlichen Quellen. In letzterem Fall müssen die Daten zuerst homogenisiert werden. Zudem werden sie im anspruchsvollsten Fall nicht nur in einer, sondern in unterschiedlichen Zieldatenbanken verwendet.
Wir möchten Ihnen in der Übersicht über die Bereinigung von Personendaten das Folgende vermitteln:
- Sie kennen die verschiedenen Typen von Projekten zum Bereinigen von Personendaten
- Wenn Sie ein solches Projekt planen, können Sie einordnen, zu welchem Typ es gehört.
- Sie erhalten eine realistische Sicht und können die notwendigen Schritte in ihrem Projekt einplanen.
Falls Sie sich nur eine kurze Übersicht über die Bereinigung von Personendaten verschaffen wollen, lesen Sie bei jedem Kapitel die jeweiligen Einführungstexte. Sie fassen das Wichtigste zusammen.
Der einfachste Fall: Bereinigen von Personendaten aus einer Datenbank
Ausgangslage
Die Qualität der Daten einer Datenbank genügt nicht mehr. Sie muss also verbessert werden. Meist ist einer der folgenden Gründe dafür der Auslöser:
- Veränderte gesetzliche Grundlagen: Die Datenschutz Verordnung (DSGVO) verlangt bessere Personendaten.
- Die Qualität der Personendaten genügt nicht mehr den Anforderungen. So sind beispielsweise die Kundendaten zu fehlerhaft. Sie verursachen dadurch Fehlverhalten bei Marketing und Verkauf.
- Doppelte Datensätze: Durch Dubletten und andere Fehler in Personendaten gehen wichtige Informationen verloren. Besonders gravierend ist dies bei Patientendaten Hier können medizinische Informationen nicht mehr zugreifbar sein.
Situation
Die Daten stammen aus einer Datenbank. Sie werden nach der Bereinigung in derselben Datenbank weiterverwendet. Dabei handelt es sich um den einfachsten Fall des Bereinigens von Personendaten.
Tätigkeiten
Die notwendigen Tätigkeiten zur Bereinigung sind die folgenden:
- Importieren der Datensätze mit den Personendaten aus der Datenbank
- Suchen der Dubletten in den Datensätzen
- Integrieren der Informationen aus den doppelten Datensätzen in einen Datensatz
- Anreichern und Ergänzen der Datensätze (Verbesserung der Datenqualität)
- Exportieren der bereinigten Daten in die Datenbank
Der Ablauf dieses einfachsten Falls ist in Abb. 1 dargestellt.
Beschreibung der einzelnen Bereinigungsschritte
Nun folgt die Beschreibung der einzelnen Schritte. Dabei gehen wir davon aus, dass ein spezialisiertes System zur Bearbeitung der Daten eingesetzt ist. Wir beschreiben also die Tätigkeiten aus dem Blickwinkel des Bereinigungssystems.
Import der Daten zur Bereinigung
Das System liest die Daten ein. Es vergibt jedem Datensatz einen eigenen Identifikator. Damit ist der Datensatz im Bereinigungssystem eindeutig identifiziert.
Dubletten Erkennung
Nun gilt es, doppelte Datensätze zu erkennen. Dazu dient das Modul ‚Dubletten Erkennung‘. Es handelt sich dabei um eine sehr anspruchsvolle Aufgabe. Nähere Hinweise dazu finden Sie im Beitrag zur Dublettenerkennung. Alle besseren eingesetzten Algorithmen unterscheiden zwischen Dubletten und möglichen Dubletten. Letztere können wir nur durch eine manuelle Bearbeitung eindeutig den Dubletten oder den Unikaten zuordnen.
Daten Integration
Sind die Dubletten gefunden, ergibt sich die nächste Aufgabe. Denn die Informationen der Dubletten können widersprüchlich sein. Wir müssen sie jetzt also zusammenführen. Dazu brauchen wir Regeln. Das Festlegen dieser Regeln ist die eigentliche Arbeit der Daten Integration. Sie werden dann in Software-Programmen oder Skripten umgesetzt. Die Informationen lassen sich danach automatisch zusammenführen.
Daten Anreicherung
In vielen Fällen genügt die Qualität der Daten befriedigt die Ansprüche nicht. Dann müssen wir falsche Daten korrigieren und fehlende Daten ergänzen. Für einen Teil der Fehler können wir wiederum Regeln definieren, um sie zu beseitigen. Für andere ist dies nicht möglich. Dann braucht es die Fachleute. Sie müssen die Fehler korrigieren und die Daten ergänzen. Hier unterscheiden wir noch einen Spezialfall. Wenn bisher noch nicht vorhandene Informationen hinzugefügt werden, sprechen wir von der Anreicherung der Daten. Dazu fügen wir neue Datenfelder in die Datensätze hinzu.
Export der bereinigten Daten in die Zieldatenbank
Die bereinigten Daten stehen jetzt bereit. Wir müssen sie jedoch noch in die laufende Datenbank überführen. Je nachdem, um welche Datenmenge es sich handelt, stehen verschiedene Methoden zur Verfügung. Sind nur wenige Änderungen vorhanden, korrigieren wir die Daten am einfachsten direkt auf der Datenbank. Wir arbeiten eine Korrekturliste ab. Wird die Menge der Änderungen grösser, ist dieses einfache Verfahren zu aufwendig. Dann brauchen wir Skripte, welche die Änderungen in den Datenbanken vornehmen.
Der zweite Fall: Änderung der Zieldatenbank (System-Migration)
Ausgangslage
Bei einer System-Migration ersetzt ein neues Informationssystem ein bisheriges. Die Datenstrukturen des neuen Informationssystems stimmen dabei nicht mit den alten Datenstrukturen überein. Die Migration der Daten erfordert somit eine Daten Transformation. Damit kommt ein neuer Arbeitsschritt hinzu.
Tätigkeiten
- Importieren der Datensätze mit den Personendaten aus der Datenbank
- Suchen der Dubletten in den Datensätzen
- Integrieren der Informationen aus den doppelten Datensätzen
- Daten Transformation, Anpassung an die neuen Datenstrukturen
- Anreichern und Ergänzen der Datensätze (Verbesserung der Datenqualität)
- Exportieren der bereinigten Daten in die Datenbank
Beschreibung
Die Arbeitsschritte bis zur Integration der Daten bleiben sich gleich. Danach ändert sich der Ablauf. Wir transformieren die Daten. Das heisst wir passen die Datenstruktur der Struktur der Zieldatenbank an. Dies ist die Daten Transformation.
Daten Transformation
Einfachste Daten Transformationen sind Formatänderungen. Die Transformation kann aber auch sehr kompliziert sein. Dann müssen wir Dateninhalte aus verschiedenen Tabellen miteinander kombinieren. Dazwischen gibt es alle möglichen Zwischenstufen. Nähere Informationen finden Sie dazu im Beitrag zur Daten Transformation.
Der dritte Fall: Bereinigen von Personendaten aus zwei Datenbanken
Ausgangslage
Wenn wir zwei Datenbanken in eine zusammenführen müssen, kann dies verschiedene Gründe haben:
Reorganisation
Ein Unternehmen organisiert sich neu. Dabei werden Abteilungen zusammengelegt. Dabei vereinigt ein neues Informationssystem die bisher unabhängigen Datenbanken. Ein Beispiel dazu: Die Verwaltung befindet sich neu an einem Standort. Sie war früher auf drei Standorte verteilt. Nun löst ein einheitliches Administrationssystem die bisherigen drei unabhängigen Systeme ab. Alle Informationen müssen aus deshalb zusammengeführt werden.
Firmenübernahme
Eine Firma übernimmt eine andere. In diesem Fall sollen vor allem die Kundeninformationen rasch zusammengeführt sein. Dann können Marketing und Verkauf wirkungsvoll agieren.
In diesem zweiten Fall muss die Bereinigung der Personendaten jetzt verschiedene Datenquellen berücksichtigen. Die bisherige Aufgabe ist dadurch um ein so genanntes data merging erweitert.
Tätigkeiten
- Importieren der Datensätze mit den Personendaten aus den Datenbanken
- Transformieren der Daten aus einer Datenbank
- Data merging, zusammenfügen der Daten
- Identifikation der Personen in den Datensätzen
- Integrieren der Informationen aus den doppelten Datensätzen
- Daten Transformation, Anpassung an die neuen Datenstrukturen
- Anreichern und Ergänzen der Datensätze (Verbesserung der Datenqualität)
- Exportieren der bereinigten Daten in die Datenbank
Beschreibung
Import aus der zweiten Datenquelle
Jetzt kommt eine zweite Datenquelle zur ersten hinzu. Die Daten dieser Quelle passen jedoch nicht mit den Daten der ersten Quelle zusammen. Dies verhindert, dass wir sie nicht ohne weiteres gemeinsam bearbeiten können.
Daten Transformation
Deshalb transformieren wir die Daten aus der zweiten Quelle. Bei der Daten Transformation formen wir die Daten der zweiten Quelle um. Und zwar so, dass sie mit den Daten der ersten Quelle verglichen und bearbeitet werden können. Die Transformation geht allerdings nur so weit, wie es für die weiteren Schritte der Bearbeitung notwendig ist.
Data Merging
Nach der Transformation sind die Daten für die Bearbeitung bereit. Die Daten aus den zwei Quellen fassen wir jetzt in einer Tabelle zusammen. Diese Tabelle ist dabei so aufgebaut, dass sie alle Informationen aus den beiden Quellen enthält. Speziell wichtig sind hier die Datenfelder, die wir zur Identifikation der Person verwenden können.
Allgemeines Schema der Bereinigung von Personendaten
Ausgangslage
Das allgemeine Schema fasst die verschiedenen Fälle zusammen. Es beschreibt so die prinzipielle Aufgabenstellung. Dargestellt sind jedoch nur zwei Datenquellen und zwei Ziel-Datenbanken. Sollten mehr als zwei Quell- oder Ziel-Datenbanken vorhanden sein, so so ändert dies nichts am Prinzipschema.
Wo braucht man überhaupt so anspruchsvolle Bereinigungen von Personendaten?
Überall, wo die Personendaten eines grossen Unternehmens in eine übergeordnete Datenbank übernommen werden, stellt sich genau diese Aufgabe. Personendaten aus vielen Quellen kommen zusammen. Sie werden dann in einer so genannten Metadatenbank vereinigt. Da die laufenden Systeme jedoch nicht einfach abgelöst werden können, müssen die bereinigten Daten wieder in die Datenbanken verteilt werden.
Eine Meta-Datenbank verwaltet alle Personendaten einer Organisation. Gleichzeitig sind verschiedene Datenbaken unabhängig im Einsatz. Deren Daten werden laufend verändert. Sie müssen deshalb ständig synchronisiert werden.