Übersicht über die Bereinigung von Personendaten

Hier erhalten Sie eine kurze Übersicht über die Bereinigung von Personendaten. Wir beginnen dabei mit den einfachsten Fällen. In mehreren Schritten möchten wir Sie dann bis zu den sehr komplexen Aufgaben führen. Deshalb startet unsere Reise durch das Thema mit dem Bereinigen von Personendaten aus einer Quelle. Sie endet mit dem Bereinigen und Zusammenführen von Personendaten aus mehreren unterschiedlichen Quellen. In letzterem Fall müssen die Daten zuerst homogenisiert werden. Zudem werden sie im anspruchsvollsten Fall nicht nur in einer, sondern in unterschiedlichen Zieldatenbanken verwendet.

Wir möchten Ihnen in der Übersicht über die Bereinigung von Personendaten das Folgende vermitteln:

  1. Sie kennen die verschiedenen Typen von Projekten zum Bereinigen von Personendaten
  2. Wenn Sie ein solches Projekt planen, können Sie einordnen, zu welchem Typ es gehört.
  3. Sie erhalten eine realistische Sicht und können die notwendigen Schritte in ihrem Projekt einplanen.

Falls Sie sich nur eine kurze Übersicht über die Bereinigung von Personendaten verschaffen wollen, lesen Sie bei jedem Kapitel die jeweiligen Einführungstexte. Sie fassen das Wichtigste zusammen.

 

Der einfachste Fall: Bereinigen von Personendaten aus einer Datenbank

Ausgangslage

Die Qualität der Daten einer Datenbank genügt nicht mehr. Sie muss also verbessert werden. Meist ist einer der folgenden Gründe dafür der Auslöser:

  • Veränderte gesetzliche Grundlagen: Die Datenschutz Verordnung (DSGVO) verlangt bessere Personendaten.
  • Die Qualität der Personendaten genügt nicht mehr den Anforderungen. So sind beispielsweise die Kundendaten zu fehlerhaft. Sie verursachen dadurch Fehlverhalten bei Marketing und Verkauf.
  • Doppelte Datensätze: Durch Dubletten und andere Fehler in Personendaten gehen wichtige Informationen verloren. Besonders gravierend ist dies bei Patientendaten Hier können medizinische Informationen nicht mehr zugreifbar sein.

Situation

Die Daten stammen aus einer Datenbank. Sie werden nach der Bereinigung in derselben Datenbank weiterverwendet. Dabei handelt es sich um den einfachsten Fall des Bereinigens von Personendaten.

Tätigkeiten

Die notwendigen Tätigkeiten zur Bereinigung sind die folgenden:

  1. Importieren der Datensätze mit den Personendaten aus der Datenbank
  2. Suchen der Dubletten in den Datensätzen
  3. Integrieren der Informationen aus den doppelten Datensätzen in einen Datensatz
  4. Anreichern und Ergänzen der Datensätze (Verbesserung der Datenqualität)
  5. Exportieren der bereinigten Daten in die Datenbank

Der Ablauf dieses einfachsten Falls ist in Abb. 1 dargestellt.

Übersicht über das Bereinigen von Personendaten
Abb. 1. Bereinigen von Personendaten – der einfachste Fall

 

Beschreibung der einzelnen Bereinigungsschritte

Nun folgt die Beschreibung der einzelnen Schritte. Dabei gehen wir davon aus, dass ein spezialisiertes System zur Bearbeitung der Daten eingesetzt ist. Wir beschreiben also die Tätigkeiten aus dem Blickwinkel des Bereinigungssystems.

Import der Daten zur Bereinigung

Das System liest die Daten ein. Es vergibt jedem Datensatz einen eigenen Identifikator. Damit ist der Datensatz im Bereinigungssystem eindeutig identifiziert.

Dubletten Erkennung

Nun gilt es, doppelte Datensätze zu erkennen. Dazu dient das Modul ‚Dubletten Erkennung‘. Es handelt sich dabei um eine sehr anspruchsvolle Aufgabe. Nähere Hinweise dazu finden Sie im Beitrag zur Dublettenerkennung. Alle besseren eingesetzten Algorithmen unterscheiden zwischen Dubletten und möglichen Dubletten. Letztere können wir nur durch eine manuelle Bearbeitung eindeutig den Dubletten oder den Unikaten zuordnen.

Daten Integration

Sind die Dubletten gefunden, ergibt sich die nächste Aufgabe. Denn die Informationen der Dubletten können widersprüchlich sein. Wir müssen sie jetzt also zusammenführen. Dazu brauchen wir Regeln. Das Festlegen dieser Regeln ist die eigentliche Arbeit der Daten Integration. Sie werden dann in Software-Programmen oder Skripten umgesetzt. Die Informationen lassen sich danach automatisch zusammenführen.

Daten Anreicherung

In vielen Fällen genügt die Qualität der Daten befriedigt die Ansprüche nicht. Dann müssen wir falsche Daten korrigieren und fehlende Daten ergänzen. Für einen Teil der Fehler können wir wiederum Regeln definieren, um sie zu beseitigen. Für andere ist dies nicht möglich. Dann braucht es die Fachleute. Sie müssen die Fehler korrigieren und die Daten ergänzen. Hier unterscheiden wir noch einen Spezialfall. Wenn bisher noch nicht vorhandene Informationen hinzugefügt werden, sprechen wir von der Anreicherung der Daten. Dazu fügen wir neue Datenfelder in die Datensätze hinzu.

Export der bereinigten Daten in die Zieldatenbank

Die bereinigten Daten stehen jetzt bereit. Wir müssen sie jedoch noch in die laufende Datenbank überführen. Je nachdem, um welche Datenmenge es sich handelt, stehen verschiedene Methoden zur Verfügung. Sind nur wenige Änderungen vorhanden, korrigieren wir die Daten am einfachsten direkt auf der Datenbank. Wir arbeiten eine Korrekturliste ab. Wird die Menge der Änderungen grösser, ist dieses einfache Verfahren zu aufwendig. Dann brauchen wir Skripte, welche die Änderungen in den Datenbanken vornehmen.

Der zweite Fall: Änderung der Zieldatenbank (System-Migration)

Ausgangslage

Bei einer System-Migration ersetzt ein neues Informationssystem ein bisheriges. Die Datenstrukturen des neuen Informationssystems stimmen dabei nicht mit den alten Datenstrukturen überein. Die Migration der Daten erfordert somit eine Daten Transformation. Damit kommt ein neuer Arbeitsschritt hinzu.

 

Tätigkeiten

  1. Importieren der Datensätze mit den Personendaten aus der Datenbank
  2. Suchen der Dubletten in den Datensätzen
  3. Integrieren der Informationen aus den doppelten Datensätzen
  4. Daten Transformation, Anpassung an die neuen Datenstrukturen
  5. Anreichern und Ergänzen der Datensätze (Verbesserung der Datenqualität)
  6. Exportieren der bereinigten Daten in die Datenbank

 

Bereinigung von Personendaten mit unterschiedlicher Quell- und Zielstruktur
Abb. 2: Migration von Datenbanken mit unterschiedlicher Struktur

Beschreibung

Die Arbeitsschritte bis zur Integration der Daten bleiben sich gleich. Danach ändert sich der Ablauf. Wir transformieren die Daten. Das heisst wir passen die Datenstruktur der Struktur der Zieldatenbank an. Dies ist die Daten Transformation.

Daten Transformation

Einfachste Daten Transformationen sind Formatänderungen. Die Transformation kann aber auch sehr kompliziert sein. Dann müssen wir Dateninhalte aus verschiedenen Tabellen miteinander kombinieren. Dazwischen gibt es alle möglichen Zwischenstufen. Nähere Informationen finden Sie dazu im Beitrag zur Daten Transformation.

Der dritte Fall: Bereinigen von Personendaten aus zwei Datenbanken

Ausgangslage

Wenn wir zwei Datenbanken in eine zusammenführen müssen, kann dies verschiedene Gründe haben:

Reorganisation
Ein Unternehmen organisiert sich neu. Dabei werden Abteilungen zusammengelegt. Dabei vereinigt ein neues Informationssystem die bisher unabhängigen Datenbanken. Ein  Beispiel dazu: Die Verwaltung befindet sich neu an einem Standort. Sie war früher auf drei Standorte verteilt. Nun löst ein einheitliches Administrationssystem die bisherigen drei unabhängigen Systeme ab. Alle Informationen müssen aus deshalb zusammengeführt werden.

Firmenübernahme
Eine Firma übernimmt eine andere. In diesem Fall sollen vor allem die Kundeninformationen rasch zusammengeführt sein. Dann können Marketing und Verkauf wirkungsvoll agieren.

In diesem zweiten Fall muss die Bereinigung der Personendaten jetzt verschiedene Datenquellen berücksichtigen. Die bisherige Aufgabe ist dadurch um ein so genanntes data merging erweitert.

Tätigkeiten

  1. Importieren der Datensätze mit den Personendaten aus den Datenbanken
  2. Transformieren der Daten aus einer Datenbank
  3. Data merging, zusammenfügen der Daten
  4. Identifikation der Personen in den Datensätzen
  5. Integrieren der Informationen aus den doppelten Datensätzen
  6. Daten Transformation, Anpassung an die neuen Datenstrukturen
  7. Anreichern und Ergänzen der Datensätze (Verbesserung der Datenqualität)
  8. Exportieren der bereinigten Daten in die Datenbank

 

 

Bereinigung und Zusammenführen von Personendaten aus zwei Datenbanken
Abb. 3: Zwei Datenbanken

Beschreibung

Import aus der zweiten Datenquelle

Jetzt kommt eine zweite Datenquelle zur ersten hinzu. Die Daten dieser Quelle passen jedoch nicht mit den Daten der ersten Quelle zusammen. Dies verhindert, dass wir sie nicht ohne weiteres gemeinsam bearbeiten können.

Daten Transformation

Deshalb transformieren wir die Daten aus der zweiten Quelle. Bei der Daten Transformation formen wir die Daten der zweiten Quelle um. Und zwar so, dass sie mit den Daten der ersten Quelle verglichen und bearbeitet werden können. Die Transformation geht allerdings nur so weit, wie es für die weiteren Schritte der Bearbeitung notwendig ist.

Data Merging

Nach der Transformation sind die Daten für die Bearbeitung bereit. Die Daten aus den zwei Quellen fassen wir jetzt in einer Tabelle zusammen. Diese Tabelle ist dabei so aufgebaut, dass sie alle Informationen aus den beiden Quellen enthält. Speziell wichtig sind hier die Datenfelder, die wir zur Identifikation der Person verwenden können.

Allgemeines Schema der Bereinigung von Personendaten

Ausgangslage

Das allgemeine Schema fasst die verschiedenen Fälle zusammen. Es beschreibt so die prinzipielle Aufgabenstellung. Dargestellt sind jedoch nur zwei Datenquellen und zwei Ziel-Datenbanken. Sollten mehr als zwei Quell- oder Ziel-Datenbanken vorhanden sein, so so ändert dies nichts am Prinzipschema.

Wo braucht man überhaupt so anspruchsvolle Bereinigungen von Personendaten?

Überall, wo die Personendaten eines grossen Unternehmens in eine übergeordnete Datenbank übernommen werden, stellt sich genau diese Aufgabe. Personendaten aus vielen Quellen kommen zusammen. Sie werden dann in einer so genannten Metadatenbank vereinigt. Da die laufenden Systeme jedoch nicht einfach abgelöst werden können, müssen die bereinigten Daten wieder in die Datenbanken verteilt werden.

Eine Meta-Datenbank verwaltet alle Personendaten einer Organisation. Gleichzeitig sind verschiedene Datenbaken unabhängig im Einsatz. Deren Daten werden laufend verändert. Sie müssen deshalb ständig synchronisiert werden.

Schematische Darstellung der Bereinigung von Personendaten
Abb. 4: Allgemeines Schema

 

 

Jürg Simonett

Dipl. El. Ing. ETH, Dr. sc. techn.

CEO
Senior Consultant bei System- und Datenintegrationsprojekten
bei CrowTen seit 1996

Jürg Simonett