Personendaten bereinigen in Etappen

Personendaten bereinigen in Etappen stellt uns vor ganz besondere Herausforderungen. Nicht einmal, sondern mehrmals werden die Daten exportiert, bereinigt und dann wieder importiert. Dabei sollen selbstverständlich die früheren Bereinigungen und Korrekturen in der nächsten Etappe nicht verloren gehen.

Das System Datenintegration der CrowTen ist für die Bereinigung in Etappen konzipiert. Es ist in der Lage, Daten zu verarbeiten, die zu verschiedenen Zeitpunkten eingelesen werden. Darüber hinaus kann das System Änderungen auf den bereits bereinigten Daten weitgehend automatisch nachführen. Zusätzlich stellt es die Daten bereit, die nochmals die Bearbeitung durchlaufen müssen.

Ausgangslage

Grosse Datenmengen sollen bereinigt werden. Eine Bereinigung am laufenden System ist zudem nicht denkbar. Der Aufwand dafür wäre viel zu gross. In diesem Fall ist eine andere Lösung zu finden. Sie besteht darin, dass die Daten aus dem laufenden System exportiert in ein Bereinigungssystem exportiert. Bei CrowTen heisst es System Datenintegration.

Nun ist mit einer weiteren Schwierigkeit zu rechnen. Das ursprüngliche System bleibt weiterhin in Betrieb. Die Benutzer verändern die Daten während der Bereinigungsphase. Dabei ändern sie bestehende Personen-Datensätze, nehmen neue Personen auf, oder löschen Personen aus dem System. Diese Phase kann ohne weiteres Wochen oder Monate dauern.

Weil die Daten des Systems verändert wurden, können nach Ende der Bereinigung die bereinigten Daten nicht einfach ins System übernommen werden. Die in der Zwischenzeit veränderten Daten gingen verloren. Deshalb ist eine Nachbereinigung notwendig.

Die Ausgangssituation ist im Schema unten dargestellt.

Schematische Darstellung der Bereinigung in Etappen
Fig 1: Schematische Darstellung der Bereinigung in Etappen

Integrationssystem – Anforderungen

Für die Nachbearbeitung braucht es ein geeignetes Integrationstool, welches die folgenden Eigenschaften besitzt:

  • Das System muss die Daten mehrfach neu einlesen können. Es legt die Daten dann jeweils in der Datenbank des Moduls Datenintegration ab. Danach vergleicht es die neu eingelesenen Daten mit den bereits bereinigten Daten. Es bildet zum Schluss die Differenz zwischen den alten und neuen Datensätzen.
  • Die Differenzen muss das System soweit möglich automatisch in den bereinigten Daten nachtragen.
  • Die Differenzen, die nicht automatisch nachgetragen werden können, muss es für die Nachbereinigung bereitstellen.

Integrationstool – Beschreibung

Das Integrationstool zur Bereinigung der Personendaten in Etappen besteht aus vier Grundmodulen.

  1. Importmodul
    Das Importmodul stellt die Schnittstelle zu den gelieferten Personendaten bereit. Es liest die bereitgestellten Daten ein und speichert sie ab.
  2. Modul Differenzbildung
    Das Modul Differenzbildung vergleicht die neu eingelesenen Daten mit den bereits bereinigten Daten. Es bildet dabei Differenzlisten, welche die Änderungen enthalten.
  3. Modul Automatische Korrektur
    Ein Teil der Änderungen kann das Modul Automatische Korrektur ohne manuelle Eingriffe in die bereinigten Daten übertragen. Dies ist der Fall bei geänderten Attributwerten oder gelöschten Datensätzen, die eindeutig identifizierbar sind.
  4. Modul Datenbereitstellung
    Das Modul Datenbereitstellung stellt alle Daten zusammen, die nochmals von Hand zu überprüfen sind.