Dubletten erkennen in Personendaten

Aufgabe

Dubletten erkennen in Personendaten ist eine besondere Herausforderung.

Verschiedene Gründe führen zu Dubletten. Zum Teil entstehen sie durch Tippfehler. Doch auch andere, ’natürliche‘ Ursachen führen zu doppelten Datensätzen. Menschen heiraten, ändern den Namen. Sie ziehen um und haben eine neue Adresse. Für viele Vornamen gibt es Kurzformen. Manchmal werden diese auch verwendet. Dies alles führt dazu, dass Personen mehrfach in der Datenbank vorkommen können.

In grossen Datenmengen, die Dubletten zu erkennen, ist eine besondere Aufgabe. Es stellen sich die Fragen: Welche Personen sind doppelt oder sogar mehrfach in der Datenbank vorhanden? Wie viele Dubletten sind vorhanden? Wie kann man sie erkennen?

Data AppKit Dublettenerkennung

CrowTen hat dazu die Data AppKit Dublettenerkennung entwickelt. Das ausgeklügelte Verfahren ist für grosse Mengen von Personendaten im deutschsprachigen Raum optimiert. Es analysiert die Personendaten in sieben Schritten. Dies ist notwendig, damit es alle speziellen Eigenschaften der Personendaten für den Vergleich verwenden kann.

Zudem lässt sich die zugelassene Fehlerquote einstellen. Denn es macht einen Unterschied, um welche Daten es sich handelt. Ob Dubletten in Zustelladressen, oder ob in Patientendaten eines Spitals gesucht werden, stellt andere Anforderungen an die Qualität der Suche. Im ersten Fall sind meist einige Fehler zugelassen. Im zweiten Fall hingegen dürfen keine Datensätze als Dubletten ausgewiesen werden, die keine sind (Null-Fehler-Toleranz).

Das Data AppKit Verfahren ist viel leistungsfähiger als Verfahren, die heute standardmässig bei der Eingabeprüfung von Daten eingesetzt sind. Es für das Dubletten erkennen in Personendaten neue Massstäbe.

Resultate

Die Resultate der Dubletten Erkennung sind:

  • Liste der Dubletten
    Die Liste enthält alle automatisch als Dubletten erkannten Datensätze. Zwei oder mehrere Datensätze sind derselben Person zugeordnet.
  • Die Liste der möglichen Dubletten
    Die Liste enthält alle nicht mit Sicherheit als Unikate oder Dubletten erkannten Datensätze
. Das heisst, mögliche Dubletten können durch das Modul Dubletten Erkennung nicht sicher den Unikaten oder den Dubletten zugeordnet werden. Deshalb folgt als weiterer Schritt die Bearbeitung der möglichen Dubletten. Dabei werden diese werden mit Hilfe zusätzlicher Informationen manuell bereinigt. Software-Werkzeuge bieten dazu effiziente Unterstützung.