Dubletten erkennen in personenbezogenen Daten

Dubletten erkennen in personenbezogenen Daten können nur ausgeklügelte Verfahren und Algorithmen oder das menschliche Auge. Doch die menschlichen Möglichkeiten sind beschränkt. Dies gilt besonders bei einer grossen Anzahl von Datensätzen. Spätestens ab 10000 Datensätzen versagen händische Methoden. Danach braucht es maschinelle Verfahren. Excel bietet sich an. Aber auch die Dublettensuche mit Excel gerät rasch an ihre Grenzen. Deshalb sind bessere Verfahren gefragt. Hier möchten wir in ganz kurzer Form aufzeigen, was ein gutes Verfahren leisten muss und welche Resultate zu erwarten sind. Als Einstieg listen wir in Stichworten die Inhalte von personenbezogenen Daten auf.

Inhalt der personenbezogenen Daten

Personenbezogene Daten enthalten immer:

  • Namen und
  • Vornamen

und je nach Datensatz zusätzlich:

  • Geburtsdatum
  • Adresse (Strasse, Hausnummer, PLZ, Ort, Land)
  • Telefonnummer(n)
  • E-Mail-Adresse(n)
  • SVA-Nummer neu
  • AHV-Nummer (alt)
  • Geschlecht
  • Beruf
  • Konfession
  • Arbeitgeber
  • Organisation
  • und weitere Angaben

Ziel

Keine der oben aufgeführten Informationen darf als absolut richtig angenommen werden. Dafür gibt es unterschiedliche Ursachen. Einige Informationen können sich im Laufe eines Lebens ändern. So nimmt beispielsweise ein Ehepartner nach der Heirat den Namen des andern an. Andere Informationen sind eigentlich unveränderlich. Beispiele dafür sind: Geburtsdatum oder die Sozial Versicherungsnummer. Doch führen hier Eingabefehler zu Variationen. Verwechslungen, zum Beispiel von Namen und Vornamen, führen zu weiteren Fehlern und damit zu Dubletten.

Das Ziel ist es nun: Unter diesen Randbedingungen aus hunderttausenden von Datensätzen die Dubletten automatisch zu erkennen.

Lösung

Das Modul Dubletten Erkennung der CrowTen löst diese anspruchsvolle Aufgabe auf folgende Weise:

In einem ersten Schritt werden die verschiedenen eingesetzten Algorithmen für die spezifische Datensituation optimal konfiguriert.

Zudem wird die zugelassene Fehlerquote eingestellt. Es macht einen Unterschied, ob Dubletten in Zustelladressen oder in Patientendaten eines Spitals gesucht werden. Im ersten Fall können einige Fehler zugelassen werden. Im zweiten Fall dürfen keine Datensätze als Dubletten erkannt werden, die nicht sicher zu einer Person gehören (Null-Fehler-Toleranz).

Diese Einstellung ist wichtig, da die automatische Dubletten Erkennung mit statistischen Methoden arbeitet und eine Unsicherheit besteht. Das Verfahren besteht aus verschiedenen Schritten, bei welchen die Gruppenbildung den Kern ausmacht.

Auf diese Weise kann das Verfahren Dubletten erkennen in personenbezogenen Daten.

Resultate

Die Resultate der Dubletten Erkennung sind:

    • Liste der Unikate: enthält alle als Unikate identifizierten Datensätze der Personendaten
    • Liste der Dubletten: 
enthält alle automatisch als Dubletten erkannten Datensätze
      Die Liste der möglichen Dubletten 
enthält alle nicht mit Sicherheit als Unikate oder Dubletten erkannten Datensätze
. Das heisst, mögliche Dubletten können durch das Modul Dubletten Erkennung nicht sicher den Unikaten oder den Dubletten zugeordnet werden. Deshalb folgt als weiterer Schritt die Bearbeitung der möglichen Dubletten. Dabei werden diese werden mit Hilfe zusätzlicher Informationen manuell bereinigt. Software-Werkzeuge bieten dazu effiziente Unterstützung.