Gruppenbildung zur Suche von Dubletten

Die Gruppenbildung zur Suche von Dubletten unterscheidet gute von mittelmässigen Verfahren zum Finden von Dubletten.

Beschreibung des Verfahrens

In unserem Verfahren führen sechs Schritte zur Lösung dieser anspruchsvollen Aufgabe.

  1. Vorbereitung
    Zuerst ist eine Vorbereitung der Daten sinnvoll. Denn in allen bisher angetroffenen Datensätzen kamen fehlerhafte Datensätze vor. Die Daten enthalten zudem oft Testdatensätze und veraltete Datensätze. Diese erschweren und verfälschen später das Erkennen der Dubletten. Deshalb entfernt ein Filter-Programm sie vor Beginn der weiteren Bearbeitung.
  2. Schlüsselbildung
    Im nächsten Schritt werden zu jedem Datensatz verschiedene Schlüssel gebildet. Dieser Schritt erlaubt es später, Dubletten zu erkennen. Das Erkennen ist damit auch bei teilweise falsch geschriebenen Namen, bei Verwechslungen von Vornamen und Nachnamen und Änderungen des Familiennamens möglich.
  3. Kandidaten für Dubletten
    Aus allen möglichen Kombinationen findet ein ausgeklügeltes Programm nun heraus, welche Datensätze Kandidaten für Dubletten sind. Speziell ist dabei, dass das Programm zusätzlich Kurzformen für Vornamen berücksichtigt. Zum Beispiel kann Getrud als Trudy oder Trudi vorkommen und auf dieselbe Person bezogen sein.
  4. Verknüpfung der Kandidaten
    Mittels kombinierter Vergleichsmetriken und konfigurierbarer Sonderregeln werden nun Ähnlichkeiten zwischen Kandidaten berechnet. Ist die Ähnlichkeit genügend gross, werden die Kandidaten miteinander verknüpft. Kandidaten ohne Verknüpfung sind Unikate.
  5. Bildung von Clustern
    Alle direkt oder indirekt über einen anderen Kandidaten miteinander verknüpften Kandidaten werden nun in einem Cluster zusammengefasst.
  6. Analyse der Cluster
    Analyseprogramme untersuchen daraufhin die Ähnlichkeiten der Kandidaten in den Clustern. Sie verwenden dazu auch die zusätzlich zur Verfügung stehenden Informationen: Geburtsdatum, Telefonnummer, Adresse, Sozialversicherungs-Nummer, Organissationsname oder was sonst im Datensatz zur Identifikation einer Person zur Verfügung steht. Danach teilen die Programme die Kandidaten  in die Gruppe der sicheren und in die Gruppe der möglichen Dubletten auf. Sichere Dubletten weisen eine so hohe Übereinstimmung der ausgewerteten Informationen aus, dass eine falsche Zuordnung ausgeschlossen ist. Alle anderen Kandidaten fallen in die Gruppe der möglichen Dubletten. Denn bei ihnen kann automatisch keine absolut sichere Übereinstimmung berechnet werden.

Damit ist die Gruppenbildung zur Suche von Dubletten abgeschlossen.

Jürg Simonett

Dipl. El. Ing. ETH, Dr. sc. techn.

CEO
Senior Consultant bei System- und Datenintegrationsprojekten
bei CrowTen seit 1996

Jürg Simonett