Datenfelder zur Personenidentifikation

In diesem Beitrag stellen wir die Datenfelder zur Personenidentifikation vor. Aufgrund von Kombinationen dieser Felder können wir mit Hilfe dieser Datenfelder Personen eindeutig identifizieren. Dies ist die Voraussetzung, damit wir die doppelten Datensätze, die Dubletten, in den Daten finden können.

Leider sind die Inhalte eines Datenfelds nicht immer eindeutig. Einerseits sind Varianten in den Daten korrekt. So können beispielsweise Vornamen und Kurznamen von Vornamen vorkommen. Beides ist richtig und gehört zu derselben Person. Andererseits treffen wir immer wieder spezifische Fehler für ein Datenfeld an. Manchmal sind auch mehrere Datenfelder betroffen. Zum Beispiel wird relativ häufig der Name und der Vorname verwechselt und falsch eingegeben.

Die wichtigsten Datenfelder zur Personenidentifikation sind die folgenden:

Name

Der Name kann sich durch Heirat verändern. Dadurch kann sich der Name einer Person verändern und Doppelnamen können entstehen.

Der Name kann falsch geschrieben sein.

Der Name gegört immer zu den identifizierenden Merkmalen.

Vorname

Der Vorname kann falsch geschrieben sein.

Eine Kurzform des Vornamens ist eingegeben worden (z.B.: Heini anstatt Heinrich).

Eine Person hat auf eigenen Wunsch den Vornamen gewechselt. So verwendet sie ab einem bestimmten Zeitpunkt den zweiten Vornamen anstelle des ersten.

Eine Person verwendet selbst verschiedene Schreibweisen für ihren Vornamen. Oder sie gibt einmal nur einen Vornamen an, das nächste Mal zwei oder sogar drei.

Der Vorname gehört immer zu den identifizierenden Merkmalen.

Name und Vorname

Name und Vorname können verwechselt sein. Dies geschieht nicht nur bei Otto Peter, sondern häufig auch bei unbekannten ausländischen Namen. Zudem ist hier auch Unachtsasmkeit bei der Eingabe relativ häufig.

Geburtsdatum

Beim Geburtsdatum kommen nicht selten Verwechslungen von Tag und Monat vor (amerikanische Schreibweise). Relativ häufig ist der Eintrag um einen Tag oder einen Monat falsch. Es handelt sich dabei wohl um Tippfehler.

Das Geburtsdatum gehört zu den identifizierenden Merkmalen, wenn es im Datensatz vorhanden ist.

Adresse

Für Adressen finden sich verschiedene Schreibweisen.Strasse wird oft mit Str. abgekürzt. Dann sind Strasse und Hausnummer entweder in einem Datenfeld zusammengefasst oder in zwei Feldern abgelegt. In zweisprachigen Gebieten der Schweiz kommen französische und deutsche Strassennamen für dieselbe Strasse vor (rue de la Gare, Bahnhofstrasse).

Daneben treten relativ häufig Tippfehler bei Adressen auf. Ganz besonders fehleranfällig sind Strassennamen mit Personennamen. So haben wir in einer Datenbank 26 verschiedene Schreibweisen für die Achilles-Bischoff-Strasse gefunden.

Die Adresse gehört zu den identifizierenden Merkmalen, wenn sie im Datensatz vorhanden ist.

E-Mail Adresse

Tippfehler kommen in E-Mail Adressen vor. Werden keine E-Mails mit dieser Adresse versendet, fällt die fehlerhafte Schreibweise nicht auf. Sobald die E-Mails Adresse jedoch gebraucht wird, werden fehlerhafte E-Mail Adressen zurückgemeldet.

Die E-Mail-Adresse kann zur Identifikation der Person verwendet werden.

Telefonnummer

Für dieselbe Telefonnummer gibt es verschiedene korrekte Datenformate. Einige Beispiele:

079 334 07 25

+41793340725

0041 (0)79 334 07 25

Die Telefonnummer kann zur Identifikation der Person verwendet werden.

SVA-Nummer

Die SVA-Nummer identifiziert eine Person eindeutig. Die Analyse von grossen Datensätzen hat jedoch gezeigt, dass die SVA-Nummer allein nicht zur sicheren Identifikation einer Person ausreicht. Es passieren immer wieder Fehler bei Angabe oder Erfassung der SVA-Nummer. Es kommt vor, dass bei der Tochter die SVA-Nummer der Mutter steht. Bei Neugeborenen kommt dies ab und zu vor. Zudem haben wir Fälle angetroffen, bei denen die die SVA-Nummern von Ehepartnern verwechselt wurden. Einmal trat der Fall auf, wo eine völlig falsche SVA-Nummer eingegeben wurde.

Geschlecht

Die Geschlechtsangabe kann fehlerhaft sein. So ist bei manchen Vornamen wie beispielsweise Andrea, nicht klar ob es sich um eine weibliche oder um eine männliche Person handelt. Zudem ist in neuer Zeit  eine Änderung des Geschlechts einer Person möglich.

Beruf

Berufsangaben sind nicht standardisiert und können für einen Beruf stark abweichen. Die Berufsangaben eignen sich nicht für die automatische Analyse. Sie enthalten jedoch wertvolle, visuell auswertbare Zusatzinformationen zu einer Person.

Konfession

Die Konfession differenziert wenig, d.h. es gibt viele Personen mit derselben Konfession. Ausserdem konvertieren Personen oder treten aus der Kirche aus.

Organisation

Bei grossen Organisationen ist die Bezeichnung oft unterschiedlich in der Datenbank abgelegt.

Die Zuordnung einer Person zu einer Organisation ist nach einem Stellenwechsel falsch. Diese Beziehung ist besonders bei Kundendatenbanken besonders zu beachten.

Zusätzliche Datenfelder zur Personenidentifikation können dazu kommen.

Jürg Simonett

Dipl. El. Ing. ETH, Dr. sc. techn.

CEO
Senior Consultant bei System- und Datenintegrationsprojekten
bei CrowTen seit 1996

Jürg Simonett