Qualität der Personendaten

Definition von Qualitätskriterien

Wie definiert man die Qualität der Personendaten? Welche Faktoren müssen wir dabei berücksichtigen?

Für die Datenqualität gibt es heute viele Definitionen. Wir definieren sie so: Die Qualität der Personendaten ist gut, wenn die Daten den Anforderungen der Nutzer genügen. Mit anderen Worten: Die Qualität der Daten muss so gut sein, dass diese den Informationsbedarf erfüllen. Das bedeutet, dass Fehlentscheide wegen schlechter Datenqualität nicht vorkommen dürfen. Zudem sollen verlangte Informationen abrufbar und vollständig verfügbar sein.

Diese Anforderungen setzen wir in Qualitätskriterien um. Wir bilden dazu die folgenden Kategorien:

  • Korrektheit
  • Widerspruchsfreiheit (Konsistenz)
  • Aktualität
  • Keine doppelten Datensätze (Dubletten)
  • Vollständigkeit
  • Relevanz.

Korrektheit

Das erste Kriterium der Qualität der Personendaten ist die Korrektheit. Die Daten müssen korrekt sein. Diese Forderung teilt sich in mehrere Bereiche auf:

  1. Die Personendaten müssen mit der Realität übereinstimmen. So müssen sie die Person richtig beschreiben. Leider entstehen Unkorrektheiten durch Tippfehler, falsch geschriebene Namen oder Vornamen und Verwechslungen.
  2. Die einzelnen Attribute müssen formal korrekt sein. Wiederum können wir verschiedene Fälle unterscheiden. Erstens muss das vorgegeben Datenformat eingehalten sein. In einem zweiten Fall ist vorgegeben, dass der Wert eines Feldes innerhalb der angegeben Wertegrenzen dieses Attributs liegt. Und schliesslich muss bei Auswahlfeldern der Eintrag einem der vorgesehenen Werte entsprechen. In der Tabelle unten sind Beispiele dafür aufgeführt.

 

Qualitätsgruppe Korrektheit Beispiele Auswirkungen der Fehler
Formale Korrektheit:

Das definierte Datenformat wird eingehalten.

1. Mai 2018 anstatt: 01.05.2018 Textformat anstatt definiertes Zahlenformat Die Fehler haben zur Folge, dass Information nicht verarbeitet werden kann.
Einhaltung der Wertelisten:

Sind für ein Datenfeld eine Auswahl von Werten definiert, müssten alle Einträge einem dieser Werte entsprechen.

Abkürzungen der Kantonsbezeichnungen: AG, AI, AR, BE, BL, BS, FR, GE, GL, GR, JU, LU, NE, NW, OW, SG, SH, SO, SZ, TG, TI, UR, VD, VS, ZG, ZH Fehlerhafte Daten, die nicht weiterverarbeitet werden können.
Einhaltung der Wertegrenzen:

Häufige Fehler sind angenommene falsche Einheiten. Wird anstatt in km die Distanz in m angegeben, so resultiert ein 1000-mal höherer Wert. Diese Fehleingaben können wir durch eine Überprüfung der Wertegrenzen vermeiden.

Autonummern enthalten eine Kantonsabkürzung und sind zwischen 1 und 1’000’000. Die Folgeverarbeitung ist falsch.

Tab. 1: Verschiedene Klassen von Korrektheit

Widerspruchsfreiheit (Konsistenz)

Widersprüche in den Personendaten entstehen meist durch Fehleingaben. Sie festzustellen, ist oft nicht einfach. Aber verwalten zwei unabhängige Datenbanken dieselben Informationen, so können wir Widersprüche durch Vergleichen entdecken. Schwieriger ist es jedoch oft festzustellen, welches die korrekte und welches die falsche Information ist.

Widersprüche in Daten einer Datenbank lassen sich nicht einfach aufspüren. Es kann doch gelingen. Ein Beispiel zeigt die Abbildung unten. Es ist eine Statistik der Daten einer Datenbank. Sie zeigt offensichtliche Widersprüche. Das Geschlecht der Person passt hier nicht zum Vornamen. Eine Ausnahme bildet dabei der Vorname Andrea. Er kommt sowohl für weibliche wie auch für männliche Personen vor. Einige Vornamen sind für beide Geschlechter verwendet.

Qualität der Personendaten, personenbezogene Daten, Personendaten
Abb. 1: Statistik aus einer Datenbank mit 600000 Personen Datensätzen mit Widersprüchen zwischen Vornamen und Geschlecht der Person

Aktualität

Ein weiteres Kriterium für die Qualität der Personendaten ist deren Aktualität. Personendaten müssen aktuell sein. Auch hier schleichen sich von selbst Fehler ein. Beispielsweise nach einem Umzug stimmt die Adresse nicht mehr. Oder nach der Heirat hat der Name geändert.

Keine doppelten Datensätze (Dubletten)

Die Personendaten sollen ausserdem keine Dubletten enthalten. Wenn Dubletten in Versandadressen vorkommen, so ist ein doppelter Versand die Folge. Dann entsteht ausser unnötigen Kosten kein grösserer Schaden. Sind mit den Personendaten jedoch andere Daten verknüpft, können die Dubletten schwerwiegende Folgen haben. Beispielsweise bei Patientendaten. Sie sind mit medizinischen Daten verknüpft. Sind hier Dubletten vorhanden, können die Konsequenzen gravierend sein. Bei einer Abfrage der medizinischen Daten einer Patientin wird dann nur ein Teil der abgespeicherten Information angezeigt. Der andere Teil ist bei der Dublette abgespeichert. Dies ist nicht zulässig. Deshalb sollten in diesem Umfeld die Dubletten entfernt und deren Informationen zusammengeführt werden.

Vollständigkeit

Die Personendaten sollten vollständig sein. Für jedes einzelne Attribut gelten andere Regeln zur Vollständigkeit. Bei Personendaten müssen Name und Vorname immer angegeben werden. Jedoch bei anderen Attributen wie beispielsweise Telefonnummer oder E-Mail-Adresse gelten andere Regeln der Vollständigkeit. Keine, eine oder sogar mehrere Angaben zu diesem Attribut können vorkommen. In der Tabelle unten ein Beispiel für Vorgaben der Vollständigkeit aufgeführt.

 

Attribut Qualitätsanforderung Datenformat
Name Muss gefüllt sein Alphabetische Zeichen
Vorname Muss gefüllt sein Alphabetische Zeichen
Adresse, bestehend aus: Muss gefüllt sein
– Strasse Eigenes Feld Alphabetische Zeichen
– Hausnummer Eigenes Feld Alphanumerische Zeichen
– Postfach Eigenes Feld, optional Alphanumerische Zeichen
– Postleitzahl Eigenes Feld Numerische Zeichen
– Ort Eigenes Feld Alphabetische Zeichen
– Land Eigenes Feld, bei ‘Schweiz’ leer Alphabetische Zeichen
Telefonnummer Soll gefüllt sein ‘+’, blank oder numerische Zeichen
E-Mail-Adresse Soll in 80% der Fälle gefüllt sein Text (Buchstaben und Nummern), mindestens ein ’. ’, ein @-Zeichen
Geburtsdatum Soll gefüllt sein Datum im Format: 11.05.1964
SVA-Nummer Soll gefüllt sein Numerische Zeichen
Toleranzgrenze für doppelte Datensätze 0,5 % aller Datensätze dürfen nach der Bereinigung noch Dubletten sein

Tab. 2: Ein Beispiel für Qualitätsvorgaben bezüglich Vollständigkeit

Relevanz

Zum Schluss kommen wir noch zum wichtigsten Kriterium überhaupt: die Relevanz. Die Personendaten müssen relevant sein. Dies bedeutet, dass sie auch gebraucht werden. Mit anderen Worten, sie bringen dem Anwender einen konkreten Nutzen. Daten sammeln um des Sammelns willen kann einen gewissen Reiz haben. Das Motiv dahinter lautet meist: Vielleicht können wir die Daten ja später einmal brauchen? Doch dürfen wir zwei Dinge nicht vergessen. Wir befassen uns mit Personendaten in Datenbanken. Und hier bedeutet erstens jedes Erfassen eines Datenfeldes Aufwand. Dazu kommt zweitens, dass die Pflege der Daten aufwendiger wird, je mehr verschiedene Daten verwaltet werden. Also nur Daten verwalten, die relevant sind!

 

Jürg Simonett

Dipl. El. Ing. ETH, Dr. sc. techn.

CEO
Senior Consultant bei System- und Datenintegrationsprojekten
bei CrowTen seit 1996

Jürg Simonett