Definition von Qualitätskriterien
Wie definiert man die Qualität der Personendaten? Welche Faktoren müssen wir dabei berücksichtigen?
Für die Datenqualität gibt es heute viele Definitionen. Wir definieren sie so: Die Qualität der Personendaten ist gut, wenn die Daten den Anforderungen der Nutzer genügen. Mit anderen Worten: Die Qualität der Daten muss so gut sein, dass diese den Informationsbedarf erfüllen. Das bedeutet, dass Fehlentscheide wegen schlechter Datenqualität nicht vorkommen dürfen. Zudem sollen verlangte Informationen abrufbar und vollständig verfügbar sein.
Diese Anforderungen setzen wir in Qualitätskriterien um. Wir bilden dazu die folgenden Kategorien:
- Korrektheit
- Widerspruchsfreiheit (Konsistenz)
- Aktualität
- Keine doppelten Datensätze (Dubletten)
- Vollständigkeit
- Relevanz.
Korrektheit
Das erste Kriterium der Qualität der Personendaten ist die Korrektheit. Die Daten müssen korrekt sein. Diese Forderung teilt sich in mehrere Bereiche auf:
- Die Personendaten müssen mit der Realität übereinstimmen. So müssen sie die Person richtig beschreiben. Leider entstehen Unkorrektheiten durch Tippfehler, falsch geschriebene Namen oder Vornamen und Verwechslungen.
- Die einzelnen Attribute müssen formal korrekt sein. Wiederum können wir verschiedene Fälle unterscheiden. Erstens muss das vorgegeben Datenformat eingehalten sein. In einem zweiten Fall ist vorgegeben, dass der Wert eines Feldes innerhalb der angegeben Wertegrenzen dieses Attributs liegt. Und schliesslich muss bei Auswahlfeldern der Eintrag einem der vorgesehenen Werte entsprechen. In der Tabelle unten sind Beispiele dafür aufgeführt.
Qualitätsgruppe Korrektheit | Beispiele | Auswirkungen der Fehler |
---|---|---|
Formale Korrektheit:
Das definierte Datenformat wird eingehalten. |
1. Mai 2018 anstatt: 01.05.2018 Textformat anstatt definiertes Zahlenformat | Die Fehler haben zur Folge, dass Information nicht verarbeitet werden kann. |
Einhaltung der Wertelisten:
Sind für ein Datenfeld eine Auswahl von Werten definiert, müssten alle Einträge einem dieser Werte entsprechen. |
Abkürzungen der Kantonsbezeichnungen: AG, AI, AR, BE, BL, BS, FR, GE, GL, GR, JU, LU, NE, NW, OW, SG, SH, SO, SZ, TG, TI, UR, VD, VS, ZG, ZH | Fehlerhafte Daten, die nicht weiterverarbeitet werden können. |
Einhaltung der Wertegrenzen:
Häufige Fehler sind angenommene falsche Einheiten. Wird anstatt in km die Distanz in m angegeben, so resultiert ein 1000-mal höherer Wert. Diese Fehleingaben können wir durch eine Überprüfung der Wertegrenzen vermeiden. |
Autonummern enthalten eine Kantonsabkürzung und sind zwischen 1 und 1’000’000. | Die Folgeverarbeitung ist falsch. |
Tab. 1: Verschiedene Klassen von Korrektheit
Widerspruchsfreiheit (Konsistenz)
Widersprüche in den Personendaten entstehen meist durch Fehleingaben. Sie festzustellen, ist oft nicht einfach. Aber verwalten zwei unabhängige Datenbanken dieselben Informationen, so können wir Widersprüche durch Vergleichen entdecken. Schwieriger ist es jedoch oft festzustellen, welches die korrekte und welches die falsche Information ist.
Widersprüche in Daten einer Datenbank lassen sich nicht einfach aufspüren. Es kann doch gelingen. Ein Beispiel zeigt die Abbildung unten. Es ist eine Statistik der Daten einer Datenbank. Sie zeigt offensichtliche Widersprüche. Das Geschlecht der Person passt hier nicht zum Vornamen. Eine Ausnahme bildet dabei der Vorname Andrea. Er kommt sowohl für weibliche wie auch für männliche Personen vor. Einige Vornamen sind für beide Geschlechter verwendet.
Aktualität
Ein weiteres Kriterium für die Qualität der Personendaten ist deren Aktualität. Personendaten müssen aktuell sein. Auch hier schleichen sich von selbst Fehler ein. Beispielsweise nach einem Umzug stimmt die Adresse nicht mehr. Oder nach der Heirat hat der Name geändert.
Keine doppelten Datensätze (Dubletten)
Die Personendaten sollen ausserdem keine Dubletten enthalten. Wenn Dubletten in Versandadressen vorkommen, so ist ein doppelter Versand die Folge. Dann entsteht ausser unnötigen Kosten kein grösserer Schaden. Sind mit den Personendaten jedoch andere Daten verknüpft, können die Dubletten schwerwiegende Folgen haben. Beispielsweise bei Patientendaten. Sie sind mit medizinischen Daten verknüpft. Sind hier Dubletten vorhanden, können die Konsequenzen gravierend sein. Bei einer Abfrage der medizinischen Daten einer Patientin wird dann nur ein Teil der abgespeicherten Information angezeigt. Der andere Teil ist bei der Dublette abgespeichert. Dies ist nicht zulässig. Deshalb sollten in diesem Umfeld die Dubletten entfernt und deren Informationen zusammengeführt werden.
Vollständigkeit
Die Personendaten sollten vollständig sein. Für jedes einzelne Attribut gelten andere Regeln zur Vollständigkeit. Bei Personendaten müssen Name und Vorname immer angegeben werden. Jedoch bei anderen Attributen wie beispielsweise Telefonnummer oder E-Mail-Adresse gelten andere Regeln der Vollständigkeit. Keine, eine oder sogar mehrere Angaben zu diesem Attribut können vorkommen. In der Tabelle unten ein Beispiel für Vorgaben der Vollständigkeit aufgeführt.
Attribut | Qualitätsanforderung | Datenformat |
---|---|---|
Name | Muss gefüllt sein | Alphabetische Zeichen |
Vorname | Muss gefüllt sein | Alphabetische Zeichen |
Adresse, bestehend aus: | Muss gefüllt sein | |
– Strasse | Eigenes Feld | Alphabetische Zeichen |
– Hausnummer | Eigenes Feld | Alphanumerische Zeichen |
– Postfach | Eigenes Feld, optional | Alphanumerische Zeichen |
– Postleitzahl | Eigenes Feld | Numerische Zeichen |
– Ort | Eigenes Feld | Alphabetische Zeichen |
– Land | Eigenes Feld, bei ‘Schweiz’ leer | Alphabetische Zeichen |
Telefonnummer | Soll gefüllt sein | ‘+’, blank oder numerische Zeichen |
E-Mail-Adresse | Soll in 80% der Fälle gefüllt sein | Text (Buchstaben und Nummern), mindestens ein ’. ’, ein @-Zeichen |
Geburtsdatum | Soll gefüllt sein | Datum im Format: 11.05.1964 |
SVA-Nummer | Soll gefüllt sein | Numerische Zeichen |
Toleranzgrenze für doppelte Datensätze | 0,5 % aller Datensätze dürfen nach der Bereinigung noch Dubletten sein |
Tab. 2: Ein Beispiel für Qualitätsvorgaben bezüglich Vollständigkeit
Relevanz
Zum Schluss kommen wir noch zum wichtigsten Kriterium überhaupt: die Relevanz. Die Personendaten müssen relevant sein. Dies bedeutet, dass sie auch gebraucht werden. Mit anderen Worten, sie bringen dem Anwender einen konkreten Nutzen. Daten sammeln um des Sammelns willen kann einen gewissen Reiz haben. Das Motiv dahinter lautet meist: Vielleicht können wir die Daten ja später einmal brauchen? Doch dürfen wir zwei Dinge nicht vergessen. Wir befassen uns mit Personendaten in Datenbanken. Und hier bedeutet erstens jedes Erfassen eines Datenfeldes Aufwand. Dazu kommt zweitens, dass die Pflege der Daten aufwendiger wird, je mehr verschiedene Daten verwaltet werden. Also nur Daten verwalten, die relevant sind!