Qualität der personenbezogenen Daten

Die Qualität der personenbezogenen Daten hat viele Aspekte. Sie kann auf unterschiedlichste Weise definiert werden. Wir begnügen uns mit einer pragmatischen Definition der Datenqualität. D.h.: Die Qualität der Daten muss genügend hoch sein, damit die Daten die Anforderungen in ihrem Gebrauch erfüllen. Diese Anforderungen sind je nach Branche unterschiedlich. So verlangen beispielsweise Gesundheits- und Finanz- und Versicherungswesen eine sehr hohe Qualität der Personendaten. Versandadressen für Mailing Aktionen dürfen in der Regel einige Fehler enthalten.

Qualitätskriterien

Was heisst Datenqualität konkret?

Wir beschreiben die Qualität der Daten mit den folgenden Kriterien. Diese beschreiben sie die wichtigsten Eigenschaften der Datenqualität.

  • Abbildung der Realität.
    Da sich die Realität ständig verändert, verschlechtert sich die Datenqualität mit der Zeit. Beispiele dafür sind: Neue Adresse einer Person nach einem Umzug. Namensänderungen nach Änderung des Zivilstandes.
  • Widerspruchsfreiheit
    Widersprüche ergeben sich am häufigsten, wenn dieselben Informationen an zwei Stellen unabhängig verwaltet werden. Ein Beispiel dafür ist die Adressänderung, die nur in einer Datenbank auf dem neuesten Stand ist: CrowTen AG, Binzmühlestrasse 97, 8050 Zürich (Google Maps) und CrowTen AG, Mühlehalde 19, 8032 Zürich (Handelsregister). Aber auch innerhalb eines Datensatzes können Widersprüche auftreten.
  • Dubletten Freiheit
    Es dürfen keine doppelten Datensätze (Dubletten) in den Daten vorkommen. Dabei sind die Dubletten manchmal nicht einfach zu erkennen und können höchst gravierende Folgen haben. Etwa dann, wenn die Informationen zu einer Person nicht vollständig gefunden werden.
  • Relevanz
    Der Datensatz soll die benötigten Attribute enthalten. Genau so wichtig: Der Datensatz soll keine Attribute enthalten, die nicht benötigt werden.
  • Vollständigkeit
    Die benötigten Attribute des Datensatzes sollen befüllt sein. Manchmal begnügt man sich bei weniger wichtigen Attributen mit einer Prozentzahl der Befüllung. Sind die Datenfelder eines Attributs kaum befüllt, so haben sie wahrscheinlich keine Relevanz. Die Vollständigkeit der Befüllung lässt sich einfach messen. Der Grad der Vollständigkeit berechnet sich aus der Anzahl der gefüllten Datenfelder geteilt durch deren Gesamtanzahl.

Verbessern der Datenqualität: Daten Bereinigung

Mit verschiedenen Massnahmen können wir die Qualität der personenbezogenen Daten verbessern. Zum Teil kann dies durch automatisierte Verfahren geschehen. Wir zählen die Massnahmen in der Reihenfolge der oben aufgeführten Kriterien auf:

  • Abbildung der Realität
    Automatisieren lässt sich die Bereinigung der Daten, wenn Referenzdatenbanken zur Verfügung stehen. So können  wir beispielsweise Adressen in der Schweiz mit den Referenzadressen der Post vergleichen. In diesem Fall lassen sich Änderungen auch automatisch nachführen.
  • Widerspruchsfreiheit
    Zuerst müssen wir den Widerspruch überhaupt erkennen können. Wir können die Suche von Widersprüchen automatisieren, wenn zwei unabhängige Datenbanken mit denselben Informationen zur Verfügung stehen. Ein Vergleich der Dateninhalte zeigt dann die Widersprüche auf. Zum Auflösen der Widersprüche ist hingegen meist eine Fachperson notwendig.
  • Dubletten Freiheit
    Verfahren und Algorithmen zum Entdecken von Dubletten sind vorhanden. CrowTen hat hier ein sehr ausgeklügeltes Verfahren entwickelt.
  • Relevanz
    Die Relevanz ist eigentlich von den Fachpersonen und Nutzern festgelegt. Sie bestimmen, welche Informationen sie brauchen. Wenn jedoch wenig Sorgfalt auf die Relevanz von Attributen gelegt wird, werden in der Regel viel zu viele Attribute verwaltet.
  • Vollständigkeit
    Manchmal lassen sich die leeren Datenfelder mit Hilfe von Referenzdatenbanken befüllen. Viel häufiger müssen jedoch die Fachleute die fehlenden Daten ergänzen.