Analyse personenbezogener Daten

Die Analyse personenbezogener Daten ist eine Standard-Aufgabe. Sie wird durchgeführt, wenn die Qualität der vorhandenen Daten zu Projektbeginn nicht bekannt ist. Denn bei unbekannter Datenqualität ist der Bereinigungsaufwand nicht abzuschätzen. Sie steht somit am Anfang fast jeden Bereinigungsprojekts.

Ziele der Datenanalyse

Die Ziele der Analyse personenbezogener Daten sind:

  1. Feststellen des Datenumfangs (Mengengerüst)
  2. Angaben zur Datenqualität hinsichtlich formaler Korrektheit und Vollständigkeit
  3. Angaben zur Anzahl Dubletten in den personenbezogenen Daten

Dateneingabe

Die Analyse der Personendaten ist weitgehend automatisiert. CrowTen verfügt dazu über ein speziell entwickeltes Softwaretool. Es analysiert Personendaten, die in einer Excel-Tabelle bereitgestellt sind.

Resultate

Das Modul Analyse liefert die folgenden Resultate:

  • Anzahl der analysierten Datensätze insgesamt.
  • Anzahl nicht korrekter Daten. Damit können wir den Korrekturaufwand abschätzen.
  • Markierung der formal nicht korrekten Daten. Mit Hilfe der Markierung finden wir die Stellen, die korrigiert werden müssen.
  • Anzahl der ausgefüllten Felder pro Attribut (absolut und in % aller Datensätze)
. Diese Angaben dienen der Abschätzung des Aufwands zur Anreicherung, bzw. Ergänzung der Daten.
  • Anzahl unterschiedlicher Werte pro Attribut (absolut und in % aller Datensätze). 
Diese Auswertung erlauben es uns, die Programme zur Dubletten Erkennung optimal zu konfigurieren.
  • Abschätzung der Anzahl Dubletten
. Mit diesen Angaben schätzen wir schliesslich den Aufwand zur Bearbeitung der Dubletten ab.