Personen und Daten

Wie gehören Personen und Daten in der digitalen Welt zusammen? Die Daten sind ja nicht automatisch der realen Person zugeordnet. In einer Datenbank ist die Person immer durch einen Datenbankschlüssel identifiziert. Dieser Schlüssel ist gewissermassen die Person im digitalen Umfeld.

Meist stimmt der Bezug zwischen Schlüssel und Person. Jedoch ist dies nicht immer sichergestellt. Dafür ist die digitale Welt zu kompliziert. Deshalb ist es eine besondere Aufgabe, die Daten zu den Personen richtig zuzuordnen. Diese Zuordnungen wollen wir nun ein wenig näher untersuchen.

Wir unterscheiden dabei drei Fälle von Zuordnungen zwischen Personen und Daten:

  • in einer Datenbank,
  • in zwei unabhängigen Datenbanken,
  • bei unabhängigen Dokumenten, Videos, Fotos, etc.

Zuordnung von Personen und Daten in einer Datenbank

Der Bezug zwischen Person und Daten wird normalerweise bei der Eingabe erstellt. Der Erfasser gibt dabei die identifizierenden Merkmale einer Person ein. Die Datenbank erstellt daraufhin einen eindeutigen Schlüssel (Identifikator). Damit identifiziert die Datenbank in Zukunft die Person. Danach gibt der Erfasser weitere Merkmale in die Datenbank ein. Sie sind dann der richtigen Person zugehörig.

So weit, so gut. Nur passieren bei der Dateneingabe immer wieder Fehler. Beispielsweise sind Namen falsch geschrieben. Oder, Name und Vorname sind verwechselt. Noch häufiger werden bei der Eingabe der Monat und der Tag beim Geburtsdatum vertauscht. Neben diesen Fehlern kommen auch immer wieder Tippfehler vor. All dies hat zur Folge, dass eine Person zwei- oder mehrfach in eine Datenbank aufgenommen wird. Es entstehen doppelte Datensätze, so genannte Dubletten.

Nicht ein-eindeutige Zuordnung von Personen und Daten, personenbezogene Daten, Personendaten, Dubletten
Abb. 1: Dubletten in einer Datenbank, Nicht ein-eindeutige Zuordnung von Personen und Daten

In der Abbildung gehören der zweite und der vierte Datensatz zu derselben Person. Je nach Anwendung sind die Konsequenzen von Dubletten unterschiedlich. Beim Postversand wirken sich Dubletten auf die Portokosten aus. Der Empfänger erhält doppelte Post. Der Absender bezahlt zweimal. Anders ist es, wenn die Datenbank lebenswichtige Informationen speichert. Dann haben Dubletten gravierendere Konsequenzen. Die notwendigen Daten werden bei einer Abfrage nicht gefunden. In Notfällen eine unzulässige Situation. Deshalb sollten in solchen Fällen keine Dubletten vorkommen. Hier muss die Zuordnung zwischen Person und Daten ein-eindeutig stimmen.

Zuordnung in zwei unabhängigen Datenbanken

Nun betrachten wir den Fall von zwei unabhängigen Datenbanken. Beide enthalten Daten derselben Person. Jedoch existiert kein übergreifender Schlüssel. Die Identifikatoren sind unterschiedlich. Deshalb ist eine einfache Zuordnung der Daten aus den zwei Datenbanken nicht einfach möglich.

Personendaten, personenbezogene Daten, Datenanalyse
Abb. 2: Daten zu derselben Person sind in zwei unabhängigen Datenbanken verteilt

Wie können wir herausfinden, welche Datensätze zusammengehören? Dies geht nur über Identifikationsverfahren. Wir brauchen dazu die abgespeicherten Merkmale wie Name, Vorname, Adresse, Telefonnummer, Geburtsdatum. Mit diesen Informationen findet ausgeklügelte Software die richtige Zuordnung. Sie muss allerdings mit Datenfehlern umgehen können. Denn die eingegeben Daten können Fehler, beispielsweise Tippfehler, haben. Auch in diesem Fall muss das Verfahren funktionieren.

Zuordnung von Dokumenten, Videos, Fotos zu Personen

Bisher haben wir nur Daten in Datenbanken betrachtet. Doch gibt es noch viele andere Möglichkeiten, Informationen zu Personen abzuspeichern. Beispielsweise können Dokumente oder  Berichte zu Personen gehören. Dazu zählen Analyseberichte aus Labors. Aber auch Passfotos und Röntgenbilder sind Personen zugeordnet. Andere Fotos oder Videos haben manchmal einen Bezug zu Personen. Wie können wir für diese Daten den Bezug zur Person schaffen?

Es stehen uns hier grundsätzlich zwei Möglichkeiten zur Verfügung. Zuordnung

  1. mit Metadaten
  2. durch Analyse des Inhalts.

Zuordnung mit Metadaten

Zu jedem Dokument sind so genannte Metadaten hinterlegt. Diese beschreiben das Dokument. Insbesondere enthalten sie Merkmale über die Person. So sind Name, Vorname, Geburtsdatum und weitere persönliche Merkmale in den Metadaten vorhanden. Dieselben Merkmale sind in einer Datenbank abgespeichert. Nun vergleichen wir die Metadaten mit den Einträgen der Datenbank. Ist die Übereinstimmung gross, können wir nun die Berichte, Fotos, Videos der richtigen Person zuordnen.

 

Personendaten, personenbezogene Daten, Datenanalyse, Personen und Daten

Abb. 3: Zuordnung von Dokumenten, Fotos, Videos über Metadaten

Dieses Verfahren kommt dann zum Einsatz, wenn die Zuordnung möglichst sicher sein muss. Es erfordert jedoch einen gewissen Aufwand. Denn die Metadaten müssen erfasst werden. Und dies mit grosser Sorgfalt. Sonst sind die Dokumente nicht mehr zu finden.

Zuordnung über die Analyse des Inhalts

Seit einiger Zeit wird der Versuch unternommen, Dokumente automatisch Personen zuzuordnen. Damit kann viel Aufwand eingespart werden. Dazu wird bei automatischen Verfahren der Inhalt der Dokumente analysiert. Ein paar Beispiele dafür:

Die Personendaten (Name, Vorname, etc.) befinden sich an einer definierten Stelle im Dokument. Dann kann eine Software sie automatisch finden. Die Daten werden danach mit OCR Technik in Datenfelder umgewandelt. Die erforderlichen Metadaten werden so automatisch erstellt. Danach erfolgt ein Vergleich mit den Daten der Personen in der Datenbank. Die Wird jemand gefunden, dessen Daten genügend übereinstimmen, wird das Dokument zugeordnet.

Personendaten. personenbezogene Daten, Daten und Personen, Datenanalyse
Abb. 4: Zuordnung von Dokumenten durch Analyse des Inhalts

Die Techniken der Gesichtserkennung lassen neue Möglichkeiten zu. Dazu sind in der Datenbank die Fotos der Personen hinterlegt. Die Identifikation der Person geht nun folgendermassen. Das Foto wird jetzt mit den abgespeicherten Fotos der Datenbank verglichen. Die Software der Gesichtserkennung sucht nach Ähnlichkeiten. Ist das Gesicht auf der Foto genügend ähnlich einer abgespeicherten Foto, ist die Person identifiziert.

Die neuen Algorithmen sind heute so schnell, dass sie auch online Fotos identifizieren können. Dies erlaubt es auch, auf Videos Personen zu erkennen.

Die automatische Zuordnung über den Inhalt ist neu. Das Verfahren wird eingesetzt, wenn die Zuordnung mit wenig Aufwand zu machen ist. Es hat heute noch eine gewisse Fehlerquote. Doch mit der Verbesserung der KI-Algorithmen nimmt diese ständig ab. Es sind deshalb grosse Fortschritte bei der automatischen Zuordnung von Daten zu Personen zu erwarten.

Jürg Simonett

Dipl. El. Ing. ETH, Dr. sc. techn.

CEO
Senior Consultant bei System- und Datenintegrationsprojekten
bei CrowTen seit 1996

Jürg Simonett