Datenbanken zusammenführen

Wenn wir Datenbanken zusammenführen, so können wir in der Regel die Daten nicht einfach übernehmen. Es sind drei verschiedene Aufgaben zu lösen.

Struktur anpassen

Die Struktur der Daten der verschiedenen Quellen ist unterschiedlich. Deshalb müssen wir zuerst eine gemeinsame Struktur festlegen. Dabei können die unterschiedlichsten Probleme auftreten. Die Datenfelder enthalten dieselben Informationen, sind aber nicht gleich strukturiert. Sehr häufig kommt dies bei den Adressen vor. In einer Datenquelle sind Strassenname und Hausnummer in einem Datenfeld abgelegt. In der zweiten Datenquelle sind diese Informationen in zwei Datenfeldern vorhanden. Die Transformation der Daten kann ziemlich aufwendig sein. Eine Übersicht über dieses Thema finden Sie hier.

Weiterhin ist es wahrscheinlich, dass dieselbe Person in beiden Datenquellen vorkommt. Wie findet man dies heraus?

Personen identifizieren

Die zweite Aufgabe besteht darin die Personen in beiden Datenquellen eindeutig zu identifizieren. Zur Identifikation haben wir die Inhalte der Datenfelder zur Verfügung. Anhand von Namen, Vornamen und weiteren Merkmalen müssen wir herausfinden, welche Person gemeint ist. Dies wäre nicht so kompliziert, wenn keine Fehler in den Daten vorkämen. Doch leider treffen wir fehlerhafte Eingaben an. Tippfehler sind die häufigste Fehlerursache. Aber auch ‘natürliche’ Veränderungen der Daten machen Schwierigkeiten. Menschen heiraten und ändern den Namen. Oder sie ziehen um an eine neue Adresse. Deshalb haben Daten, die zu verschiedenen Zeitpunkten erhoben wurden, andere Angaben zu derselben Person. Unter diesen Umständen die richtige Person zu identifizieren, ist die Herausforderung. CrowTen hat hierzu effiziente Verfahren und Algorithmen entwickelt.

Zusammenführen der Informationen

Die dritte Aufgabe ist das Zusammenführen der Informationen. Die Informationen aus den verschiedenen Datenquellen können widersprüchlich sein. Welche Information sollen wir behalten? Können wir Informationen löschen? Oder müssen wir alles irgendwie alle vorhanden Informationen weiter verwalten?

Für diese Fragen gibt es keine allgemeinen Antworten. Die Data Owner, die Verantwortlichen für die Daten, sind hier gefordert. Sie müssen Regeln festlegen, nach denen die Daten zusammengeführt werden. Denn bei grossen Datenbeständen ist es nahezu unmöglich, alle Informationen einzeln zu prüfen. Somit stehen zwei widersprüchliche Anforderungen einander gegenüber. Die verwalteten Daten sollten einerseits keine unnötigen oder falschen Informationen enthalten. Andererseits sollte auch keine wertvollen Informationen verloren gehen. Hier gilt es den richtigen Weg zu finden.

Mit der Lösung der drei Teilaufgaben können wir die Datenbanken zusammenführen.