Verknüpfen von Datenbanken: Technik und Marketing

Synchronisation der Daten über Adressen

Wie können wir die Kundendaten aus zwei unabhängigen Datenbanken miteinander verknüpfen? Selbstverständlich haben diese keinen gemeinsamen Identifikator für die Kunden. Genau vor dieser Frage stand UPC, ein Telekommunikationsunternehmen. Es wollte die Inhalte von zwei Datenbanken miteinander verbinden.

Eine Datenbank enthielt die technischen Informationen. Die andere hatte die Informationen des Marketings und des Verkaufs. Sind diese Informationen miteinander verknüpft, so ergeben sich Vorteile. Der Kunde wird somit transparenter. Dann eröffnen sich neue Möglichkeiten für gezielte Marketing Massnahmen.

Die Datenbanken verfügten über keinen gemeinsamen Identifikator. Die einzige gemeinsame Information in beiden Datenbanken waren die Namen und die Adressen der Kunden. Also mussten die Daten mit Hilfe der Adressen miteinander zugeordnet, d.h. synchronisiert werden. Nur erschwerten zwei Randbedingungen diese Aufgabe. Erstens handelte es sich um eine grosse Datenmenge. Es waren über einer Million Adressen. Und zweitens war die Qualität der Daten sehr unterschiedlich. Rund 15% der Adressen waren lückenhaft, fehlerhaft geschrieben und zum Teil auch veraltet.

Aufgabe der Adressbereinigung zum Verknüpfen der Datenbanken

CrowTen erhielt in dieser Situation den Auftrag, ein System zu bauen, welches

  1. die Adressen prüft,
  2. fehlerhafte Adressen wenn möglich automatisch korrigiert,
  3. nicht automatisch korrigierbare Adressen herausfiltert,
  4. eine Möglichkeit schafft, die herausgefilterten Adressen manuell zu korrigieren,
  5. die Korrekturen gleichzeitig arbeitender Mitarbeiter verwaltet.

Lösung: Data AppKit Adressbereinigung

Für jeden der einzelnen Schritte hat CrowTen eine Lösung auf der Basis des Data AppKits erarbeitet. Alle Teillösungen wurden in diesem Software Werkzeug zusammengefasst.

Prüfen der Adressen

Was ist überhaupt eine richtige Adresse? Dies muss zuerst definiert werden. Zu diesem Zweck hat der Auftraggeber UPC selbst eine Referenzdatenbank ausgebaut. Sie enthält die korrekten Adressdaten . Andernfalls hätte die Referenzdatenbank der Schweizerischen Post hier gute Dienste geleistet.
Das erste Modul der Lösung prüft die Adressen Es vergleicht also jede Adresse mit den Referenzdaten. Dann scheidet es die richtigen Adressen aus. Denn diese müssen nicht weiter bearbeitet werden.

Automatisches Korrigieren der fehlerhaften Adressen

Viele Adressen enthalten nur kleine Fehler. Es können Schreibfehler sein wie beispielsweise Sefeldstrasse anstatt Seefeldstrasse. Auch Tippfehler kommen vor, häufig sind Verwechslungen von Buchstaben wie beispielsweise Anwnadstrasse statt Anwandstrasse. Das zweite Modul sucht bei einer fehlerhaften Adresse eine ähnliche Adresse in den Referenzdaten. Sie die Abweichung klein, d.h. die Ähnlichkeit genügend gross, so wird die Adresse automatisch korrigiert.

Herausfiltern der nicht automatisch korrigierbaren Adressen

Es bleiben nach diesem Schritt noch die fehlerhaften Adressen, die nicht automatisch korrigierbar waren. Sie sind nun speziell zu behandeln. Das dritte Modul filtert sie deshalb für die weitere Bearbeitung heraus.

Möglichkeit Adressen manuell zu korrigieren

Die fehlerhaften Adressen machen den meisten Aufwand. Denn es bleibt nichts anderes als sie von Hand zu korrigieren. Dazu dient das vierte Modul. Es unterstützt Korrekturarbeit. In einem übersichtlichen GUI zeigt es die fehlerhafte Adresse an. Dazu kommen zwei Hilfsfunktionen:
Die ähnlichsten korrekten Adressen sind auf der rechten Seite aufgelistet. Der Bearbeiter kann so einfach die richtige Adresse auslesen und zuweisen. Dabei wird folgende Eigenschaft ausgenützt: Der Mensch kann mit seinem Hintergrundwissen viele Fehler korrigieren, bei denen ein Algorithmus scheitert.
Dies ist in diesem Modul ausgenützt.
Zudem kann die Bearbeiterin eine Adresse direkt in zwei Datenfelder kopieren. Die beiden Adressverzeichnisse local.ch bzw. directories.ch sind mit diesen Datenfeldern verknüpft. Eine Überprüfung der Adresse mit diesen Datenbanken ist somit einfach möglich.
Es bleiben immer noch Adressen übrig. Die auch mit diesen Hilfsmitteln nicht korrigierbaren Adressen, legt das Modul in einer speziellen Datei ab.

Adressen bereinigen, Datenanalyse, verknüpfen von Datenbanken
Fig. 1 Benutzeroberfläche zur manuellen Korrektur von Adressen

Parallelbearbeitung

Die Adressmenge ist so gross, dass eine ganze Anzahl Mitarbeiter parallel gearbeitet hat. Ein fünftes Modul ermöglichte es deshalb, die Adressen in Pakete einzuteilen. Jeder Mitarbeiter prüft und korrigiert somit die Adressen seines Pakets. Zudem zeigt die eingebaute Fortschrittskontrolle an, wie viele Adressen in jedem Paket schon bearbeitet sind. Dies erleichtert die Zuteilung der Arbeitspakete.

 

Die Grundlage für die Lösung dieser Aufgabe ist das Data AppKit. Ähnliche Lösungen zum Verknüpfen von Datenbanken hat CrowTen in der Schweiz unter anderem für die Schweizerische Post und die Kantonsspitäler BL realisiert.