Transformation von Daten

Wann ist die Transformation von Daten notwendig?

Es sind zwei Situationen, die nach einer Daten Transformation verlangen. Da bleibt keine andere Wahl als die Daten zu transformieren. Die beiden Situationen sind:

  1. Wir ersetzen eine bestehende Software Lösung. Dabei kommt ein neues Software Paket zum Einsatz. Leider stimmen die Datenstrukturen nicht überein. Die Strukturen des alten und des neuen Systems sind unterschiedlich. Deshalb ist hier eine Daten Transformation unerlässlich. Nur danach passen die Daten in das neue System.
  2. Wir integrieren Daten aus einer fremden Quelle in eine bestehende Datenbank. Bei der fremden Quelle handelt es sich um eine unabhängige Datenbank. Dann passen die Strukturen der beiden Datensätze nicht zusammen. Deshalb bleibt auch hier nichts anderes übrig, als die Strukturen der fremden Daten anzupassen. Danach können wir sie in die bestehende Datenbank übernehmen.

Klassen von Aufgaben

Die Daten Transformation kann einfach oder sehr anspruchsvoll sein. Zur Unterscheidung teilen wir sie in drei Klassen ein. Der Schwierigkeitsgrad nimmt dabei ständig zu. In der nachfolgenden Tabelle haben wir die Klassen zusammengestellt. Beschreibungen und Beispielen sollen deren Unterschiede sichtbar machen.

 

Klasse der Transformation Beschreibung und Bearbeitung Beispiele
Transformation des Datenformats Das Format der ursprünglichen Daten entspricht nicht dem Format der Ziel-Datenstruktur. In diesem Fall werden die Daten umformatiert.

Software Programme können diese Aufgabe automatisch durchführen.

Datum :

  • 2.Feb. 12 -> 02.02.2012
  • amerikanisches Datumsformat -> europäisches Datumsformat

Boolean:

  • {0;1} – > {ja; nein}

Numerische Felder:

  • Integer – long integer
Einfache Transformation der Datenstruktur In den Quelldaten sind zwei oder mehrere Inhalte in einem Datenfeld  zusammengefasst.
Die Transformation besteht darin, die Inhalte auf entsprechend viele Datenfelder zu verteilen. 

Auch in diesem Fall können Software Programme die Verteilung des Inhalts weitgehend automatisch durchführen. Doch ist hier eine Vor- und eine Nachbearbeitung der Daten meist sinnvoll.

Adressen:

  • Strassenname, Hausnummer, Postfach sind in einem Feld abgelegt. Der Inhalt wird auf die drei Felder: Strassenname, Hausnummer und Postfach aufgeteilt.
  • Postleitzahl mit Länderkennzeichen: CH-8032, D-12457 wird in zwei Felder aufgeteilt.

Telefonnummern:
Mehrere Telefonnummern sind in einem Datenfeld abgelegt. Eine  Transformation wird durchgeführt. Sie stellt sicher, dass danach in jedem Datenfeld genau eine Telefonnummer vorhanden ist.

 

Komplexe Transformation der Datenstruktur Komplexe Transformationen sind notwendig, wenn

  • Personendaten mit weiteren Daten verknüpft sind, oder
  • Daten aus verschiedenen Datenquellen in eine Struktur überführt werden.

Diese Aufgabe gehört den Spezialisten. Denn sie erfordert eine genaue Methodik beim Vorgehen.

Manchmal müssen die Daten zuerst ergänzt werden, damit die Transformation richtig durchgeführt werden kann.

Software Programme können nur Teilschritte komplexer Transformationen automatisch durchführen.

Patientendaten:

Zwei Datenbanken mit Patientendaten, die  mit medizinischen Daten verknüpft sind, werden zusammengeführt.

Dabei ist die Struktur der Verknüpfung mit den medizinischen Daten unterschiedlich.

Die uneinheitlichen Strukturen werden bereinigt. Erst danach lassen sich die Daten zusammenführen.

Organisation der Transformation von Daten

Je komplexer die Transformation der Daten ist, desto anspruchsvoller sind die Regeln dafür.

Zuerst betrachten wir den einfachsten Fall. Hier ist das Daten transformieren einzig eine Aufgabe der Informatik. Die Transformation stellt keine besonderen Ansprüche an Analyse und Programme.

Ein wenig komplizierter wird es im zweiten Fall. Hier verteilen wir die Dateninhalte aus einem Datenfeld auf mehrere Datenfelder. Meist lassen sich Transformations-Regeln ableiten. Manchmal ist es jedoch einfacher, die Daten vorher zu bearbeiten. So können zum Beispiel Trennzeichen als Vorbereitung eingeführt werden. Danach lassen sich die Daten automatisch besser transformieren. Hier stellt die Analyse uns vor eine neue Aufgabe: Es geht nun darum, die beste Mischung zwischen automatischer Transformation und manueller Vor- oder Nachbereitung der Daten zu finden.

In komplexen Fällen hingegen verlassen wir das Feld der Informatik. Es geht hier nicht ohne die Mitwirkung von Spezialisten und Data Ownern.

Nur Fachexperten können die Daten richtig interpretieren. Durch ihre Analyse geben sie die Regeln und Methodik für die Daten Transformationen vor. Doch nicht nur die Fachspezialisten sind gefragt. Auch die Verantwortlichen der Daten (Data Owner)  müssen ihren Beitrag leisten. Allein sie können aus übergeordneter Warte beurteilen, ob die Daten relevant sind. Das heisst:

  • Braucht die Organisation die Daten überhaupt?
  • Lohnt es sich, die Daten zu transformieren?
  • Wo ist besondere Aufmerksamkeit zu schenken?

Nur die Data Owner können diese Fragen beantworten. Wenn diese Fragen nicht beantwortet werden, entsteht meist eine suboptimale Informatik-Lösung. Und sicher sind die Kosten dafür höher als eigentlich notwendig.

Komplexe Datentransformationen brauchen also eine sorgfältige Vorbereitung. Am besten löst dies ein Team. Es besteht aus Fachexperten, Data Ownern und Verantwortlichen für die Informatiklösung. Dann sind alle Fachrichtungen vertreten. Die Chancen für eine optimale Lösung stehen dann gut.

Jürg Simonett

Dipl. El. Ing. ETH, Dr. sc. techn.

CEO
Senior Consultant bei System- und Datenintegrationsprojekten
bei CrowTen seit 1996

Jürg Simonett