Glossar Personendaten

Die Begriffe im Glossar Personendaten sind in alphabetischer Reihenfolge aufgeführt. Der Umfang wird ständig erweitert und angepasst.

data matching

Der Begriff data matching bezeichnet das Finden zusammengehörender Datensätze.

Dieselbe Aufgabe kommt auch unter dem Begriff ‚Eindeutige Identifikation von Objekten‘ vor. Der Zusammenhang ist folgender: Ein Objekt wird identifiziert, indem es seiner Nutzattribute einen eindeutigen Schlüssel erhält. Nun kann es vorkommen, dass ein anderes Objekt anhand derselben Attribute denselben Schlüssel bekommt. Dies bedeutet nichts anderes, dass die beiden Objekte als dieselben erkannt werden. Sie gehören somit zusammen. Man hat zwei zusammengehörende Datensätze gefunden.

data merging

Data merging bezeichnet das Zusammenführen von Daten, die aus verschiedenen Quellen stammen. In unserem Kontext handelt es sich um das Zusammenführen von Informationen von Dubletten. Dieses Zusammenführen ist nicht immer einfach. Es müssen dazu Regeln definiert werden. Diese Regeln sind umso komplizierter je unterschiedlicher die Daten aus den verschiedenen Quellen sind. Die Hauptaufgabe des data merging liegt deshalb im Aufstellen der Regeln.

DSGVO

Abkürzung für Datenschutz Grundverordnung der Europäischen Union.

Dublette

Zwei in einer Datenbank vorkommende Datensätze, die zu derselben Person gehören nennen wir Dubletten. Dubletten entstehen aus unterschiedlichen Gründen. Sie entstehen beispielsweise durch Tippfehler bei der Eingabe , durch Verwechslungen von Namen und Vornamen oder durch Änderungen des Namens einer Person.

Oftmals wird das Wort auch als Doublette geschrieben. Ebenfalls findet sich die Bezeichnung Duplikat für Dublette, z. B. im Excel-Programm.

Der Einfachheit halber bezeichnen wir hier mit Dubletten auch Datensätze, die drei-, vierfach oder sogar noch häufiger vorkommen.

Duplikat

Ein Duplikat ist eine zweite Wiedergabe eines Originals. Es bezeichnet eigentlich eine Kopie, eine Abschrift. Dennoch wird der Begriff Duplikat ab und zu anstelle von Dublette verwendet, so beispielsweise im Programm Excel.

GDPR

Abkürzung für General Data Protection Regulation. Englische Bezeichnung für die Datenschutz Grundverordnung.

Identifikation der Person in Datensätzen

Das Identifizieren von Personen in Datensätzen ist ein Spezialfall der Objektidentifikation. Hier sind die identifizierenden Attribute relativ eingeschränkt. Es handelt sich dabei immer um Namen, Vornamen. Dazu kommen je nach Datensatz: Geburtsdatum, Adresse, Telefonnummer oder E-Mail-Adresse und weitere Attribute. Das eindeutige Identifizieren von Personen ist gleichbedeutend mit dem Finden von Dubletten.

Mögliche Dublette

Mögliche Dubletten können aufgrund der vorhandenen Informationen nicht automatisch einer Person mit Sicherheit zugeordnet werden.

personenbezogene Daten

Personenbezogene Daten beziehen sich immer auf natürliche Personen. Mit personenbezogenen Daten muss die Datenverarbeitung speziell sorgfältig umgehen. Der Umgang mit ihnen ist durch Datenschutzbestimmungen eingeschränkt. Personenbezogene Daten können Kundendaten, Patientendaten, Personaldaten, usw. sein. Gemäss DSGVO sind personenbezogene Daten: Alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen. Als identifizierbar wird eine Person angesehen, die direkt oder indirekt, insbesondere mittels Zuordnung einer Kennung wie einen Namen zu einer Kennnummer, zu Standortdaten, zu einer online-Kennung oder zu einem oder mehreren Merkmalen , die Ausdruck der physischen, physiologischen , genetischen, psychischen, wirtschaftlichen, kulturellen oder sozialen Identität identifiziert werden kann.

Personendaten

Personenbezogene Daten werden in der Schweiz Personendaten genannt. Personendaten können Kundendaten, Patientendaten, Personaldaten, usw. sein. Sie unterliegen speziellen Datenschutzbestimmungen. In der schweizerischen Gesetzgebung fallen auch die Daten juristischer Personen unter die Personendaten.

Profiling

Profiling (englisch profiling) bezeichnet (laut Duden) die nutzbare Erstellung des Gesamtbildes einer Persönlichkeit für bestimmte Zwecke (z. B. zur Arbeitsvermittlung oder bei der Tätersuche).[1] Die Erstellung erfolgt durch das Zusammenführen von Daten, sowie deren anschließende Analyse und zweckbezogenen Auswertung. https://de.wikipedia.org/wiki/Profiling

Pseudonymisierung

Bei der Pseudonymisierung wird der Name oder ein anderes Identifikationsmerkmal durch ein Pseudonym (zumeist eine mehrstellige Buchstaben- oder Zahlenkombination, auch Code genannt) ersetzt, um die Feststellung der Identität des Betroffenen auszuschließen oder wesentlich zu erschweren. https://de.wikipedia.org/wiki/Anonymisierung_und_Pseudonymisierung

Sichere Dublette

Sichere Dubletten sind Datensätze, die mit sehr hoher Wahrscheinlichkeit derselben Person zugeordnet werden können. Wir verwenden den Begriff im Zusammenhang mit der automatischen Dubletten Erkennung. Sichere Dubletten werden vom Verfahren der Dubletten Erkennung als Dubletten ausgewiesen. Im Gegensatz dazu, besteht bei möglichen Dubletten ein gewisser Zweifel.

Unikat

Unikat bezeichnet die Einzigartigkeit eines Objektes. Handgefertigte Werke der Kunst, beispielsweise eine Maßanfertigung im Modedesign sind zwangsläufig Unikate. Lebewesen sind im weiteren Sinne ebenfalls Unikate. Darüber hinaus bezeichnet Unikat auch die einzige Ausfertigung eines Schriftstücks (Wikipedia)..

In unserem Zusammenhang ist ein Unikat ist ein Datensatz, der einer Person zugeordnet werden kann. Es ist also kein zweiter Datensatz (Dublette) zu dieser Person vorhanden.

 

Jürg Simonett

Dipl. El. Ing. ETH, Dr. sc. techn.

CEO
Senior Consultant bei System- und Datenintegrationsprojekten
bei CrowTen seit 1996

Jürg Simonett