Dublette und Duplikat

Was ist eigentlich der Unterschied zwischen Dublette und Duplikat?

Dublette

Eine Dublette ist ein mehrfach vorhandenes Stück in einer Sammlung. In einer Datenbank bezeichnet der Begriff ‘Dublette’ einen doppelt vorhandenen Datensatz.

Dubletten in einer Datenbank zeichnen sich jedoch noch durch eine andere Eigenschaft aus. Die Dubletten-Datensätze sind in der Regel nicht identisch. Denn Dubletten entstehen durch fehlerhafte Eingaben. Als Beispiel nehmen wir eine Datenbank mit Personendaten. Wenn ein Name nicht richtig geschrieben ist, erhalten wir eine Dublette. Wir haben jetzt zwei Datensätze zu derselben Person. Dies geschieht auch, wenn der Vorname mit dem Familiennamen verwechselt wird. Kurz- oder Kosenamen führen ebenfalls zu Dubletten, wenn einmal der Kurzname eingegeben wird, das nächste Mal jedoch der offizielle Vorname. Fehlerhafte oder unvollständige Einträge sind weitere Ursachen für Dubletten. Ein paar Beispiel sind in der Tabelle unten zusammengestellt.

Dubletten in Personendaten
Abb. 1: Beispiele für Dubletten

Dubletten in Datenbanken zu finden, ist eine Spezialaufgabe. Sie erfordert spezielle Verfahren und ausgeklügelte Algorithmen. Nur so können trotz der Abweichungen in den Daten die zusammengehörenden Datensätze gefunden werden.

Duplikat

Duplikate sind gemäss Duden eine zweite Wiedergabe eines Schriftstücks. Ein bisschen breiter gefasst heisst Duplikat eine Kopie eines Originals. Ein Duplikat ist also etwas anderes als eine Dublette. Die Begriffe werden jedoch häufig verwechselt. So bezeichnet beispielsweise das Excel-Programm eine Funktion mit Duplikate entfernen‘. Dieses Programm dient jedoch der Entfernung von Dubletten.

Zur Illustration des Begriffs Duplikat haben wir ein kleines Bilderrätsel angefertigt. Es zeigt 49 Krähen.

Dublette und Duplikat
Abb. 2: Nur eine Krähe hat ein Duplikat Wer findet sie?

Die Krähen haben eine Farbe: hellblau, dunkelblau, hellgrün, dunkelgrün, ockerbraun, braun, grau und schwarz. Sie haben zudem auch eine Grösse: klein, mittel, gross und eine Ausrichtung nach links oder nach rechts. Nur zwei Krähen sind genau gleich. Wer findet sie?

Es ist allerdings nicht klar, welche Krähe das Original ist und welche das Duplikat. Dies ist ja bei Kopien auch nicht immer einfach zu entscheiden.

Jürg Simonett

Dipl. El. Ing. ETH, Dr. sc. techn.

CEO
Senior Consultant bei System- und Datenintegrationsprojekten
bei CrowTen seit 1996

Jürg Simonett