Duplikate finden und entfernen mit Excel

Excel bietet Möglichkeiten, Duplikate zu finden und zu entfernen. Wir zeigen Ihnen hier, wie Sie diese Funktionen anwenden können. Zum Schluss fügen wir eine Bewertung der Funktionen an.

Duplikate finden

Excel kann doppelte Einträge in einer Spalte finden und diese markieren.

Um diese Funktion anzuwenden, gehen Sie folgendermassen vor:

  1. Sie markieren in der Exceltabelle die Zellen, in denen Sie die doppelten Einträge suchen. Selbstverständlich können Sie auch eine ganze Zeile oder Spalte anwählen.
  2. Wählen Sie dann unter Start -> Bedingte Formatierung – > Regeln zum Hervorheben von Zellen -> Doppelte Werte

Excel hinterlegt die doppelten Werte mit der ausgewählten Farbe.

Duplikate, Dubletten, Excel
Fig. 1 Doppelte Werte in der ausgewählten Spalte

Achtung:

Beachten Sie, dass die doppelten Werte jeweils für eine Spalte oder Zeile einzeln gelten. Wollen Sie beispielsweise in einer Tabelle mit Personendaten die Datensätze mit denselben Namen und Vornamen finden, so müssen Sie die Daten folgendermassen vorbereiten:

1. Fügen Sie eine neue Spalte ein

2. in dieser Spalte verketten Sie dann den Namen und den Vornamen  (Formeln -> Text -> TEXTVERKETTEN). Dazu wählen Sie die erste Zeile der neuen Spalte aus.

Dubletten in Personendaten
Fig. 2 Ver4ketten von Datenfeldern für die Suche der Duplikate

3. Geben Sie einen Leerschlag ins Feld Trennzeichen ein und lassen Sie das Feld Leer_ignorieren ohne Eintrag. In Text 1 geben Sie die erste Zelle der ersten Spalte (hier Vorname) und in Text2 die zweite Zelle der ersten Spalte(hier Name) ein.

Bereinigen von Personendaten
Fig. 3 Eingabe der Textverkettung

4. Dann kopieren Sie die Spalte mit den verketteten Vornamen und Namen in alle Spalten

5. Jetzt können Sie mit dem Verfahren der bedingten Formatierung (siehe oben) die Duplikate markieren.

Dubletten in Personendaten
Fig. 4 Duplikate in den verketteten Namen und Vornamen

Vor- und Nachteile

Der grosse Vorteil ist sicherlich, dass man die Excel-Funktion einfach anwenden kann. Bei einfachen Datensätzen sind die Duplikate rasch gefunden. Diese lassen sich dann einzeln überprüfen und bei Bedarf von Hand löschen.

Nachteilig empfinden wir die folgenden Einschränkungen:

  • Excel überprüft nur die exakte Übereinstimmung. Die Funktion erkennt Dubletten, bei denen Tippfehler vorkommen, nicht.
  • Die Vorbereitung ist ziemlich aufwändig, wenn mehrere Datenfelder berücksichtigt werden sollen.
  • Bei grossen Datenmengen (mehr als 100000 Einträge) hat Excel die Funktion nicht mehr ausführen können. Vielleicht war mein Laptop zu leistungsschwach.

Duplikate entfernen

Excel bietet unter „->  Daten – > Datentools“ eine Funktion „Duplikate entfernen“ an. Auf dem Screenshot sind die entsprechenden Funktionen mit einem Oval umrandet.

Fig. 5 Auswahl der Felder, aus denen die Duplikate entfernt werden

 

Wenn Sie die Funktion anklicken, erscheint die Liste der Spalten. Markieren Sie die Spalten, die Sie bei der Duplikat Berechnung berücksichtigen wollen.

Nach dem Drücken von OK werden alle doppelten Zeilen entfernt, in denen alle markierten Felder übereinstimmen. In der Tabelle bleibt der erste Eintrag übrig.

Dubletten und Dupilkate
Fig. 6 Resultat der Duplikate Entfernung

Excel zeigt an, wie viele Duplikate gefunden und entfernt worden sind.

Mit ‘CTRL z’ können Sie den Originalzustand wieder herstellen.

Vor- und Nachteile

Der grosse Vorteil liegt darin, dass die Funktion zum Standard Funktionsumfang von Excel gehört. Die Funktion kann einfach angewendet werden.

Als grossen Nachteil empfinden wir den folgenden Punkt:

Excel löscht die Daten sofort. Es zeigt die Duplikate vor dem Löschen nicht an. So hat man keine Möglichkeit vor dem Löschen zur überprüfen, welche Daten gelöscht werden.

Zusammenfassung: Duplikate und Dubletten

Für einfache Fälle bietet Excel eine Möglichkeit, Duplikate zu finden und zu entfernen. Jedoch sind anspruchsvollere Bereinigungen von Daten sind damit nicht möglich. Excel findet Duplikate in den markierten Daten, aber keine Dubletten.

Eine Suche nach Dubletten unterscheidet sich von der Suche nach Duplikaten (Excel) dadurch, dass sie Datenfehler berücksichtigt, wie beispielsweise:

  • Schreibfehler in Namen, Vornamen
  • Tippfehler
  • Verwechslungen in Datumsfeldern
  • Verwechslungen von Namen und Vornamen
  • Namensänderungen durch Änderung des Zivilstandes
  • Umzugsadressen

Nur eine ausgeklügelte Software kann in solchen Fällen Dubletten finden. Dafür reicht eine Excel Funktion nicht aus.

Jürg Simonett

Dipl. El. Ing. ETH, Dr. sc. techn.

CEO
Senior Consultant bei System- und Datenintegrationsprojekten
bei CrowTen seit 1996

Jürg Simonett