Entity Resolution: Der neue Weg, um Dubletten zu entfernen

12.01.22

Data Management

Alte Firmenadressen, fehlende Kontaktpersonen oder Tippfehler – es gibt viele Gründe, warum Datensätze mehrfach im System erscheinen. Die Folgen sind aber immer die gleichen: Mehraufwand, Effizienzverlust und Umsatzeinbußen. Bisher war eine Bereinigung der Stammdaten aufwändig und ungenau. Mit der „Entity Resolution“-Methode ist es jetzt möglich, Dubletten präzise zu ermitteln und wesentlich kosteneffizienter zu bereinigen.

Drucken

Stammdatenqualität: Versteckter Kostenfaktor

Fünf bis zehn Prozent aller Stammdaten in Unternehmen sind Schätzungen zufolge Dubletten. Ein Großteil der Mehrfacheinträge geht auf menschliche Bequemlichkeit oder Irrtum zurück: Statt im System zu suchen, ob ein Eintrag bereits vorhanden ist, geht die bearbeitende Person den einfachen Weg und legt den Kontakt neu an. Häufig ergeben Suchen auch keine Treffer, weil sich Adressdetails oder Kontaktpersonen geändert haben und so fälschlicherweise keine Datensätze angezeigt werden. Gerade in der Banken- und Versicherungsbranche können doppelte Stammdaten jedoch auch auf Betrugsversuche hindeuten.

Die redundanten bzw. lückenhaften Datensätze fordern nicht nur Speicherkapazitäten. Sie beeinträchtigen die Ergebnisse von Vertrieb und Marketing. Kontaktpersonen werden nicht erreicht oder verärgert, Abschlüsse bleiben aus. In vielen Unternehmen wird Stammdatenbereinigung vernachlässigt, doch ihre Qualität hat indirekt Einfluss auf die Bilanz. Die Kosten, die aus fachlichen Dubletten resultieren, summieren sich schnell auf siebenstellige Jahresbeträge.

Was ist Entity Resolution?

Unser Ansatz der Entity Resolution kann Ihnen helfen, Dubletten schneller und präziser als bisher zu ermitteln. Dafür arbeiten wir mit anerkannten Clustering- und Distance-Methoden.

CLUSTERING

Bei Clustering werden Stammdaten in fachlich zusammengehörige Cluster gesplittet. Das Splitting erfolgt meist zweidimensional, zum Beispiel nach Postleitzahl oder Gemeindeschlüssel und nach Produkttyp. Auf diese Weise wird verhindert, dass das System ein Unternehmen aus der Musterstraße in München mit einem Unternehmen in der Musterstraße in Hamburg vergleicht und – je nach Definition von Dubletten – fälschlicherweise als doppelte Datensätze markiert.

DISTANCE-METHODEN

Um Dubletten treffsicher zu erkennen, kommen innerhalb eines Clusters verschiedene Distance-Methoden wie Hamming-Distance, Bigram-Distance, Jaro-Winkler-Distance und Levenshtein-Edit-Distance zum Einsatz. Sie vergleichen festgelegte Klassifizierungsvariablen und geben die Ähnlichkeit von 0 bis 100 Prozent an. Dass zwei Datensätze die gleiche Straße ausweisen, ist eben noch lange kein Grund, eine Dublette zu signalisieren. Beträgt die Ähnlichkeit mehr als 80 Prozent, handelt es sich mit hoher Wahrscheinlichkeit um Dubletten.

GOOGLE MAPS API

Für den Adressenabgleich nutzt unser Ansatz die Google API, den derzeit besten Algorithmus für das Finden korrekter Adressen. Damit können Adressen auch bei Falschschreibungen und Wortverdrehungen sehr zuverlässig erkannt werden.

Der Entity Resolution-Prozess

Sie haben spezielle Anforderungen an die Datenbereinigung? Die Entity-Resolution-Methodik passen wir bedarfsgerecht auf jedes Unternehmen an. Gemeinsam mit Ihnen erarbeiten wir eine Strategie zur optimalen Erkennung von doppelten, falschen oder fehlenden Daten.

1. STRATEGIE-KICK-OFF

Bevor wir mit der Entity Resolution beginnen, klären wir in einem Kickoff, welche Kriterien für die Klassifizierung als Dublette herangezogen werden sollen, wie Ihre bestehenden Stammdaten organisiert sind und wie der Prozess der Datenbereinigung ablaufen soll.

2. DATENHARMONISIERUNG

Für die Datenübermittlung an uns sind keine besonderen technischen Voraussetzungen erforderlich. Eine einfache Python-Schnittstelle genügt. Nach der Übermittlung harmonisieren wir Ihre Stammdaten zunächst. Alle Akzente und Umlaute werden für den Algorithmus in die eigentlichen Buchstaben umgewandelt. Sonderzeichen werden ersetzt, Angaben zu Firmennamen standardisiert. Die finale Ausgabe enthält dann wieder die Originalwerte.

3. DUBLETTENERKENNUNG

Es folgt die Identifizierung der Dubletten mittels Entity-Resolution-Methodik.

Ein Beispiel: In diesem Datensatz mit 10 Namen/Adressen sind die ersten 4 Datensätze Dubletten, die nächsten 4 Datensätze ebenfalls. Hier wird der Name zum Teil anders geschrieben, in der Adresse sind Informationen verdreht, falsch geschrieben oder fehlen. Die Entity Resolution-Methodik erkennt jedoch, dass es sich bei zwei Vierer-Blöcken um Dubletten handelt:

Datenset Entitiy Resolution

 

Als Ergebnis zeigt das System an, welcher Datensatz innerhalb des Clusters einem anderen so ähnlich ist, dass es sich wohl um eine fachliche Dublette handelt.

Datenset Entitiy Resolution 2

 

4. DUBLETTENÜBERMITTLUNG UND DATENBEREINIGUNG

Die Liste mit den identifizierten Dubletten erhalten Sie in einem für Ihr ETL/Datenqualitätsmanagement-Tool passenden Format. Die Bereinigung selbst erfordert so nur minimalen manuellen Aufwand. Nutzen Sie Data-Science-Workbenches, zum Beispiel die Azure Machine Learning Platform mit Jupyter Notebook, integrieren wir diese in die Methodik. Mithilfe von künstlicher Intelligenz lassen sich die Ergebnisse noch verbessern.

 

Fazit: Kleines Projekt, Grosse Wirkung

Die Stärke der Entity-Resolution-Methodik ist zum einen ihre hohe Zuverlässigkeit, zum anderen ihre Kosteneffizienz. Der gesamte Prozess vom ersten Kick-off bis zur Erkennung der Dubletten und Aufbau eines Bereinigungsprozess in Ihrem System ist in der Regel innerhalb weniger Wochen abgeschlossen. Dabei wird Ihr Tagesgeschäft zu keiner Zeit beeinträchtigt. Vergleicht man die Kosten und den Aufwand für die Stammdatenbereinigung mit dem potenziellen monetären Verlust, der jedes Jahr durch fachliche Dubletten entsteht, ist die Entscheidung für den Einsatz der Entity-Methodik ein mehr als lohnendes Investment.

Wenn Sie Fragen zur neuen Methode der Stammdatenbereinigung haben, spezifische technische Herausforderungen besprechen möchten oder nächste Schritte planen wollen, nehmen Sie gerne Kontakt zu uns auf.

Autor

André Rausch

Lead Consultant

André Rausch hat seit über 15 Jahren seinen Schwerpunkt im Bereich Datenmanagement. Aktuell ist er bei INFOMOTION als Lead Consultant tätig. Er leitet die interne Expertengruppe Datenmanagement mit über 100 Mitgliedern. Des Weiteren führt er interne und externe Schulungen für Informatica-Lösungen durch. Auch entwickelte er bereits drei Produkte: den Informatica Mapping-Generator, den Informatica Health Check und die Custom Data Lineage auf Excel-Basis. Diese sind aktuell bei mehr als zehn INFOMOTION Kunden im Einsatz.

E-Mail senden