Verbesserung der Data-Matching-Qualität mit optimierter String-Distanz-Metrik-Auswahl und Random Forest

Nölting, Christopher; Hajiyev, Murad

Verbesserung der Data-Matching-Qualität mit optimierter String-Distanz-Metrik-Auswahl und Random Forest

Christopher Nölting and Murad Hajiyev

WISTA – Wirtschaft und Statistik, 2025, vol. 77, issue 5, 69-81

Abstract: Fehlende eindeutige Identifikatoren erschweren die Verknüpfung von Verwaltungsdaten mit dem statistischen Unternehmensregister. Der Beitrag präsentiert einen überwachten Machine-Learning-Ansatz, der eindeutige Matches als Trainingsbasis nutzt: Nach Normalisierung von Namens- und Adressdaten werden optimierte StringÄhnlichkeitsmaße mit numerischen Merkmalen in einem Random-Forest-Modell kombiniert. Durch Datenbereinigung, Balanced Sampling und Negativmatches entsteht ein robuster Workflow für die Datenverknüpfung. Der Ansatz übertrifft klassische Matching-Verfahren und bietet eine praktikable Methodik für ähnliche Herausforderungen - etwa bei anderen Datenverknüpfungsaufgaben in der amtlichen Statistik.

Keywords: Mikrodatenverknüpfung; überwachtes Maschinelles Lernen; String-Ähnlichkeitsmaße; Random Forest; Verwaltungsdatenverknüpfung; record linkage; supervised machine learning; string similarity metrics; random forest; administrative data linkage (search for similar items in EconPapers)
Date: 2025
References: View complete reference list from CitEc
Citations:

Downloads: (external link)
https://www.econstor.eu/bitstream/10419/330765/1/1940063418.pdf (application/pdf)

Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.

Export reference: BibTeX RIS (EndNote, ProCite, RefMan) HTML/Text

Persistent link: https://EconPapers.repec.org/RePEc:zbw:wistat:330765

Access Statistics for this article

More articles in WISTA – Wirtschaft und Statistik from Statistisches Bundesamt (Destatis), Wiesbaden Contact information at EDIRC.
Bibliographic data for series maintained by ZBW - Leibniz Information Centre for Economics ().