Verbesserung der Data-Matching-Qualität mit optimierter String-Distanz-Metrik-Auswahl und Random Forest
Christopher Nölting and
Murad Hajiyev
WISTA – Wirtschaft und Statistik, 2025, vol. 77, issue 5, 69-81
Abstract:
Fehlende eindeutige Identifikatoren erschweren die Verknüpfung von Verwaltungsdaten mit dem statistischen Unternehmensregister. Der Beitrag präsentiert einen überwachten Machine-Learning-Ansatz, der eindeutige Matches als Trainingsbasis nutzt: Nach Normalisierung von Namens- und Adressdaten werden optimierte StringÄhnlichkeitsmaße mit numerischen Merkmalen in einem Random-Forest-Modell kombiniert. Durch Datenbereinigung, Balanced Sampling und Negativmatches entsteht ein robuster Workflow für die Datenverknüpfung. Der Ansatz übertrifft klassische Matching-Verfahren und bietet eine praktikable Methodik für ähnliche Herausforderungen - etwa bei anderen Datenverknüpfungsaufgaben in der amtlichen Statistik.
Keywords: Mikrodatenverknüpfung; überwachtes Maschinelles Lernen; String-Ähnlichkeitsmaße; Random Forest; Verwaltungsdatenverknüpfung; record linkage; supervised machine learning; string similarity metrics; random forest; administrative data linkage (search for similar items in EconPapers)
Date: 2025
References: View complete reference list from CitEc
Citations:
Downloads: (external link)
https://www.econstor.eu/bitstream/10419/330765/1/1940063418.pdf (application/pdf)
Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.
Export reference: BibTeX
RIS (EndNote, ProCite, RefMan)
HTML/Text
Persistent link: https://EconPapers.repec.org/RePEc:zbw:wistat:330765
Access Statistics for this article
More articles in WISTA – Wirtschaft und Statistik from Statistisches Bundesamt (Destatis), Wiesbaden Contact information at EDIRC.
Bibliographic data for series maintained by ZBW - Leibniz Information Centre for Economics ().