Appariements de donnees individuelles: concepts, methodes, conseils
L. Malherbe
Additional contact information
L. Malherbe: Insee
Documents de Travail de l'Insee - INSEE Working Papers from Institut National de la Statistique et des Etudes Economiques
Abstract:
Un appariement consiste à rapprocher deux bases de données d’origine distincte partageant des unités statistiques communes mais contenant des informations différentes. Cette opération permet d'accroître l'information disponible dans les deux bases. Un cas classique pour le statisticien est l'appariement de fichiers de personnes. Les enjeux sont multiples : enrichissement de données d'enquête par des sources administratives, repérage de doublons, constitution de panels... La tâche est aisée lorsque les deux sources de données disposent d’un identifiant unique commun pour tous les individus, mais ce cas n'est pas fréquent. En l’absence d’un tel identifiant, il est nécessaire de mobiliser les champs caractérisant l'identité d'une personne (état civil, adresse, etc.) pour repérer les individus communs dans les deux bases. Ces traits d'identité pouvant être entachés d'erreurs, certains individus doivent être appariés malgré des informations légèrement différentes sur les champs servant à l’identification. Ce document constitue une introduction pratique aux appariements de données individuelles sur traits d'identité. Après avoir introduit le vocabulaire et les notions clés, il expose et illustre les enjeux et les méthodes associés aux différentes étapes d'un appariement. Un ensemble d'outils d'appariement open source sont présentés, et leurs avantages et inconvénients sont discutés. Des conseils pratiques sont également proposés afin de choisir l'approche la plus adaptée au cas rencontré, paramétrer au mieux l'appariement et éviter de tomber dans certains écueils. Un dépôt de code évolutif contenant des exemples d'appariements ainsi que des ressources d'autoformation est disponible à l'adresse suivante : Ouvrir dans un nouvel onglethttps://github.com/InseeFrLab/appariement
Keywords: appariement; dedoublonnage; donnees individuelles; Fellegi-Sunter (search for similar items in EconPapers)
JEL-codes: C50 C81 (search for similar items in EconPapers)
Date: 2023
References: Add references at CitEc
Citations:
Downloads: (external link)
https://www.insee.fr/fr/statistiques/fichier/version-html/7644535/M2023-03.pdf Document de travail "Méthodologie Statistique" de la DMCSI numéro M2023/03 (application/pdf)
Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.
Export reference: BibTeX
RIS (EndNote, ProCite, RefMan)
HTML/Text
Persistent link: https://EconPapers.repec.org/RePEc:nse:doctra:m2023-03
Access Statistics for this paper
More papers in Documents de Travail de l'Insee - INSEE Working Papers from Institut National de la Statistique et des Etudes Economiques Contact information at EDIRC.
Bibliographic data for series maintained by INSEE ().