EconPapers    
Economics at your fingertips  
 

A Multiplicative Masking Method for Preserving the Skewness of the Original Micro-records

Nicolas Ruiz
Additional contact information
Nicolas Ruiz: OECD

No 2011/2, OECD Statistics Working Papers from OECD Publishing

Abstract: Masking methods for the safe dissemination of microdata consist of distorting the original data while preserving a pre-defined set of statistical properties in the microdata. For continuous variables, available methodologies rely essentially on matrix masking and in particular on adding noise to the original values, using more or less refined procedures depending on the extent of information that one seeks to preserve. Almost all of these methods make use of the critical assumption that the original datasets follow a normal distribution and/or that the noise has such a distribution. This assumption is, however, restrictive in the sense that few variables follow empirically a Gaussian pattern: the distribution of household income, for example, is positively skewed, and this skewness is essential information that has to be considered and preserved. This paper addresses these issues by presenting a simple multiplicative masking method that preserves skewness of the original data while offering a sufficient level of disclosure risk control. Numerical examples are provided, leading to the suggestion that this method could be well-suited for the dissemination of a broad range of microdata, including those based on administrative and business records. Les méthodes de masquage utilisées pour la diffusion sécurisée des micros données consistent principalement en deux exercices simultanés : la perturbation des valeurs d’origines des données utilisées et la préservation d’un ensemble prédéfini de leurs propriétés statistiques. Pour les variables continues, les méthodes disponibles reposent essentiellement sur l'ajout de bruit aux valeurs d'origine, en utilisant des procédures aux degrés de complexité variant selon l'étendue de l’information que l'on cherche à préserver. Cependant, une caractéristique commune à l’ensemble de ces méthodes est l’utilisation centrale qui est faite de la loi normale, en supposant les données d'origines et/ou les perturbations distribuées selon ce schéma. Cela reste une hypothèse très restrictive dans le sens ou la validité empirique de cette dernière n’est que très rarement vérifiée: la plupart des distributions de revenus observées sont par exemple fortement positivement asymétrique. Cette caractéristique demeure d’ailleurs essentielle et cruciale pour l’analyse économique, et se doit donc d’être préservé. Partant de ce constat, cet article présente une méthodologie simple de masquage multiplicatif préservant l'asymétrie des données d'origine, ce tout en proposant un niveau suffisant de contrôle des risques de divulgation. Cette méthode est illustré au moyen d‘exemples numériques tendant à démontrer l’intérêt de la procédure utilisée à la diffusion d'un large éventail de micro données, y compris celles fondées sur la base de registre administratifs.

Date: 2011-02-23
New Economics Papers: this item is included in nep-ecm
References: Add references at CitEc
Citations:

Downloads: (external link)
https://doi.org/10.1787/5kgg95pb2tbr-en (text/html)

Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.

Export reference: BibTeX RIS (EndNote, ProCite, RefMan) HTML/Text

Persistent link: https://EconPapers.repec.org/RePEc:oec:stdaaa:2011/2-en

Access Statistics for this paper

More papers in OECD Statistics Working Papers from OECD Publishing Contact information at EDIRC.
Bibliographic data for series maintained by ().

 
Page updated 2025-03-19
Handle: RePEc:oec:stdaaa:2011/2-en