EconPapers    
Economics at your fingertips  
 

Nettoyage de fichiers dans le cas de données individuelles: recherche de la cohérence transversale

Elisabeth Kremp

Économie et Prévision, 1995, vol. 119, issue 3, 171-193

Abstract: [fre] Nettoyage de fichiers dans le cas de données individuelles : recherche de la cohérence transversale . par Elizabeth Kremp . avoir précisé les notions de valeurs aberrantes et de valeurs extrêmes, cet article rappelle les outils statistiques et présente différentes univariées permettant d'identifier ces valeurs. Huit techniques construites à partir de ces outils et de ces méthodes sont ensuite sur un fichier de données d'entreprises pour un ratio. Un des enseignements de ces tests est qu'il faut utiliser des statistiques robustes les méthodes cherchant à identifier les points aberrants. Ensuite, l'application de trois de ces techniques à sept ratios, permet de les d'évaluer le rôle du choix des ratios et de mesurer les phénomènes cumulatifs d'élimination d'observations. Deux d'entre elles des résultats très proches. La plus simple à mettre en œuvre supprime les observations situées à plus de trois intervalles du premier et du troisième quartiles. Cependant, si la distribution de la vraie population pour la variable étudiée est très d'une distribution normale, alors cette technique peut conduire à éliminer trop d'observations, et une variante qui supprime les à plus de cinq intervalles interquartiles semble préférable. [spa] Limpieza de los fîcheros en el caso de datos individuales : busqueda de una coherencia transversal . por Elisabeth Kremp . Tras haber precisado las nociones de valores aberrantes y de valores extremos, este articulo resena los instrumentos estadisticos y présenta diferentes métodos univariados que permiten définir estos valores. Ocho técnicas construidas a partir de estos instrumentos y de estos métodos son luego sometidas a test a partir de un fïchero de datos de empresas ,en vista de la elaboraciôn de un ratio. Una de las ensenanzas que se desprenden de estos tests es la necesidad de utilizar estadfsticas robustas en los métodos destinados a la identificaciôn de los puntos aberrantes. A continuaciôn, la aplicaciôn de très de estas técnicas para siete ratios, permite compararlos, evaluar el papel de la elecciôn de estos ratios y medir los fenômenos cumulativos de eliminaciôn de observaciones. Dos de estas técnicas conducen a resultados muy similares. La mas simple a ser ejecutada suprime las observaciones situadas a mas de très intevalos intercuartiles del primer y del tercer cuartil. Sin embargo, si la distribution de la verdadera poblaciôn para la variable estudiada esta muy alejada de una distribution normal, entonces esta técnica puede conducir a la eliminaciôn de demasiadas observaciones, y una variante que suprime las observaciones situadas a mâs de cinco intervalos intercuartiles pareciera ser preferible. [eng] Cleaning Files Containing Individual Data: The Search for Transversal Consistency . by Elizabeth Kremp . This article first defines the notions of aberrant values and extreme values. It then describes the statistical tools and presents different univaried methods for identifying these values. Eight techniques based on these tools and methods are tested on a file of company data for one ratio. One of the conclusions of these tests is that robust statistics need to be used in the methods seeking to identify aberrant points. Three of these techniques are applied to seven ratios for a comparison, evaluation of the role of the choice of ratios and measurement of the cumulative observation elimination phenomena. Two of these techniques produce very similar results. The easiest technique to apply eliminates the observations situated at more than three interquartile intervals from the first and third quartiles. However, if the distribution of the real population for the variable studied differs greatly from a normal distribution, this technique can eliminate too many observations. In this case, a variant that eliminates the observations at more than five interquartile intervals would appear preferable. [ger] Sâuberung yon Dateien im Falle personenbezogener Daten: Streben nach transversaler Koharenz . von Elisabeth Kremp . Nachdem die Begriffe der Abweichungs- und Extremwerte bestimmt worden sind, erinnert dieser Artikel an die statistischen Instrumente und pràsentiert verschiedene univariate Methoden, mit denen sich diese Werte ermitteln lassen. Anhand einer Datei mit Unternehmensdaten fur eine Kennzahl werden danach acht Verfahren getestet, die auf der Grundlage dieser Instrumente und dieser Methoden erstellt wurden. Eine der Lehren, die sich aus diesen Tests ziehen lassen, lautet, daB bei den Methoden, die der Bestimmung der Abweichungspunkte dienen, solide Statistiken benutzt werden mussen. AnschlieBend ermôglicht es die Anwendung von drei dieser Verfahren auf sieben Kennzahlen, diese miteinander zu vergleichen, die Rolle der Wahl der Kennzahlen zu bewerten und die kumulativen Phanomene bei der Eliminierung von Beobachtungen zu messen. Zwei von ihnen fiihren zu recht âhnlichen Ergebnissen. Das Verfahren, das sich am einfachsten anwenden laBt, eliminiert die Beobachtungen, die mehr als drei Quartilabstande vom ersten und vom dritten Quartil entfernt liegen. Wenn die Verteilung der wirklichen Population fur die untersuchte Variable allzusehr von einer normalen Verteilung abweicht, kann dieses Verfahren jedoch dazu fiihren, daB zu viele Beobachtungen eliminiert werden. Wie es scheint, ist eine Variante, die die mehr als funf Quartilabstande entfernt liegenden Beobachtungen eliminiert, zu bevorzugen.

Date: 1995
Note: DOI:10.3406/ecop.1995.5738
References: View references in EconPapers View complete reference list from CitEc
Citations: View citations in EconPapers (8) Track citations by RSS feed

Downloads: (external link)
https://doi.org/10.3406/ecop.1995.5738 (text/html)
https://www.persee.fr/doc/ecop_0249-4744_1995_num_119_3_5738 (text/html)

Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.

Export reference: BibTeX RIS (EndNote, ProCite, RefMan) HTML/Text

Persistent link: https://EconPapers.repec.org/RePEc:prs:ecoprv:ecop_0249-4744_1995_num_119_3_5738

Access Statistics for this article

Économie et Prévision is currently edited by Ministère de l'économie, des finances et de l'industrie

More articles in Économie et Prévision from Programme National Persée
Bibliographic data for series maintained by Equipe PERSEE ().

 
Page updated 2020-10-20
Handle: RePEc:prs:ecoprv:ecop_0249-4744_1995_num_119_3_5738