Un nuevo método para el control de calidad de los datos en series temporales
Cristina Luna and
Agustín Maravall
Boletín Económico, 1999, issue MAY, 37-44
Abstract:
Este trabajo resume la aplicación de una derivación del programa TRAMO denominada TERROR (TRAMO for errors), al control de calidad de los datos que el Banco de España recibe regularmente de entidades, y que sirven de base para la construcción de sus series agregadas. Dado que cada mes y cada trimestre se reciben cientos de miles de datos nuevos, es preciso realizar un esfuerzo para detectar posibles errores en los mismos. Las causas de estos errores son múltiples y muy variadas; pueden ir desde un error en la colocación de una coma, hasta la confusión, por poner un ejemplo, por parte de algún banco, de sus activos bancarios frente a Costa de Marfil con sus activos bancarios frente a las Islas Caimán. El problema del control de calidad de los datos ha sido objeto de una atención creciente en los últimos años. Sin embargo, las técnicas disponibles hasta el presente para tratar conjuntos grandes de series presentan limitaciones importantes, que implican que la detección de errores sea fundamentalmente manual y se base en unos criterios simples, que utilizan una cantidad pequeña de la información disponible. Por una parte, la detección se realiza, en esencia, comparando el crecimiento de los dos últimos períodos (ignorando, pues, la historia completa de la serie de que se trate), y, por otro lado, la comparación se realiza a un nivel de agregación relativamente elevado. Una implicación de la dificultad de detección de errores que ha habido en el pasado es que algunos de los grupos de series de base presentan un aspecto errático, que hace sospechar que pueden contener un número considerable de errores. Conviene señalar que métodos semejantes, fundamentalmente manuales, son también empleados en la mayoría de los bancos centrales e instituciones tales como el Banco de Pagos Internacionales. En la detección de errores es obvio que la información exógena a priori es importante (por ejemplo, pueden haberse fusionado dos bancos). Pero sería importante disponer de un método que fuese automático y que permitiese tratar gran cantidad de series en muy poco tiempo, utilizando la información disponible de forma eficiente. Un método de este tipo podría proporcionar una relación básica de partida sobre cuáles de los nuevos datos son sospechosos de ser erróneos. Cualquier método automático tiene que construirse sobre una definición precisa de qué significa que un dato es «sospechoso». Dado que se trata, en nuestro caso, de series temporales, parece natural plantear el problema en los siguientes términos: dada la evolución que ha seguido la serie, se obtiene una predicción óptima para el próximo período, así como una medida de la desviación típica del error de predicción. Si, al llegar el nuevo dato, este resulta «excesivamente» alejado de la predicción, se clasifica como sospechoso. El concepto de «excesivo» es fácil de precisar. Por ejemplo, se puede considerar excesivo un error de predicción de un tamaño tal que, dadas las características de la serie, solo esperaría uno encontrarlo una de cada 100.000 veces.
Date: 1999
References: Add references at CitEc
Citations: View citations in EconPapers (1)
Downloads: (external link)
http://www.bde.es/f/webbde/SES/Secciones/Publicaci ... Fich/be9905-art4.pdf (application/pdf)
Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.
Export reference: BibTeX
RIS (EndNote, ProCite, RefMan)
HTML/Text
Persistent link: https://EconPapers.repec.org/RePEc:bde:joures:y:1999:i:5:n:4
Access Statistics for this article
More articles in Boletín Económico from Banco de España Contact information at EDIRC.
Bibliographic data for series maintained by Ángel Rodríguez. Electronic Dissemination of Information Unit. Research Department. Banco de España ().