EconPapers    
Economics at your fingertips  
 

Data Lake Ingestion Management

Yan Zhao, Imen Megdiche () and Franck Ravat
Additional contact information
Yan Zhao: UT Capitole - Université Toulouse Capitole - UT - Université de Toulouse, IRIT - Institut de recherche en informatique de Toulouse - UT Capitole - Université Toulouse Capitole - UT - Université de Toulouse - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse - CNRS - Centre National de la Recherche Scientifique - Toulouse INP - Institut National Polytechnique (Toulouse) - UT - Université de Toulouse - TMBI - Toulouse Mind & Brain Institut - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse, IRIT-SIG - Systèmes d’Informations Généralisées - IRIT - Institut de recherche en informatique de Toulouse - UT Capitole - Université Toulouse Capitole - UT - Université de Toulouse - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse - CNRS - Centre National de la Recherche Scientifique - Toulouse INP - Institut National Polytechnique (Toulouse) - UT - Université de Toulouse - TMBI - Toulouse Mind & Brain Institut - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse
Imen Megdiche: IRIT - Institut de recherche en informatique de Toulouse - UT Capitole - Université Toulouse Capitole - UT - Université de Toulouse - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse - CNRS - Centre National de la Recherche Scientifique - Toulouse INP - Institut National Polytechnique (Toulouse) - UT - Université de Toulouse - TMBI - Toulouse Mind & Brain Institut - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse, IRIT-SIG - Systèmes d’Informations Généralisées - IRIT - Institut de recherche en informatique de Toulouse - UT Capitole - Université Toulouse Capitole - UT - Université de Toulouse - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse - CNRS - Centre National de la Recherche Scientifique - Toulouse INP - Institut National Polytechnique (Toulouse) - UT - Université de Toulouse - TMBI - Toulouse Mind & Brain Institut - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse, INUC - Institut national universitaire Champollion - UT - Université de Toulouse
Franck Ravat: IRIT-SIG - Systèmes d’Informations Généralisées - IRIT - Institut de recherche en informatique de Toulouse - UT Capitole - Université Toulouse Capitole - UT - Université de Toulouse - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse - CNRS - Centre National de la Recherche Scientifique - Toulouse INP - Institut National Polytechnique (Toulouse) - UT - Université de Toulouse - TMBI - Toulouse Mind & Brain Institut - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse, IRIT - Institut de recherche en informatique de Toulouse - UT Capitole - Université Toulouse Capitole - UT - Université de Toulouse - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse - CNRS - Centre National de la Recherche Scientifique - Toulouse INP - Institut National Polytechnique (Toulouse) - UT - Université de Toulouse - TMBI - Toulouse Mind & Brain Institut - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse

Post-Print from HAL

Abstract: Data Lake (DL) is a Big Data analysis solution which ingests raw data in their native format and allows users to process these data upon usage. Data ingestion is not a simple copy and paste of data, it is a complicated and important phase to ensure that ingested data are findable, accessible, interoperable and reusable at all times. Our solution is threefold. Firstly, we propose a metadata model that includes information about external data sources, data ingestion processes, ingested data, dataset veracity and dataset security. Secondly, we present the algorithms that ensure the ingestion phase (data storage and metadata instanciation). Thirdly, we introduce a developed metadata management system whereby users can easily consult different elements stored in DL.

Keywords: Databases (cs.DB); FOS: Computer and information sciences (search for similar items in EconPapers)
Date: 2021
References: Add references at CitEc
Citations:

Published in 2021, ⟨10.48550/arXiv.2107.02885⟩

There are no downloads for this item, see the EconPapers FAQ for hints about obtaining it.

Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.

Export reference: BibTeX RIS (EndNote, ProCite, RefMan) HTML/Text

Persistent link: https://EconPapers.repec.org/RePEc:hal:journl:hal-04739212

DOI: 10.48550/arXiv.2107.02885

Access Statistics for this paper

More papers in Post-Print from HAL
Bibliographic data for series maintained by CCSD ().

 
Page updated 2025-03-22
Handle: RePEc:hal:journl:hal-04739212