Data Lake Ingestion Management
Yan Zhao,
Imen Megdiche () and
Franck Ravat
Additional contact information
Yan Zhao: UT Capitole - Université Toulouse Capitole - UT - Université de Toulouse, IRIT - Institut de recherche en informatique de Toulouse - UT Capitole - Université Toulouse Capitole - UT - Université de Toulouse - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse - CNRS - Centre National de la Recherche Scientifique - Toulouse INP - Institut National Polytechnique (Toulouse) - UT - Université de Toulouse - TMBI - Toulouse Mind & Brain Institut - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse, IRIT-SIG - Systèmes d’Informations Généralisées - IRIT - Institut de recherche en informatique de Toulouse - UT Capitole - Université Toulouse Capitole - UT - Université de Toulouse - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse - CNRS - Centre National de la Recherche Scientifique - Toulouse INP - Institut National Polytechnique (Toulouse) - UT - Université de Toulouse - TMBI - Toulouse Mind & Brain Institut - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse
Imen Megdiche: IRIT - Institut de recherche en informatique de Toulouse - UT Capitole - Université Toulouse Capitole - UT - Université de Toulouse - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse - CNRS - Centre National de la Recherche Scientifique - Toulouse INP - Institut National Polytechnique (Toulouse) - UT - Université de Toulouse - TMBI - Toulouse Mind & Brain Institut - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse, IRIT-SIG - Systèmes d’Informations Généralisées - IRIT - Institut de recherche en informatique de Toulouse - UT Capitole - Université Toulouse Capitole - UT - Université de Toulouse - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse - CNRS - Centre National de la Recherche Scientifique - Toulouse INP - Institut National Polytechnique (Toulouse) - UT - Université de Toulouse - TMBI - Toulouse Mind & Brain Institut - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse, INUC - Institut national universitaire Champollion - UT - Université de Toulouse
Franck Ravat: IRIT-SIG - Systèmes d’Informations Généralisées - IRIT - Institut de recherche en informatique de Toulouse - UT Capitole - Université Toulouse Capitole - UT - Université de Toulouse - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse - CNRS - Centre National de la Recherche Scientifique - Toulouse INP - Institut National Polytechnique (Toulouse) - UT - Université de Toulouse - TMBI - Toulouse Mind & Brain Institut - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse, IRIT - Institut de recherche en informatique de Toulouse - UT Capitole - Université Toulouse Capitole - UT - Université de Toulouse - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse - CNRS - Centre National de la Recherche Scientifique - Toulouse INP - Institut National Polytechnique (Toulouse) - UT - Université de Toulouse - TMBI - Toulouse Mind & Brain Institut - UT2J - Université Toulouse - Jean Jaurès - UT - Université de Toulouse - UT3 - Université Toulouse III - Paul Sabatier - UT - Université de Toulouse
Post-Print from HAL
Abstract:
Data Lake (DL) is a Big Data analysis solution which ingests raw data in their native format and allows users to process these data upon usage. Data ingestion is not a simple copy and paste of data, it is a complicated and important phase to ensure that ingested data are findable, accessible, interoperable and reusable at all times. Our solution is threefold. Firstly, we propose a metadata model that includes information about external data sources, data ingestion processes, ingested data, dataset veracity and dataset security. Secondly, we present the algorithms that ensure the ingestion phase (data storage and metadata instanciation). Thirdly, we introduce a developed metadata management system whereby users can easily consult different elements stored in DL.
Keywords: Databases (cs.DB); FOS: Computer and information sciences (search for similar items in EconPapers)
Date: 2021
References: Add references at CitEc
Citations:
Published in 2021, ⟨10.48550/arXiv.2107.02885⟩
There are no downloads for this item, see the EconPapers FAQ for hints about obtaining it.
Related works:
This item may be available elsewhere in EconPapers: Search for items with the same title.
Export reference: BibTeX
RIS (EndNote, ProCite, RefMan)
HTML/Text
Persistent link: https://EconPapers.repec.org/RePEc:hal:journl:hal-04739212
DOI: 10.48550/arXiv.2107.02885
Access Statistics for this paper
More papers in Post-Print from HAL
Bibliographic data for series maintained by CCSD ().