Zhao, Yan (2021) Metadata Management for Data Lake Governance. École doctorale Mathématiques, Informatique et Télécommunications (Toulouse).

[thumbnail of ZhaoYan2021.pdf]
Preview
Text
Download (30MB) | Preview

Abstract

A l’ère du Big Data, les données sont caractérisées par le volume, la vitesse, la variété, la véracité et la valeur (5V). L’enjeu majeur du Big Data, au-delà du stockage, est d’extraire de la valeur de qualité à travers des analyses avancées sur des données volumineuses, véloces et variées. Depuis une décennie, le Lac de données (LD) est apparu comme une nouvelle solution répondant à cet enjeu de Big Data Analytics. En tant que concept relativement nouveau, le lac de données n’a pas de définition standard ni d’architecture reconnue. Les propositions de la littérature sont insuffisantes au regard de l’ampleur du contexte. Notre première contribution se résume en une définition complète ainsi qu’une architecture générique du lac de données qui contient une zone d’ingestion, une zone de préparation, une zone d’analyse et une zone de gouvernance de données. De plus, afin que les lacs de données ne soient ni invisibles ni inaccessibles par ses différents d’utilisateurs, une gouvernance est vitale. L’élément central d’une bonne gouvernance est un système de management de métadonnées. Dans la littérature, les approches de management des métadonnées sont parcellaires et pas nécessairement génériques pour les LD. La contribution majeure de cette thèse est une solution complète de management de métadonnées permettant aux utilisateurs de trouver, d’accéder, d’interopérer et de réutiliser facilement aussi bien des données que des processus ou des analyses effectuées par le LD. Dans un premier temps, nous avons proposé un modèle de métadonnées permettant de gérer tout le cycle de vie des données dans un LD comme suit : (i) métadonnées représentant différents types de données ingérées (structurées, semi structurées et non structurées) et différents modes d’ingestion (batch et en temps réel), (ii) métadonnées représentant différents processus de transformation des données (ETL, exploration statistiques et phase de préparation en science des données) au travers de la spécification d’opérations de haut niveau, (iii) métadonnées orientées analyse et notamment l’apprentissage automatique pour caractériser les analyses effectuées dans le LD et de pouvoir réutiliser et paramétrer rapidement les futures analyses. Dans un second temps, nous avons défini un système de gestion de métadonnées, nommé DAMMS. DAMMS permet (i) d’ingérer de manière semi-automatique des métadonnées et (ii) d’explorer le contenu du LD (données, processus de transformation ou analyses) de manière ergonomique afin de pouvoir les réutiliser ou les adapter. DAMMS présente ainsi l’avantage de répondre au besoin d’industrialisation de la science des données. Enfin, pour évaluer la faisabilité et l’utilisabilité de notre proposition, nous avons mené conjointement une étude de performance de l’ingestion des métadonnées et une étude analysant l’expérience utilisateur de DAMMS.

,

In the era of Big Data, data is characterized by volume, velocity, variety, veracity and value (5V). The major challenge of Big Data, beyond storage, is to extract quality value through advanced analytics on voluminous, fast and varied data. Over the past decade, Data Lake (DL) has emerged as a new solution to address this Big Data Analytics challenge. As a relatively new concept, data lake has no standard definition or recognized architecture. The proposals in the literature are insufficient for the scope of the context. Our first contribution is a comprehensive definition and a generic architecture of data lake that contains an ingestion zone, a preparation zone, an analysis zone and a data governance zone. Furthermore, in order to ensure that a data lake is neither invisible nor inaccessible to its various users, the data lake governance is vital. The central element of good governance is a metadata management system. In the literature, approaches to metadata management are fragmented and not necessarily generic for DL. The major contribution of this thesis is a comprehensive metadata management solution that allows users to easily And, access, interoperate and reuse data as well as processes or analyses performed by the DL. As a first step, we proposed a model to manage the entire data life-cycle in a DL as follows: (i) metadata representing different types of ingested data (structured, semi-structured and unstructured) and different ingestion modes (batch and real-time), (ii) metadata representing different data transformation processes (ETL, statistical mining and the preparation phase of data science) through the specification of high-level operations, (iii) metadata that are oriented to analysis and in particular machine learning to characterize the analyses performed in the DL and to be able to reuse and quickly parameterize future analyses. In a second step, we defined a metadata management system, named DAMMS. DAMMS allows users (i) to automatically ingest metadata and (ii) to explore the content of the DL (data, transformation processes or analyses) in an ergonomic way in order to be able to reuse or adapt them. DAMMS thus has the advantage of responding to the need for data science industrialization. Finally, in order to evaluate the feasibility and usability of our proposal, we have jointly conducted a performance study of metadata ingestion and a study analyzing the user experience of DAMMS.

Item Type: Thesis (UNSPECIFIED)
Other titles: Gestion des métadonnées pour la gouvernance des lacs de données
Language: English
Date: 7 December 2021
Keywords (French): Métadonnées‎, Analyse des données
Subjects: H- INFORMATIQUE
Divisions: Institut de Recherche en Informatique de Toulouse
Ecole doctorale: École doctorale Mathématiques, Informatique et Télécommunications (Toulouse)
Site: UT1
Date Deposited: 22 Feb 2022 15:26
Last Modified: 22 Jul 2022 14:19
URI: https://publications.ut-capitole.fr/id/eprint/44574
View Item

Downloads

Downloads per month over past year