Jemmali, Rym (2023) Processus d'ingestion de données hétérogènes et d'assistance au requêtage pour un lac de données médical. École doctorale Mathématiques, Informatique et Télécommunications (Toulouse).
Preview |
Text
Download (4MB) | Preview |
Abstract
Les avancées technologiques récentes ont permis une explosion des données générées à une échelle sans précédent, ce que l'on appelle communément le « Big Data ». Les entreprises, les organisations et même les particuliers sont confrontés à des volumes massifs de données provenant de sources diverses telles que les réseaux sociaux, les capteurs « IoT », les transactions en ligne, les appareils mobiles, etc. Les techniques standards de traitement, de stockage et d'analyse des données ont été reconsidérées et étendues, voire redéfinies pour prendre en compte des contraintes inhérentes à ce domaine d'étude. Dans ce contexte, les lacs de données ont émergé comme une solution prometteuse pour le stockage et l'exploitation de mégadonnées (big data), en complément aux entrepôts de données. Un lac de données se définit par deux propriétés principales : la variété des données qu'il est capable d'ingérer, et une approche où le schéma des données n'est défini qu'à leur interrogation (schema-on-read). Ces propriétés font qu'un lac de données est un système souple et adaptatif. Cependant, l'hétérogénéité des systèmes de stockage associée à la diversité des contenus du lac de données constitue un obstacle majeur à une exploitation décisionnelle efficace des données. De plus, les systèmes d'aide à la décision traditionnels ne peuvent pas répondre aux demandes croissantes des entreprises modernes pour l'intégration et l'analyse des quantités massives de données générées. Ainsi, il est essentiel de réorganiser ces données sous une forme unifiée. Les outils de stockage actuels offrent peu de mécanismes pour prendre en compte cette hétérogénéité des bases de données tout en garantissant la cohérence des données et, par conséquent, leur qualité. La plupart des organisations doivent donc transformer les données stockées dans des systèmes relationnels en systèmes NoSQL ou « Not only SQL » basés sur des modèles flexibles. Dans ce mémoire, nous proposons des solutions pour permettre à des décideurs (non-informaticiens) de manipuler des données complexes stockées dans des BD hétérogènes. Notre première contribution porte sur l'ingestion des données à partir d'un lac de données en vue de créer une BD appelée entrepôt et destinée à l'analyse décisionnelle. L'ingestion consiste, tout d'abord, à transférer des BD relationnelles et NoSQL extraites du lac de données dans une base de données NoSQL unique (l'entrepôt), ensuite à fusionner des classes dites « similaires » et enfin à convertir les liens sous forme de références entre objets. Pour automatiser ce processus, nous avons utilisé l'architecture MDA (Model Driven Architecture) qui offre un environnement de transformation des schémas. A partir des schémas physiques décrivant un lac de données, nous proposons des règles de transformation qui permettent de créer un entrepôt de données stocké sous un système NoSQL orienté-documents. Cet entrepôt, provenant de l'ingestion de données massives, présente une structure complexe. À ce titre, nous proposons un processus d'assistance aux utilisateurs pour leur faciliter l'accès aux données. Ce processus repose soit sur un système de personnalisation soit sur un système de recommandation qui assistent les décideurs dans leur recherche d'information. Une expérimentation a été réalisée pour une application médicale destinée à une mutuelle de santé.
,Recent technological advances have led to an explosion of data generated at an unprecedented scale, commonly referred to as "Big Data". Businesses, organizations, and even individuals are faced with massive volumes of data from a variety of sources such as social media, IoT sensors, online transactions, mobile devices, etc. Standard data processing, storage, and analysis techniques have been reconsidered and extended, or even redefined to take into account the inherent constraints of this field of study. In this context, data lakes have emerged as a promising solution for storing and exploiting big data, in addition to data warehouses. A data lake is defined by two main properties: the variety of data it can ingest, and an approach where the data schema is defined only at query time (schema-on-read). These properties make a data lake a flexible and adaptive system. However, the heterogeneity of storage systems combined with the diversity of data lake contents is a major obstacle to effective decision-making exploitation of data. In addition, traditional decision support systems cannot meet the growing demands of modern businesses for the integration and analysis of the massive amounts of data generated. Thus, it is essential to reorganize this data into a unified form. Current storage tools offer few mechanisms to take into account this heterogeneity of databases while ensuring data consistency and, consequently, their quality. Most organizations must therefore transform data stored in relational systems into NoSQL or "Not only SQL" systems based on flexible models. In this paper, we propose solutions to allow decision-makers to manipulate complex data stored in heterogeneous databases. Our first contribution concerns the ingestion of data from a data lake in order to create a database called warehouse and intended for decision-making analysis. Ingestion consists, first, of transferring relational and NoSQL BDs extracted from the data lake into a single NoSQL database (the warehouse), then merging so-called "similar" classes, and finally converting links into references between objects. To automate this process, we used the MDA (Model Driven Architecture) architecture which offers a schema transformation environment. From the physical schemas describing a data lake, we propose transformation rules that allow us to create a data warehouse stored under a document-oriented NoSQL system. This warehouse, resulting from the ingestion of massive data, has a complex structure. As such, we propose a user assistance process to facilitate their access to data. This process is based on either a personalization system or a recommendation system that assists decision-makers in their information retrieval. This process is based on either a personalization system or a recommendation system that assists decision-makers in their information retrieval. An experiment was conducted for a medical application intended for a health insurance company.
Item Type: | Thesis (UNSPECIFIED) |
---|---|
Other titles: | Heterogeneous data ingestion and query assistance process for a medical data lake |
Language: | French |
Date: | 13 December 2023 |
Keywords (French): | Stockage en ligne (informatique), Entrepôts de données, Données massives |
Subjects: | H- INFORMATIQUE |
Divisions: | Institut de Recherche en Informatique de Toulouse |
Ecole doctorale: | École doctorale Mathématiques, Informatique et Télécommunications (Toulouse) |
Site: | UT1 |
Date Deposited: | 19 Sep 2024 13:25 |
Last Modified: | 19 Sep 2024 13:25 |
URI: | https://publications.ut-capitole.fr/id/eprint/49708 |