Tighilt Ferhat, Rabah (2021) Extraction des modèles d'une base de données NoSQL orientée-documents basée sur une approche dirigée par les modèles. École doctorale Mathématiques, Informatique et Télécommunications (Toulouse).

[thumbnail of TighiltFerhatRabah2021.pdf]
Preview
Text
Download (4MB) | Preview

Abstract

De nos jours, la transformation digitale des entreprises et plus largement celle de la société a entrainé une évolution des bases de données (BD) relationnelles vers les BD massives (Big data). Celles-ci permettent de stocker non seulement de grandes quantités de données mais également différents types et formats de données provenant de sources hétérogènes. De plus, ces données sont souvent saisies à très haute fréquence et doivent donc être filtrées et agrégées en temps réel pour éviter toute saturation inutile de l’espace de stockage. Ces caractéristiques ont eu un impact sur les outils nécessaires au stockage et à la gestion des données. Ainsi, sont apparus de nouveaux systèmes de gestion des données : les systèmes NoSQL. Ceux-ci sont notamment capables de gérer le volume, la variété et la vélocité. Dans la majorité des SGBD NoSQL, les bases de données (BD) sont schema-less (sans schéma), ce qui signifie que le modèle de données n’est pas fourni lors de la création d’une BD. Autrement dit, dans une table, les noms des attributs ne sont précisés qu’au moment de l’insertion de leurs valeurs. Cette propriété d’absence du schéma offre une flexibilité indéniable qui : - facilite l'évolution du modèle de données au fur et à mesure de l’utilisation de la BD, - et permet aux utilisateurs finaux d'ajouter de nouvelles informations sans avoir recours à l’administrateur de BD. Mais, en contrepartie, cette propriété introduit un manque de compréhension et de visibilité sur l’organisation des données dans une BD NoSQL. Autrement dit, l'absence du modèle de données ne permet pas à l’utilisateur de connaitre comment les données sont stockées (sous quel nom et quel type) et reliées dans la BD ; cette connaissance est indispensable pour exprimer des requêtes. En effet, pour écrire ses requêtes, l’utilisateur doit disposer de la structure de la BD décrivant les noms des tables, les noms des attributs et leurs types ainsi que les liens entre les objets ; un modèle de données contient l’ensemble de ces descriptions. Nos travaux s’inscrivent dans ce contexte ; ils concernent l’élaboration des modèles nécessaires pour la manipulation des BD gérées par des systèmes NoSQL schema-less. Il s’agit de deux modèles : – Le modèle physique qui décrit l'organisation interne des données et permet d'exprimer des requêtes. – Le modèle conceptuel qui fait abstraction des aspects techniques et se concentre sur la sémantique de données. L’objectif de cette thèse est de proposer une démarche générale qui vise à extraire les modèles physique et conceptuel d’une BD NoSQL schema-less. Nous utilisons l’architecture MDA qui est une norme du consortium OMG pour le développement dirigé par les modèles. A partir d'une BD NoSQL schema-less, notre démarche MDA applique deux processus automatiques successifs : – Le processus d’extraction et de mise à jour du modèle physique, – Le processus de transformation du modèle physique en un modèle conceptuel. Afin de vérifier la faisabilité de notre solution, nous avons développé un prototype composé de deux modules. Le premier est chargé de générer un modèle physique de données à partir d’une BD NoSQL schema-less et le mettre à jour au fur et à mesure de l’exécution des requêtes sur la BD. Le modèle physique résultant décrit l'organisation interne des données de la base et permet aux utilisateurs d'exprimer des requêtes. Le second module a pour objectif de transformer le modèle physique en un modèle conceptuel de données. Celui-ci fait abstraction des aspects techniques et facilite la compréhension de l’organisation des données.

,

Nowadays, the digital transformation of companies and more broadly that of society has led to an evolution of relational databases towards Big data. These allow storing not only large amounts of data but also different types and formats of data from heterogeneous sources. In addition, this data is often captured at very high frequency and must therefore be filtered and aggregated in real time to avoid unnecessary saturation of storage space. These characteristics have had an impact on the tools needed to store and manage data. Thus, new data management systems have appeared: NoSQL systems. These are able to handle volume, variety and velocity. In the majority of NoSQL DBMS, databases are schema-less, which means that the data model is not provided when creating a database. In other words, in a table, the names of the attributes are not specified until the time of inserting their values. This property of the absence of the diagram offers undeniable flexibility which: - facilitates the evolution of the data model as the database is used, - and allows end users to add new information without resorting to the database administrator. But, on the other hand, this property introduces a lack of understanding and visibility into the organization of data in a NoSQL database. In other words, the absence of the data model does not allow the user to know how the data is stored (under what name and what type) and linked in the database; this knowledge is essential to express requests. In fact, to write queries, the user must have the database structure describing the names of the tables, the names of the attributes and their types as well as the links between the objects; a data model contains all of these descriptions. Our work falls within this context; they relate to the development of the models necessary for the manipulation of databases managed by NoSQL schema-less systems. There are two models: - The physical model which describes the internal organization of the data and makes it possible to express queries. - The conceptual model which disregards technical aspects and focuses on data semantics. The objective of this thesis is to propose a general approach which aims to extract the physical and conceptual models of a NoSQL schema-less database. We use the MDA architecture which is an OMG consortium standard for model-driven development. From a NoSQL schema-less database, our MDA approach applies two successive automatic processes: - The process of extracting and updating the physical model, - The process of transforming the physical model into a conceptual model. In order to verify the feasibility of our solution, we have developed a prototype made up of two modules. The first is responsible for generating a physical data model from a NoSQL schema-less database and updating it as queries are executed against the database. The physical model obtained describes the internal organization of the data in the database and allows users to express queries. The second module aims to transform the physical model already extracted into a conceptual data model. This ignores the technical aspects and makes it easier to understand the organization of the data.

Item Type: Thesis (UNSPECIFIED)
Other titles: Extracting models from a document-oriented NoSQL database based on a model-driven approach
Language: French
Date: 16 November 2021
Keywords (French): Données massives, NoSQL, Rétro-ingénierie (informatique), Ingénierie dirigée par les modèles
Divisions: Institut de Recherche en Informatique de Toulouse
Ecole doctorale: École doctorale Mathématiques, Informatique et Télécommunications (Toulouse)
Site: UT1
Date Deposited: 31 Jan 2022 10:39
Last Modified: 22 Jul 2022 14:34
URI: https://publications.ut-capitole.fr/id/eprint/44284
View Item

Downloads

Downloads per month over past year