Yang, Yuzhao (2022) Tabular data integration for multidimensional data warehouse. École doctorale Mathématiques, Informatique et Télécommunications (Toulouse).

[thumbnail of YangYuzhao2022.pdf]
Preview
Text
Download (61MB) | Preview

Abstract

La Business Intelligence (BI) joue un rôle important dans les entreprises pour soutenir les processus de prise de décision. De nos jours, les petites entreprises, les organisations ou même les particuliers peuvent exploiter de nombreuses données. Cependant, le manque d'experts les empêche de mener à bien des projets de BI. Il est donc nécessaire d'automatiser le processus BI pour rendre la BI accessible à tous. Dans les architectures BI, les données sont intégrées dans un Data Warehouse (DW) généralement modélisé de manière multidimensionnelle. Les données tabulaires existent largement dans les petites entreprises et organisations et dans le monde des données ouvertes. En conséquence, nous avons l'intention d'automatiser la conception DW à partir de données tabulaires.La conception automatique de DW à partir de données tabulaires nécessite la détection de différents composants multidimensionnels (faits, dimensions, hiérarchies...). En cas de sources multiples, plusieurs DW peuvent être générés. S'ils partagent des informations communes, il est nécessaire de les fusionner en un seul DW intégré. Lors de la fusion DW, l'imputation des données manquantes doit être effectuée afin de réaliser une meilleure analyse des données. Par conséquent, nous proposons une solution composée de trois parties : (i) conception automatique de DW, (ii) fusion automatique de DW et (iii) imputation dimensionnelle des données.La conception DW automatique à partir de données tabulaires est composée de la détection de mesure et de la détection de dimension pour construire respectivement des faits et des dimensions. Pour la détection des mesures, nous proposons une approche basée sur l'apprentissage automatique en extrayant trois catégories de caractéristiques à partir de colonnes numériques. La détection de dimension comprend la détection de hiérarchie basée sur la dépendance fonctionnelle et la distinction de paramètres et d'attributs faibles basée sur des règles syntaxiques et sémantiques. Nous réalisons des expériences pour valider que notre approche est capable de détecter des mesures et des éléments de différentes dimensions avec une efficacité et une efficience élevées.Pour fusionner automatiquement les DW, nous proposons un processus aux niveaux du schéma et de l'instance consistant en la fusion des niveaux, la fusion des hiérarchies, la fusion des dimensions et la fusion des étoiles. Notre approche prend en compte les différents éléments de la structure DW. De plus, notre approche considère différents cas et peut générer des schémas d'étoiles ou de constellations. Des expériences sont menées pour valider que notre solution de fusion DW peut fusionner correctement les DW au niveau du schéma et de l'instance.Pour compléter les données dimensionnelles manquantes, nous proposons une approche d'imputation hybride Hie-OLAPKNN combinant une imputation hiérarchique (Hie) et une imputation basée sur KNN (OLAPKNN). L'imputation hiérarchique est basée sur les dépendances fonctionnelles entre niveaux hiérarchiques et est d'abord lancée. Les données manquantes restantes peuvent ensuite être complétées par OLAPKNN, qui applique une distance d'instance de dimension spécifique et prend en compte les contraintes de dépendance de la hiérarchie. Des expérimentations sont menées et Hie-OLAPKNN surpasse les autres approches en termes d'efficacité, d'efficience et de respect de la rigueur hiérarchique.

,

Business Intelligence (BI) plays an important role in companies to support decision makingprocesses. Nowadays, small companies, organizations or even individuals can exploitnumerous data. However, the lack of experts prevents them from carrying BI projectsout. It is thus necessary to automate the BI design process to make BI accessible foreveryone. In BI architectures, data are integrated into Data Warehouses (DWs) usuallymodeled in a multidimensional way. Yet, tabular data widely exist in small enterprises,organizations and in the open data world. As a result, we intend to automate the DWdesign from tabular data.Automatic DWdesign from tabular data requires the detection of different multidimensionalcomponents (facts, dimensions, hierarchies...). In case of multiple sources, severalDWs may be generated. If they share common information, it is necessary to merge themas one integrated DW. During DW merging, missing data imputation should be carriedout to achieve a better data analysis. Therefore, we propose a solution composed of threeparts: (i) automatic DW design, (ii) automatic DW merging and (iii) dimensional dataimputation.Automatic DW design from tabular data is composed of measure detection and dimensiondetection for constructing facts and dimensions, respectively. For measure detection,we propose a machine learning-based approach that extracts three categories of featuresfrom numerical columns. Dimension detection includes functional dependency-based hierarchydetection and the distinction of parameters and weak attributes based on syntacticand semantic rules. We carry out experiments to validate that our approach is able todetect measures and different dimension elements with high effectiveness and efficiency.For automatically merging DWs, we propose a process at both the schema and instancelevels, consisting of level merging, hierarchy merging, dimension merging and star schemamerging. Our approach takes the different DWstructure elements into account. Moreover,our approach considers different cases and may generate star or constellation schemas. Weconduct experiments to validate that our DW merging solution can correctly merge DWsat both schema and instance levels.Finally, to address dimensional missing data, we propose a hybrid imputation approachnamed Hie-OLAPKNN that combines a hierarchical imputation (Hie) and a Knearestneighbors-based imputation (OLAPKNN). Hierarchical imputation is based onfunctional dependencies between hierarchy levels and is launched first. The remainingmissing data can then be completed by OLAPKNN, which applies a specific dimensioninstance distance and considers hierarchy dependency constraints. Our experiments showthat Hie-OLAPKNN outperforms other approaches in terms of effectiveness, efficiencyand respect of hierarchy strictness.

Item Type: Thesis (UNSPECIFIED)
Other titles: Intégration automatique de données tabulaires dans des entrepôts de données
Language: English
Date: 12 December 2022
Keywords (French): OLAP (informatique), Systèmes d'aide à la décision, Entrepôts de données, Gestion des données (systèmes d'information)
Subjects: H- INFORMATIQUE
Divisions: Institut de Recherche en Informatique de Toulouse
Ecole doctorale: École doctorale Mathématiques, Informatique et Télécommunications (Toulouse)
Site: UT1
Date Deposited: 12 Feb 2024 14:21
Last Modified: 12 Feb 2024 14:21
URI: https://publications.ut-capitole.fr/id/eprint/48636
View Item

Downloads

Downloads per month over past year