Fouille de données pour la formalisation et l\'optimisation de la conception physique des entrepôts de données relationnels
Loading...
Files
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Université de Laghouat , Bibliothèque centrale
Abstract
La conception physique des entrepôt de données consiste non seulement à la spécification détaillée des données et de leurs types, mais surtout à la sélection des techniques d’optimisation (index, fragments, etc.) appropriées et susceptibles d’améliorer les performances du système en minimisant les temps nécessaires à l’évaluation des requêtes. Cependant, le choix d'une solution optimisée est une tâche très difficile qui nécessite non seulement du temps et de l’effort, mais aussi beaucoup d’expertise. Nous pouvons dire que la principale difficulté pour la conception physique réside dans l’énorme espace de recherche des solutions possibles à considérer. Ceci soulève une question importante à savoir comment choisir des structures physiques appropriées pour une charge de requêtes donnée?. Dans cette thèse, nous nous concentrons sur la recommandation automatique de deux types de structures physiques: les index de jointures binaires et les fragments verticaux dans le contexte des entrepôts de données relationnels modélisés par un schéma en étoile. Plus précisément, nous étudions l'applicabilité de solutions guidées par la fouille de données. Nous considérons que les problèmes étudiés peuvent être formalisés et résolus avec des techniques de la fouille de données. Tout d'abord, nous considérons la sélection d'index comme un problème typique d'extraction des motifs fréquents. Les index sont construits avec des combinaisons d'attributs, vus en tant qu'items. Les requêtes de la charge de travail, vues comme des transactions, sont décrites par les attributs qu'elles référencent. Le fondement de notre approche est la notion de motifs fréquents maximaux. Cette technique permet de découvrir les éventuelles corrélations entre les attributs. En évitant la génération des index redondants, l'approche proposée conduit à une solution qui exprime l'ensemble des index pertinents de manière plus succincte. La minimisation du nombre d’index pertinents est une direction intéressante pour minimiser par la même voie l’espace de stockage requis. D'autre part, les travaux existants ont souvent considéré le coût de la charge de travail comme le facteur clé pour recommander une configuration d'index, même si la configuration choisie pourrait être très coûteuse en terme d'espace de stockage. Contrairement à cette démarche de résolution, nous suggérons de considérer un ensemble de solutions optimisées en proposant une métrique d'évaluation permettant de guider la prise en considération de certaines configurations intéressantes que l’on peut négliger. Dans la deuxième partie du travail, nous abordons le problème de la fragmentation verticale. Nous montrons qu'il est simple et efficace d'exploiter les propriétés intéressantes des représentations condensées des motifs fréquents afin de fragmenter une table. Nous démontrons que notre approche explore un espace de recherche très réduit pour proposer un schéma de fragmentation pertinent. Nous avons, ensuite, étudié le problème de la fragmentation verticale dans le contexte des entrepôts de données relationnels. Notre motivation est d’aborder un problème encore peu étudié dans la littérature. Inspiré par le fait que les requêtes dans une charge de travail présente souvent de fortes dépendances, nous proposons une approche basée sur la classification automatique pour fragmenter la table des faits d’un entrepôt de données. La classification envisagée permet de mieux connaître les références réelles des attributs et offre ainsi un éclairage intéressant pouvant aider dans le processus de la fragmentation. Des modèles de coûts théoriques ont été également proposés pour estimer la pertinence des schémas de fragmentation recommandés.