Fouille de données dans les documents XML

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Université de Laghouat , Bibliothèque centrale

Abstract

XML a gagné beaucoup en popularité pour la représentation, le stockage et l'échange des informations. Les balises XML décrivent l'aspect structurel et sémantique de l'information dans les contenus des documents qui font donc les documents XML semi-structurés et autodescriptifs. Comme la quantité des documents XML devient plus abondante, la capacité d'acquérir des connaissances à partir de sources XML diminue en raison de leur hétérogénéité et de l'irrégularité de structure. L'utilisation des techniques de la fouille de données devient donc essentielle pour extraire de l'information pertinente qui sera injectée dans un processus global d'extraction de connaissances. Notre travail s'inscrit dans le domaine XML mining qui vise à utiliser les techniques de data mining pour découvrir les connaissances à partir les documents XML. Plus particulièrement nous nous intéressons au problème de classi cation non supervisée (clustering) des documents XML selon leur structure et/ou contenu. De nombreux algorithmes ont été développés pour le clustering de documents XML. Nous avons mis l'accent sur l'algorithme XCLS + et nous avons dirigé nos e orts sur l'amélioration des performances et qualité de clusters. Dans ce cadre, nous avons proposé deux approches. Dans la première approche, nous utilisons les résumés d'arbre comme représentation réduite de l'arbre correspondant au document XML où l'on a pris en compte seulement la structure. Dans la deuxième approche, nous avons enrichi le clustering des documents XML en prenant en compte à la fois la structure et le contenu. Nous avons e ectué une étude expérimentale utilisant un corpus réel INEX. Les résultats obtenus con rment que nos approches améliorent la qualité et les performances de clustering.

Description

Keywords

Citation

Collections

Endorsement

Review

Supplemented By

Referenced By