Noyaux rationnels pour la classification des données non structurées : Documents Web en arabe
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Université de Laghouat , Bibliothèque centrale
Abstract
La classification de documents a pour objectif d'assigner, d'une manière efficace, un document à une des classes d'un ensemble prédéfini de classes. Pour la langue arabe, cette tâche présente des particularités liées à la langue. Des opérations telles que la racinisation et l'extraction de radicaux doivent se faire d'une manière efficace. La représentation des documents sous forme vectorielle permet d'appliquer des algorithmes conventionnels d'apprentissage. Cependant, elle engendre une perte d'information liées à l'ordre et la co-occurrence des mots et phrases. Une solution à ce problème consiste à utiliser des N-grammes (avec N > 1) à la place de termes simples isolés, ou modèle de sac-à-mots. Cette approche se fonde sur l'hypothèse qu'un ensemble de termes peut capter la similarité entre documents mieux que des termes simples isolés. Notre thèse s'inscrit dans le cadre de la classification de documents en arabe. L'objectif de notre travail a été d'une part, de proposer une technique efficace d'extraction de radicaux des mots. D'autre part, de proposer une plateforme unifiée pour analyser l'effet de l'extraction de radicaux et la taille des N-grammes sur la performance des systèmes de classification de documents en arabe. Les résultats ont montré que l'utilisation des transducteurs pour l'extraction de radicaux constitue un choix naturel, ont montré que l'utilisation des transducteurs pour l'extraction de radicaux constitue un choix naturel, vue leur capacité à modéliser la forme flexionnelle des mots en langues arabe. De plus, l'extraction de racines améliore légèrement la qualité des classificateurs en termes d'exactitude, rappel et F1, mais elle diminue légèrement la précision. Les classificateurs basés sur le noyau 3-grammes ont atteint les meilleurs résultats. Pour le niveau N-gramme terme, les résultats ont montré que l'insertion des trous n'améliore pas les performances.