Etude statistique des documents Web en langue Arabe

Loading...
Thumbnail Image

Date

Journal Title

Journal ISSN

Volume Title

Publisher

Université de Laghouat , Bibliothèque centrale

Abstract

Le Traitement Automatique des Langues Naturelles -TALN-, est un domaine de recherche multidisciplinaire regroupant l'informatique et la linguistique. Ses applications ne cessent de s'accroitre et leurs importances dans notre vie de tous les jours prennent de l'ampleur. Le traitement hierarchique dans le processus TALN se compose principalement d'analyse morphologique, syntaxique et semantique. Dans ce travail, nous nous sommes interesses au niveau "analyse morphologique". Vu que c'est une etape cruciale qui s'interesse a l'etude de la structure des mots de la langue. En effet, nous avons instrumente les solutions d'apprentissage automatique non supervise ainsi qu'aux statistiques pour developper un modele statistique pour capter les regularites de la structure des mots en langue Arabe. Le mod ele statistique a ete entraine a l'aide du corpus OSAC; un corpus compose de milliers de documents Web en langue Arabe comportant plus de 18 millions mots. Nous avons aussi concu un analyseur morphologique non supervise pour l'extraction de la racine tri-litterale. Les resultats obtenus montrent que notre analyseur atteint une precision de 65%. Ils sont meilleurs que ceux obtenus par les analyseurs de meme categorie. Ces resultats sont meme competitive avec ceux des analyseurs supervises exigeants beaucoup de connaissance linguistique couteuses.

Description

Keywords

Citation

Collections

Endorsement

Review

Supplemented By

Referenced By