Etude statistique des documents Web en langue Arabe

Abdallah Lakhdari; Cherroun Hadda

Etude statistique des documents Web en langue Arabe

Files

Mémoire Magister Lakhdari Abdellah.pdf (2.14 MB)

Date

2013

Authors

Abdallah Lakhdari

Cherroun Hadda

Publisher

Université de Laghouat , Bibliothèque centrale

Abstract

Le Traitement Automatique des Langues Naturelles -TALN-, est un domaine de recherche multidisciplinaire regroupant l'informatique et la linguistique. Ses applications ne cessent de s'accroitre et leurs importances dans notre vie de tous les jours prennent de l'ampleur. Le traitement hierarchique dans le processus TALN se compose principalement d'analyse morphologique, syntaxique et semantique. Dans ce travail, nous nous sommes interesses au niveau "analyse morphologique". Vu que c'est une etape cruciale qui s'interesse a l'etude de la structure des mots de la langue. En effet, nous avons instrumente les solutions d'apprentissage automatique non supervise ainsi qu'aux statistiques pour developper un modele statistique pour capter les regularites de la structure des mots en langue Arabe. Le mod ele statistique a ete entraine a l'aide du corpus OSAC; un corpus compose de milliers de documents Web en langue Arabe comportant plus de 18 millions mots. Nous avons aussi concu un analyseur morphologique non supervise pour l'extraction de la racine tri-litterale. Les resultats obtenus montrent que notre analyseur atteint une precision de 65%. Ils sont meilleurs que ceux obtenus par les analyseurs de meme categorie. Ces resultats sont meme competitive avec ceux des analyseurs supervises exigeants beaucoup de connaissance linguistique couteuses.

URI

https://dspace.lagh-univ.dz/handle/123456789/5317

Collections

Thesis

Full item page

Etude statistique des documents Web en langue Arabe

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By