Détection automatique de plagiat

El Moatez Billah NAGOUDI; Mme. Cherroun Hadda Prof. Université Amar Télidji de Laghouat Rapporteur M. Khorsi Ahmed MCA Université Al-Imam Md. Ibn Saoud Rapporteur

Détection automatique de plagiat

Files

Thése_Nagoudi_Moatez_UATL._Final.pdf (2.72 MB)

Date

2020

Authors

El Moatez Billah NAGOUDI

Mme. Cherroun Hadda Prof. Université Amar Télidji de Laghouat Rapporteur M. Khorsi Ahmed MCA Université Al-Imam Md. Ibn Saoud Rapporteur

Publisher

Bibliotheque centrale -Unversite de Laghouat

Abstract

Dans cette thèse, nous nous intéressons au problème de détection du plagiat. Le phénomène du plagiat s’aggrave de plus en plus avec l’intensification de l’utilisation des technologies de l’information et de la communication. Bien que le problème semble une simple recherche de similarité entre textes, chose que la machine est supposée avoir bien géré, il s’avère qu’il est plus difficile de faire face à certaines formes dissimulées de plagiattelles que latraduction, la substitution des mots par des synonymes, le changement de la structure des textes ou la reformulation des passages. Cela rend les systèmes classiques de détection du plagiat de moins en moins fiables. En effet, le rôle d’un système de détection du plagiat est de faire face à toutes ces offuscations. Très peu de recherches dans ce contexte ont été appliquées pour la langue arabe, et même les travaux abordés sont incomparables à ce qui se fait pour les autres langues. De ce fait, nous nous intéressons dans cette thèse à la détection du copiercoller ainsi qu’à plusieurs autres formes de plagiat dissimulé principalement pour les documents en langue arabe. Premièrement, nous avons proposé deux approches de détection de similarités sémantiques monolingue (arabe-arabe) et translingue (arabe-anglais) basées sur les plongements de mots (word embeddings) et la pondération fréquentielle et morphosyntaxique des vecteurs de mots. Puis, nous avons également proposé deux systèmes de détection du plagiat dans les documents en langue arabe. Le premier système est basé sur la technique d’empreinte digitale et les word embeddings afin de détecter les différentes formes dissimulées de plagiat. Notre deuxième système fait appel aux techniques d’apprentissage automatique supervisé. Nos expérimentations sont menées sur le corpus de test de la première campagne d’évaluation de détection du plagiat dédiée à la langue arabe AraPlagDet. Toutes nos approches ont donné des résultats très satisfaisants par rapport à ceux proposés dans la littérature avec un PlagDet de 87% et un rappel dépassant les 92%. Mots clés: plagiat textuel, détection du plagiat, plagiat dissimulé, traitement automatique de la langue, langue arabe

URI

https://dspace.lagh-univ.dz/handle/123456789/11311

Collections

Thesis

Full item page

Détection automatique de plagiat

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By