Détection automatique de plagiat
Loading...
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Bibliotheque centrale -Unversite de Laghouat
Abstract
Dans cette thèse, nous nous intéressons au problème de détection du plagiat. Le
phénomène du plagiat s’aggrave de plus en plus avec l’intensification de l’utilisation
des technologies de l’information et de la communication. Bien que le problème semble une simple recherche de similarité entre textes, chose que la machine est supposée
avoir bien géré, il s’avère qu’il est plus difficile de faire face à certaines formes dissimulées de plagiattelles que latraduction, la substitution des mots par des synonymes,
le changement de la structure des textes ou la reformulation des passages. Cela rend
les systèmes classiques de détection du plagiat de moins en moins fiables.
En effet, le rôle d’un système de détection du plagiat est de faire face à toutes ces
offuscations. Très peu de recherches dans ce contexte ont été appliquées pour la langue
arabe, et même les travaux abordés sont incomparables à ce qui se fait pour les autres
langues. De ce fait, nous nous intéressons dans cette thèse à la détection du copiercoller ainsi qu’à plusieurs autres formes de plagiat dissimulé principalement pour les
documents en langue arabe.
Premièrement, nous avons proposé deux approches de détection de similarités
sémantiques monolingue (arabe-arabe) et translingue (arabe-anglais) basées sur les
plongements de mots (word embeddings) et la pondération fréquentielle et morphosyntaxique des vecteurs de mots. Puis, nous avons également proposé deux systèmes de détection du plagiat dans les documents en langue arabe. Le premier système
est basé sur la technique d’empreinte digitale et les word embeddings afin de détecter les
différentes formes dissimulées de plagiat. Notre deuxième système fait appel aux techniques d’apprentissage automatique supervisé.
Nos expérimentations sont menées sur le corpus de test de la première campagne
d’évaluation de détection du plagiat dédiée à la langue arabe AraPlagDet. Toutes nos
approches ont donné des résultats très satisfaisants par rapport à ceux proposés dans
la littérature avec un PlagDet de 87% et un rappel dépassant les 92%.
Mots clés: plagiat textuel, détection du plagiat, plagiat dissimulé, traitement automatique de la langue, langue arabe
