Techniques d’apprentissage automatique pour la reconnaissance des formes : application à la reconnaissance de l’écriture arabe manuscrite
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Université de Laghouat , Bibliothèque centrale
Abstract
L’objectif de ce mémoire est d’élaborer un système pour la catégorisation de documents manuscrits arabes, une problématique très peu abordée, voir pas du tout, dans la littérature. La catégorisation consiste à détecter le thème abordé dans un document à travers l’examen des mots contenus dans celui-ci. Afin d’extraire les mots des documents, nous avons mis en place un système de reconnaissance de mots manuscrits arabes. L’approche utilisée pour la reconnaissance est une approche analytique à base des modèles de Markov cachés (HMM) avec segmentation implicite : les images de mots sont découpées de manière implicite par l’utilisation de fenêtres glissantes qui permettent de transformer les images en séquences de vecteurs de caractéristiques. Les caractères des mots sont modélisés par des HMMs gaussiens, et les mots sont reconstruits ensuite par concaténation des modèles de caractères qui les composent. La catégorisation des documents est effectuée sur les transcriptions issues de la reconnaissance; un sous-ensemble de mots est sélectionné d’abord pour représenter les documents par des vecteurs de caractéristiques, ces vecteurs sont soumis par la suite à un classifieur de type k-ppv qui fait la catégorisation. Les résultats obtenus montrent que notre système de catégorisation obtient des performances satisfaisantes sur la base de documents construite spécialement pour cette étude.
