La méthode KNN pour le Big Data
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Université Amar Telidji - Laghouat - Département d'informatique
Abstract
Le classifieur KNN (K-Nearest Neighbor classifier) est une méthode largement connue et utilisée dans la fouille de données. Mais cette méthode présente un inconvénient majeur qui réside dans la grande quantité de calcul qu’elle génère et la quantité de mémoire qu’elle nécessite. Ce qui fait que cette méthode n’est pas du tout adaptée aux applications d’analyses de Big Data. Pour contourner les inconvénients des méthodes connues de fouille de données, plusieurs alternatives d’environnement distribuées ont été proposées. Parmi ces alternatives on peut citer l’écosystème distribué Hadoop MapReduce ainsi que spark qui attire de plus en plus une attention considérable. Nous aurons pour tache de recenser les travaux sur la méthode kNN pour le Big Data, s’initier à l’écosystème Hadoop ou l’écosystème d’Apache Spark. Le but étant d’implémenter une des méthodes recensées et de la tester sur un Benchmark.
