Présentation
En anglaisRÉSUMÉ
Cet article a pour objectif de présenter les fondements des systèmes de recommandation. Ces systèmes sont très développés aujourd'hui, mais demeurent au final peu visibles, l'utilisateur ne percevant que le résultat, à savoir une liste de suggestions. Les champs d'application de ces systèmes de recommandation sont divers et variés (suggestion de films, de produits marchands, de services...).Cet article présente les champs d'application les plus représentatifs. Les différentes dimensions (culturelles, légales ainsi qu'algorithmiques) sont également abordées sans oublier le niveau implantation au travers de différents outils tels qu'Excel, PHP ou encore java/Mahout.
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleABSTRACT
This paper presents the basic principles of recommender systems. These systems are strongly developed today yet are invisible to the end user, who perceives only the result, i.e. a list of recommendations. The fields of application of these recommender systems are varied and numerous (suggestions for movies, marketable products, services, etc.). In this paper we present the most representative fields of application. The different dimensions (cultural, legal and algorithmic applications) are also addressed, together with the implementation level through several tools such as Excel, PHP and java / Mahout.
Auteur(s)
-
Gérald KEMBELLEC : Maître de conférences - Docteur en sciences de l'information et de la communication - CNAM, Laboratoire Dispositifs d'information et de communication à l'ère numérique – Paris, Île-de-France, France
-
Max CHEVALIER : Maître de conférences - Docteur en informatique - Institut de recherche en informatique de Toulouse, Université de Toulouse, Toulouse 3, France
-
Damien DUDOGNON : Ingénieur R&D - Docteur en informatique - Overblog, Toulouse, France
INTRODUCTION
Dans le contexte numérique actuel, caractérisé par une surabondance d'informations, que l'on appelle infobésité ou déluge informationnel, il apparaît que les capacités humaines ne permettent pas l'analyse exhaustive de l'offre d'un corpus au sein d'une plateforme. Même dans le cadre de l'utilisation d'un moteur de recherche intégré, les résultats pertinents sont généralement noyés dans un « bruit » informationnel, ce qui en empêche, ou tout du moins en ralentit, le repérage. Pour aider l'esprit humain dans son processus de sélection, des systèmes de recommandation grand public ont vu le jour dans la dernière décennie du vingtième siècle.
Un système de recommandation est un outil de filtrage de l'information offrant à un usager l'assistance à la sélection personnalisée face à un catalogue d'items. Les cadres d'application de ces systèmes sont multiples : au sein des réseaux socionumériques, du marketing digital avec la relation client pour la vente en ligne ou encore des services personnalisés liés à une offre culturelle.
Après un tour d'horizon des domaines d'application des moteurs de recommandation, les principales stratégies de recommandations sont présentées sur les plans théoriques et algorithmiques. La personnalisation de ces systèmes peut se baser sur plusieurs méthodes algorithmiques, principalement orientées autour des aspects sociaux et/ou sur les caractéristiques des objets manipulés. Cet article propose également une mise en lumière de l'approche collaborative au travers d'un exemple reposant sur des outils open source.
Avec un recul de plus de 20 ans sur ces dispositifs, des questionnements émergent autour de l'éthique, du respect de la vie privée et de la confiance de l'usager. Des réflexions sont ainsi menées pour une normalisation et un encadrement légal du phénomène de recommandation.
KEYWORDS
Algorithms | recommendation | implementation | social networks | marketing
DOI (Digital Object Identifier)
CET ARTICLE SE TROUVE ÉGALEMENT DANS :
Accueil > Ressources documentaires > Technologies de l'information > Documents numériques Gestion de contenu > Usages et management stratégique des documents numériques > Systèmes de recommandation > Étude de cas d'une plateforme de recommandation : Mahout
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
4. Étude de cas d'une plateforme de recommandation : Mahout
Mahout est une plateforme qui est soutenue et développée par la communauté Apache. L'objectif du projet Mahout est de fournir un environnement permettant de créer rapidement des algorithmes d'apprentissage robustes et performants. Cette plateforme intègre un grand nombre d'algorithmes et notamment des algorithmes de recommandation. Afin d'améliorer les traitements et pour favoriser le passage à l'échelle, les algorithmes peuvent tirer parti, par exemple, du paradigme Map/Reduce.
L'architecture d'une application de recommandation reposant sur Mahout est construite sur quatre principales couches (figure 11) :
-
l'application qui va faire appel au processus de recommandation ;
-
la méthode de recommandation sur laquelle repose le processus de recommandation ;
-
les modèles des données utilisés dans le processus de recommandation ;
-
le stockage physique des données utilisées dans le processus de recommandation.
Le processus de recommandation dans Mahout admet les données (préférences utilisateurs ou notes, etc.) comme entrées, et le résultat de prédiction comme sortie.
En accord avec l'architecture d'une application de recommandation Mahout, nous nous proposons de développer un programme principal qui va prédire les notes pour des items pour un utilisateur donné. Comme exemple concret, nous proposons d'utiliser la collection de données de films MovieLens.
4.1 Étape 1 : téléchargement de la collection de données
La collection de données utilisée est une collection « légère » contenant 100 000 notes données par 943 utilisateurs. La collection concerne 1 682 films.
L'URL permettant de télécharger la collection est : http://files.grouplens.org/datasets/movielens/ml-100k.zip
Le contenu de cette archive est varié (cf. http://files.grouplens.org/datasets/movielens/ml-100k-README.txt pour plus de détails). Dans notre cas, nous utiliserons le fichier nommé « u.data » qui contient l'ensemble des notes. Chaque utilisateur a noté au moins 20 films. Le format de chaque ligne est le suivant :
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Étude de cas d'une plateforme de recommandation : Mahout
BIBLIOGRAPHIE
-
(1) - RESNICK (P.), IACOVOU (N.), SUCHAK (M.), BERGSTROM (P.), RIEDL (J.) - GroupLens. - In Proceedings of the 1994 ACM conference on Computer supported cooperative work – CSCW '94, p. 175-186 (1994).
-
(2) - STENGER (T.), COUTANT (A.) - La prescription ordinaire sur les réseaux socionumériques. - In Médias 09, entre communautés et mobilité, p. 1-24 (2009).
-
(3) - DE CERTAU (M.) - L'invention du quotidien. Tome 1 : Arts de faire. - Folio. Gallimard, Paris(1990).
-
(4) - COUTANT (A.) - Quelle place pour l'innovation dans les médias sociaux ? - Commun. Organ., n° 43, p. 123-134, juin 2013.
-
(5) - STENGER (T.), COUTANT (A.) - Web 2.0 et médias sociaux. - In E-marketing et E-commerce. Concepts, Outils, Pratiques, Management., STENGER (T.) ET BOURLIATAUX-LAJOINIE (S.), Éd. Dunod, Paris, p. 63-115 (2011).
-
...
ANNEXES
The R Project for Statistical Computing. Sous licence GPL, disponible pour plateformes Microsoft, Apple, Unix et Linux à l'URL http://www.r-project.org/ (page consultée le 3 août 2015).
BiostatGV propriété de l'institut Pierre Louis d'Épidémiologie et de Santé Publique UMR S 1136, affilié à l'INSERM et l'Université Pierre et Marie Curie (anciennement UMR S 707). Interface PHP en ligne avec R pour un calcul de corrélation, permet également de formater des valeurs d'entrée vers R depuis un tableur par copier/coller http://marne.u707.jussieu.fr/biostatgv/?module=tests/pearson (page consultée le 3 août 2015).
Mahout, Copyright © 2014, The Apache Software Foundation, Sous licence...
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive