Présentation
RÉSUMÉ
Développées initialement dans le cadre de l’intelligence artificielle, les méthodes d’apprentissage par renforcement sont des composantes essentielles des architectures de contrôle robotique adaptatives. Deux grandes classes d'algorithmes ont été proposées : avec ou sans modèle interne du monde. La première est coûteuse en calculs mais est très adaptative, alors que la seconde est peu coûteuse mais lente à converger. La combinaison de ces différents algorithmes dans une même architecture de contrôle permet donc d’envisager de tirer le meilleur parti des deux mondes. Nous présentons ici ces deux familles d’algorithmes, ainsi que les méthodes de combinaison qui ont été proposées et évaluées, tant en neurosciences qu’en robotique.
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleABSTRACT
Initially developed in the field of artificial intelligence, reinforcement learning methods are an essential component of adaptive robotic control architectures. Two main classes of algorithms have been proposed: with and without internal models of the world. The first one has heavy computational costs, but is very adaptive, while the second one is cheap but slow to converge. The combination of these algorithms within a single robotic architecture might benefit from the advantages of each one. We present here these two families of algorithms, together with the combination methods that have been proposed and tested in the neuroscience and robotics field.
Auteur(s)
-
Benoît GIRARD : Directeur de recherche CNRS - Institut des systèmes intelligents et de robotique, ISIR (UMR7222, CNRS – UPMC)
-
Mehdi KHAMASSI : Chargé de recherche CNRS - Institut des systèmes intelligents et de robotique, ISIR (UMR7222, CNRS – UPMC)
INTRODUCTION
Les méthodes d’apprentissage par renforcement sont des composantes essentielles du développement de systèmes robotiques autonomes. Elles doivent en effet permettre à ces systèmes d’apprendre, par essais et erreurs, sans intervention additionnelle de leurs concepteurs, les actions qui doivent être effectuées, et celles qui doivent être évitées, pour la réalisation de leur mission.
Deux grandes classes d’algorithmes ont été historiquement développées dans la littérature : celle fondée sur l’utilisation d’un modèle interne du monde, et en particulier des transitions entre états, et celle sans modèle interne. La première est grande consommatrice de ressources computationnelles (i.e. calculs nécessaires pour déduire l’action qui semble aboutir aux meilleures conséquences telles que prédites par le modèle interne), mais permet de réagir en quelques essais aux changements de l’environnement en réutilisant les connaissances précédemment apprises sur la structure de l’environnement grâce au modèle interne ; la seconde est extrêmement peu coûteuse (pas de modèle, donc pas d’estimation des conséquences de l’action), mais au prix d’une convergence lente de l’apprentissage et d’une très mauvaise adaptabilité au changement (i.e. des centaines d’essais sont nécessaires pour mettre à jour les valeurs associées aux actions suite à un changement de l’environnement). Il pourrait donc sembler logique de chercher à bénéficier des complémentarités de ces deux approches en les combinant. Pourtant, la coopération de systèmes d’apprentissage par renforcement multiples a, jusqu’ici, été peu explorée dans la littérature de l’apprentissage automatique.
La mise en avant des bonnes propriétés d’une telle approche s’est donc initialement développée dans le contexte de l’étude du comportement animal. En effet, la cohabitation de systèmes d’apprentissage multiples, et l’existence de substrats neuronaux distincts, ont été clairement démontrées en neurosciences. Plusieurs modèles computationnels ont été proposés pour rendre compte de la manière dont les animaux coordonnent leurs systèmes d’apprentissage multiples. Ces modèles constituent une source d’inspiration pour la conception de systèmes robotiques. Cette importation a principalement eu pour cadre la navigation, mais ne doit pas nécessairement s’y limiter. Enfin, les limites de ces méthodes, dont l’objectif scientifique est la simulation du -comportement animal et non l’efficacité opérationnelle, sont parfaitement dépassables dans le cadre de l’ingénierie, en se défaisant des contraintes biologiques.
KEYWORDS
Reinforcement learning | ensemble methods | neuro-inspiration | neuro-robotics
DOI (Digital Object Identifier)
CET ARTICLE SE TROUVE ÉGALEMENT DANS :
Accueil > Ressources documentaires > Technologies de l'information > Technologies logicielles Architectures des systèmes > Intelligence artificielle > Coopération d’algorithmes d’apprentissage par renforcement multiples > Apprentissage par renforcement
Cet article fait partie de l’offre
Robotique
(59 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
1. Apprentissage par renforcement
La conception d’un agent artificiel ayant un degré d’autonomie avancé dans la réalisation de sa mission s’appuie sur la mise en œuvre de capacités de raisonnement et de décision qui sont au cœur des travaux de l’intelligence artificielle depuis ses débuts. Cependant, comme il est impossible, dans des cas d’usage un tant soit peu complexes, que le concepteur puisse prévoir l’ensemble des cas pouvant se présenter, cette autonomie doit également pouvoir s’appuyer sur des capacités d’apprentissage lui permettant d’intégrer de nouvelles informations et d’acquérir de nouvelles capacités d’action.
L’apprentissage automatique (machine learning) distingue trois grandes classes d’algorithmes d’apprentissage.
-
L’apprentissage non supervisé a pour but d’apprendre à identifier les régularités statistiques d’un flux de données en entrée, afin de mettre en évidence les éventuelles structures cachées ayant généré ce flux. Il peut être utilisé pour catégoriser ces entrées, mais aussi pour en fournir une description plus compacte, destinée à servir d’entrée à d’autres algorithmes d’apprentissage.
-
L’apprentissage supervisé cherche à fournir les sorties attendues pour un flux de données en entrée, sur la base d’un signal d’erreur. Ce signal d’erreur indique pour chaque couple entrée-sortie l’écart qu’il convient de réduire entre la sortie générée et la sortie souhaitée.
-
L’apprentissage par renforcement doit apprendre à associer des entrées et des sorties afin de maximiser, sur le long terme, la somme des signaux de récompense obtenus (signaux qui peuvent prendre des valeurs négatives et correspondre alors à des punitions). Contrairement à l’apprentissage supervisé, ce signal n’est pas fourni continûment, mais occasionnellement, et n’indique pas à proprement parler une erreur (un décalage entre une sortie souhaitée et une sortie générée) mais simplement un résultat (positif ou négatif) d’une série de sorties générées ...
Cet article fait partie de l’offre
Robotique
(59 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Apprentissage par renforcement
BIBLIOGRAPHIE
-
(1) - BALLEINE (B.W.), O’DOHERTY (J.P.) - Human and rodent homologies in action control : corticostriatal determinants of goal-directed and habitual action. - Neuropsychopharmacology, 35(1), 48-69, (2010).
-
(2) - BELLMAN (R.E.) - Dynamic Programming. - Princeton University Press, Princeton, NJ, (1957).
-
(3) - CALUWAERTS (K.), STAFFA (M.), N’GUYEN (S.), GRAND (C.), DOLLÉ (L.), FAVRE-FÉLIX (A.), GIRARD (B.), KHAMASSI (M.) - A biologically inspired meta-control navigation system for the psikharpax rat robot. - Bioinspiration & biomimetics, 7(2), 025009, (2012).
-
(4) - CHAVARRIAGA (R.), STRÖSSLIN (T.), SHEYNIKHOVICH (D.), GERSTNER (W.) - A computational model of parallel navigation systems in rodents. - Neuroinformatics, 3(3), 223-241, (2005).
-
(5) - COLLINS (A.G.), FRANK (M.J.) - How much of reinforcement learning is working memory, not reinforcement learning? A behavioral, computational, and neurogenetic analysis. - European Journal of Neuroscience, 35(7), 1024-1035, (2012).
- ...
Cet article fait partie de l’offre
Robotique
(59 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive