1.1 - Algorithmes fondés sur un modèle
1.2 - Algorithmes sans modèle
1.3 - Combinaison d’algorithmes multiples

2 - MÉTHODES DE COORDINATION D’ALGORITHMES D’APPRENTISSAGE

2.1 - Fusion statique
2.2 - Sélection par suivi dynamique de variables internes
2.3 - Sélection par apprentissage

3 - CONCLUSION

Bibliographie & annexes

Article de référence | Réf : S7793 v1

Conclusion
Coopération d’algorithmes d’apprentissage par renforcement multiples

Auteur(s) : Benoît GIRARD, Mehdi KHAMASSI

Date de publication : 10 déc. 2016 | Read in English

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Présentation

RÉSUMÉ

Développées initialement dans le cadre de l’intelligence artificielle, les méthodes d’apprentissage par renforcement sont des composantes essentielles des architectures de contrôle robotique adaptatives. Deux grandes classes d'algorithmes ont été proposées : avec ou sans modèle interne du monde. La première est coûteuse en calculs mais est très adaptative, alors que la seconde est peu coûteuse mais lente à converger. La combinaison de ces différents algorithmes dans une même architecture de contrôle permet donc d’envisager de tirer le meilleur parti des deux mondes. Nous présentons ici ces deux familles d’algorithmes, ainsi que les méthodes de combinaison qui ont été proposées et évaluées, tant en neurosciences qu’en robotique.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Benoît GIRARD : Directeur de recherche CNRS - Institut des systèmes intelligents et de robotique, ISIR (UMR7222, CNRS – UPMC)
Mehdi KHAMASSI : Chargé de recherche CNRS - Institut des systèmes intelligents et de robotique, ISIR (UMR7222, CNRS – UPMC)

INTRODUCTION

Les méthodes d’apprentissage par renforcement sont des composantes essentielles du développement de systèmes robotiques autonomes. Elles doivent en effet permettre à ces systèmes d’apprendre, par essais et erreurs, sans intervention additionnelle de leurs concepteurs, les actions qui doivent être effectuées, et celles qui doivent être évitées, pour la réalisation de leur mission.

Deux grandes classes d’algorithmes ont été historiquement développées dans la littérature : celle fondée sur l’utilisation d’un modèle interne du monde, et en particulier des transitions entre états, et celle sans modèle interne. La première est grande consommatrice de ressources computationnelles (i.e. calculs nécessaires pour déduire l’action qui semble aboutir aux meilleures conséquences telles que prédites par le modèle interne), mais permet de réagir en quelques essais aux changements de l’environnement en réutilisant les connaissances précédemment apprises sur la structure de l’environnement grâce au modèle interne ; la seconde est extrêmement peu coûteuse (pas de modèle, donc pas d’estimation des conséquences de l’action), mais au prix d’une convergence lente de l’apprentissage et d’une très mauvaise adaptabilité au changement (i.e. des centaines d’essais sont nécessaires pour mettre à jour les valeurs associées aux actions suite à un changement de l’environnement). Il pourrait donc sembler logique de chercher à bénéficier des complémentarités de ces deux approches en les combinant. Pourtant, la coopération de systèmes d’apprentissage par renforcement multiples a, jusqu’ici, été peu explorée dans la littérature de l’apprentissage automatique.

La mise en avant des bonnes propriétés d’une telle approche s’est donc initialement développée dans le contexte de l’étude du comportement animal. En effet, la cohabitation de systèmes d’apprentissage multiples, et l’existence de substrats neuronaux distincts, ont été clairement démontrées en neurosciences. Plusieurs modèles computationnels ont été proposés pour rendre compte de la manière dont les animaux coordonnent leurs systèmes d’apprentissage multiples. Ces modèles constituent une source d’inspiration pour la conception de systèmes robotiques. Cette importation a principalement eu pour cadre la navigation, mais ne doit pas nécessairement s’y limiter. Enfin, les limites de ces méthodes, dont l’objectif scientifique est la simulation du -comportement animal et non l’efficacité opérationnelle, sont parfaitement dépassables dans le cadre de l’ingénierie, en se défaisant des contraintes biologiques.

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Apprentissage par renforcement

3. Conclusion

La combinaison de modules multiples pour la résolution d’une tâche en robotique autonome (et en particulier pour la navigation) a été peu explorée jusqu’ici. Pourtant, les complémentarités en matière de vitesse d’adaptation et de coût computationnel des différents types d’algorithmes d’apprentissage par renforcement susceptibles d’être utilisés, d’une part, et les résultats de neurosciences démontrant l’utilisation de systèmes d’apprentissage multiples chez les animaux, d’autre part, plaident en faveur de la conception d’architectures de contrôle intégrant de multiples algorithmes.

C’est cette exploration encore limitée des possibilités de telles combinaisons en robotique qui explique que bon nombre des algorithmes passés en revue ici sont issus des neurosciences computationnelles, et ont pour but initial d’expliquer des données biologiques. Pourtant, ces méthodes, exprimées dans le formalisme de l’apprentissage par renforcement sont parfaitement adaptables et testables en robotique, ce que nous nous sommes efforcés de mettre en évidence.

Comme le souligne un article de synthèse des travaux sur l’apprentissage en robotique , il n’y a d’une part actuellement pas de solution générale qui puisse permette à un même robot d’apprendre correctement chacun des problèmes étudiés, et il n’y a d’autre part pas de comparaison facile à faire entre toutes ces solutions puisqu’elles n’ont pas été testées sur un ou plusieurs mêmes problèmes. La proposition qui émerge du travail de Caluwaerts et al.

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Conclusion

Page
précédenteMéthodes de coordination d’algorithmes d’apprentissage

BIBLIOGRAPHIE

(1) - BALLEINE (B.W.), O’DOHERTY (J.P.) - Human and rodent homologies in action control : corticostriatal determinants of goal-directed and habitual action. - Neuropsychopharmacology, 35(1), 48-69, (2010).
(2) - BELLMAN (R.E.) - Dynamic Programming. - Princeton University Press, Princeton, NJ, (1957).
(3) - CALUWAERTS (K.), STAFFA (M.), N’GUYEN (S.), GRAND (C.), DOLLÉ (L.), FAVRE-FÉLIX (A.), GIRARD (B.), KHAMASSI (M.) - A biologically inspired meta-control navigation system for the psikharpax rat robot. - Bioinspiration & biomimetics, 7(2), 025009, (2012).
(4) - CHAVARRIAGA (R.), STRÖSSLIN (T.), SHEYNIKHOVICH (D.), GERSTNER (W.) - A computational model of parallel navigation systems in rodents. - Neuroinformatics, 3(3), 223-241, (2005).
(5) - COLLINS (A.G.), FRANK (M.J.) - How much of reinforcement learning is working memory, not reinforcement learning? A behavioral, computational, and neurogenetic analysis. - European Journal of Neuroscience, 35(7), 1024-1035, (2012).
...

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Technologies logicielles Architectures des systèmes

(236 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Conclusion Coopération d’algorithmes d’apprentissage par renforcement multiples

RÉSUMÉ

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 92% à découvrir.

L'expertise technique et scientifique de référence

MOTS-CLÉS

DOI (Digital Object Identifier)

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

3. Conclusion

Cet article est réservé aux abonnés.Il vous reste 92% à découvrir.

L'expertise technique et scientifique de référence

BIBLIOGRAPHIE

Cet article est réservé aux abonnés.Il vous reste 93% à découvrir.

L'expertise technique et scientifique de référence

Conclusion
Coopération d’algorithmes d’apprentissage par renforcement multiples

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 92% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.