L’algorithme, dit de « minimisation rétrospective du regret », construit un arbre de décision à partir des résultats de chaque partie, associés à un degré de « regret ». Il réévalue également les décisions prises dans les tours précédents.
Le bluff est généré par fréquences statistiques calculées à partir des observations. Ces technologies font envisager des applications pour l’aide à la décision dans les domaines médicaux, biologiques ou financiers.
L’innovation de l’algorithme DeepMind est de pouvoir évoluer dans des environnements différents et d’y former chaque fois par apprentissage un schéma d’action. Il apprend formellement à reconnaître les configurations favorables de pixels.
Les ingénieurs l’ont d’abord entraîné à jouer à 49 jeux d’arcades, tels Pong, Space invaders et Breakout. Dans chacun d’eux, l’algorithme a décidé d’un comportement jusqu’à jusqu’à totalement « maîtriser » le jeu. Demis Hassabis, co-fondateur de DeepMind, en fait la démonstration avec le jeu Breakout (une plaque mobile renvoie une balle verticalement pour casser des briques.
L’algorithme après 300 parties gagne à tous les coups. Au bout de 500 parties, il a identifié une stratégie optimale, renvoyant la balle de manière à creuser dans les briques par le dessus.
Par Etienne Monin
Cet article se trouve dans le dossier :
Google DeepMind : l'intelligence humaine est-elle déjà dépassée ?
- Google DeepMind : la machine surpasse une nouvelle fois l’intelligence humaine
- Les machines à apprendre : réseaux neuronaux et apprentissages en profondeur
- Des programmes informatiques qui apprennent à jouer
- Les performances derrière la victoire d’AlphaGo
- Des machines qui se souviennent, le défi des intelligences artificielles à venir
Dans l'actualité
- Loi renseignement : des algorithmes de surveillance massive
- Des chercheurs assurent avoir trouvé l’algorithme du chien de berger
- Les algorithmes de Google ressemblent à s’y méprendre au fonctionnement des fourmis
- Un algorithme pour améliorer l’électrocardiographie à distance
- L’intelligence artificielle inamicale : réalité ou fantasme ?
- Les performances derrière la victoire d’AlphaGo
- Des machines qui se souviennent, le défi des intelligences artificielles à venir
- Projet d’OS souverain : une fausse bonne idée
- I.A. et politique : des discours bientôt écrits par un algorithme ?
Dans les ressources documentaires