Les jeux informatiques servent de terrain privilégié d’expérimentation de ces intelligences artificielles « apprenantes ». Un programme conçu à l’université d’Alberta (Canada) s’est révélé imbattable dans une variante du poker Texas Hodl’em (partie en face à face) après 1500 parties jouées.
L’algorithme, dit de « minimisation rétrospective du regret », construit un arbre de décision à partir des résultats de chaque partie, associés à un degré de « regret ». Il réévalue également les décisions prises dans les tours précédents.
Le bluff est généré par fréquences statistiques calculées à partir des observations. Ces technologies font envisager des applications pour l’aide à la décision dans les domaines médicaux, biologiques ou financiers.
L’innovation de l’algorithme DeepMind est de pouvoir évoluer dans des environnements différents et d’y former chaque fois par apprentissage un schéma d’action. Il apprend formellement à reconnaître les configurations favorables de pixels.
Les ingénieurs l’ont d’abord entraîné à jouer à 49 jeux d’arcades, tels Pong, Space invaders et Breakout. Dans chacun d’eux, l’algorithme a décidé d’un comportement jusqu’à jusqu’à totalement « maîtriser » le jeu. Demis Hassabis, co-fondateur de DeepMind, en fait la démonstration avec le jeu Breakout (une plaque mobile renvoie une balle verticalement pour casser des briques.
L’algorithme après 300 parties gagne à tous les coups. Au bout de 500 parties, il a identifié une stratégie optimale, renvoyant la balle de manière à creuser dans les briques par le dessus.
Par Etienne Monin
Réagissez à cet article
Vous avez déjà un compte ? Connectez-vous et retrouvez plus tard tous vos commentaires dans votre espace personnel.
Inscrivez-vous !
Vous n'avez pas encore de compte ?
CRÉER UN COMPTE