Des robots entraînés par Google pour bien jouer au football

Google DeepMind a appliqué la méthode de l’apprentissage par renforcement pour entrainer des mini-robots à se déplacer sur un terrain et marquer des buts. Ils s’avèrent plus performants que des machines préprogrammées.

Ces deux footballeurs courent, marchent, contournent l’adversaire, tombent, se relèvent, tirent et marquent des buts. Rien de très original, si ce n’est qu’il s’agit de mini-robots de cinquante et un centimètres de haut et 3,5 kg de la société Robotis, dotés de 20 articulations et parfaitement autonomes.

Les machines ont été entraînées à jouer au football par une équipe de Google Deepmind en utilisant la méthode d’apprentissage automatique dite d’apprentissage par renforcement. Appelé OP3 Soccer, ce projet fait l’objet d’un article dans la revue Science Robotics d’avril 2024.

Au lieu d’utiliser une base de données, les algorithmes appelés à piloter le robot apprennent ce qu’ils convient de faire dans une situation donnée par essai-erreur. Il n’y a aucune instruction préprogrammée, l’algorithme ne sait pas à l’avance ce qu’il faut faire. Il y a donc beaucoup d’erreurs, de décisions hasardeuses, mais chaque geste bien exécuté s’accompagne d’un signal de récompense. Si bien que l’algorithme, peu à peu, avance dans son apprentissage en ne retenant que les actions qui ont été récompensées.

Un algorithme qui tâtonne pendant très longtemps

L’approche a ceci d’intéressant qu’elle fait choisir à l’algorithme des techniques et des mouvements qu’il enregistre comme étant les plus efficaces mais qui peuvent être inattendues voire contre-intuitives. Certains n’auraient jamais été codés par des informaticiens dans les instructions données à un robot préprogrammé. "Un bon exemple réside dans la manière dont le robot se retourne, en pivotant sur le coin d’un pied, et qui aurait été très difficile à coder mais qui s’est avérée plus efficace qu’une approche traditionnelle", écrivent les auteurs de l’article.

L’apprentissage par renforcement implique cela dit d’y passer énormément de temps. D’abord parce que, contrairement aux humains qui comprennent au bout d'un ou deux essais ce qu’il faut faire, l’algorithme tâtonne pendant très longtemps. Ensuite parce qu’un entrainement ne port[...]

Lire la suite sur sciencesetavenir.fr

A lire aussi