Google donne des instructions en textes et en images à un robot-chatbot

Google Research, Robotics at Google, TU Berlin

Le projet PaLM-E de Google est un système d'agent conversationnel dont les réponses servent d'instructions au robot. Mais une caméra y ajoute des informations en images.

Robotique, vision par ordinateur et modèle de langage. C’est la combinaison détonante du projet PaLM-E d’une équipe de chercheurs de Google et de l’université technique de Berlin (Allemagne). Un modèle de langage appelé Pathways, présenté par une équipe de Google en 2022, a été intégré à un robot mobile conçu par la division robotique de Google. L’utilisateur interroge ou donne des instructions en langage naturel, l’agent conversationnel bâti sur Pathways répond et cette réponse déclenche une action de la part de la machine, sorte de version incarnée, matérielle, d’un chatbot. D’où le nom du projet : Pathways Language Model-Embodied (incarné, en anglais).

Mais, à l’instar du projet de robot-peintre FRIDA de l’université Carnegie-Mellon, évoqué par Sciences et Avenir récemment, les instructions sont dites "multimodales", à savoir que l’on peut interagir avec l’agent conversationnel en lui envoyant une combinaison de texte et d’images. Par exemple, comme on le voit sur la page de démos du site du projet, la photo d’un étal de donuts est associée à la question "A quel parfum est le donut sur la gauche ?" pour générer la réponse "A la myrtille".

"Comment répartir les blocs par couleurs ?"

Google a mené plusieurs expérimentations de manipulations d’objets avec un bras robotique préhensible monté sur roue. Il est équipé d’une caméra qui lui permet d’envoyer des informations visuelles sur l’environnement. Tandis que l’appareil cadre une table sur laquelle sont disposés des petits blocs colorés de diverses formes, l’agent conversationnel reçoit comme question : "Comment répartir les blocs par couleurs dans chaque coin ?" Ce qui déclenche toute une séquence où le robot agit étape par étape.

Première réponse de PaLM-E : "pousse le rond rouge dans le coin haut gauche", suivi du mouvement correspondant du robot. Le flux vidéo témoigne maintenant d’un nouvel état sur la table, ce qui amène une deuxième instruction du chatbot : "pousse l’étoile rouge vers le rond rouge". Puis "po[...]

Lire la suite sur sciencesetavenir.fr

A lire aussi