Quand l’IA apprend à parler comme un bébé

Pour apprendre à écrire un bon français, le robot conversationnel ChatGPT a dû s’entraîner à partir d’énormes quantités de données contenant des milliers de milliards de mots. Bien moins efficace qu’un bébé apprenant à parler, semble-t-il.

Des chercheurs se sont demandé si l’intelligence artificielle (IA) pouvait, elle aussi, apprendre comme un enfant. Que donnerait un modèle d’IA qui serait entraîné sur un jeu de données restreint, à partir des images et des sons perçus par un bébé en train d’apprendre à parler ?

Pour répondre à cette question, une équipe de l’université de New York a mené une expérience décrite dans Science le 1er février. Pour la MIT Technology Review, “cette étude permet non seulement de mieux comprendre comment les bébés font leurs apprentissages, mais elle va sans doute également améliorer les modèles d’intelligence artificielle”.

Les chercheurs ont créé et “nourri” un modèle d’apprentissage automatique multimodal, capable d’ingérer à la fois du texte et des images. Ils se sont pour cela appuyés sur 61 heures de vidéos captées par un casque-caméra porté par un enfant australien. “Sam a porté cette caméra par intermittence pendant un an et demi, depuis l’âge de 6 mois jusqu’à un peu après son deuxième anniversaire”, rapporte la revue américaine.

Associer un objet à son nom

Pour entraîner ce modèle, Brenden Lake et ses collègues ont utilisé 600 000 images vidéo associées aux phrases – soigneusement consignées par écrit par l’équipe – prononcées par les parents de Sam ou par d’autres personnes présentes dans la pièce au moment où l’image était captée. Cela représente au total 37 500 “énoncés” du genre “tu vois ce cube”. Brenden Lake assure :

“Cet ensemble de données est vraiment unique. Nous n’avons jamais eu un aussi bon aperçu de ce que l’enfant met à profit [pour ses apprentissages].”

Quand ils ont ensuite testé leur modèle, après la phase d’apprentissage, les chercheurs ont constaté qu’il pouvait identifier de nombreux objets différents, que ce soit sur des images issues de la caméra ou d’autres images, bien que la précision ne soit pas la même. Et comme on pouvait s’y attendre, l’IA était meilleure lorsqu’elle nommait des objets vus plus fréquemment par l’enfant.

[...] Lire la suite sur Courrier international

Sur le même sujet :