Chatbots : la ruée sur les données ne fait que commencer

L'apprentissage automatique qui a mené aux chatbots Bard ou ChatGPT a nécessité l'usage de gigantesques volumes de données puisées en vrac sur le Web. La pratique commence à poser des problèmes à la fois techniques et légaux.

Cet article est extrait du mensuel Sciences et Avenir - La Recherche n°923, daté janvier 2024.

Scanner le Web. La pratique n'est pas nouvelle, elle consiste à explorer le Web avec un logiciel (un "Web crawler") à des fins d'indexation, comme le font les moteurs de recherche, ou d'archivage. Les éditeurs de sites Internet ne s'en formalisaient pas plus que cela, mais à l'automne 2022, l'apparition de ChatGPT a agi comme un électrochoc.

L'agent conversationnel d'OpenAI fonctionne grâce à une famille de modèles de langage (GPT) entraînée sur de gigantesques volumes de contenus récupérés en ligne. Forums, blogs, articles, pages Wikipédia, sites de médias, bases publiques de codes informatiques, le "Web crawler" d'OpenAI GPTBot prend tout ce qu'il trouve. Google pour son modèle LaMDA (moteur du chatbot Bard) ou Meta pour LLaMA font la même chose. Autrement dit, le "scan" du Web a conduit à la production d'une technologie capable de créer elle-même du contenu.

Sans oublier que ChatGPT existe en version payante et est intégré dans le moteur Bing de Microsoft. Tout cela en se servant des données des autres sans avoir demandé, et encore moins payé. Même chose pour les intelligences artificielles (IA) qui génèrent des images à partir de descriptions en langage naturel (Dall-E 2, Midjourney).

Et ce n'est qu'un début, souligne Olivier Martinez, fondateur de 255hex.ai et consultant en intégration d'IA génératives en entreprise : "Pendant des années, on a fait des entraînements séparés pour le texte, l'image, le son. Or, les modèles deviennent multimodaux (production simultanée de données de natures différentes, ndlr), donc l'entraînement devient aussi multimodal. C'est la suite logique."

Des médias bloquent le robot "crawler" d'OpenAI

Depuis avril, les plateformes de forums Reddit et Stack Over-Flow font payer l'accès à leurs données à travers leur interface de programmation. Puis des médias (CNN, The New York Times, Reuters, Radio France, TF1info.fr, Mediapart, Libération, Le F[...]

Lire la suite sur sciencesetavenir.fr

A lire aussi