Chatbots : la ruée sur les données ne fait que commencer

Sciences et Avenir

7 janvier 2024 à 0:00 AM

L'apprentissage automatique qui a mené aux chatbots Bard ou ChatGPT a nécessité l'usage de gigantesques volumes de données puisées en vrac sur le Web. La pratique commence à poser des problèmes à la fois techniques et légaux.

Cet article est extrait du mensuel Sciences et Avenir - La Recherche n°923, daté janvier 2024.

Scanner le Web. La pratique n'est pas nouvelle, elle consiste à explorer le Web avec un logiciel (un "Web crawler") à des fins d'indexation, comme le font les moteurs de recherche, ou d'archivage. Les éditeurs de sites Internet ne s'en formalisaient pas plus que cela, mais à l'automne 2022, l'apparition de ChatGPT a agi comme un électrochoc.

L'agent conversationnel d'OpenAI fonctionne grâce à une famille de modèles de langage (GPT) entraînée sur de gigantesques volumes de contenus récupérés en ligne. Forums, blogs, articles, pages Wikipédia, sites de médias, bases publiques de codes informatiques, le "Web crawler" d'OpenAI GPTBot prend tout ce qu'il trouve. Google pour son modèle LaMDA (moteur du chatbot Bard) ou Meta pour LLaMA font la même chose. Autrement dit, le "scan" du Web a conduit à la production d'une technologie capable de créer elle-même du contenu.

Sans oublier que ChatGPT existe en version payante et est intégré dans le moteur Bing de Microsoft. Tout cela en se servant des données des autres sans avoir demandé, et encore moins payé. Même chose pour les intelligences artificielles (IA) qui génèrent des images à partir de descriptions en langage naturel (Dall-E 2, Midjourney).

Et ce n'est qu'un début, souligne Olivier Martinez, fondateur de 255hex.ai et consultant en intégration d'IA génératives en entreprise : "Pendant des années, on a fait des entraînements séparés pour le texte, l'image, le son. Or, les modèles deviennent multimodaux (production simultanée de données de natures différentes, ndlr), donc l'entraînement devient aussi multimodal. C'est la suite logique."

Des médias bloquent le robot "crawler" d'OpenAI

Depuis avril, les plateformes de forums Reddit et Stack Over-Flow font payer l'accès à leurs données à travers leur interface de programmation. Puis des médias (CNN, The New York Times, Reuters, Radio France, TF1info.fr, Mediapart, Libération, Le F[...]

Lire la suite sur sciencesetavenir.fr

A lire aussi

Closer
"Etre réduit à…" : Raphaël Glucksmann hors de lui dans C à vous, il fait une révélation glaçante
De passage sur le plateau de l'émission C à vous vendredi 21 juin 2024 sur France 5, le député européen du parti socialiste Raphaël Glucksmann a poussé un gros coup de gueule suite aux attaques dont il a fait l'objet.
le journal de la Maison
Jordan Bardella : découvrez sa maison dans les Hauts-de-Seine, placée sous haute sécurité
Près d'une semaine après sa victoire aux élections européennes, découvrez où réside le protégé de Marine Le Pen, Jordan Bardella.
Grazia
Selon des psychologues, si vous possédez cette caractéristique, c'est le signe d'une extrême intelligence
Les psychologues sont formels. Si une personne possède cette caractéristique subtile, c'est le signe qu'elle est très intelligente. Alors, êtes-vous concerné.e ?
Closer
Emmanuel Macron prend le micro sur scène à l’Elysée en pleine Fête de la musique, et il jette un froid
Alors qu'une soirée était organisée au sein de l'Élysée dans le cadre de la Fête de la musique le vendredi 21 juin 2024, le président de la République, Emmanuel Macron, a pris la parole afin de faire passer un message politique.
Purepeople
Paul Belmondo divorce de sa femme Luana après 33 ans d'amour et trois fils, les raisons dévoilées
C'est une rude épreuve qui ébranle toute la famille : après trente-trois ans de mariage, Paul et Luana Belmondo auraient...
Closer
Obsèques de Françoise Hardy : "Je comprends pourquoi…", cette plaisanterie parfaite de Thomas Dutronc dans l’église
Ce jeudi 20 juin se déroulaient les obsèques de Françoise Hardy, décédée le 11 juin dernier. Dans l’église, son fils Thomas Dutronc a esquissé une plaisanterie qui a fait mouche auprès des personnes présentes.
Closer
Brigitte Macron déchaînée à l’Elysée : grosses lunettes et grosses baskets, elle est la seule à mettre l'ambiance sur le dancefloor
Dans le cadre de la traditionnelle Fête de la musique, le palais de l'Élysée avait organisé plusieurs festivités vendredi 21 juin 2024. Durant celle-ci, la Première dame Brigitte Macron s'est littéralement déchaînée sur le dancefloor.
Purepeople
Sophie Le Saint (France Télévisions) mariée depuis 31 ans à un homme puissant : une photo inédite de leur union dévoilée
La journaliste de France Télévisions est une femme amoureuse. Depuis désormais trente-et-un ans, elle est mariée à une figure...
Purepeople
"Je ne lui parlerai pas" : Tensions entre une star française du foot et Didier Deschamps, ces mots durs qu'ils se sont échangés
Allez les Bleus ! Les hommes de Didier Deschamps disputent leur deuxième match dans cet Euro 2024 ce vendredi soir contre...
Closer
Obsèques de Françoise Hardy : ces trois figures de la chanson étaient absentes, et voici pourquoi
Les obsèques de Françoise Hardy se sont déroulées au cimetière du Père-Lachaise, le jeudi 20 juin dernier. Certaines personnalités attendues étaient absentes, Véronique Sanson, Alain Souchon et Sylvie Vartan. Voici pourquoi…
Purepeople
VIDEO Benjamin Duhamel déstabilise complètement son invitée, grand moment de gêne sur BFMTV
Benjamin Duhamel a remplacé Apolline de Malherbe au "Face à face" de BFMTV le vendredi 21 juin 2024. Le fils de Nathalie...
Paris Match
Viol d'une jeune fille à Courbevoie : ce que l'on sait des agresseurs présumés
Deux des trois adolescents mis au cause dans le viol d'une jeune fille de 12 ans à Courbevoie (Hauts-de-Seine) ont été mis en examen et écroués. Le troisième, a, lui, été placé sous le statut de témoin assisté.
Purebreak
TPMP : une chroniqueuse absente l'an prochain ? Elle ne se sent pas à sa place dans l'émission, "Ce n'est pas là où j'excelle le plus"
De nouvelles têtes vont-elles rejoindre TPMP à la rentrée sur C8 ? Ce n'est pas impossible. Comme vient de le confier l'une...
Paris Match
Obsèques de Françoise Hardy : Thomas Dutronc dévoile une photo de la cérémonie
Au lendemain des obsèques de sa mère Françoise Hardy, Thomas Dutronc a pris la parole sur son compte Instagram, pour évoquer le dernier adieu à sa mère qui a eu lieu au cimetière du Père Lachaise, jeudi 20 juin.
BFMTV
Danse endiablée et selfie en coulisses: le prince William au concert de Taylor Swift avec ses enfants
Le prince William était à Wembley vendredi soir avec ses deux plus grands enfants, pour assister au concert de Taylor Swift.
Le HuffPost
« Envoyé spécial » : la gauche indignée face à ces images montrant le « racisme décomplexé » subi par une femme
« Envoyé spécial » sur France 2 a partagé un extrait de son émission « Législatives, un choix crucial », qui montre le quotidien de Divine, une femme noire insultée par ses voisins depuis les élections européennes.
Closer
"Soyez maudit": Raphaël Glucksmann violemment interpellé par une passante, le candidat tombe des nues
Raphaël Glucksmann doit faire face aux nombreuses critiques de ses partisans qui n'ont pas du tout apprécié qu'il accepte de faire une alliance avec les partis de la gauche, et en particulier avec La France Insoumise. Il a été vivement pris à partie à Marseille.
Purepeople
VIDEO "Vous avez 50 ans passés" : Anne-Elisabeth Lemoine maladroite face à un célèbre acteur, ça ne passe pas !
Anne-Elisabeth Lemoine a encore fait ses siennes dans "C à Vous" ce vendredi 21 juin 2024, alors qu'elle recevait un célèbre...
Purepeople
Dave et son mari Patrick Loiseau rattrapés par une nouvelle épreuve, une opération ultra-délicate à venir
Soudés depuis les années 1970, Dave et Patrick Loiseau ont traversé toutes les tempêtes ensemble. Le couple doit désormais...
BFMTV
"Va à la niche": Dupond-Moretti demande un rapport "en vue de la suspension" d'une fonctionnaire du tribunal de Montargis
Après le reportage d'Envoyé Spécial montrant un couple s'en prendre verbalement à sa voisine, le ministre de la Justice a fait savoir sur X que "la haine n’aura jamais sa place dans nos tribunaux".

Des médias bloquent le robot "crawler" d'OpenAI

A lire aussi

Derniers articles