Le modèle d’IA DarkBERT est entraîné avec les recoins les plus sombres d’Internet

IA intelligence artificielle
IA intelligence artificielle

Concevoir un modèle d’intelligence artificielle (IA) établi sur le contenu du dark web ? C’est l’idée d’une équipe sud-coréenne, avec un projet qui s’appelle DarkBERT. Mais, il ne s’agit pas du tout de créer une version maléfique de ChatGPT.

Ce n’est un secret pour personne : pour faire fonctionner ChatGPT, l’entreprise OpenAI a préalablement dû bâtir le « moteur ». C’est ce que l’on appelle un modèle de langage. Quand le célèbre chatbot a été lancé fin novembre 2022, il s’est d’abord appuyé le modèle de langage appelé GPT-3.5. Puis, depuis la mi-mars 2023, il peut convoquer GPT-4, via un abonnement payant.

Les modèles de langage successifs construits par OpenAI sont entraînés à partir de données amassées sur le web, par exemple, venant de l’encyclopédie Wikipédia ou du site communautaire Reddit. Pour avoir un ordre d’idée, GPT-2 repose sur 40 Go de texte. GPT-3 sur 570 Go. Quant à GPT-4, l’information est tenue secrète, mais le corpus est vraisemblablement plus vaste encore.

ChatGPT OpenAI chatbot
ChatGPT OpenAI chatbot

ChatGPT a été entraîné avec le web de surface. Mais sur Internet, il y a aussi des zones beaucoup plus obscures. // Source : Numerama

Il existe bien des modèles de langage, dont certains entrent dans la catégorie des grands modèles de langage (Large Language Models ou LLM). Outre GPT, on peut citer BERT et LaMDA de Google,

[Lire la suite]

Crédits photos de l'image de une : Source : Numerama avec Midjourney