Identifier les textes artificiels, un impératif
Les intelligences artificielles sont devenues si performantes dans l'écriture qu'il devient compliqué d'identifier les textes qui ne sont pas écrits par des humains. La loi européenne exige la transparence, mais les solutions techniques manquent.
Cet article est extrait du mensuel Sciences et Avenir n°929/930, daté juillet/ août 2024.
"Veuillez noter qu'en tant que modèle d'intelligence artificielle de langage, je suis incapable de générer des tableaux spécifiques ou de mener des tests". Étrange phrase relevée dans un article de trois chercheurs portant sur le commerce électronique appliqué aux énergies fossiles et paru dans la revue Resources Policy en 2023. Son véritable auteur est ChatGPT.
Depuis l'arrivée de l'agent conversationnel à l'automne 2022, ce genre de scorie pullule dans les publications scientifiques. L'enseignant-chercheur en informatique Guillaume Cabanac, de l'Université Toulouse-III Paul-Sabatier, est un spécialiste de leur détection. Avec plusieurs collègues, il utilise un logiciel, Problematic Paper Screener, conçu pour passer au crible les articles de recherche et relever automatiquement des formules douteuses.
Comme "Nos connaissances s'arrêtant en septembre 2021", qui est la manière dont un modèle de langage signale la date de ses données d'entraînement la plus récente. "En tant que modèle de langue, je n'ai pas le droit de faire ceci, de faire cela est un autre marqueur chez différents éditeurs et auteurs", ajoute Guillaume Cabanac. Des formules telles "Bien sûr ! Voici un exemple simplifié" ou "Je vous propose une version reformulée du texte" sont typiques d'IA génératives que les auteurs ont recopiées sans se relire. La mention "regenerate response", elle, correspond à une fonction de ChatGPT.
La technique dite du watermarking
Toutes ces expressions sont ensuite publiées sur la plate-forme PubPeer où les auteurs peuvent s'expliquer. Il ne s'agit pas de dénigrer l'usage des modèles de langage mais d'inciter à la transparence. "Dans un article sur le potentiel des télécommunications sans fil 6G et 7G paru en 2023, les auteurs ont fait un copier-coller de ce qu'a fourni ChatGPT sur le sujet. Et on ignore s'ils ont vérifié cette réponse ", pointe Guillaume Cabanac.
Cet enjeu d'éthique [...]