GPT-4o, une IA générative à ”niveau moyen de risque”

OpenAI a publié un rapport évaluant le niveau de risque de sa technologie, en terme de désinformation, de contenus haineux, violents, etc. L’outil a été testé par des experts dans le cadre d’une démarche de "red teaming".

C’est OpenAI elle-même qui le dit : GPT-4o, la dernière évolution de son modèle de langage lancée en mai 2024, présente un risque de niveau "moyen" ("medium risk"). Plus exactement, ce risque concerne la capacité du modèle à convaincre ses utilisateurs que ce qu’il leur répond est vrai, même quand ça ne l’est pas.

Ce constat fait partie des conclusions d’un rapport publié sur le site d’OpenAI le 8 août 2024 sur le niveau de sécurité de GPT-4o et sur le type de risques que peut éventuellement poser son utilisation. Qu’il s’agisse de cybersécurité, de désinformation, de violation de la vie privée, de génération de contenus violents ou érotiques, de non-respect du droit d’auteur, etc.

Les modèles de langage sont entraînés avec des garde-fous, des filtres, des paramétrages empêchant la génération de certains contenus. Mais cela ne suffit pas. Tout contexte d'utilisation créé des situations par forcément prises en compte au moment du développement. OpenAI ajoute donc des opérations dites de « red teaming ».

Equipe rouge vs. équipe bleue

Il s’agit d’une pratique empruntée au monde de la cybersécurité et des armées et consistant, pour une organisation, à demander à se faire attaquer par une équipe d’experts se comportant comme des ennemis.

La cible peut être une zone militaire ou un réseau informatique (ou une partie de ce réseau). En face de cette « équipe rouge » d’assaillants, une « équipe bleue » se charge de la défense. L’objectif étant d’identifier des failles éventuelles, d'étudier des modes opératoires d’attaques et éprouver la défense existante.

Microsoft et Google ont également recours à ces procédés pour leurs systèmes d’IA, Google ayant publié son premier rapport sur le sujet en juillet 2023. A la fin de l’année dernière, Facebook a présenté le projet collaboratif Purple Llama destiné à sécuriser son modèle Llama à partir d’équipes rouges et d’équipes bleues (rouge et bleu donnant du violet, "purple" en anglais).

Dans son rapport, OpenAI liste 85 red teamers ti[...]

Lire la suite sur sciencesetavenir.fr