GPT-4, une nouvelle version pour intégrer l'image au programme d'intelligence artificielle ChatGPT

La nouvelle version du grand modèle de langage d'OpenAI est capable de décrire des images. Elle sera disponible en version payante pour être intégrée dans diverses applications. Dont la formule elle-aussi payante de ChatGPT.

Si, en cette mi-mars 2022, vous demandez à Chat-GPT sur quelles données a été entraîné le modèle de langage GPT-4, l’agent conversationnel vous répondra qu’à sa connaissance, GPT-4 n’existe pas encore. Or, OpenAI, la société à l’origine des modèles GPT (Generative PreTraining), a bien présenté la quatrième version de sa technologie phare le 14 mars 2023. C’est juste que GPT-3, qui a servi à bâtir Chat-GPT, a utilisé des données allant jusqu’à septembre 2021.

Un "rapport technique" plutôt qu’un article de recherche est disponible en ligne sur le site d’OpenAI. Il assure que "même s’il est moins compétent que les humains dans de nombreux cas de figure de la vie réelle, GPT-4 montre des performances équivalentes à celle des humains dans divers bancs d’essai relevant de domaines professionnels et académiques". Il a été notamment évalué sur plus d’une trentaine d’examens, en simulation respectant leurs conditions réelles (droit, histoire internationale et américaine, statistique, psychologie, physique et même œnologie). Il dépasse GPT-3.5 dans la moitié d’entre eux.

Description de photos, de dessins et de schémas

OpenAI ne dit rien, pour l’heure, de la base de données d’entraînement. Celle-ci était de toute façon déjà conséquente pour GPT-3 avec 45 terabytes de données incluant des pages web, Wikipedia, deux corpus de livres numérisées. Quoi qu’il en soir, la grande nouveauté de cette nouvelle version, c’est le traitement des images. GPT-4, toujours selon le rapport technique, est capable de décrire une image qu’on lui soumet en l’associant à une question en langage naturel, pour guider la réponse à fournir (comme on le fait dans Chat-GPT). Il est possible de lui envoyer des photos, des dessins, des schémas, voire plusieurs en même temps si c’est cohérent avec la question posée. Et a priori, GPT-4 s’avère apte à saisir et expliquer le comique d’une situation visuelle !

Il reste qu’OpenAI prend toutes les précautions du monde. "GPT-4 a les mêmes limites que les versions p[...]

Lire la suite sur sciencesetavenir.fr

A lire aussi