ChatGPT a failli réussir cet examen de médecine très difficile

Teachers are seen behind a laptop during a workshop on ChatGpt bot organised for by the School Media Service (SEM) of the Public education of the Swiss canton of Geneva, on February 1, 2023. (Photo by Fabrice COFFRINI / AFP)
FABRICE COFFRINI / AFP Teachers are seen behind a laptop during a workshop on ChatGpt bot organised for by the School Media Service (SEM) of the Public education of the Swiss canton of Geneva, on February 1, 2023. (Photo by Fabrice COFFRINI / AFP)

ETATS-UNIS - Ferait-il un bon médecin ? Le logiciel américain ChatGPT qui génère des textes grâce à l’intelligence artificielle, a en tout cas obtenu un score s’approchant de celui requis pour réussir un difficile examen de médecine aux États-Unis, selon une étude publiée jeudi 9 février dans la revue PLOS Digital health.

Des chercheurs de l’entreprise AnsibleHealth ont testé les performances du logiciel sur l’examen que doivent passer les étudiants en médecine aux États-Unis. Dénommé USMLE (United States Medical Licensing Examination), cet examen est divisé en trois parties : la première passée après environ deux ans d’études, la deuxième au bout de quatre ans, et la troisième étant requise pour devenir médecin.

Les apprentis médecins sont interrogés sur divers domaines (connaissances scientifiques, raisonnement clinique, bioéthique...). Seules les questions qui s’appuyaient sur des images n’ont pas été posées à ChatGPT qui a passé 350 des 376 questions de l’examen de juin 2022.

Elles étaient présentées sous trois formats : des questions ouvertes (« que serait le diagnostic pour ce patient compte tenu des informations présentées ? »), des questions à choix multiples sans justification (« Quelle est la prochaine étape de suivi la plus appropriée parmi les suivantes ? »), et des choix multiples avec justification (Quelle est la raison la plus probable pour les symptômes nocturnes du patient ? Expliquez votre raisonnement« ).

Plus de la moitié de bonnes réponses pour ChatGPT

Deux examinateurs ont noté le travail, et un troisième a tranché les écarts entre eux. Le logiciel a obtenu un score situé entre 52,4% et 75% de bonnes réponses. Généralement, le score nécessaire pour réussir l’examen est de 60%. « ChatGPT s’approche de la marge de réussite », conclut l’étude.

Certains experts extérieurs ont critiqué la méthode utilisée. Les chercheurs auraient pu introduire un certain degré d’anonymisation en mélangeant des réponses d’humains à celles du robot, a estimé Nello Cristianini, professeur en intelligence artificielle à l’université de Bath au Royaume-Uni. Il a malgré tout qualifié ces travaux comme faisant « partie d’une série de nouveaux développements enthousiasmants dans le domaine de l’intelligence artificielle » (IA).

Selon Lucia Ortiz de Zarate, chercheuse à l’université autonome de Madrid, cette étude démontre « le potentiel de l’IA dans le domaine médical ». Elle « peut se révéler d’une grande aide pour les médecins lorsqu’ils formulent des diagnostics et prescrivent des traitements », a-t-elle jugé. Fin janvier, une autre étude avait montré que ChatGPT pouvait réussir les examens d’une université de droit américaine -- quoiqu’en finissant dernier de la classe.

À voir également sur Le HuffPost :

Lire aussi