Les bases d’images, le casse-tête éthique des chercheurs

·2 min de lecture

Les bases d'images utilisées pour la recherche en vision par ordinateurs sont loin d'avoir été constituées en toute transparence. Même rendues inaccessibles, elles peuvent continuer à poser problème.

L’une des plus célèbres bases de photos utilisées par le monde académique a connu une mise à jour d’importance en mars 2021. Sur plus de 240.000 photos , les visages ont été floutés pour éviter que ce corpus ne servent à des projets de reconnaissance faciale. En 2019, Microsoft a purement et simplement supprimé , une base de 8,2 millions d’images montrant des célébrités que l’éditeur avait constituée en 2016 à partir de photos trouvées sur Internet. Ce corpus contenait en effet quantité d’images de personnalités qui n’avaient pas donné leur accord pour y figurer et qui n’avaient rien de “célébrités”. Elles n'avaient leur photo en ligne que pour des raisons professionnelles : des journalistes, des universitaires, etc.

Or, un groupe de trois chercheurs de l’université de Princeton, aux Etats-Unis, démontre dans un , mis en ligne début août, que de telles mesures ne suffisent pas. Du moins, ce ne peut être qu’une première étape. Car les bases de données problématiques ont nourri des travaux de recherches, ont été dupliquées, ont servi à créer d’autres bases de données. Autant d’éléments qui, eux, continuent leur vie sur internet et dans les milieux académiques.

Le cycle de vie de trois corpus de données

Les chercheurs, spécialistes en informatique et sciences de l’information, ont étudié trois corpus en particulier, composés de photos collectées sur Internet et dédiés aux travaux sur la reconnaissance de personnes : feu MS-Celeb1M de Microsoft, (LFW), de l’université du Massachusetts à Amherst, et , un ensemble de plans issus des flux de 8 caméras de vidéosurveillance du campus de l’université Duke en Caroline du nord. Lancée en 2016, forte de 2 millions d’images où apparaissent 2.000 étudiants, cette base de données à elle aussi été mise au rebut, pour les mêmes raisons que MS-Celeb1M.

Quant à LFW, elle a été créé en 2007 à partir de photos trouvées dans des articles publiées sur Yahoo News. Elle reste accessible aujourd'hui, seulement, depuis 2019, une mention sur s[...]

Lire la suite sur sciencesetavenir.fr

A lire aussi

Notre objectif est de créer un endroit sûr et engageant pour que les utilisateurs communiquent entre eux en fonction de leurs centres d’intérêt et de leurs passions. Afin d'améliorer l’expérience dans notre communauté, nous suspendons temporairement les commentaires d'articles