Depuis près de dix ans, la reconnaissance d’images est en pleine expansion. Si les géants de la tech investissent le créneau, différents acteurs des médias s’y intéressent aussi. Tour d’horizon d’un secteur en développement.
L’image comme porte d’accès. Il suffit d’une photo à la dernière fonctionnalité d’Amazon pour renvoyer l’internaute vers des articles vestimentaires similaires vendus par le groupe américain. StyleSnap, c’est son nom, outil de reconnaissance d’images intégré à l’ application Amazon a été présenté le 5 juin, à l’occasion de sa première conférence dédiée à l’intelligence artificielle et à l’automatisation. Comme l’entreprise de Jeff Bezos, de nombreux géants du Net investissent dans la reconnaissance d’images. Google a ainsi développé l’application Google Lens qui permet d’obtenir des informations depuis une photo : la race d’un chien, l’espèce d’une plante ou le modèle d’une paire de chaussures. Tandis que Facebook a créé Lumos, une intelligence artificielle qui détecte automatiquement le contexte d’une photo.
Si la reconnaissance d’images représente une opportunité pour les géants de la Silicon Valley, c’en est aussi une pour le secteur des médias. « De nombreuses entreprises utilisent des outils de reconnaissance d’images permettant de détecter différents types d’objets ou de contenus. L’utilisation de cette technologie concerne plusieurs domaines d’application : les voitures autonomes, la médecine, ainsi que les médias », constate Olivier Buisson, chef de projet recherche et développement de l’Institut national de l’audiovisuel (INA).
En partenariat avec Alexis Joly, chercheur à l’Institut national de recherche dédié aux sciences du numérique (Inria), Olivier Buisson a créé un outil de reconnaissance d’images. En développement depuis 2002, Snoop, de son nom, permet de retrouver différents types d’objets ou de contenus au sein d’un important volume de données vidéo. Une idée dont les applications commerciales ne manquent puisque dès 2010, l’agence de presse belge Belga sollicite l’équipe. « Elle désirait reconnaître et retrouver des images comportant certains logos », raconte Olivier Buisson.
Dans le cadre du travail d’archivage de l’INA, Snoop vise à faciliter la détection des contenus et sujets au sein des vidéos. L’outil de reconnaissance d’images permet de rechercher, au sein des archives, les différentes apparitions télévisées d’un événement et les contextes de sa médiatisation. Ainsi, lors d’une expérimentation réalisée sur Notre-Dame de Paris, le logiciel a pu en détecter 266 occurrences parmi un échantillon de 45 000 heures d’archives. La moitié de ces archives n’étant peu, voire pas, documentées, car parfois très anciennes, elles seraient restées ignorées lors d’une recherche classique basée sur les descripteurs. Parmi ces archives vidéos retrouvées, de nombreux enterrements, ainsi que des images issus d’anciens Tours de France. Une opportunité pour les médias qui souhaitent illustrer leurs articles ou leurs programmes à partir de ces vidéos méconnues.
Un outil indispensable pour les journalistes
Depuis déjà plusieurs années, la reconnaissance d’images fait également figure d’allié incontournable pour les médias dans leur lutte contre la désinformation (« fake news »). À partir de cette technologie, Youtube a déployé en 2018 un outil de fact checking sur ses versions coréenne et américaine. Le principe est d’ajouter automatiquement un bandeau de contexte renvoyant vers l’Encyclopédie Britannica ou Wikipedia, lorsque des vidéos touchent à des sujets concernés par la désinformation. Mais lors de l’incendie de Notre-Dame de Paris, l’algorithme a confondu celui-ci avec des vidéos ayant trait à l’attentat du 11 septembre, ce qui a provoqué l’affichage de bandeaux en accompagnement des vidéos de l’incendie. Face à la polémique, le géant américain a été contraint de retirer son dispositif. À la suite de cet échec, Jérémie Nicey, maître de conférences de l’École publique de journalisme de Tours, expliquait à La Revue des médias que cette technologie aurait été plus efficiente en la combinant avec un facteur humain : « Ce qui semblait être une chose plus efficace que l’humain s’avère s’être trompé. Alors que 95 % de la population mondiale ne se serait pas faite avoir, l’algorithme a failli. ».
Si la technologie n’est pas infaillible, elle se révèle un soutien précieux pour les journalistes.
Si la technologie n’est pas infaillible, elle se révèle un soutien précieux pour les journalistes, que cela soit pour du fact checking ou de l’investigation. Pour vérifier l’origine d’une photo, une simple recherche inversée permet souvent de connaître la provenance d’une image virale, d’en établir le contexte et parfois « de remonter jusqu’à l’auteur, la date et le lieu d’une prise de vue », comme l’explique l’équipe de fact checking de l’AFP.
Il existe une multitude d’autres outils numériques se basant sur la reconnaissance d’images. Outre la reconnaissance d’images par le biais de Google Image, FindClone aide ainsi à trouver un profil Vkontakte — l’équivalant de Facebook en Russie — à partir d’une photo, et donc de connaître l’identité d’une personne grâce à la reconnaissance faciale. C’est ce logiciel que Vice a utilisé pour prouver, à travers l’identification d’un soldat russe, que la Russie s’est impliquée dans les combats en Ukraine. Il existe aussi des outils similaires à la recherche inversée d’images permettant d’identifier l’origine d’une vidéo puis dans un second temps d’en connaître la source, ainsi que de savoir où et quand elle a été filmée.
Un secteur en plein développement
Les débouchés des technologies autour de la reconnaissance d’images sont multiples, de la détection de l’apport nutritionnel à partir d’un plateau de nourriture à l’analyse médicale d’un grain de beauté en passant par la reconnaissance de plantes(2). Ces champs d’utilisation extrêmement vastes ont été rendus possibles grâce à plusieurs facteurs concomitants. « D’une part, on a fait un saut technologique dans les années 2010, parce que la puissance de calcul des cartes graphiques a explosé. D’autre part, ce développement technologique doit aussi beaucoup à l’accumulation de données, rendue possible par l’usage de réseaux sociaux, mais aussi à l’open source », souligne Olivier Buisson.
La pratique généralisée de l’open source par différents géants de la tech a favorisé un cadre de travail mettant à disposition une architecture prête à l’emploi.
La pratique généralisée de l’open source par différents géants de la tech a favorisé un cadre de travail mettant à disposition une architecture prête à l’emploi pour les chercheurs et les développeurs informatiques. Et de la même façon, d’éviter des années de recherche que beaucoup de startups ne pourraient pas se permettre.
Le secteur privé n’est pas le seul à porter le marché de la reconnaissance d’images puisque l’État français s’intéresse aussi de près à ce domaine stratégique et porteur. Dans le rapport Villani, « Donner un sens à l’intelligence artificielle », rendu en 2018, le terme « reconnaissance d’images » revient d’ailleurs à sept reprises. À la suite de ce rapport, le président de la République, Emmanuel Macron, a annoncé que la France allait investir dans le secteur à hauteur de 1,5 milliard d’euros sur l’ensemble du quinquennat.
Cette économie se développe également grâce à des milliers d’ouvriers du net qui accomplissent des tâches répétitives visant à améliorer les intelligences artificielles. Le labeur de ces microtravailleurs, qui travaillent depuis leur domicile ou au sein de « fermes à clics », a même fait l’objet du dernier livre d’Antonio A. Casilli, En attendant les robots (3). À la suite de cette publication, le pure player Les Jours s’est penché, à travers la série Working Class Robot, sur ces travailleurs qui, pour un salaire de misère, permettent de perfectionner des outils de reconnaissances d’images ou de corriger la prononciation d’une voix artificielle.
Tous les internautes sont amenés à faire un travail similaire de manière plus ou moins consciente, via reCAPTCHA. Ce célèbre service d’authentification de Google évite, par le biais de petites tâches à réaliser, que des robots ne remplissent des formulaires de contact, qu’ils ne commentent et ne s’inscrivent intempestivement à un site, mais pas seulement. Reconnaître de la signalétique sur la route pour prouver que l’on n’est pas un robot, c’est aussi travailler à l’amélioration des logiciels de Google et consorts. Un travail réalisé gratuitement et, le plus souvent, à l’insu des internautes.