Une nouvelle étude de NewsGuard tire la sonnette d’alarme. Cette start-up qui lutte contre les « fake news » a identifié près d’une cinquantaine de sites d’information dont les contenus seraient à majorité ou en totalité générés par des algorithmes.
Plus besoin de main-d’oeuvre dans les « fermes de contenus ». Ces sites, qui utilisaient des petites mains pour produire des articles à la chaîne et capter des recettes publicitaires, automatisent leur production grâce aux algorithmes d’intelligence artificielle générative.
Publiée lundi 1er mai, une nouvelle étude de la start-up NewsGuard, spécialisée dans la lutte contre les « fake news », donne un premier aperçu de ce phénomène. « En avril 2023, NewsGuard a identifié 49 sites dans sept langues – anglais, chinois, français, portugais, tagalog, thaï et tchèque – qui semblent être entièrement ou majoritairement générés par des logiciels de langage d’intelligence artificielle, conçus pour imiter la communication humaine et ressembler à des sites d’information traditionnels », précise l’étude.
Plusieurs centaines d’articles sont publiés sur certains de ces sites, concernant tous types de sujets et véhiculant parfois de fausses nouvelles, notent les auteurs. Avec un objectif commun : susciter des clics et capter de la publicité.
« De nombreux sites sont saturés de publicités, ce qui indique qu’ils ont probablement été conçus pour générer des revenus grâce à la publicité programmatique – des publicités placées de manière algorithmique sur Internet et qui financent une grande partie des médias dans le monde […] », indique l’étude.
Langage formaté
Pour vérifier que les contenus en question étaient bien générés par l’IA, les analystes de NewsGuard ont commencé par rechercher la présence de tournures de phrases caractéristiques. Un langage formaté et des phrases répétitives sont ainsi des signes distinctifs de l’intelligence artificielle, notent-ils.
La répétition de termes comme « en conclusion » ou « il est important de se souvenir » est par exemple suspecte. « Les articles générés par IA se composent souvent de contenus résumés ou réécrits à partir d’autres sources », précisent aussi les auteurs, citant le cas d’un site qui se nourrit quasi exclusivement des contenus de CNN.
Les analystes ont aussi soumis les contenus douteux à un logiciel en ligne – GPTZero – qui classifie la nature des textes selon qu’ils ont été probablement produits par l’IA, par un humain ou une association des deux. Enfin, ils ont pu s’appuyer sur certaines traces évidentes laissées par le passage de l’IA, sur des pages manifestement non relues par un humain avant publication.
Un défi pour Google
Ainsi, les 49 sites identifiés ont publié au moins un article contenant des messages d’erreur caractéristiques de textes générés par l’IA, par exemple « ma date limite est septembre 2021 », « en tant que modèle de langage de l’IA » ou encore « je ne peux pas répondre à cette demande ».
La plupart des sites identifiés n’indiquent pas le nom de leur propriétaire. NewsGuard a tenté de contacter les 29 d’entre eux qui indiquaient une adresse. Seuls deux ont confirmé l’usage de l’IA, la plupart n’ont pas répondu.
Pour la rédactrice en chef Europe de NewsGuard, Chine Labbé, cette étude souligne « la nécessité pour les sociétés d’IA de mettre en place des garde-fous contre les abus liés à l’utilisation de leur service ». Mais aussi le besoin, pour les lecteurs, de redoubler de vigilance, même si la plupart des contenus identifiés par les analystes ne relevaient pas de la désinformation mais étaient simplement de mauvaise qualité.
Ce phénomène doit également pousser les médias traditionnels à être transparents dans leurs éventuelles utilisations de l’IA, parfois déjà employée pour la publication automatisée de nouvelles sportives ou boursières, estime-t-elle.
Les moteurs de recherche, qui ont pris de longue date des mesures contre les fermes de contenus « humaines », vont faire face à un défi de taille pour juguler ce flux grandissant de contenus sans auteur. En février, Google rappelait que « l’utilisation de l’automatisation (y compris l’IA) pour générer du contenu dans le but principal de manipuler le classement dans les résultats de recherche » enfreignait ses règles concernant le spam.
Preuve que le sujet inquiète les autorités, les ministres participant au G7 numérique, à Takasaki au Japon, ont préconisé, dimanche, une approche commune sur l’IA, appelant à développer une réglementation « fondée sur le risque ». Le texte préconise malgré tout de « préserver un environnement ouvert et propice » au développement des technologies. Quant aux parlementaires européens, ils sont parvenus jeudi à un accord préliminaire sur un nouveau projet de loi sur l’IA, comprenant notamment des mesures de protection des droits d’auteur.