Les chercheurs mettent en garde contre les risques des articles générés par ordinateur, et développent des logiciels qui détectent les fake news
Il est devenu beaucoup plus facile de produire des articles d’actualités paraissant réels, mais en réalité inventés, grâce à quelques nouveaux outils alimentés par l’intelligence artificielle (IA) — ce qui suscite des inquiétudes au sujet d’une mauvaise utilisation potentielle de cette technologie.
Ce que les « deepfakes » ont fait dans la vidéo — produire des clips de personnes célèbres semblant dire et faire des choses qu’elles n’ont jamais dites ou faites —, ces outils pourraient le faire avec l’actualité : laisser croire aux gens que la terre est plate, que le réchauffement climatique est un canular ou qu’un candidat politique a commis un crime qu’il n’a en réalité pas commis. Les faux articles ne sont pas nouveaux, mais les outils utilisant l’IA permettent de les générer en quelques secondes par ordinateur.
Pour autant que les experts le sachent, cette technologie n’a été mise en œuvre que par des chercheurs, et elle n’a, pour l’instant, pas été utilisée à des fins malveillantes. En outre, elle reste limitée, empêchant aux récits de paraître trop crédibles.
Mais beaucoup des chercheurs ayant mis au point la technologie ainsi que des personnes l’ayant étudiée craignent qu’à mesure que de tels outils se perfectionneront, ils puissent diffuser de la désinformation ou servir des préoccupations politiques. C’est pourquoi certains tirent la sonnette d’alarme au sujet des risques engendrés par les articles générés par ordinateur et communiquent sur des outils qui permettent aux lecteurs d’identifier les faux articles.
« Le danger, c’est qu’il y a déjà beaucoup de propagande similaire écrite par des humains, à partir de laquelle ces programmes de langage neuronal peuvent apprendre à générer des articles similaires, explique Yejin Choi, professeur associé à l’Université de Washington, chercheur à l’Allen Institute for Artificial Intelligence et membre d’une équipe qui a développé un outil fabriquant des fake news. La qualité de ces fausses nouvelles créées par l’IA peut sembler assez convaincante aux yeux des humains. »
Arrêtez les rotatives
La première mention d’une nouvelle génération d’outils de texte synthétique a été dévoilée en février, lorsque OpenAI, un organisme de recherche basé à San Francisco et soutenu par d’éminentes figures de la tech comme Reid Hoffman, cofondateur de LinkedIn, a lancé le GPT-2. Le logiciel produit de véritables articles d’actualité — ainsi que d’autres formats, comme de la fiction ou des dialogues — en s’appuyant sur son analyse de 40 gigaoctets de textes provenant de huit millions de pages web. Les chercheurs ont développé le logiciel OpenAI parce qu’ils savaient qu’un outil puissant de génération de discours finirait par apparaître de manière sauvage et qu’ils voulaient gérer sa sortie de manière responsable.
Le système GPT-2 a si bien fonctionné que, lors d’une enquête menée en août auprès de 500 personnes, une majorité d’entre elles ont trouvé crédibles ses articles artificiels. Dans l’un des groupes de participants, 72 % ont trouvé un article du GPT-2 crédible, alors que 83 % trouvaient crédible un article authentique.
« La désinformation artificielle à grande échelle est non seulement possible, mais elle est bon marché et crédible », affirme Sarah Kreps, professeure à l’Université Cornell qui a coécrit l’étude. Sa diffusion sur Internet, dit-elle, pourrait ouvrir la voie à des campagnes d’influence malveillantes. Et même si les gens ne croient pas à l’exactitude des articles de fake news, poursuit-elle, le fait de savoir que de tels articles sont diffusés pourrait avoir un effet néfaste, érodant la confiance des gens dans les médias et le gouvernement.
Etant donné les risques potentiels que pourrait générer un accès généralisé au GPT-2, OpenAI a décidé de ne pas le diffuser immédiatement, mais d’en proposer une version limitée aux chercheurs pour qu’ils puissent l’étudier et éventuellement développer des outils susceptibles de détecter des textes générés artificiellement et circulant sur le Web.
Dans les mois qui ont suivi, d’autres chercheurs ont copié les travaux d’OpenAI. En juin, Mme Choi et ses collègues de l’Université de Washington et de l’Allen Institute for Artificial Intelligence ont diffusé, sur le site web de l’Institut, un outil appelé Grover, le présentant comme un logiciel qui peut, à la fois, produire de fausses nouvelles convaincantes et utiliser la même technologie dans le but de détecter d’autres fake news en décelant des schémas de texte révélateurs.
Puis, en août, AI21 Labs, basé en Israël, a mis sur son site web un outil de génération de texte appelé HAIM. Sur son site, il affirme que le risque de voir des outils de création de texte lâchés dans la nature est exagéré, et que ce type de textes générés automatiquement comporte aussi des aspects bénéfiques, dont la simplification et l’accélération du processus de rédaction.
La touche humaine
Yoav Shoham, co-fondateur d’AI21, affirme dans une interview que l’efficacité de ces outils de génération de texte en tant que machines de propagande est limitée parce qu’ils ne peuvent pas intégrer suffisamment bien le contexte politique pour marquer des points auprès des publics ciblés. Même si une IA peut produire un article réel, explique M. Shoham, une machine ne peut pas comprendre, par exemple, les tenants et aboutissants d’une querelle entre deux hommes politiques et créer une histoire fausse qui discrédite l’un d’eux de manière subtile.
« Ils semblent être cohérents, mais ce n’est pas le cas », assure M. Shoham.
De plus, très souvent, les articles passent du coq à l’âne pour des raisons que les chercheurs ne comprennent pas vraiment — les machines sont souvent des boîtes noires, générant du texte à partir de leurs propres analyses des documents existants.
De manière ultime, dit M. Choi, pour produire une propagande efficace, il faudrait que les machines comprennent mieux le fonctionnement du monde et sachent mieux comment orienter ce genre d’informations, ce que seul un humain qui supervise le processus peut apporter.
« Un contrôle fin du contenu n’est pas faisable par la technologie telle qu’elle existe aujourd’hui », dit-elle.
Bien que, à ce jour, il ne semble pas que cette technologie ait été utilisée à des fins de propagande, la menace est suffisamment réelle pour que l’Agence des projets de recherche avancée pour la défense (Darpa) du département américain de la Défense dévoile fin août un programme appelé Semantic Forensics. Le projet vise à se défendre contre un large éventail d’attaques de désinformation automatisées, dont les attaques basées sur du texte.
Des groupes privés mettent également au point des systèmes pour détecter les faux articles. En plus de l’outil en ligne gratuit Grover, les chercheurs du Massachusetts Institute of Technology et de Harvard ont présenté en mars un outil qui inspecte le texte. Le logiciel utilise des techniques similaires à celles de Grover pour prédire si un passage est fait à partir de l’IA en prenant un morceau de texte et en analysant la probabilité qu’un outil de génération de texte ait choisi le mot suivant.
Mais, si les modèles de génération de texte changent la façon dont ils sélectionnent les mots et les phrases à l’avenir, leur détection ne s’améliorera pas nécessairement au même rythme, explique Jack Clark, directeur des politiques d’OpenAI. Des systèmes de création de texte de plus en plus complexes prolifèrent rapidement, alimentés par des chercheurs et des développeurs qui entraînent de nouveaux outils à partir d’une quantité de données de plus en plus importante. OpenAI dispose déjà d’un modèle, entraîné à partir de plus de 1,5 milliard de paramètres, qu’il n’a pas encore mis à la disposition du public.
« Des outils linguistiques de plus en plus larges pourraient être développés de manière autonome ou être entraînés pour mieux se rapprocher des façons dont les humains écrivent au fur et à mesure qu’ils se développent », dit M. Clark.
Lire : L’Opinion du 14 octobre