Plus besoin d’apprendre le dessin ou la photo : à partir d’une simple phrase, les outils d’IA générative comme Dall-E ou Midjourney créent des images d’une qualité spectaculaire. Une révolution qui pose de multiples questions.
Le concours artistique de la Foire d’Etat du Colorado n’a rien d’une manifestation culturelle d’envergure. En septembre 2022, cette compétition a pourtant défrayé la chronique, lorsque son jury a accordé le prix de la catégorie « art numérique » à un tableau créé… par une intelligence artificielle. L’oeuvre, intitulée « Théâtre d’opéra spatial », avait été soumise par un graphiste local, Jason Allen. Il l’avait fabriquée grâce à Midjourney, un logiciel d’IA capable de traduire une simple phrase d’instructions (« prompt » en anglais) en images haute résolution, dans tous les styles picturaux possibles.
Après s’être vanté de sa victoire sur les réseaux sociaux, le gagnant a récolté un déluge de réactions hostiles. « Nous assistons à la mort de l’art sous nos yeux », a-t-on pu lire sur Twitter. Interrogé par le « New York Times » , Jason Allen s’est défendu de toute tricherie : la catégorie dans laquelle il a présenté son tableau autorisant toute « pratique artistique utilisant la technologie numérique », il a respecté à la lettre les règles du concours. Mais l’anecdote illustre bien l’une des questions posées par les nouveaux outils d’IA générative, comme Midjourney, Dall-E ou Stable Diffusion : si le geste artistique se résume à écrire une phrase pour que la machine fasse ensuite tout le travail de production de l’oeuvre, qui de l’humain ou de la machine est le véritable artiste ?
En dépit de la polémique, le jury du Colorado a laissé Jason Allen empocher les 300 dollars de son prix. Une somme bien modeste en comparaison de la première oeuvre d’une IA vendue aux enchères : le 25 octobre 2018, le « Portrait d’Edmond de Belamy » avait récolté 432.500 dollars chez Christie’s à New York. Pour produire cette image, les membres du collectif parisien Obvious avaient utilisé un algorithme disponible en « open source », entraîné sur un catalogue de 15.000 portraits allant du XIVe au XIXe siècle. Ils avaient ensuite imprimé le résultat sur une toile de 70 x 70 cm… sans même prévenir l’auteur du modèle informatique !
A l’époque, la génération d’images par l’IA était encore balbutiante. Elle s’appuyait sur une technologie mise au point en 2014 par un jeune chercheur en apprentissage automatique de Google, Ian Goodfellow, passé depuis chez Apple et DeepMind. Appelée GAN ( « Generative Adversarial Networks » ), cette méthode consiste à mettre en compétition deux réseaux de neurones artificiels préalablement entraînés sur le même catalogue de données : le premier (appelé « générateur ») est chargé produire un résultat (une image en l’occurrence), le second (« discriminateur ») évalue si elle correspond au résultat attendu.
L’invention des GAN a entraîné une effervescence d’innovation de la part des laboratoires d’intelligence artificielle. L’entreprise californienne OpenAI a ainsi utilisé ses travaux sur les grands modèles de langage (LLM), dont le plus connu est ChatGPT (« Les Echos » du 14 août 2023) pour développer Dall-E, un des premiers outils capable de transformer les textes en images.
Dall-E (jeu de mots associant le peintre catalan Salvador Dali et le robot du film d’animation « Wall-E ») a été formé grâce à des millions d’images légendées et, comme ChatGPT, il utilise ses capacités linguistiques pour comprendre les requêtes. La fabrication des images proprement dites utilise une technologie appelée « diffusion », qui part d’un nuage de pixels répartis aléatoirement et l’affine jusqu’à aboutir au résultat demandé. « Quand Dall-E produit une image, il n’a plus accès à celles qui ont servi à l’entraîner. Il va donc créer quelque chose qui n’a jamais été créé auparavant », expliquait l’an dernier aux « Echos » Joanne Jang , responsable produit chez OpenAI.
Start-up et géants
Après une première version réservée à la recherche, Dall-E 2, lancé en avril 2022, a été progressivement ouvert au grand public – d’abord sur liste d’attente, puis depuis un an avec une simple inscription. Au même moment sont apparus plusieurs concurrents, les deux principaux étant Midjourney, édité par la start-up californienne du même nom, et Stable Diffusion, conçu par le londonien Stability AI, dont le code source est public, à la différence des deux autres. Divers grands noms de la tech ont depuis présenté des outils similaires, notamment Google avec Imagen et, plus récemment, Meta avec CM3leon (prononcer « caméléon »).
Par la facilité avec laquelle elles permettent de générer des images de grande qualité, ces « machines à dessiner » ont très vite séduit des dizaines de millions d’utilisateurs, particuliers et professionnels. Les agences de publicité y voient un moyen d’accélérer la création de visuels pour les campagnes – à la demande de Nestlé, Ogilvy Paris a ainsi utilisé Dall-E pour imaginer un décor entier autour du célèbre tableau « La Laitière » de Vermeer. Dessinateurs de mode, designers, illustrateurs ou architectes s’en servent également pour élaborer des esquisses ou mettre en scène leurs créations.
« La Laitière » de Vermeer revue par l’agence Ogilvy et Dall-E
Mais l’arrivée de ces outils s’accompagne de nombreuses polémiques. Les premières ont porté sur les droits des artistes ou des entreprises dont les oeuvres ont été utilisées pour entraîner les modèles d’IA. L’un des premiers à s’en plaindre a été un graphiste polonais, Greg Rutkowski, quand il a constaté que son style médiéval fantastique très reconnaissable était l’un des plus demandés dans les prompts soumis à Stable Diffusion. En septembre dernier, il a demandé que son nom ne puisse plus être utilisé dans l’application et a obtenu gain de cause. Mais comme le modèle de Stable Diffusion est open source, d’autres développeurs ont créé depuis un outil expressément conçu… pour « produire » du Greg Rutkowski.
Getty Images, l’une des principales agences photographiques au monde, a choisi de porter ce combat sur le terrain judiciaire. Début 2023, elle a lancé des poursuites contre Stable Diffusion, accusant la start-up d’avoir utilisé plus de 12 millions d’images de sa base de données « sans autorisation […] ni compensation […], dans le cadre de ses efforts pour développer une activité concurrente ». Non seulement l’agence estime que son fonds photographique a été utilisé sans aucun respect du copyright, mais elle voit l’IA générative d’images comme une menace directe pour son activité : pourquoi payer une banque d’images quand la machine peut fournir instantanément – et souvent gratuitement – n’importe quelle illustration ?
Machines à « fake news »
Conséquence logique, les craintes pour l’emploi, récurrentes face aux progrès récents de l’IA, touchent désormais le monde des arts : si certains graphistes, photographes ou designers utilisent ces outils, d’autres s’estiment menacés. La grève des scénaristes et des acteurs américains, lancée à la suite de désaccords sur les rémunérations liées au streaming, a ainsi mis en avant leurs inquiétudes face à des outils permettant de reproduire artificiellement n’importe quel acteur ou de réaliser des séquences vidéo complètes à partir d’un simple prompt, comme le propose la start-up new-yorkaise Runway.
La facilité avec laquelle il devient possible de fabriquer des images, fixes ou animées, risque aussi d’amplifier la diffusion de « fake news ». Des photos truquées de Donald Trump malmené par des policiers, d’Emmanuel Macron en éboueur ou du pape François en doudoune blanche ont été abondamment partagées ces derniers mois sur les réseaux sociaux. Début mai, une photo vraisemblablement générée grâce à l’IA montrant une explosion au Pentagone a même fait brièvement chuter les marchés financiers . OpenAI et d’autres éditeurs utilisent désormais des garde-fous pour empêcher d’utiliser des noms de personnalités ou de produire des images choquantes. Mais ceux-ci sont relativement simples à contourner, et des outils moins respectueux sont librement accessibles.
Un outil pour les artistes
Quant aux questions sur la valeur artistique de l’IA, posées par la victoire du « Théâtre d’opéra spatial » dans le Colorado ou la vente aux enchères du « Portrait d’Edmond de Bellamy », difficile d’y répondre avec certitude. Après tout, la photographie n’était pas considérée comme un art à ses débuts, parce qu’elle reproduisait le réel de façon trop mécanique, et Marcel Duchamp a prouvé dès 1917 qu’un simple urinoir pouvait devenir une oeuvre d’art… comme l’ont fait un siècle plus tard les membres du collectif Obvious chez Sotheby’s. « Le bon coup d’Obvious a été d’exposer dans une galerie puis de vendre aux enchères, analyse Sofian Audry, enseignant à l’université du Québec à Montréal. Ils ont montré que cela avait une valeur marchande, alors que le vrai créateur de l’algorithme était, lui, dans une démarche plus artistique. »
Auteur de l’essai « Art in the Age of Machine Learning » (MIT Press, 2021) et artiste lui-même, Sofian Audry souligne que, depuis plusieurs années, une nouvelle scène artistique s’empare de l’IA pour créer des oeuvres nouvelles qui vont bien au-delà du prompt envoyé à Dall-E ou Midjourney. Le plasticien et chercheur Memo Akten s’en sert ainsi pour créer des installations immersives, comme « Deep Meditations » (2018). Et, depuis l’an dernier, le Museum of Modern Art de New York expose une vidéo monumentale de Refik Anadol, « Unsupervised ». Conçue à partir d’une IA entraînée sur les collections du musée, l’oeuvre génère à l’infini d’immenses images oniriques et rencontre un tel succès que son accrochage vient d’être prolongé de six mois. Et là, pas de doute possible : il s’agit bel et bien d’art.