L’IA générative va-t-elle s’étouffer ?
Dans cet épisode nous allons nous questionner sur un risque qui pourrait guetter l’IA générative.
Les prouesses de l’IA générative éblouissent chaque jour et les modèles se font une compétition enragée, y compris en adoptant des méthodes d’apprentissage différentes pour optimiser leurs coûts…
La manière dont on apprend, apprendre à apprendre, c’est clé pour un être humain comme pour des algorithmes ou des machines. Une question de méthode sans aucun doute, mais également de ce à quoi on est exposé.
Si les méthodes d’apprentissage ont des conséquences, ne serait-ce que sur le plan des ressources qu’elles consomment, à commencer par celles de la planète, les données en ont aussi bien sûr.
On pense tout de suite à la qualité et la pertinence de ce qui est généré et aux biais dont les données peuvent être porteuses. Mais il y a un scénario, peut-être moins souvent évoqué, qu’on voudrait explorer. Alors, l’IA générative va-t-elle s’étouffer ? C’est quoi l’histoire ?
C’est l’histoire du serpent qui se mord la queue, mais en mode Kriegsspiel. Voilà. Fin de l’histoire.
Notre marque de fabrique c’est de ne pas raconter d’histoire et faire court. Mais là, c’est trop court. Le serpent qui se mord la queue je vois l’image et on connait l’histoire, mais c’est quoi ton truc de kriegsspiel ?
Un kriegsspiel, à l’origine, comme le rappelle Wikipédia c’est « un jeu de pions complexe développé par l’armée du royaume de Prusse au XIXème siècle pour enseigner les tactiques de combat aux officiers ».
Alors, là tu me perds, c’est quoi le rapport entre le serpent, l’IA générative et son étouffement ?
Qui dit jeu de guerre dit scénarios. On ne va pas entrer dans le détail ici mais en substance, un peu comme dans la démarche prospective, tu imagines ce qui pourrait advenir. Alors on va s’amuser à échafauder quelques hypothèses.
Pour arriver à une conclusion, celle du serpent qui se mord la queue et s’étouffe. Pour raconter cette histoire, on va prendre l’image de la mer, le long des golfes clairs, qui ne vont pas le rester longtemps.
Donc ton serpent c’est un serpent de mer. Bref. Entrons dans le vif du sujet. Le premier pas de la danse est le suivant : l’IA générative est entraînée à partir de données présentes sur Internet.
Ce qui explique d’ailleurs tous les débats sur le plagiat, les droits d’auteur etc. Mais ce n’est pas le sujet, du moins pas directement, on y reviendra à la fin. Restons sur le premier argument : l’IA générative est entraînée par une mer de données et de contenus pour l’essentiel issus du Web.
Deuxième argument, l’IA générative, ça sert à quoi ? A générer des contenus, c’est écrit dessus comme le port salut. Ces contenus sont publiés sur le Web. Prenons un exemple simple pour illustrer.
Une étude d’originality.ai réalisée sur 9000 longs posts publiés entre 2018 et 2024 sur Linked In montrerait une augmentation de 189% des posts générés par l’IA depuis le lancement de chatGPT et, en octobre 2024, que c’est le cas pour 54% des posts.
Tu es mignon mais c’est un peu leur Business donc leur intérêt. Attention aux biais des études. Mais convenons du fait que c’est la logique même. Il y aura, de fait, de plus en plus de contenus générés par l’IA sur le web.
Donc parmi les données sur lesquelles l’IA s’entraîne. Le serpent de mer se nourrit de la mer et la mer se pollue un peu. Cette mer désormais un peu polluée nourrit à son tour le serpent qui rejette à nouveau dedans, la polluant encore un peu plus. Le cycle infernal est enclenché.
C’est une boucle de rétroaction c’est-à-dire quand un processus a un effet qui joue aussi le rôle de cause sur sa propre origine, alors la succession forme une boucle.
On commence par une jolie mer foisonnante, royaume de la diversité, puis, progressivement, à force de rejeter dedans des contenus par définition plus normalisés, standardisés, potentiellement faux, la diversité s’amenuise jusqu’à disparaître.
En poussant le scénario du kriegsspiel jusqu’au bout, il n’y aura plus de diversité du tout et il sera impossible d’apprécier la qualité de l’eau. Le processus d’apprentissage reposant sur des jeux de données, c’est en fait celui d’une dilution progressive. À la fin la mer est sèche.
Pour caricaturer à l’extrême, à la fin en effet il n’y aurait plus qu’un contenu normalisé unique dont on ne se sait rien de la validité. Un écran noir.
Parions que les génies de l’IA trouveront des moyens pour éviter de scier la branche sur laquelle ce qu’ils inventent est assise pour que l’IA générative ne meurt pas d’auto-pollution.
Cela pose aussi une autre question. Pendant combien de temps les êtres humains qui nourrissent le web de contenus de qualité accepteront d’être ainsi pillés et noyés dans une mer polluée ?
Parce qu’on peut aussi imaginer une autre hypothèse. Quand ils en auront ras le bol, ce qu’ils donnaient gratuitement en accès libre, peut-être continueront-ils à le donner gratuitement mais en accès réservé, pour fermer la porte à l’IA.
Internet, non pas en tant qu’objet technique, mais dans la forme et l’esprit qu’on lui prêtait et qu’on espérait à ses débuts, est-il alors en train de mourir ? On pose la question.
En résumé, l’IA générative s’entraîne avec des données sur Internet qu’elle contribue à nourrir de contenus qu’elle génère elle-même. Cette boucle de rétroaction peut théoriquement conduire à ce qu’elle s’assèche par auto-pollution si l’on ne trouve pas de moyens de la nourrir autrement.
J’ai bon chef ?
Oui tu as bon mais on ne va pas en faire toute une histoire.