J’hallucine mais l’IA Gen aussi

Dans cet épisode nous allons nous intéresser aux hallucinations de l’IA générative.

Agenouillons-nous pauvres croyants devant la toute-puissance de l’IA générative ; Croyons aveuglément en son omniscience, elle qui est désormais partout.

Omnipotence, omniscience et omniprésence, 3 attributs qu’on attribue à Dieu. Voilà donc de la concurrence ! Le combat des titans s’annonce. Mais on va arrêter la comparaison là, les défenseurs de l’IA pourraient s’en offusquer.

Surtout qu’en matière d’omniscience, autant te dire que l’IA générative a du chemin à faire pour concurrencer le chef ! Certains l’utilisent comme un moteur de recherche sans bien mesurer à quoi ils ont affaire.

Si seulement ils savaient. La crédulité humaine est un réservoir infini. Le totem digital iPhone a été supplanté par un autre, ChatGPT. On change désormais de croyance comme de chemise !

« J’hallucine » comme dirait l’autre. Mais « voilà quoi », pour notre plus grand bonheur, ou l’inverse, nous ne sommes pas les seuls. Alors, j’hallucine mais l’IA Gen aussi, c’est quoi l’histoire ?

Bon « j’hallucine »… On les aime ces expressions impropres. Ou pas. J’hallucine pour dire que ça m’étonne ? À l’origine, une hallucination ce n’est pas un étonnement.

C’est plutôt une perception fausse car elle ne correspond pas à quelque chose qui existe. Contrairement à l’illusion qui relève d’une mauvaise perception du réel. On vous renvoie à une clarification de Patricia Cotti dans la revue Soins Psychiatrie du CHU de Nantes (Cotti, P. 2011) pour bien saisir le sujet.

En substance, pas hallucinogène donc, l’hallucination dont on parle ici c’est une tromperie. On parle d’un truc qui n’existe pas. Or, en l’espèce l’IA générative peut faire des prouesses.

On va commencer en s’amusant un peu, histoire de ne pas se faire peur. On va vous raconter l’histoire de SolidGoldMagikarp. C’est ce qu’on appelle un glitch token.

On n’est pas sorti des ronces avec ton histoire, on se croirait dans le Seigneur des anneaux ou ces sagas où tu as mille personnages, tribus et royaumes dont tu ne te souviens plus des noms deux minutes après.

Un glitch token en résumé c’est un bout de texte qui fait planter les IA génératives dans le produit de sortie. C’est un peu comme un cheveu dans la soupe si tu veux. Pas étonnant quand on sait que le sens est absent des IA génératives et que c’est une logique purement probabiliste.

SolidGoldMagikarp c’est une histoire des débuts de GPT où l’utilisation du terme dans un prompt a conduit à ce que des discussions venant du fin fond du Web ayant contribué à entraîner l’IA ressortent dans une réponse aussi farfelue que possible.

Pour celles et ceux que cela intéresse, l’histoire est drôle, mérite d’être lue et elle est très explicative du fonctionnement de l’IA générative et des techniques qu’elle met en œuvre, notamment la « tokenisation ». Ce qu’elle met en exergue c’est un principe vieux comme le monde.

La méthode GIGO : « garbage in, garbage out ». Dit autrement, il y a de la merde qui rentre, il y a de la merde qui sort. En la matière, une IA générative, fonctionnant schématiquement sur un calcul de probabilités dans les proximités de mots, est bien capable d’en sortir un bon paquet.

On le sait tous, ce n’est pas omniscient. En vérité cela ne sait même rien. Cela calcule, cela trouve vite et cela restitue. Parfois mal au regard de la réalité, ou en inventant une réalité qui n’existe pas.

D’où l’expression « hallucinations ». Dans cette optique, c’est intéressant de voir si cela répond bien ou pas à des questions factuelles. Or en l’occurrence on pourrait bien être surpris par les taux d’erreurs.

OpenAi, fondateur de ChatGPT, utilise pour cela un test, baptisé Simple Q&A, qui sert justement à mesurer le taux d’erreur par rapport à des questions factuelles dont on connaît la réponse.

Il y a une communication scientifique qui en donne les résultats (Wei J & al, 2024). Et ils sont édifiants. Juste deux chiffres pour comprendre. GPT-4o-mini a seulement 8,7% de bonnes réponses. C’est OpenAi lui-même qui le dit !

Les meilleurs d’entre eux, selon ce même test d’OpenAI, c’est OpenAI o1-preview avec 47% et Claude d’Anthropic version 3.5-sonnet du 20 juin 2024 avec 44,5%. Moralité de l’histoire, aucun modèle ne fournit plus d’une bonne réponse sur deux.

Cela donne la mesure du sujet. Quand on pense aux étudiants qui se précipitent sur ça pour leur mémoire. Tiens, une autre étude de mai 2024 (Chelli & al, 2024) stipule que GPT-4 se trompe dans 28% des cas pour les références scientifiques.

C’est donc bien le moment de dire « j’hallucine ». Ce n’est pas pour cela que ces outilsw sont inutiles, au contraire. Ils ont une puissance considérable et savent faire d’autres choses, ce n’est pas le sujet.

Tu as besoin d’une pierre à casser d’écriture ou d’une image oui bien sûr ils excellent même si, en vrai, on en a ras le bol des « crucial » à toutes les phrases. Tu peux aussi leur demander plein d’autres choses, y compris en combinant des agents spécialisés.

Mais ils hallucinent, il suffit de le savoir. Une manière de réduire ce taux d’erreur à des valeurs très raisonnables et parfaitement acceptables de l’ordre de moins de 5%, c’est ce qu’on appelle le RAG pour « Retrieval Augmented Generation ».

Le principe est assez simple à comprendre. Tu interroges un contenu que tu connais, une base documentaire identifiée qui a été vectorisée et indexée, avec des outils comme Pinecone par exemple, puis tu demandes à l’IA gen de faire ce qu’elle sait faire, en l’occurrence mettre en forme la réponse que ta base de données vectorielle a fourni.

C’est un peu technique mais c’est par exemple ce que nous utilisons sur nos propres contenus. Tu ne demandes pas à l’IA ce qu’il faut dire, tu lui dis par d’autres biais ce qu’elle a à dire puis tu lui demandes de reformuler ou mettre en forme.

Mais même avec cela, tu n’es jamais à l’abri d’une hallucination, qui est inhérente au principe technique utilisé. Même si statistiquement le taux d’erreur sera considérablement diminué, des conneries abyssales pourront en sortir.

Tout cela pour une raison simple à comprendre : ce n’est pas vraiment fait pour cela. Ce n’est pas un moteur de recherche. Même quand tu as cette promesse, en vérité, le lien entre les sources et le contenu est très peu vérifiables et très aléatoire.

Une étude de l’Université de Pennsylvanie (Venkit P.N. & al, 2024) est, là encore, édifiante en la matière. Son titre dit tout mais il faut la consulter pour mesurer par soi-même la réalité des choses : « Search Engines in an AI Era: The False Promise of Factual and Verifiable Source-Cited Responses »

En français dans le texte : « les moteurs de recherche à l’ère de l’IA : la fausse promesse de réponses factuelles et vérifiables avec citation de la source ». Ce n’est pas moi qui traduis, c’est Deepl.com … Mais bon, il n’a pas trop déconné, ça va.

Moralité de l’histoire ? Si on ne sait pas à quel point quelqu’un dit des conneries, on a deux possibilités. Ne pas lui demander car il n’est pas fiable. Ou vérifier par d’autres biais.

Et si vous aimez bien discuter avec lui, ce n’est pas grave mais ne prenez pas pour argent comptant ce qu’il vous dit.

En résumé, l’IA générative est victime de ses propres procédés techniques qui conduisent à ce qu’elle invente parfois des réponses sans aucun lien avec la réalité. C’est en partie lié aux techniques qu’elle utilise. Il ne faut donc pas prendre pour argent comptant ses réponses mais les vérifier.

J’ai bon chef ?

Oui tu as bon mais on ne va pas en faire toute une histoire.