Les robots et le sens biaisé
Dans cet épisode, nous allons parler des robots conversationnels et de la question du sens.
LLM, cela veut dire Large Language Model et c’est ce sur quoi reposent les robots conversationnels comme ChatGPT ou autre IA générative de texte du même genre.
Moi qui croyais que LLM cela voulait dire « elle, elle l’aime ». Qui ? Moi bien entendu. Ce son si doux qui berçait mon oreille n’avait donc pas le même sens.
En l’occurrence, c’est plutôt le son qui nourrit l’âne que tu es. En un sens, tu as entendu ce que tu voulais entendre. Quoi de plus humain ? Une bonne illustration d’un de nos biais.
Et les LLM biaisent aussi. Alors voici une occasion de se poser la question qu’ils ne se posent pas, à savoir celle du sens. Alors, les robots et le sens biaisé, c’est quoi l’histoire ?
Prenons un exemple stupide pour illustrer notre propos. Elle te dit : « abruti, abruti, abruti, abruti, je t’aime, abruti, abruti, abruti, abruti »
Oh elle m’a dit « je t’aime » !
Alors que ce soit bien entendu, tout est dit, on n’entend donc que ce que l’on veut bien entendre. Ou on interprète. Bref, entre ce qui est dit, le sens que cela porte, ce qu’on entend et ce qu’on en déduit, cela fait plein de bonnes occasions de biaiser.
Mais qu’en sais-tu ? Peut-être voulait-elle me dire qu’elle m’aime et tous ces abrutis, qui s’adressaient à moi je le sais, n’étaient-ils que de petites piques loin d’être insurmontables au regard de tout l’intensité amoureuse de son « je t’aime ».
Entre le nombre et l’intensité, comment faire la part des choses ? Quel sens donner aux signes ?
Avec un modèle basique, à la question « mais qu’est-ce qu’elle t’a dit ? » le LLM simplet te répond : « elle t’a traité d’abruti ».
Reposant sur un principe de probabilité quant à la proximité des mots dans le corpus documentaire qui l’a nourri, le LLM simpliste n’irait donc pas plus loin que cela. Mais est-ce que cette logique quantitative fait sens ?
Dans la grande majorité des cas, très certainement. Mais il peut avoir d’autres paramètres. Par exemple, on peut lui donner une règle statistique pour l’aider à approcher le sens derrière les chiffres, en l’occurrence ceux qui comptent les occurrences des mots.
Une règle du genre : si tu observes 90% du même mot et 10% d’un mot qui l’édulcore, alors ta réponse reste celle du premier mot, « elle t’a traité d’abruti ». En revanche, si c’est un antonyme, tu réponds qu’elle te prend pour un abruti mais que tu as quand même une petite lueur d’espoir.
On peut définir des règles probabilistes pour mieux approcher ce fameux sens et affiner la réponse. Toujours est-il qu’elle reste fondée sur une absence d’appréciation de ce sens.
Les LLM utilisent notamment ce qu’on appelle le « mécanisme d’attention ». Le principe c’est qu’au sein des données à disposition du LLM, il ne se concentre que sur une partie d’entre elles.
Reprenons ce que nous disent des spécialistes pour bien cerner le problème. En l’occurrence IBM (1) : « ces modèles apprennent à prédire le mot suivant dans une phrase en fonction du contexte fourni par les mots précédents. Pour ce faire, le modèle attribue un score de probabilité aux séquences de mots ayant fait l’objet d’une tokenisation »
Rien à voir avec le seigneur des anneaux, la tokenisation c’est la manière dont les données textuelles ont été découpées. Mais entre le découpage et la méthode probabiliste, le sens n’est toujours pas très présent.
Pourtant, on les entraîne, notamment avec de la « grammaire, sémantique et relations conceptuelles grâce à un mécanisme d’apprentissage sans données de référence » (1). Mais on est toujours loin du sens, à proprement parler.
Dire que la même phrase peut dire une chose et son contraire en modifiant simplement la ponctuation, on voit vite les risques de biais arriver. On connaît l’exemple « il n’est pas mort, comme on l’avait dit »
Ou « il n’est pas mort comme on l’avait dit »… d’un côté il est mort, de l’autre pas, tout ça pour une virgule. Mais admettons que la subtilité de la ponctuation, dans sa fonction sémantique, n’échappe pas aux LLM.
Qu’en est-il du sens réel ? Du sens caché, du double sens, de la lettre et de l’esprit, « C’est pas pour dire mais… » justement je vais médire, c’est bien une affaire de sens, pas de sons.
La loi des mots c’est comme la lettre et l’esprit, un long débat philosophique entre le respect de la loi à la lettre, on est dans le formalisme, ou celui de l’esprit de la loi, on parle de sens.
Si l’on peut questionner l’idée qu’en droit il faille par principe opposer la lettre à l’esprit, on peut en revanche comprendre que le sens n’est pas qu’une suite de mots. La distinction entre sens et signification, c’est une longue histoire qui ne fait pas l’unanimité.
Sans entrer dans ce long débat, nous aimerions citer ici quelques mots de Roland Barthes, écrit, dans « une problématique de sens » : « dans l’interprétation des textes littéraires s’exerce aussi une sorte de surveillance de l’institution, de l’Université en l’occurrence, sur la liberté d’interprétation des textes, c’est-à-dire sur le caractère en quelque sorte polysémique infini d’un texte littéraire. »
« Le caractère polysémique infini d’un texte »… Les LLM ne sont donc pas sortis de l’auberge pour cerner le sens véritable qui se cache derrière les mots qu’ils comptent.
Si l’on veut compter sur eux, mieux vaut donc les surveiller ! Avant de se précipiter sur une IA de compte-rendu de réunion, par exemple, mais mieux vaut-il y avoir assisté pour s’assurer que le sens ce qui y a été dit vraiment ne soit pas trahi.
N’oublions pas non plus l’autre partie de la phrase de Barthes, à propos de la surveillance donc du contrôle. Cela donne matière à réfléchir mais c’est un autre sujet.
En résumé, l’IA qui repose sur des LLM est puissante et apprend vite mais la logique de sens, au sens propre, lui échappe par définition. Interpréter le sens des mots avec justesse reste peut-être encore de la responsabilité humaine.
J’ai bon chef ?
Oui tu as bon mais on ne va pas en faire toute une histoire.
1 https://www.ibm.com/fr-fr/topics/large-language-models
2 Barthes R. (1970) « Une problématique du sens » (Cahiers Média, Bordeaux, 1970), Œuvres complètes, t. III, p. 510.