Bases documentaires et GPTs, quelques conseils

Dans cet épisode nous allons parler de bases documentaires et donner quelques conseils pour les optimiser avec un LLM comme ChatGPT.

Bon ChatGPT c’est quand même facile non ? Tu poses une question, il te donne la réponse et hop c’est pesé et emballé.

C’est bien mais pense à deux choses. D’abord, ChatGPT est aux LLMs ce que frigidaire est au réfrigérateur. En d’autres termes c’est une marque. Il y en a d’autres.

Et surtout, je sais, je ne parle là que de la version générale ou publique. Or, ici comme ailleurs, on sait que ce qui sort dépend de la qualité de ce qui rentre.

C’est la raison pour laquelle on peut souhaiter utiliser ces techniques d’intelligence artificielle sur sa propre base documentaire. Encore faut-il suivre quelques recommandations. Alors, bases documentaires et GPTs, c’est quoi l’histoire ?

Ne rentrons pas dans le détail technique mais arrêtons-nous un instant sur la manière dont cela fonctionne. Les robots conversationnels comme ChatGPT reposent entre autres sur une technologie, les LLM.

En substance, ce sont des modèles linguistiques qu’on entraîne sur des volumes considérables de données. Ils ont été en gros pré-entraînés sur des données issues d’Internet. Bien sûr, meilleures elles sont, meilleur est le résultat.

En témoigne d’ailleurs, la poursuite en justice de Microsoft et d’OpenAi, le créateur de ChatGPT, par le New York Times. Quelle qu’en soit l’issue, cela témoigne bien de l’importance de données de qualité en amont

Mais ensuite on peut faire du fine-tuning, pour affiner et peaufiner les capacités du modèle. L’une des utilisations possibles, c’est d’utiliser ces LLM sur tes propres bases documentaires. Cela permet au moins d’avoir un certain contrôle de la qualité des sources en amont.

Or, cela ne se fait pas n’importe comment si l’on ne veut pas voir des résultats ésotériques. On ne parle pas là, d’ailleurs, de la qualité ou de la pertinence du contenu. Mais bien de la manière de le structurer, de l’organiser, pour faire en sorte qu’il soit exploité au mieux par les LLM que tu utilises.

Bien sûr, chacun d’entre eux a ses propres spécificités. Difficile donc de faire la part des choses entre ce qui relève de conseils valables quel que soit le modèle utilisé de ce qui est spécifique à chacun d’entre eux.

On va donner une première illustration pour mieux comprendre le sujet. Un LLM encode tes documents et les découpe en séquences. L’encodage c’est ce qu’on appelle le modèle « transformer » et le découpage, on appelle cela des « tokens ».

Or, chaque modèle ne découpe pas avec les mêmes tailles de rondelles. Optimiser dans ce cas suppose donc de connaître les spécificités du modèle que tu utilises.

Tu vas donc te demander s’il vaut mieux avoir un gros document, par exemple, ou plein de petits séparés. Tiens, si tu demandes à ChatGPT quelle est la taille idéale à lui fournir en contexte, il te dit qu’au-delà de 3000 mots, les résultats sont plus risqués même s’il peut les traiter.

Et 3000 mots ce n’est pas beaucoup au fond. Rien que les 200 premiers podcasts de Story RH, pour te donner une idée, cela fait un peu plus de 200000 mots et un document Word de 600 pages.

La question est importante pour les temps de réponse mais aussi pour la pertinence des réponses, puisque le système découpe ton truc en rondelles.  Mais comment savoir puisque cela dépend du modèle utilisé ?

C’est là où l’on peut essayer de se donner des règles de bon sens en amont sur les documents. En toute logique, tu ne conçois pas tes contenus en fonction des caractéristiques de la technologie que tu utilises pour y accéder. Tu cherches à dissocier pour pérenniser.

En la matière, les bonnes vieilles méthodes ne sont pas incompatibles, bien au contraire, avec le nec plus ultra de la technologie. On va commencer par retenir 3 règles simples pour structurer le contenu.

Règle numéro 1 : on structure. Le plan le plus structuré possible, et le plus finement possible. Tu sais, du type, 1, 1.1, 1.1.1 etc. Et mieux encore, en utilisant des moyens qui peuvent faciliter leur reconnaissance, comme les styles… Titre de niveau 1, titre de niveau 2 etc. par exemple si tu utilises Word.

Structurer au fond cela revient à découper ton document. Rappelle-toi, le LLM, il découpe aussi. En faisant cela tu l’aides. ChatGPT c’est 4096 tokens soit environ 1000 à 2000 mots selon la langue. Donc si tu ne peux pas résumer, découpe-toi-même !

Règle numéro 2. Établir des liens. Généralement, c’est la complexité qui est en jeu. Un sujet qui renvoie à d’autres pour mieux comprendre une perspective d’ensemble. En l’occurrence ce sont des liens conceptuels qu’on établit.

Alors fais-les formellement dans ton document avec, par exemple, des renvois internes. Comme cela, le découpage, par nature artificiel, que tu as établi en règle numéro 1, nuit moins à la complexité du tout.

Enfin, règle 3, documenter. Est-ce nécessaire de le rappeler, comme on le ferait avec un mémoire d’étudiant ? Citer les sources de façon claire, tu sais, les bibliothèques de référence ou les notes de bas de page, de préférence en utilisant une norme de présentation connue et reconnue.

Ce n’est pas si difficile que cela, c’est juste une question de rigueur et cela aide le LLM à mieux identifier ce qui vient de toi de ce qui relève des sources que tu cites !

Bon, il resterait aussi mille conseils de forme au-delà de la structure : une forme concise, pas trop de deuxième degré, éviter le jargonnage, uniformiser les styles, etc. Mais les podcasts c’est comme les tokens ça a une limite donc on s’arrête-là !

En résumé, utiliser un LLM sur sa propre base documentaire est utile et pertinent. Cela suppose de bien structurer ses documents en amont et de respecter quelques règles, notamment : structurer le contenu, établir des liens et documenter les sources.

J’ai bon chef ?

Oui tu as bon mais on ne va pas en faire toute une histoire.