Les Large Language Models (LLM)

20 MOTS DE L’IA FORMATIVE, LE PETIT TEMNA EXPLIQUE

Les LLM sont des machines à prévoir le mot à venir.

Le modèle de langage est une histoire ancienne, l’article de référence est celui de Claude Shannon en 1948 (https://ieeexplore.ieee.org/document/6773024) qui fera les beaux jours des modèles de prévision des années 90 et 2000, avec le modèle des n-grams. Un modèle de 5-grams permet de produire le 5ième mots à partir des 4 premiers et du contexte de la discussion.

Mais c’est avec Google et 2017 (https://research.google/pubs/attention-is-all-you-need/) que les LLM vont prendre une dimension nouvelle avec la naissance des Transformers, une nouvelle architecture d’apprentissage neuronal qui explose les résultats de la prévision des mots.

Open AI a lancé Chat GPT 3.5 le 30 novembre 2022, c’est la première mise en œuvre des Transformers dans les modèles de langage. Le ‘T’ de GPT est « Transformer ».

La puissance des modèles ne cesse de croitre si Chat GPT 3 a été entrainé sur 175 milliards de paramètres, GPT 4 sur 100 000 milliards, GPT 5 devrait être 100 fois plus puissant que le 4.

Mais l’innovation est ailleurs.

Le 13 septembre 2024, Open Ai lance GPT O1, il s’agit « O » pour OpenAI et one pour montrer qu’il s’agit d’une nouvelle gamme de produit.

Qu’est-ce que cela change ?

Le raisonnement en « chaîne de pensée » qui complète les LLM classiques qui se réfère qu’au calcul de la probabilité du mot suivant en fonction de son apprentissage.

Là il y a une pensée.

L’IA décompose un problème global en une myriade de petits problèmes qu’elle résout dans l’ordre. Chaque étape s’appuie sur l’étape précédente, une chaîne de pensée.

Le LLM réfléchit avec une fonction de récompense pour optimiser ses réponses.

La littérature aime bien citer l’analogie avec le système 1 et le Système 2 du cerveau. Le premier est une réponse rapide instinctive, là où la seconde est plus lente et plus réfléchit. GPT 4o serait le Système 1 et GPT Oone serait le Système 2.

Ce qui est vrai dans l’analogie, c’est le O1 prend plus de temps dans sa réponse.

Open AI participe aux Olympiades Internationales de Mathématique, destiné traditionnellement aux lycéens et collégiens du monde entier et teste ses deux modèles. Résultat, GPT 4o résout correctement 13 % des problèmes et O1 résout 83 % des problèmes, avec des résultats assez comparables en chimie, physique, biologie.

Mira Murati, Directrice technologie d’Open Ai a eu cette analogie : GPT 3 aurait le niveau d’intelligence d’un enfant en bas âge, GPT 4 celui d’un lycéen et grâce à cette réflexion GPT 5 serait du niveau d’un doctorant.

Qu’est-ce que cela peut changer ?

Grâce aux chaînes de pensée, il est possible soit d’affiner la performance des LLM soit augmenter la performance des SLM (Small Langage Model). Mistral AI n’a que 7 milliards de paramètres (contre les 1 800 milliards de GPT 4) avec une économie sur l’entraînement, le volume des datas ou la vitesse de calcul.

Les petits modèles devraient permettent leur portabilité tout en préservant leur efficacité.

En matière d’usage, le LLM avec chaines de pensée devient un agent conversationnel plus efficace, non seulement dans la conversation, mais dans la recherche et l’analyse des situations.

En matière de formation, l’apprenant se trouve doté d’une puissance augmentée, un apprenant augmenté.

Reste à construire la pédagogie pour donner forme à cette nouvelle autonomie.

Fait à Paris, le 19 décembre 2024

@StephaneDIEB pour vos commentaires sur X