20 MOTS DE L’IA FORMATIVE, LE PETIT TEMNA EXPLIQUE

Si l’apprentissage supervisé consiste à effectuer une tâche précise, l’apprentissage non supervisé la recherche de patterns, comme nous l’avons vu, l’apprentissage par renforcement consiste à apprendre de ses erreurs.

Le père théorique du modèle d’apprentissage par renforcement est le mathématicien Richard Bellman en 1957 qui parlait plus de processus de décision que d’apprentissage. A l’époque, la science de l’apprentissage était dominée par le behaviorisme qui faisait sienne la notion « d’apprentissage par essai et par erreur » de Thorndike (1898).

En 1957, la machine qui veut apprendre comme l’homme reprend la démarche des comportementalistes dominantes.

De quoi s’agit-il ?

Comme dans le conditionnement d’Ivan Pavlov, il s’agit d’apprendre par l’expérience en fonction des échecs ou des succès constatés, appelés les « renforcements » ou consolidation. Son objectif est de maximiser les renforcements ou de minimiser les erreurs.

C’est le dilemme des « bandits manchots », les machines à sous dans les casinos, (https://link.springer.com/article/10.1023/A:1013689704352).

L’apprentissage par renforcement est confronté au dilemme entre exploitation et l’exploration des actions pour choisir la meilleure solution.

Face à plusieurs machines à sous, le joueur aimerait savoir celle qui aura le meilleur rendement.

Au départ il n’en sait rien, le seul moyen d’obtenir de l’information est de jouer, donc perdre de l’argent. Chaque fois qu’il tire le bras, le joueur apprend quelque chose de la machine. En jouant plusieurs machines, il peut comparer. Celle qui a payé le plus jusqu’à présent (exploitation) doit être comparé à celle qui n’a encore rien donné, mais qui statistiquement peut donner le plus la prochaine fois. Il s’agit de choisir entre exploiter ce que l’on sait déjà ou explorer ce que l’on ne sait pas encore.

Comme Monsieur Jourdain faisait de la prose sans le savoir, le joueur de manchots fait de l’apprentissage par renforcement sans le savoir.

Le modèle de renforcement est plus facile à calculer quand l’espace de renforcement est relativement stable permettant ainsi un travail statistique plus performant.

En 1997, Deep blue bat le champion du monde d’échec Garry Kasparov. Contrairement à son nom Deep blue est de l’apprentissage par renforcement, après apprentissage, il était capable de prévoir entre 6 et 20 coups la réaction de son adversaire.

Mais dans des environnements complexes, comme la voiture autonome, l’apprentissage de toutes les situations est trop complexe pour le modèle. Il faut le renforcer par d’autres algorithmes, c’est pour cela qu’AlphaGo en apprentissage profond à battu les meilleurs joueurs de go français en 2015.

Le modèle par renforcement devient un de cœur des LLM.

Quelles sont les conséquences pour la formation ?

La formation peut proposer des parcours apprenants pilotés par renforcement, avant de répondre l’IA est capable d’anticiper la réponse de l’apprenant, lui proposant des compléments si nécessaires facilitant ainsi la fluidité du parcours et renforçant le sentiment d’addiction à apprendre, une ergonomie du parcours.

Une des forces du renforcement est son adaptabilité. Si les coefficients d’évaluation changent la machine recalcule les estimations. Cela permet de pousser le bon contenu au bon moment pour favoriser l’acquisition. Mais le modèle d’adaptation fait en sorte que le « bon » contenu pousse le « mauvais », or le bon contenu statique n’est pas forcément celui que la société veut.

La formation est un apprentissage socialisé, autrement dit un apprentissage choisi par le social, même s’il n’est pas bon statistiquement.

Le savoir opportuniste se confronte au savoir radical, comme quoi l’IA rappelle le vieux débat entre Héraclite et Parménide sur le savoir et nécessite pour rester maître de la machine de se poser des questions profondes.

Fait à Paris, le 24 octobre 2024

@StephaneDIEB