Apprentissage supervisé ou non

20 MOTS DE L’IA FORMATIVE, LE PETIT TEMNA EXPLIQUE

L’apprentissage supervisé par l’homme ou non fait partie du machine learning. L’apprentissage supervisé est une méthodologie pour analyser les données.

Comment faire ?

La première étape est le référencement des données. Les données brutes doivent être « étiquetées » pour être comprise par la machine, on parle alors de « data labeling » que ce soit sur du texte, de l’image, de l’audio ou de la vidéo. Par exemple, il s’agit de rajouter à la donnée brute des informations, des métadonnées. C’est comme dans l’envoi d’une lettre par la poste d’ajouter sur l’enveloppe l’adresse de destination pour permettre le transport, mais aussi l’adresse de l’expéditeur, le timbre, le cachet de la poste. Elles permettent de donner le contexte de l’information, des métriques comme la durée de la vidéo par exemple. La précision de la labellisation des données détermine l’industrialisation de la fiabilité de la décision.

Et l’homme dans tout ça ?

Si la machine permet de traiter beaucoup plus de données que l’homme beaucoup plus vite et avec beaucoup plus de précision, l’homme est dans la place avec qu’on appelle Human-in-the-Loop (HITL), l’homme dans la boucle pour éviter les aberrations. Dans certains secteurs comme la santé par exemple le niveau de précision exigé est important, l’homme est indispensable. Mais cela coûte cher, surtout quand il s’agit d’experts de haut niveau, ce qui réinterroge le modèle économique de ces usages. C’est pourquoi d’autres préfèrent l’apprentissage non supervisé qui ne met pas l’homme dans la boucle.

De quoi s’agit-il ?

L’apprentissage non supervisé propose un apprentissage sans étiqueter les données. Le « clustering » par exemple un logiciel regroupe les données brutes par similitude pour créer des clusters, cela permet de connaître les apprenants et de les segmenter pour leur proposer des formations spécifiques : les jeunes de telle région préfèrent utiliser tel ou tel élément du mix pédagogique. L’association fait le même travail à partir des relations entre les données brutes. Ceux qui ont suivi cette formation avec tel formateur ont de meilleures performances sur le terrain.

Quel que soit l’apprentissage non supervisé, l’intérêt est de découvrir des clusters ou des associations non anticipées et d’ouvrir ainsi des opportunités de performances nouvelles. Supervisé, non-supervisé, dans tous les cas, il est nécessaire d’organiser des audits de qualités pour certifier de la qualité de l’apprentissage. Ce qui nécessite de nouveaux métiers.

Dans le machine learning, la qualité est importante, mais aussi la qualité. Il est nécessaire d’avoir beaucoup de données pour pouvoir entraîner le modèle d’apprentissage. Et ce n’est pas neutre. Selon un article du Wall Street Journal en date du 1 avril 2024 (https://www.wsj.com/tech/ai/ai-training-data-synthetic-openai-anthropic-9230f8d8 ), l’intégralité de l’internet serait trop petite pour entraîner l’ensemble des machines. C’est un problème, surtout pour ceux qui n’ont pas accès à de grandes quantités de données.

Certains proposent d’utiliser des données synthétiques. Anthropic reconnait avoir utilisé des données synthétiques pour entraîner Claude 3 avec un risque de consanguinité numérique. La formation doit choisir ses algorithmes, mais d’abord choisis ses usages : s’agit-il par exemple de privilégier l’efficience ou l’efficacité de la formation ? Et cela n’a rien de technique.

Benjamin Coriat l’avait montré (L’atelier et le robot, 1994) la question technique est d’abord une question sociale. Tout est possible, reste à choisir.

Fait à Paris, le 10 octobre 2024

@StephaneDIEB pour vos commentaires sur X