La RAG
20 MOTS DE L’IA FORMATIVE, LE PETIT TEMNA EXPLIQUE
La RAG est un acronyme Retrieval Augmented Generation qui associe la récupération, le retrieval des données propres et le fonctionnement des LLM.
Ce mixte permet d’améliorer fortement la précision, la pertinence et la richesse du contenu généré.
C’est un article de Patrick Lewis en 2020 qui relance la RAG dans la recherche en IA Générative (https://proceedings.neurips.cc/paper/2020/file/6b493230205f780e1bc26945df7481e5-Paper.pdf).
Pourquoi est-ce important ?
Dans les années 2010, le machine learning s’appuyait sur des données principalement accessibles à des fins académiques. L’émergence de ChatGPT, en novembre 2022, a bouleversé la donne. Deux changements majeurs se sont produits : d’une part, la demande massive de données dépasse les ressources disponibles sur le web ouvert ; d’autre part, les usages sont passés de la recherche académique à des applications commerciales, modifiant ainsi les relations entre créateurs et exploitants.
Mustafa Suleyman, CEO de Microsoft AI, a déclaré à CNBC (01 juillet 2024) : « en ce qui concerne le contenu qui se trouve déjà sur le web ouvert, le contrat social de ce contenu depuis les années 90 est qu’il est libre d’utilisation. Tout le monde peut le copier, le recréer, le reproduire. C’est ce qu’on appelle du freeware ».
Cette vision a permis aux LLM de s’entraîner massivement sur des données existantes.
Traditionnellement, chaque texte se voit proposer d’implémenter un fichier « robots.txt » destiné aux robots des moteurs de recherches leur indiquant s’ils autorisent ou non l’exploitation l’usage de ces données. Cela permet à Google de construire son référencement sur son moteur de recherche.
Or, la nouvelle tendance est de passer outre ces indications robots.txt.
Les enjeux du scraping et du copyright.
La magazine Wired a étudié les comportements de Perplexity AI, mais d’autres le font de façon similaire. Sa conclusion est que malgré l’interdiction de robots.txt, il prélève quand même.
D’autres enquête montre que le scraping (en français, le grattage) se fait même sur des parties payantes non ouvertes au public, cassant par là-même leur modèle économique et surtout répondant en leur nom pour un contenu non sourcé. Les fichiers robots.txt de Reddit bloque les robots de Google et leur vend les contenus one to one avec par exemple Google ou Open AI.
Les créateurs de contenus reprennent le contrôle de leurs fichiers robots.txt.
La littérature s’est emparée de ces comportements avec le problème des copyrights.
Open AI a signé avec Times, Financial Times, Le monde et bien d’autres pour profiter de leurs archives et ainsi entraîner leur machine « à la façon de ». Cette manne one shot permet de trouver une solution au problème du copyright. On peut remarquer aussi que dans ce cas, la copie n’était pas fondée en l’état du droit puisque l’IA ne copie pas et nécessite une évolution de jurisprudence sur la notion de copie qui à l’origine était reproduire, le style n’étant pas protégé.
La RAG pose donc des problèmes de droit de propriété.
Applications et implications de la RAG
La récupération augmentée a des conséquences pour les entreprises, c’est que l’augmentation peut se faire en nourrissant le LLM avec des documents internes sur les spécificités des process de l’entreprise.
Ces modèles peuvent alors fournir des réponses sur mesure, adaptées aux spécificités des processus internes..
En formation, la RAG permet de produire des contenus personnalisés, tenant compte à la fois des besoins des apprenants et des objectifs stratégiques des entreprises.
Elle renforce ainsi l’efficacité pédagogique en offrant des réponses précises et contextuelles.
Fait à Paris, le 16 janvier 2025
@StephaneDIEB pour vos commentaires sur X