Le RAG est une architecture qui associe un système de recherche d'information à un modèle de langage. Lorsqu'un utilisateur soumet une requête, le système interroge d'abord une base de documents pour en extraire les passages pertinents, puis transmet ces passages au modèle avec la requête initiale. Le modèle génère alors sa réponse en s'appuyant sur ce contexte.

Intérêt et fonctionnement du RAG

C’est en 2020 que des chercheurs de Meta (alors Facebook AI Research) publient un article scientifique détaillant le concept de « Retrieval-Augmented Generation ».

Leur constat de départ portait sur une limite structurelle des modèles de langage : ils génèrent leurs réponses uniquement à partir des données sur lesquelles ils ont été entraînés. Une fois l'entraînement terminé, leurs connaissances sont figées. Si l’utilisateur pose une question sur un événement survenu après la date de fin d'entraînement, ou sur des données internes à une entreprise qui n'ont jamais été publiées sur internet, le modèle ne dispose d'aucune information pour répondre correctement.

Le RAG apporte une solution en ajoutant une étape de recherche documentaire avant la génération de texte. Le processus se déroule en trois temps :

La recherche à proprement parler : lorsqu'un utilisateur soumet une question, le système interroge une base de documents (fichiers internes, pages web, bases de données) pour identifier les passages les plus pertinents par rapport à cette question. Cette recherche repose souvent sur des représentations mathématiques du texte, appelées « vecteurs », qui permettent de comparer le sens des mots (plutôt que leur simple présence à la lettre près) ;
L'augmentation du prompt : les passages récupérés dans la documentation sont ajoutés à la requête initiale de l'utilisateur. Le modèle de langage reçoit donc un prompt enrichi, qui contient à la fois la question posée par l’utilisateur et les extraits de documents susceptibles d'y répondre ;
La génération de la réponse : le modèle produit sa réponse en s'appuyant sur ce contexte documentaire. Il peut ainsi formuler une réponse qui intègre des informations absentes de ses données d'entraînement.

Cette architecture permet de mettre à jour les connaissances accessibles au modèle sans avoir à le réentraîner. Il suffit d'actualiser la base de documents consultée par le système de recherche.

RAG : de très nombreux cas d'usage en entreprise

Avant le RAG, les modèles de langage généraient leurs réponses uniquement à partir de leurs données d'entraînement : des corpus publics, généralistes, figés à une date donnée.

Cette limite rendait les chatbots IA peu exploitables en contexte professionnel, où les questions portent sur des contrats, des procédures internes ou des données clients auxquelles le modèle n'a jamais eu accès. Le RAG a donc levé cet obstacle en permettant de connecter les modèles de langage aux bases documentaires de l'entreprise, avec plusieurs cas d’usage désormais courants dans le quotidien des équipes :

Chatbots de support client : le système interroge la documentation de l’entreprise, notamment les conditions générales de vente, les grilles tarifaires ou encore les manuels d’utilisation des produits pour formuler des réponses aux demandes entrantes. Un opérateur télécom peut ainsi connecter son chatbot à sa base de fiches techniques pour répondre aux questions sur les forfaits ou les procédures de résiliation ;
Assistants de développement : les outils d'aide au code informatique interrogent la documentation technique, les dépôts de code et les wikis internes pour suggérer des solutions adaptées au contexte du projet. Un développeur qui travaille sur une API interne obtient des réponses basées sur la documentation de cette API plutôt que sur des exemples génériques.
Analyse de documents juridiques et contractuels : le modèle consulte des corpus de contrats, de clauses types ou de jurisprudence pour assister les équipes juridiques dans la rédaction ou la revue documentaire. Un service juridique peut ainsi interroger l'ensemble de ses contrats fournisseurs pour identifier toutes les clauses de résiliation anticipée ;
Onboarding et formation des employés : les nouvelles recrues posent des questions en langage naturel et obtiennent des réponses extraites des procédures internes, des organigrammes et des guides métier.

💡 Faire du RAG dans ChatGPT ou Claude

ChatGPT (via les GPTs ou la fonction d'upload de fichiers) et Claude (via l'upload de documents dans la conversation ou les Projects) permettent de charger des documents avant de poser des questions. Le modèle consulte alors ces fichiers pour formuler ses réponses. Cette fonctionnalité reproduit le principe du RAG à l'échelle individuelle : l'utilisateur fournit le corpus, le modèle s'en sert comme contexte. Pour des résultats fiables, mieux vaut privilégier des documents structurés (PDF textuels, fichiers Word) plutôt que des scans d'images, et vérifier que le fichier ne dépasse pas la limite de taille acceptée par l'interface. À noter : les documents au format .txt consomment moins de tokens que les formats .doc ou PDF, et sont généralement mieux « compris » par le modèle IA.