Base de connaissances vectorielle

Pour qu'une IA puisse répondre à des questions sur la base d’une documentation, elle doit d'abord la comprendre. La base de connaissances vectorielle transforme le texte en représentations mathématiques (vecteurs) qui capturent le sens des mots. L'IA peut alors retrouver les passages pertinents par similarité sémantique.

Le fonctionnement de la base de connaissances vectorielle repose sur une approche que l’on appelle la RAG (pour Retrieval-Augmented Generation). Cette dernière se déroule en trois étapes :

  • Le découpage : vos documents (PDF, Word, emails, pages web…) sont scindés en fragments de quelques phrases ou paragraphes ;
  • La vectorisation : chaque fragment est converti en vecteur par un modèle d'embedding. Deux phrases au sens proche produisent des vecteurs proches dans l'espace mathématique ;
  • Recherche : quand vous posez une question, elle est également vectorisée. Le système retrouve les fragments dont les vecteurs sont les plus proches de celui de votre question.

Concrètement, plutôt que de demander à ChatGPT ou Claude de répondre uniquement à partir de leurs connaissances générales, vous leur demandez de puiser la réponse sur vos propres documents. Les cas d'usage les plus courants en entreprise sont :

  • Le support client : le chatbot répond aux questions des clients en puisant dans la FAQ, les fiches produits et les conditions générales de vente, par exemple ;
  • L’assistance RH : les collaborateurs interrogent un assistant IA sur les congés, la mutuelle d’entreprise ou le règlement intérieur ;
  • La documentation technique : les équipes produit retrouvent instantanément les informations dans des milliers de pages de manuels, normes ou spécifications ;
  • L’aide à la vente (ou Sales Enablement) : les commerciaux accèdent aux argumentaires, aux études de cas et aux tarifs actualisés en posant une simple question.
  • Le juridique : les avocats et juristes d'entreprise interrogent une base de contrats, de jurisprudences ou de textes réglementaires pour préparer un dossier ;

💡 Le conseil Moon

Quand vous uploadez un document dans une conversation ChatGPT ou Claude, l'IA le lit et peut répondre à vos questions sur cette base. Mais ce contexte est temporaire : il disparaît quand vous changez de conversation, et la quantité de documents est limitée. Pour créer une vraie base de connaissances vectorielle, interrogeable en continu par vous ou votre équipe, avec une grande quantité de documents, il faut passer par les Custom GPT (OpenAI), les Projets (Anthropic) ou des outils spécialisés comme Dust ou Stack AI.