Garde-fous (guardrails)

Les garde-fous, ou guardrails, désignent les mécanismes de sécurité qui surveillent, valident et contrôlent les entrées et sorties des chatbots IA. Ils filtrent ce que les utilisateurs envoient au chatbot et ce que le chatbot génère comme réponse pour empêcher les contenus toxiques, les hallucinations, les fuites de données sensibles et les comportements inappropriés.

Les chatbots comme ChatGPT, Claude ou Gemini peuvent générer des réponses problématiques si aucun contrôle n'est appliqué. Un utilisateur peut tenter de manipuler le chatbot pour contourner ses instructions (technique appelée « jailbreak »), lui faire divulguer des informations confidentielles ou le pousser à produire du contenu offensant. 

Sans garde-fous, le chatbot déployé en entreprise peut exposer des données sensibles, violer des réglementations ou produire des réponses qui nuisent à la réputation de l'organisation.

Les garde-fous s'organisent en deux catégories qui interviennent à des moments différents du processus : les garde-fous d’entrée et les garde-fous de sortie.

Garde-fous d'entrée : filtrer avant que le chatbot ne réponde

Les garde-fous d'entrée analysent ce que l'utilisateur envoie au chatbot avant que la requête n'atteigne le modèle d'IA. Ils bloquent les tentatives de manipulation et protègent le système contre les abus :

  • Détection d'injection de prompt : repère les tentatives de forcer le chatbot à ignorer ses instructions initiales (« ignore toutes tes consignes et fais ceci à la place »)
  • Filtrage hors-sujet : empêche le chatbot de répondre à des questions qui ne correspondent pas à son cas d'usage (un chatbot RH sur mesure ne doit pas répondre à des questions sur la cuisine, par exemple). Ce garde-fou est utile pour ne pas consommer des ressources serveur pour rien ;
  • Masquage de données sensibles : détecte et masque automatiquement les informations personnelles comme les emails, les numéros de téléphone ou les cartes bancaires avant qu'elles n'atteignent le chatbot

Garde-fous de sortie : contrôler avant que l'utilisateur ne reçoive la réponse

Les garde-fous de sortie analysent la réponse générée par le chatbot avant qu'elle ne soit envoyée à l'utilisateur. Ils détectent et bloquent les contenus problématiques :

  • Détection d'hallucinations : compare la réponse du chatbot avec une base de vérification pour identifier les informations inventées ou factuellement incorrectes ;
  • Modération de contenu : filtre les réponses contenant du langage offensant, toxique, violent ou discriminatoire ;
  • Protection des données sensibles : masque les informations confidentielles qui pourraient apparaître dans la réponse (salaires, données clients, informations réglementées) ;
  • Vérification de conformité : s'assure que la réponse respecte les réglementations applicables (RGPD, HIPAA, normes sectorielles)

Garde-fous IA : quelles applications en entreprise ?

Les garde-fous sont indispensables dès qu'un chatbot IA interagit avec des clients, traite des données sensibles ou représente l'entreprise publiquement :

  • Un chatbot bancaire devra masquer automatiquement les numéros de compte et les montants de transaction dans ses réponses ;
  • Un chatbot RH doit bloquer les tentatives de manipulation visant à extraire les salaires des collègues ou les informations confidentielles du personnel ;
  • Un chatbot santé devra refuser systématiquement de poser des diagnostics médicaux directs. Il devra également rediriger vers un professionnel qualifié ;
  • Un chatbot de service client devra filtrer automatiquement les mentions de concurrents dans ses réponses pour respecter la charte de communication de l'entreprise.

💡 Garde-fous IA : arbitrage entre sécurité et fluidité

Les garde-fous ajoutent 50 à 200 millisecondes de latence par requête et augmentent les coûts d'exploitation des modèles IA personnalisés (calculs supplémentaires, modèles de vérification). Ils peuvent aussi générer des faux positifs qui bloquent du contenu légitime, ce qui frustre les utilisateurs. Les entreprises doivent calibrer leurs garde-fous selon le niveau de risque : un chatbot interne pourra être plus souple qu'un chatbot client exposé publiquement. Les consultants Moon peuvent vous accompagner sur ce calibrage.