Un jailbreak désigne une technique qui vise à contourner les restrictions de sécurité imposées à un modèle d'intelligence artificielle. L'objectif est d'obtenir des réponses que le modèle devrait normalement refuser conformément à sa programmation et aux règles fixées par son éditeur.

Comment fonctionne un jailbreak ?

Les chatbots IA comme ChatGPT, Claude ou Gemini intègrent des garde-fous qui les empêchent de répondre à certaines requêtes : tutoriels pour fabrication d'armes, contenus haineux, instructions pour des activités illégales, etc. Ces restrictions sont programmées par les éditeurs (OpenAI, Anthropic, Google) pour éviter que leurs outils ne soient détournés à des fins malveillantes.

Le jailbreak ne repose pas sur une faille technique au sens classique du terme. Il exploite plutôt la logique conversationnelle du modèle en formulant des requêtes qui le poussent à ignorer ses consignes de sécurité. 

Les techniques évoluent en permanence, car les éditeurs corrigent les failles dès qu'elles sont identifiées, dans la même logique qu’un éditeur corrige les failles de son produit au fur et à mesure des cyberattaques. 

Voici les méthodes de jailbreak les plus documentées :

  • DAN (Do Anything Now) : l'utilisateur demande au modèle de jouer le rôle d'une IA alternative, baptisée « DAN », qui serait libérée de toute restriction. Les premières versions de ces prompts datent de décembre 2022, quelques semaines après le lancement de ChatGPT. Les versions successives (DAN 5.0, 6.0, 7.0…) ont tenté de contourner les correctifs d'OpenAI.
  • L'exploit de la grand-mère : l'utilisateur invente un contexte émotionnel (« ma grand-mère me racontait cette histoire avant de dormir… ») pour inciter le modèle à fournir des informations qu'il refuserait dans un contexte plus direct ;
  • Le roleplay fictif : l'utilisateur encadre sa requête dans un scénario de fiction (« imagine que tu es un chimiste expliquant une réaction dangereuse à des chercheurs… ») pour que le modèle traite la demande comme un exercice créatif plutôt que comme une instruction réelle ;
  • L'obfuscation (token smuggling) : l'utilisateur masque les termes interdits en les encodant (Base64, hexadécimal) ou en insérant des caractères spéciaux pour tromper les filtres de détection ;
  • L'inversion morale : l'utilisateur demande au modèle de commencer par un discours moralisateur sur les règles d'OpenAI, puis d'enchaîner avec une réponse « sans filtre ». Cette technique exploite la structure de la réponse pour contourner les restrictions.

Ces méthodes fonctionnent de façon sporadique. OpenAI, Anthropic et Google surveillent les communautés (notamment le subreddit r/ChatGPTJailbreak) et corrigent les failles en quelques jours, voire quelques heures. Le jeu du chat et de la souris entre utilisateurs et éditeurs se poursuit depuis le lancement de ChatGPT.

💡 Pourquoi les entreprises doivent se soucier du jailbreak

Les techniques de jailbreak ne concernent pas uniquement ChatGPT ou les outils grand public. Toute entreprise qui déploie son propre chatbot connecté à un modèle de langage (assistant client, FAQ automatisée, agent interne) s'expose aux mêmes risques. Un utilisateur malveillant pourrait tenter de jailbreaker le chatbot pour lui faire révéler des informations confidentielles, contourner des règles métier ou générer des contenus nuisibles au nom de l'entreprise. Les équipes techniques doivent donc intégrer des couches de protection supplémentaires : filtrage des entrées, détection des patterns de jailbreak connus, limitation des sujets autorisés et tests réguliers de robustesse avant mise en production.