Le Human-in-the-loop (HITL) désigne l'intégration systématique d'une supervision humaine au cycle de vie d'un système IA. Les humains annotent les données d'entraînement, corrigent les erreurs du modèle, valident les résultats et guident l'amélioration continue du système. L’idée est de combiner la vitesse de calcul de l'IA avec le jugement humain.

Les modèles d'IA générative produisent régulièrement des informations fausses présentées avec assurance. Ce sont les fameuses hallucinations. Aucun modèle n'en est exempt, et ce biais est très probablement consubstantiel à l’IA. Le HITL est donc incontournable, dans la mesure où il formalise la supervision humaine pour que les hallucinations n’aient pas de conséquences graves sur l’entreprise.

On compte généralement deux niveaux de HITL, selon la maturité de l’entreprise : le cas des entreprises qui utilisent uniquement un chatbot grand public (type ChatGPT, Claude ou Gemini), et le cas des entreprises qui ont déployé un chatbot en interne, branché sur un LLM type GPT ou Claude, par exemple.

Le niveau 1 du Human-in-the-loop

Dans les entreprises qui utilisent les chatbots IA du marché, le HITL se résume à une seule règle : ne jamais utiliser une réponse de l’IA sans la relecture d’un humain qui a les compétences de statuer sur la véracité de son contenu. Par exemple :

Un devis rédigé par ChatGPT doit être relu pour vérifier les prix, les conditions et les références produits pour ne pas engager l’entreprise sur des conditions désavantageuses (prix trop bas, promotions fictives, garanties inventées…) ;
Un contrat généré par l'IA doit être validé par quelqu'un qui connaît le droit applicable. L'IA peut en effet insérer des clauses invalides ou omettre des mentions obligatoires ;
Un tri de CV automatisé ne doit pas servir à rejeter des candidats sans validation humaine. L’IA a tendance à reproduire les discriminations humaines dans ce type de tâche ;
Une facture classée par l'IA doit être vérifiée avant comptabilisation. L'IA peut se tromper dans l’imputation.

Le niveau 2 du Human-in-the-loop

Dans les entreprises qui utilisent un chatbot « maison », par exemple branché à LLM comme GPT ou Claude, le HITL intervient à plusieurs endroits du cycle de vie :

L’enrichissement de la base de connaissances : des collaborateurs mettent à jour les documents sur lesquels le chatbot s'appuie (FAQ, tarifs, procédures, fiches produits…) pour que ce dernier ne donne pas de réponses obsolètes ;
L’escalade : le chatbot passe la main à un humain quand il ne sait pas répondre, quand il y a une forte composante émotionnelle (client mécontent) ou quand la décision comporte un risque majeur (validation d'un remboursement, modification de contrat…).
Le monitoring : des collaborateurs surveillent les conversations pour détecter les réponses incorrectes ou les dérives ;
L’amélioration continue : les corrections humaines alimentent le système pour qu'il s'améliore au fil du temps. C'est le principe du RLHF (Reinforcement Learning from Human Feedback) utilisé pour entraîner ChatGPT, Claude ou encore Gemini.

💡 Le cas Air Canada (2024)

Le chatbot de service client d'Air Canada a affirmé à un client qu'il pouvait acheter un billet plein tarif et demander un remboursement partiel dans les 90 jours suivants, dans le cadre d'un voyage pour décès familial. Mais cette politique commerciale n'existait pas dans les conditions générales de vente de la compagnie. Quand le client a réclamé le remboursement, Air Canada a refusé en arguant que le chatbot était « une entité juridique distincte, responsable de ses propres actions ». Le tribunal a rejeté cet argument et condamné la compagnie à rembourser son client. Conclusion du juge : l'entreprise est responsable de toutes les informations publiées sur son site, qu'elles proviennent d'une page statique ou d'un chatbot.

Human-in-the-loop (Humain dans la boucle)

Le niveau 1 du Human-in-the-loop

Le niveau 2 du Human-in-the-loop