La factualité mesure la capacité d'une IA à produire des informations exactes plutôt que des réponses inventées. Les chatbots génèrent parfois des affirmations fausses présentées avec assurance : chiffres erronés, citations inventées, événements qui n'ont jamais eu lieu… Ces erreurs, ou hallucinations, résultent du fonctionnement probabiliste des modèles de langage.

Les modèles de langage (LLM) prédisent le mot suivant le plus probable dans chaque phrase générée. Ils assemblent des séquences de mots selon des schémas statistiques identifiés pendant leur entraînement sur des milliards de textes. Ils ne comprennent pas le sens de ce qu'ils écrivent et n'ont aucun accès à une base de données de faits vérifiés. Quand l'information manque dans leurs données d'entraînement, ils comblent les lacunes en générant du contenu qui semble cohérent (ou, de plus en plus, en recherchant sur le web).

OpenAI a confirmé que ses modèles sont entraînés pour toujours proposer une réponse, plutôt que d’admettre une incertitude. Mieux vaut inventer quelque chose de plausible que de rester silencieux. Ce mécanisme renforce systématiquement les hallucinations.

Les hallucinations se répartissent en trois grandes catégories :

  • Les hallucinations de factualité : informations objectivement fausses (dates incorrectes, chiffres d'affaires inventés, événements qui n'ont jamais existé) ;
  • Les hallucinations d'attribution : sources fabriquées, citations attribuées à des personnes qui ne les ont jamais prononcées, références bibliographiques inexistantes ;
  • Les hallucinations contextuelles : réponses contradictoires avec le contexte fourni ou incohérentes avec les instructions données.

La factualité est un indicateur critique dans plusieurs secteurs d’activité, notamment la santé, les finances et l’assurance.

Notons enfin que le RAG (Retrieval-Augmented Generation), qui consiste à connecter le modèle de langage à une base de documents de l’entreprise, réduit drastiquement les hallucinations et améliore la factualité (des études évoquent une division du taux d’hallucination par trois).

💡 Le fact-checking doit rester systématique

La recherche web améliore la factualité sur les infos publiques. Le RAG améliore la factualité sur les informations internes. Mais même avec ces deux mécanismes, la vérification humaine reste indispensable pour les décisions critiques. Les secteurs juridique, financier, médical et réglementaire doivent systématiquement contrôler les sorties de l’IA avant toute utilisation. Les modèles de langage sont des outils ultra-utiles, mais ils ne sont pas infaillibles.