Le RLHF est une technique d'entraînement des modèles de langage qui intègre des retours humains dans le processus d'apprentissage. Des évaluateurs comparent plusieurs réponses générées par le modèle pour une même requête et classent ces réponses par ordre de qualité ou de pertinence. Ces évaluations permettent ensuite d’ajuster le modèle.

Comment le RLHF a changé l'entraînement des modèles de langage

Avant 2022, les modèles de langage comme GPT-3 étaient entraînés en deux temps :

Une phase de pré-entraînement sur des corpus massifs de texte (livres, articles, pages web) ;
Puis une phase de fine-tuning sur des jeux de données plus ciblés.

Le modèle apprenait à prédire le mot suivant dans une phrase, encore et encore, jusqu'à maîtriser les structures de la langue. Cette approche produisait des modèles capables de générer du texte fluide, mais sans garantie que ce texte soit utile, pertinent ni même cohérent. GPT-3 pouvait à la fois rédiger un poème complexe puis partir sur un hors-sujet dans la même conversation.

Le RLHF a introduit une troisième phase d'entraînement, fondée sur le jugement humain. OpenAI a popularisé cette technique avec « InstructGPT » en 2022, puis avec les modèles GPT-3.5 (et suivants) qui alimentent ChatGPT.

Depuis, le RLHF s'est généralisé à tous les chatbots IA du marché : les boutons « pouce en haut » et « pouce en bas » affichés sous chaque réponse de ChatGPT, Claude, Gemini et Mistral servent précisément à collecter les préférences des utilisateurs à grande échelle pour alimenter ce processus d'entraînement en continu.

Le RLHF : des vertus mais des limites très problématiques

Le RLHF repose sur des jugements humains qui proviennent de deux sources :

Des évaluateurs professionnels employés par des sociétés de sous-traitance spécialisées dans l'annotation de données ;
Et les utilisateurs des chatbots IA eux-mêmes via les boutons de notation.

Dans les deux cas, les préférences collectées reflètent les biais culturels, linguistiques et idéologiques des personnes qui les émettent. Ces biais se retrouvent ensuite encodés dans le modèle.

Les chercheurs ont également constaté que le RLHF peut aggraver certains défauts des modèles. Les évaluateurs humains ont tendance à préférer les réponses formulées dans un ton confiant et tranché, même lorsqu'elles contiennent des erreurs factuelles.

Le modèle apprend donc à produire des réponses assurées plutôt que des réponses prudentes qui reconnaîtraient une incertitude. Ce phénomène peut amplifier les hallucinations : le modèle génère des affirmations fausses avec un ton affirmatif, parce que ce style a été « récompensé » lors de l'entraînement.

💡 La recherche d’alternatives à une technique qui coûte cher

Le RLHF coûte cher. La collecte de préférences humaines à grande échelle mobilise des ressources importantes, et la qualité des annotations varie selon les conditions de travail des évaluateurs professionnels. Les éditeurs explorent activement des alternatives comme le RLAIF (Reinforcement Learning from AI Feedback), où un autre modèle de langage remplace les évaluateurs humains pour générer les classements de préférences.