Un modèle de langage est un programme informatique qui calcule la probabilité d'apparition d'un mot dans une séquence. C'est ce mécanisme qui permet aux claviers de smartphone de suggérer la suite d'une phrase, aux outils de traduction automatique de produire des phrases grammaticalement correctes et aux chatbots IA de générer des réponses cohérentes.

Le modèle de langage attribue donc une probabilité à chaque mot susceptible de compléter une séquence. Prenons la phrase « La boulangerie ouvre à huit […] ». Sur la base de la masse de textes qu’il compte en mémoire, le modèle va estimer que :

« heures » a une probabilité élevée ;
« minutes » a une probabilité faible ;
« ans » est fortement improbable.

Ce calcul repose sur les régularités statistiques que le modèle a extraites pendant son entraînement : dans les textes qu'il a analysés, « ouvre à huit » précède presque toujours « heures ».

Le modèle sélectionne le mot le plus probable, l'ajoute à la séquence, puis recommence le calcul pour prédire le mot suivant. En répétant cette opération mot après mot, il génère des phrases entières. C'est pourquoi on parle de génération « autorégressive » : chaque mot produit devient une entrée pour prédire le suivant.

Cette capacité de prédiction repose sur trois éléments :

Un corpus d'entraînement : le modèle analyse des milliards de mots issus de livres, d'articles, de sites web et de forums. Il en extrait des régularités statistiques (quels mots apparaissent ensemble, dans quel ordre, dans quel contexte) ;
Une architecture de réseau de neurones : les modèles de langage utilisent une architecture appelée « Transformer », qui permet de prendre en compte le contexte éloigné dans une phrase (un mot au début peut influencer un mot à la fin) ;
Des paramètres ajustables : pendant l'entraînement, le modèle ajuste des millions ou des milliards de paramètres internes pour améliorer ses prédictions. Plus le nombre de paramètres est élevé, plus le modèle peut capter des nuances fines du langage.

Modèle de langage vs. grand modèle de langage (LLM)

Le terme « modèle de langage » existe depuis les années 1950. Les premiers modèles étaient statistiques : ils comptabilisaient la fréquence d'apparition des mots dans un corpus, puis calculaient des probabilités de transition d'un mot à l'autre. Ces modèles fonctionnaient sur des séquences courtes (deux ou trois mots) et ne captaient pas le sens global d'une phrase.

Les grands modèles de langage (LLM, pour Large Language Models) sont apparus dans les années 2010 avec l'essor du deep learning. La différence tient à trois facteurs :

Le volume de données : un LLM comme GPT-4 ou Claude a été entraîné sur des centaines de milliards de mots, contre quelques millions pour les modèles statistiques classiques ;
Le nombre de paramètres : les LLM comptent des dizaines ou des centaines de milliards de paramètres, ce qui leur permet de capter des relations complexes entre les mots (ironie, sens implicite, références culturelles…) ;
La fenêtre de contexte : les modèles statistiques classiques ne prenaient en compte que quelques mots précédents. Les LLM actuels peuvent analyser des dizaines de milliers de mots d'un coup, ce qui leur permet de maintenir une certaine cohérence sur des textes longs ou des conversations à plusieurs dizaines de messages.

💡 De la rhétorique télégraphique aux tâches complexes

C'est cette montée en échelle qui a permis aux LLM de passer de la simple prédiction de mots dans les phrases télégraphiques à des tâches beaucoup plus complexes comme la rédaction, la traduction, la synthèse, l’analyse de données, la génération de code informatique, etc. ChatGPT, Claude, Gemini et Mistral sont tous des interfaces construites sur des LLM.