Un LLM (Large Language Model, ou grand modèle de langage) est un programme d'intelligence artificielle entraîné sur des quantités massives de texte pour comprendre et générer du langage humain. GPT (OpenAI), Claude (Anthropic), LLaMA (Meta) et Mistral sont les LLM qui alimentent les chatbots respectifs des grands éditeurs.
Comment fonctionne un LLM ?
Les LLM apprennent à maîtriser le langage en analysant des quantités colossales de texte : livres, articles, sites web, forums, documentation technique, code informatique... Le modèle LLaMA 3 de Meta, sorti en 2024, a par exemple été entraîné sur 15 000 milliards de tokens, soit l'équivalent de plusieurs millions de livres.
Pendant cette phase d'entraînement, le modèle ne mémorise pas les textes mot pour mot. Il apprend à identifier des régularités statistiques : quels mots apparaissent souvent ensemble, comment les phrases se construisent, quelles idées s'enchaînent logiquement, etc.
Le principe de base est la prédiction du mot suivant. À partir d'une séquence de texte, le modèle calcule la probabilité de chaque mot susceptible de compléter cette séquence, puis sélectionne le plus probable.
Quand un utilisateur tape « La capitale de la France est », le modèle attribue une probabilité élevée au mot « Paris » parce qu'il a rencontré cette association des milliers ou millions de fois pendant son entraînement. En répétant cette opération mot après mot, le modèle génère des phrases, puis des paragraphes entiers qui présentent un degré de cohérence (très) satisfaisant.
Les capacités (et les limites) des LLM peuvent être appréhendées à l’aune de trois notions techniques :
- Les paramètres : ce sont les variables internes que le modèle ajuste pendant l'entraînement pour améliorer ses prédictions. Plus un modèle possède de paramètres, plus il peut capturer des nuances complexes du langage. GPT-3 compte 175 milliards de paramètres. Les modèles les plus récents en comptent plusieurs centaines de milliards, voire plus d'un trillion pour certains ;
- Les tokens : un LLM ne traite pas le texte mot par mot, mais par unités appelées tokens. Un token correspond à environ quatre caractères, soit trois quarts d'un mot (en moyenne). Cette unité de mesure sert aussi à la facturation des API : OpenAI, Anthropic et Google facturent au nombre de tokens traités ;
- La fenêtre de contexte : c'est la quantité maximale de texte que le modèle peut prendre en compte pour générer une réponse. C’est ce qu’on appelle, par abus de langage, « la mémoire » du chatbot. Elle s'exprime également en tokens. Cette limite détermine la longueur des documents que le modèle peut analyser en une seule conversation, ou encore la quantité d’informations dont il peut se souvenir au fur et à mesure des échanges dans une conversation donnée. Une fois que cette fenêtre de contexte est dépassée, les réponses du chatbot deviennent moins pertinentes. C’est la fameuse « amnésie » de l’IA.
💡 LLM propriétaires et LLM open source ?
Les entreprises qui veulent intégrer un LLM dans leurs outils ont deux options : les modèles propriétaires (GPT d'OpenAI, Claude d'Anthropic, Gemini de Google) s'utilisent via une API : les données transitent par les serveurs du fournisseur, et la facturation se fait à l'usage. Les modèles open source (LLaMA de Meta, Mistral) peuvent être téléchargés et installés sur les serveurs de l'entreprise. Cette seconde option exige une infrastructure technique plus lourde (serveurs équipés de GPU, équipes capables de déployer et maintenir le modèle), mais elle permet de garder les données en interne et d'adapter le modèle à des besoins métier spécifiques via un processus de fine-tuning.
