La fenêtre de contexte mesure la quantité de texte qu'un modèle IA peut traiter en simultané, exprimée en tokens (750 mots = 1 000 tokens). Elle détermine la longueur maximale des conversations, des documents analysables en une seule fois et la capacité du modèle à maintenir la cohérence sur des échanges prolongés.
Concrètement, plus la fenêtre de contexte est large, plus le modèle « se souvient » du contexte de départ au fil de la conversation. Comme la mémoire humaine, elle est limitée dans le temps. Quand une conversation dépasse cette limite, le modèle oublie les premiers éléments de l'échange ou, dans les modèles les plus récents de Claude, doit résumer l'historique pour continuer.
Les premiers modèles accessibles au grand public géraient quelques milliers de tokens. Les modèles récents atteignent plusieurs millions de tokens, soit l'équivalent de quelques milliers de pages de texte. Mais attention : l’upload d’un document volumineux consommera plusieurs dizaines de milliers de tokens, voire plus.
💡 Le syndrome « Lost in the middle »
Des chercheurs de Stanford ont identifié un problème commun à tous les LLM : le phénomène « Lost in the middle ». Les performances des chatbots sont en effet maximales quand l'information pertinente se trouve au début ou à la fin du contexte, mais chutent drastiquement quand elle se situe au milieu. Par exemple, un modèle qui analyse 50 documents simultanément retrouvera facilement les informations dans les documents 1, 2, 49 et 50, mais aura du mal sur les documents 20 à 30. Ce biais de position limite l'efficacité pratique des très grandes fenêtres.
Les versions payantes des chatbots grand public (ChatGPT, Claude, Gemini) sont proposées en abonnement forfaitaire avec des quotas de messages, ou via une API qui facture au token. Logiquement, un document de 100 000 tokens coûtera 100 fois plus cher à analyser qu'un document de 1 000 tokens.
💡 Une fenêtre large ne remplacera pas le RAG
Même avec une fenêtre de plusieurs millions de tokens, le RAG reste indispensable pour les données d'entreprise. Pour rappel, le RAG récupère uniquement les passages pertinents dans la base documentaire de l’entreprise. Vous réduisez ainsi le coût au token (vous ne soumettez pas votre documentation au chatbot à chaque conversation), vous améliorez la précision des réponses et vous traitez partiellement le problème « Lost in the middle ».
