Le token est l'unité élémentaire de texte qu'un modèle de langage traite en entrée et produit en sortie. Selon les modèles, un token peut correspondre à un mot entier, un fragment de mot, un caractère ou un signe de ponctuation. 

Les modèles de langage ne lisent pas le texte tel quel : ils le découpent en tokens, convertissent chaque token en identifiant numérique, puis travaillent sur la base de ces identifiants.

Pourquoi les modèles de langage utilisent-ils des tokens ?

Les modèles de langage sont des réseaux de neurones, et les réseaux de neurones ne peuvent manipuler que des nombres. Ils ne peuvent pas traiter directement du texte brut : ni lettres, ni mots, ni phrases. 

Pour qu'un modèle puisse lire une question et générer une réponse, il faut d'abord convertir le texte en données numériques. Le token est donc cette unité intermédiaire : le texte est découpé en tokens, chaque token est associé à un identifiant numérique, et c'est cette suite de nombres que le modèle traite. À la sortie, le processus inverse reconvertit les tokens en texte lisible par l’utilisateur.

Le concept de token n'est pas né avec l'IA générative. Il existe en informatique depuis les années 1960, où il désignait déjà une unité élémentaire dans l'analyse des langages de programmation (les compilateurs découpent le code source en tokens pour l'interpréter). Aujourd'hui, le terme recouvre plusieurs usages :

  • Analyse syntaxique : dans les compilateurs et les interpréteurs, le token est l'unité de base du code source (mot-clé, variable, opérateur) ;
  • Authentification web : les tokens d'accès (JWT, OAuth) sont des chaînes de caractères qui permettent d'identifier un utilisateur ou une session sans transmettre de mot de passe ;
  • Cryptomonnaies : un token désigne un actif numérique émis sur une blockchain existante (à distinguer des « coins » comme le Bitcoin ou l'Ethereum) ;
  • Modèles de langage : le token est l'unité de traitement du texte, qui sert à la fois d'entrée et de sortie du modèle IA.

Comprendre le concept de token pour améliorer votre usage de l'IA

Le token reste l'unité de mesure fondamentale qui détermine les capacités et les limites de tous les modèles de langage. Les plafonds d'utilisation, les erreurs de traitement sur les documents longs, les écarts de tarification entre forfaits : tout cela découle directement du fonctionnement par tokens. Comprendre cette notion, c’est optimiser l’usage de l’IA pour des réponses pertinentes à moindre coût : 

  • Décrypter les grilles tarifaires des API : les API des modèles de langage facturent au nombre de tokens traités, en distinguant les tokens d'entrée (votre prompt) et les tokens de sortie (la réponse générée). Un prompt verbeux avec beaucoup de contexte coûtera logiquement plus cher qu'un prompt concis. Les entreprises qui intègrent l'IA dans leurs outils métier ont intérêt à rédiger des prompts efficaces pour maîtriser leur facture ;
  • Travailler avec des documents optimisés : les documents au format « .txt » consomment moins de tokens que les fichiers « .docx » et les « .pdf ». Dans l’idéal, il faudra convertir et nettoyer tous les documents en conséquence. Cette discipline devient importante lorsque l'usage s'intensifie ou que les requêtes sont automatisées ;
  • Adapter sa pratique au français : les outils de traitement des tokens ont été majoritairement entraînés sur des corpus anglophones. Un texte en français consommera en moyenne 15 à 20 % de tokens de plus que sa traduction en anglais. Pour compenser, privilégiez des formulations directes, évitez les périphrases et allez à l'essentiel dans vos prompts.

💡 Ordre de grandeur pour estimer les tokens

En anglais, un token correspond en moyenne à 4 caractères (ou 0,75 mot). En français, le ratio est moins favorable : comptez environ 1 token pour 3 caractères. Un texte de 1 000 mots en français représente donc entre 1 300 et 1 500 tokens selon le vocabulaire utilisé. OpenAI met à disposition un outil gratuit (platform.openai.com/tokenizer) qui permet de coller un texte et de visualiser son découpage en tokens… ce qui est pratique pour estimer le coût d'une requête API avant de l'envoyer sur ChatGPT.