Le Transformer est une architecture de réseau de neurones lancée par Google en 2017 qui constitue le socle technique de tous les grands modèles de langage actuels : GPT (OpenAI), Claude (Anthropic), LLaMA (Meta) et Gemini (Google).

Son innovation principale, le mécanisme d'attention, permet au modèle de comprendre les relations entre tous les mots d'un texte simultanément plutôt que de se contenter des quelques mots environnants.

Transformer : une innovation que l’on doit aux chercheurs de Google Traduction

Avant 2017, les modèles de traitement du langage reposaient sur des réseaux de neurones récurrents (RNN), notamment une variante appelée LSTM. Ces architectures traitaient le texte mot par mot, dans l'ordre de lecture. Pour analyser une phrase de dix mots, le modèle devait passer par dix étapes successives, chacune dépendant de la précédente. Cette approche séquentielle posait deux problèmes :

La lenteur : impossible de paralléliser les calculs, donc impossible d'entraîner des modèles sur de très grands volumes de texte dans des délais raisonnables ;
La perte d'information : plus une phrase était longue, plus le modèle avait du mal à relier un mot du début avec un mot de la fin. Dans « Le chat que ma voisine a recueilli l'année dernière dort sur le canapé », le RNN a du mal à comprendre que « dort » se rapporte à « chat » et non à « voisine » ou « année ». Les modèles étaient donc foncièrement inutilisables dans les cas d’usage courants en entreprise.

L'équipe de Google travaillant sur la traduction automatique (Google Translate) s'est heurtée à ces limites pendant des années. Les améliorations successives des RNN et des LSTM permettaient des progrès incrémentaux, mais le plafond de performance est resté intact pendant des années.

En 2017, 8 chercheurs de Google publient l'article « Attention Is All You Need », qui propose une rupture : plutôt que d'améliorer le traitement séquentiel, il s’agirait de l’abandonner complètement. Leur intuition, innovante à l’époque, était de se focaliser sur le mécanisme d'« attention », déjà utilisé en complément des RNN. Ce dernier pourrait, à lui seul, suffire à modéliser le langage.

Le pari était risqué : les RNN avaient été conçus précisément pour traiter des séquences ordonnées, et s'en passer pourrait pousser le modèle à ignorer l'ordre des mots dans une phrase. Les chercheurs ont résolu ce problème en ajoutant au modèle une information de position pour chaque mot, ce qui lui permet de savoir où se situe chaque élément dans la phrase tout en les analysant simultanément.

Transformer : une innovation qui a tout changé dans l’IA

Techniquement, pour chaque mot, l’architecture « Transformer » calcule un score de pertinence avec tous les autres mots de la phrase. Ces scores déterminent combien chaque mot doit « faire attention » aux autres mots de la phrase pour comprendre le contexte.

Dans l'exemple précédent, le mot « dort » obtient un score élevé avec « chat » et faible avec « voisine », ce qui permet au modèle de comprendre « qui dort ».

Les conséquences de cette innovation ont été considérables :

Entraînement massivement parallélisable : les calculs peuvent être répartis sur des milliers de processeurs simultanément. GPT-3 a été entraîné sur 45 téraoctets de texte, ce qui aurait pris plusieurs décennies avec les anciennes architectures ;
Compréhension du contexte à longue distance : le modèle peut relier des informations séparées par des centaines, voire des milliers de mots. C'est ce qui permet à ChatGPT ou Claude de maintenir une conversation cohérente sur plusieurs échanges ;
Émergence des grands modèles de langage : BERT (Google, 2018), GPT-2 (OpenAI, 2019), GPT-3 (2020), puis ChatGPT, Claude, LLaMA, Gemini… Tous reposent sur l'architecture Transformer. Sans cette innovation, aucun de ces modèles n'existerait sous sa forme actuelle.

Pour les utilisateurs, cela se traduit par des outils capables de comprendre des instructions complexes, de produire des textes cohérents sur plusieurs paragraphes, de résumer des documents longs ou de répondre à des questions en tenant compte de tout le contexte de la conversation.

💡 Le « T » de GPT, c'est Transformer

Les acronymes des modèles les plus connus trahissent leur dette envers cette architecture. GPT signifie « Generative Pre-trained Transformer » (Transformer génératif pré-entraîné). BERT, le modèle de Google utilisé pour la recherche et la classification de texte, signifie « Bidirectional Encoder Representations from Transformers ». Quant à l'article fondateur de 2017, « Attention Is All You Need », il est tout simplement devenu l'un des plus cités de l'histoire de l'intelligence artificielle, avec plus de 100 000 citations en 8 ans.