GPT (Generative Pre-Trained Transformer) désigne une famille de modèles de langage fondés sur l’architecture « transformer ». Pré-entraînés sur de vastes corpus pour prédire à chaque fois le mot suivant dans une phrase, ils comprennent et génèrent du texte, du code ou d’autres contenus produits à partir d’instructions formulées en langage naturel.

L'acronyme GPT décompose le principe de fonctionnement :

« Generative » car le modèle génère du contenu nouveau, créé de toute pièce ;
« Pre-trained » car il est entraîné en amont sur des corpus massifs de textes ;
« Transformer » car il repose sur l’architecture éponyme développée par Google en 2017. Cette dernière analyse les relations entre tous les mots d'une phrase simultanément plutôt que de les traiter un par un, comme les modèles précédents.

💡 GPT n’est pas ChatGPT

GPT désigne la famille de modèles. ChatGPT est une application qui exploite certains de ces modèles via une interface de chat. OpenAI a tenté de déposer « GPT » comme marque commerciale aux États-Unis et en Europe, mais l'Office américain des brevets (USPTO) et l'Office européen (EUIPO) ont refusé ces demandes en 2024 et 2025, au motif que « GPT » décrit une technologie utilisée par de nombreux acteurs et ne peut pas être monopolisé par une seule entreprise. Ainsi, n'importe quel éditeur peut utiliser le terme « GPT » dans ses produits sans autorisation d'OpenAI.

OpenAI a introduit le premier modèle GPT en juin 2018 avec 117 millions de paramètres. Le géant de l’IA a ensuite publié GPT-2 en 2019 (1,5 milliard de paramètres), GPT-3 en 2020 (175 milliards de paramètres), GPT-4 en mars 2023 et GPT-5 en août 2025 (OpenAI n'a pas communiqué le nombre de paramètres pour ces deux dernières versions).

Chaque version augmente le nombre de paramètres, qui sont les variables internes permettant au modèle de comprendre et générer du langage naturel. Concrètement, c’est ce qui permet d’améliorer la qualité et la pertinence des réponses.

💡 Les paramètres ne font pas tout

Un modèle avec 1 000 milliards de paramètres n'est pas nécessairement plus pertinent qu'un modèle plus petit pour toutes les tâches. Les paramètres déterminent la capacité du modèle à mémoriser des patterns complexes, mais la qualité dépend aussi des données d'entraînement et du fine-tuning. Un modèle de 7 milliards de paramètres affiné sur 50 000 dossiers médicaux d'un hôpital peut être plus précis pour analyser des comptes-rendus de radiologie qu'un modèle généraliste de 500 milliards de paramètres. GPT-3.5 peut suffire pour classer automatiquement des emails en trois catégories, là où GPT-5 serait surdimensionné et plus coûteux sans apporter de gain mesurable.

Le fonctionnement des modèles GPT

Les équipes d'OpenAI pré-entraînent les modèles GPT en leur faisant ingérer des milliards de phrases issues de livres, d'articles, de sites web et de documents. Le modèle analyse ces textes et apprend à prédire le mot suivant dans une phrase en détectant les régularités statistiques du langage.

Cette phase d'apprentissage non supervisé lui permet d'accumuler des connaissances sur la grammaire, les faits et le raisonnement sans qu'un humain ne lui indique explicitement quelles réponses sont correctes.

Une fois ce pré-entraînement terminé, n'importe quelle entreprise peut affiner le modèle (fine-tuning) pour des tâches relatives à son activité en l'entraînant sur son propre corpus de documents. Par exemple :

Les assureurs peuvent affiner GPT sur leurs contrats pour extraire automatiquement les clauses d'exclusion et les conditions particulières ;
Les cabinets d'avocats peuvent entraîner le GPT sur leur jurisprudence pour identifier les précédents pertinents dans de nouveaux dossiers ;
Les banques peuvent adapter GPT à leur jargon métier pour analyser les notes de crédit et détecter les signaux d'alerte dans les demandes de financement.

Aujourd’hui, les modèles GPT alimentent des centaines d'applications tierces construites sur l’API d’OpenAI :

Harvey analyse des contrats et extrait des clauses juridiques. Des dizaines de milliers d’avocats l'utilisent quotidiennement ;
Casetext génère des mémoires juridiques avec citations de jurisprudence pour les avocats
Zendesk et Intercom intègrent GPT dans leurs plateformes de support client pour répondre automatiquement aux questions récurrentes des clients ;
Freshdesk propose des extensions qui résument les tickets de support client et suggèrent des réponses aux agents du service client ;
GitHub Copilot génère du code informatique en temps réel à partir des commentaires et du contexte que le développeur écrit dans son éditeur ;
Jasper et Copy.ai produisent du contenu marketing (newsletters, posts réseaux sociaux) à grande échelle ;
Notion AI résume des documents de travail et rédige des notes de réunion.