L'entraînement (ou training) est la phase pendant laquelle un modèle d'Intelligence Artificielle apprend à partir de données. L'algorithme analyse des milliers ou des millions d'exemples pour identifier des patterns, ajuster ses paramètres internes et améliorer ses prédictions. Plus le modèle est entraîné sur des données de qualité, plus ses réponses seront pertinentes.

L’entraînement peut être divisé en deux grandes catégories : le training from scratch et le fine-tuning.

L'entraînement from scratch (depuis zéro) consiste à créer un modèle de A à Z. Sam Altman, cofondateur d'OpenAI, a estimé le coût d'entraînement de GPT-4 à plus de 100 millions de dollars. Cette approche hors-normes nécessite des millions de données, des serveurs équipés de centaines de GPU haut de gamme, plusieurs mois de calcul et des équipes de Data Scientists. Aucune PME, ETI ni même grande entreprise n'a besoin de ce type d’entraînement, et aucun prestataire sérieux ne proposera d'entraîner un modèle from scratch pour une entreprise.

Le fine-tuning (ajustement fin) part d'un modèle déjà entraîné (GPT, Llama, Mistral) et l'adapte aux données spécifiques de l'entreprise. Cette méthode est déjà un peu plus accessible :

Il faut quelques milliers d'exemples (vs. plusieurs millions pour l’entraînement from scratch) ;
Quelques jours d'entraînement (vs. plusieurs mois) ;
Le coût se situe entre 5 000 et 50 000 € pour un projet pilote.

Un cabinet juridique peut fine-tuner un modèle sur ses milliers de contrats annotés pour qu'il comprenne les clauses spécifiques à son secteur. Une entreprise industrielle peut l'entraîner sur ses rapports techniques pour qu'il génère automatiquement des synthèses conformes à ses formats internes.

Mais la très grande majorité des PME et ETI n'ont même pas besoin de ce fine-tuning. Il suffit en effet de combiner les chatbots généralistes (ChatGPT, Claude, Gemini) à une architecture RAG (qui connecte l'IA aux documents internes sans modifier le modèle) pour couvrir 90 % des cas d'usage.

💡 Le fine-tuning dans les PME et ETI

Le fine-tuning peut se justifier dans les PME et ETI dans trois situations :

Terminologie ultra-spécifique : l'entreprise utilise un jargon sectoriel que les modèles génériques ne comprennent pas (termes médicaux rares, nomenclature industrielle propriétaire, abréviations internes) ;
Format de sortie strict : les documents générés doivent respecter une structure précise, avec des sections obligatoires, des formulations réglementaires ou des calculs spécifiques ;
Confidentialité absolue : les données sont tellement sensibles que l'entreprise refuse de les envoyer à une API externe, même temporairement. Elle héberge alors un modèle « fine-tuné » sur ses propres serveurs.

Entraînement (training)