Modèle open source (IA)

Un modèle IA open source est un modèle d'intelligence artificielle dont le code et les poids (les paramètres appris pendant l'entraînement) sont publics. Une entreprise peut installer ce modèle sur ses propres serveurs et l'utiliser sans passer par l'API d'un fournisseur externe. LLaMA (Meta), Mistral et BLOOM font partie des modèles les plus utilisés dans cette catégorie. 

À l'inverse, les modèles propriétaires comme GPT (OpenAI), Claude (Anthropic) ou Gemini (Google) ne sont accessibles que via une API : les requêtes transitent par les serveurs du fournisseur, qui facture à l'usage.

Modèle IA propriétaire et modèle IA open source : quelle différence ?

Quand une entreprise utilise les modèles GPT via l'API d'OpenAI, elle envoie ses requêtes aux serveurs d'OpenAI. Le texte saisi par l'utilisateur quitte l'infrastructure de l'entreprise, transite par les serveurs du fournisseur, et la réponse revient par le même chemin. 

L'entreprise paie à l'usage (au nombre de tokens traités) et n'a aucun contrôle sur le modèle lui-même : elle ne peut ni le modifier, ni l'héberger en interne, ni savoir précisément comment il a été entraîné.

Avec un modèle open source, l'entreprise télécharge les fichiers du modèle (le code et les poids) et les installe sur ses propres serveurs. Les requêtes ne quittent jamais son infrastructure. Elle peut adapter le modèle à ses besoins métier via un processus de fine-tuning : réentraîner le modèle sur des données internes pour qu'il réponde mieux à des cas d'usage liés à son activité (vocabulaire métier, formats de documents, ton de communication…).

Cette distinction a des conséquences sur :

  • La confidentialité des données : avec un modèle hébergé en interne, les données ne transitent pas par un tiers. C'est un critère décisif pour les entreprises soumises à des obligations réglementaires (santé, finance, défense) ou qui traitent des informations sensibles ;
  • Le coût : l'API d'un fournisseur comme OpenAI ou Anthropic facture chaque requête. Un modèle hébergé en interne génère un autre type de coût (fixe) : serveurs, GPU, maintenance, mais pas de coûts variables liés au volume d'utilisation ;
  • La dépendance : avec une API, l'entreprise dépend du fournisseur pour la disponibilité du service, les évolutions du modèle et la politique tarifaire. Avec un modèle open source, elle garde le contrôle sur la version utilisée.

L'hébergement en interne exige en contrepartie des compétences techniques (ingénieurs capables de déployer et maintenir le modèle) et une infrastructure adaptée (serveurs équipés de GPU). C'est pourquoi les modèles open source intéressent surtout les entreprises qui ont déjà une équipe Data ou qui traitent des volumes importants de requêtes.

💡 « Open source » : un terme à nuancer

En octobre 2024, l'Open Source Initiative (OSI) a publié sa définition officielle de ce qui constitue une IA open source. Pour être qualifié d'open source au sens strict, le modèle doit fournir suffisamment d'informations sur ses données d'entraînement pour permettre à un tiers de recréer un système équivalent. Selon cette définition, LLaMA (Meta) et Mistral ne sont pas open source : leurs poids sont téléchargeables, mais leurs données d'entraînement ne sont pas divulguées. Le terme exact serait « open weights » (poids ouverts). Dans la pratique, le marché continue d'utiliser « open source » pour désigner tout modèle téléchargeable et utilisable en local, par opposition aux modèles accessibles uniquement via API.