Summarize this article with:

ChatGPT, Claude, Gemini… la plupart des entreprises utilisent l'IA via les plateformes Cloud des grands éditeurs américains. Certaines font un autre choix : elles installent un modèle sur leurs propres serveurs.

Cette option était réservée aux grandes entreprises jusqu'à très récemment. Les modèles open source et la baisse du coût du matériel l'ont rendue accessible aux PME et ETI. Reste à savoir si elle est pertinente pour vous.

Faire tourner une IA en interne : de quoi parle-t-on, au juste ?

Quand une entreprise utilise ChatGPT, Claude ou Gemini, ses requêtes transitent par les serveurs d'OpenAI, d'Anthropic ou de Google, respectivement.

Ces fournisseurs hébergent le modèle, traitent les donnée set renvoient la réponse à l’utilisateur. C'est le principe du modèle SaaS : vous payez un abonnement (ou un tarif au token si vous utilisez l’API de ces chatbots), et l’éditeur gère toute l'infrastructure.

L'alternative consiste à installer un modèle IA directement sur vos propres serveurs, ou chez un hébergeur de confiance. De cette façon, les données ne quittent jamais votre infrastructure ou, a minima, une infrastructure souveraine. Aucune requête ne transite par un tiers étranger (américain en l’occurrence). C'est ce qu'on appelle le déploiement « on-premise »ou « self-hosted ».

5 cas où l’IA interne peut être intéressante

Plusieurs situations peuvent pousser une entreprise vers le déploiement d’une IA en local : des données sensibles qui ne doivent pas quitter le périmètre de l'entreprise, des coûts d'API qui explosent avec le volume d'utilisation, des obligations réglementaires qui imposent un hébergement souverain ou encore le besoin d’hyper-personnaliser le modèle à l’activité.

1. Protéger les données sensibles et respecter la réglementation

Quand un collaborateur soumet un contrat client à ChatGPT pour en faire une synthèse, ce document transite par les serveurs d'OpenAI aux États-Unis. L'entreprise perd alors le contrôle sur ce qu'il advient de ces données : durée de conservation, utilisation éventuelle pour l'entraînement du modèle, accès par des tiers.

Rappelons qu’en vertu du Cloud Act américain (mai 2018), l'administration américaine peut exiger l'accès aux données hébergées par toute entreprise de droit américain, quel que soit le pays où ces données se trouvent physiquement, et sans en informer l'entreprise concernée.

D’un autre côté, le RGPD impose aux entreprises de garantir la sécurité et la confidentialité des données personnelles qu'elles traitent. Si vous faites transiter ces données par des serveurs extra-européens, vous aurez du mal à démontrer votre conformité, surtout si vous évoluez dans un secteur régulé.

Le précédent de la CNIL

Rappelons qu’en 2022, la CNIL a subitement annoncé que l’utilisation de Google Analytics constituait une infraction au RGPD en raison des transferts de données vers les États-Unis. Une posture similaire avec les chatbots IA américains n’est donc pas à exclure.

Les entreprises concernées : les cabinets d'avocats, de conseil ou d'expertise comptable, les établissements de santé soumis aux exigences de l'hébergement de données de santé (HDS), les sous-traitants de grands comptes liés par des clauses de confidentialité, les entreprises qui répondent à des marchés publics, où l'hébergement souverain est un critère de sélection.

2. Maîtriser les coûts sur le long terme

Les chatbots IA peuvent être utilisés via des plans mensuels(cas le plus typique), ou via les API, à l’usage. Cette dernière option est plus performante, mais potentiellement plus chère. Chaque requête consomme des tokens, et chaque token coûte une fraction de centime.

À l'échelle d'un test ou d'un usage occasionnel, la facture reste modeste. Mais quand l'IA devient un outil quotidien pour des dizaines ou centaines de collaborateurs, le coût devient relativement important.

Avec un modèle hébergé en interne, l'entreprise investit une seule fois dans le matériel (ou paie un hébergement mensuel fixe), puis utilise le modèle sans limite : pas de compteur de tokens, pas de surprise en fin de mois. Le coût marginal d'une requête supplémentaire est quasi nul. Seule l'électricité entre en jeu.

Le point de bascule dépend évidemment du volume. Une équipe de cinq personnes qui utilise l'IA quelques fois par semaine n'a aucun intérêt à investir dans une infrastructure locale. En revanche, les profils suivants peuvent rapidement rentabiliser un déploiement interne :

Les services support qui traitent des dizaines ou centaines de demandes par jour ;
Les équipes marketing ou rédaction qui produisent du contenu en volume (notamment dans les stratégies SEO de masse) ;
Les entreprises qui intègrent l'IA dans un processus automatisé (extraction de données, classification de documents, préqualification de leads…).

3. Ne pas dépendre de l’éditeur

Quand vous utilisez l'API d'OpenAI ou d'Anthropic, vous êtes locataire. Le propriétaire fixe les prix, les conditions d'utilisation et peut les modifier à tout moment.

En février 2024, OpenAI a par exemple retiré sans préavis plusieurs modèles de son API. Les entreprises qui avaient bâti des workflows autour de ces modèles ont dû migrer en urgence et subir un gros ralentissement des processus opérationnels qui dépendaient de ces modèles.

Si vous hébergez un modèle open source en interne, vous maîtrisez votre IA. Personne ne peut vous couper l'accès, augmenter les tarifs ou modifier les conditions générales. Vous choisissez quand (et si) vous migrez vers une version plus récente ou pas. Vous développez vos workflows en toute sérénité, sans craindre qu’ils ne disparaissent du jour au lendemain.

4. Garantir la disponibilité de l’outil IA

Les API Cloud subissent des pannes, des ralentissements et des limites de débit. En janvier 2025, l'API d'OpenAI a connu plusieurs interruptions de service. Pour un chatbot interne consulté occasionnellement, ce n'est qu'un léger désagrément. Pour un processus métier automatisé qui traite des milliers de requêtes par heure, c'est un blocage opérationnel majeur.

Le modèle hébergé en interne tourne sur votre infrastructure :pas de file d'attente, pas de quota, pas de dépendance à un serveur distant. La disponibilité dépend uniquement de votre propre maintenance.

Les entreprises concernées : celles dont l'activité s'arrête ou ralentit fortement si l'IA ne répond plus, notamment les sites e-commerce à fort trafic avec chatbot client, les lignes de production qui intègrent du contrôle qualité automatisé, les centres d'appels où l'IA assiste les agents en temps réel...

Comment déployer une IA en interne : la mécanique et le coût

L’option de l’IA qui tourne en interne est devenue accessible grâce à la multiplication des modèles open source.

Meta publie Llama, Mistral AI diffuse ses modèles sous licence permissive, Google propose Gemma, Microsoft met Phi à disposition, etc.

Ces modèles peuvent être téléchargés, installés et exécutés sans payer de licence ni de redevance. Certains rivalisent avec les performances de GPT-4 sur les tâches habituelles comme la rédaction, la synthèse, l’extraction d'information et la génération de code. Ces modèles peuvent être déployés par des outils comme Ollama, LM Studio ou encore vLLM.

Reste la question du matériel. Trois scénarios selon vos besoins :

Tester et démarrer (moins de 1 000 €) :une carte graphique gaming d'occasion (type RTX 3090, 700-900 €) ou un Mac récent (M2, M3, M4) suffit. Vous pouvez faire tourner des modèles capables de synthétiser des documents, rédiger des emails ou répondre à des questions sur votre documentation. Convient à une équipe de quelques personnes ;
Usage régulier en équipe (5 000 à 15 000 €): un serveur dédié avec une ou deux cartes graphiques professionnelles. Permet à plusieurs dizaines de collaborateurs d'utiliser l'IA simultanément, avec des temps de réponse corrects ;
Production intensive (à partir de 30 000 €): infrastructure serveur avec GPU haut de gamme (NVIDIA A100, H100). Nécessaire si l'IA doit traiter des milliers de requêtes par jour ou s'intégrer dans des processus automatisés.

À noter : ces coûts sont des investissements ponctuels, pas des abonnements. Une fois le matériel amorti, le coût d'utilisation se limite à l'électricité et à la maintenance.

Nous accompagnons les PME et ETI dans leur transformation IA

Le déploiement local est une réponse à des contraintes :données sensibles, réglementation, coûts à grande échelle, souveraineté... Pour beaucoup d'entreprises, les solutions Cloud restent plus simples à déployer et suffisent largement pour l’écrasante majorité des cas d’usage.

La vraie question n'est pas de trancher entre le Cloud ou le local. C'est plutôt de savoir où brancher l’IA dans l’entreprise, quels processus automatiser, par où commencer…

Moon accompagne les PME et ETI sur ces sujets à travers trois prestations :

La formation IA. Une journée pour maîtriser les fondamentaux : prompt engineering, sécurité des données, bonnes pratiques... Vos équipes repartent avec des templates et des outils prêts à l'emploi. Certification Qualiopi, formation éligible au financement OPCO.
L'audit IA. Diagnostic de vos processus métier, identification des tâches automatisables et estimation du ROI par cas d’usage. Vous repartez avec une feuille de route opérationnelle sur 3, 6 ou 12mois. Bpifrance finance jusqu'à 42 %.
Le développement sur mesure. Chatbots entraînés sur vos données, copilotes documentaires, agents d'automatisation ,outils d'extraction... Chaque projet commence par un POC testé en conditions réelles.

Vous avez un projet IA en tête mais vous ne savez pas par où commencer ? Parlons-en.

Et si c’était votre tour ?

Prendre rendez-vous