Le zero-shot learning est la capacité d'un modèle IA à identifier des éléments absents de ses données d'entraînement. Le modèle s'appuie sur des descriptions ou des caractéristiques partagées. Par exemple, une IA entraînée sur des images de chevaux peut reconnaître un zèbre si on lui indique « cheval rayé ».

Zero-shot learning : la problématique de départ

Avant 2009, les modèles de classification fonctionnaient exclusivement par apprentissage supervisé. Le principe : pour qu'un modèle reconnaisse une catégorie (un type d'objet, un sentiment, une intention), il fallait lui montrer des dizaines ou des centaines d'exemples étiquetés de cette catégorie.

Par exemple, un modèle entraîné à reconnaître des chiens, des chats et des chevaux sur des images ne pouvait identifier que des chiens, des chats et des chevaux.

Le problème survient dès qu'une nouvelle catégorie apparaît dans les images à analyser. Si l’utilisateur veut que son modèle reconnaisse désormais des zèbres, il doit collecter des centaines d’images de zèbres, les étiqueter manuellement (écrire qu’il s’agit d’un zèbre sur chaque image), puis réentraîner le modèle.

Ce cycle prend du temps et coûte cher, surtout quand les catégories évoluent fréquemment ou quand certaines catégories sont rares (peu d'exemples disponibles).

L’émergence du Zero-shot learning en 2009

En 2009, deux équipes de recherche proposent une solution au même moment :

Mark Palatucci et ses équipes de l’Université de Toronto publient Zero-shot Learning with Semantic Output Codes à la conférence NeurIPS. L’idée : remplacer les exemples par des descriptions sémantiques. Au lieu de montrer des images de zèbres au modèle, on lui fournit une description (« animal semblable au cheval, avec des rayures noires et blanches »). Le modèle utilise alors ses connaissances sur les chevaux et sur les rayures pour inférer à quoi ressemble un zèbre.
Christoph Lampert et son équipe formalisent une approche complémentaire basée sur les attributs. Cette méthode décompose chaque catégorie en caractéristiques élémentaires (« a quatre pattes », « a des rayures », « est herbivore »). Un modèle qui connaît ces attributs séparément peut les recombiner pour reconnaître une catégorie jamais vue, à condition qu'on lui indique quels sont les attributs qui la composent.

Comment utiliser le zero-shot learning en entreprise ?

Les modèles de zero-shot learning sont aujourd'hui accessibles sans compétences en data science. Des plateformes comme Hugging Face proposent des modèles pré-entraînés (CLIP d'OpenAI pour les images, BART de Meta pour le texte) utilisables via une API.

Le fonctionnement est le suivant :

L'entreprise envoie une donnée (un texte, une image) accompagnée d'une liste de catégories possibles ;
Le modèle renvoie la catégorie la plus probable avec un score de confiance.

Aucun entraînement préalable n'est requis. Les tarifs varient selon le volume de requêtes, mais la plupart des plateformes proposent un niveau gratuit suffisant pour tester et prototyper.

Le Zero-shot learning est généralement utilisé dans 4 cas d’usage en entreprise :

Tri automatique de documents entrants. Emails, formulaires de contact, pièces jointes… le modèle classe chaque élément selon les catégories définies par l'entreprise (demande commerciale, réclamation, demande de devis, candidature spontanée). Quand une nouvelle catégorie apparaît, il suffit de l'ajouter à la liste sans toucher au modèle ;
Analyse des retours clients. Sur les avis en ligne, les réponses aux enquêtes de satisfaction et les commentaires sur les réseaux sociaux, le modèle identifie les thématiques abordées (délai de livraison, qualité du produit, service après-vente) et le sentiment associé (positif, négatif, neutre). L'entreprise peut ainsi détecter un problème émergent avant qu'il ne se généralise ;
Contrôle visuel de produits ou de documents. Photos de marchandises, scans de factures, images de chantier : le modèle vérifie la conformité par rapport à des critères définis en langage naturel (« colis endommagé », « signature manquante », « équipement de sécurité absent »). L'ajout d'un nouveau critère de contrôle ne nécessite pas de collecter des centaines d'images d'exemple ;
Routage des demandes vers le bon interlocuteur. Sur les tickets de support, les appels transcrits et les messages instantanés des clients, le modèle identifie le sujet et le niveau d'urgence pour orienter la demande vers le service ou la personne compétente. Les règles de routage s'adaptent en modifiant la liste des catégories sans intervention technique lourde.

💡 Zero-shot learning : par où commencer ?

Le tri des emails est le cas d'usage le plus universel pour tester le Zero-shot learning. Toute entreprise reçoit des messages à orienter (demandes commerciales, réclamations, candidatures, spam). Pour démarrer, créez un compte gratuit sur Hugging Face, accédez à l'espace de démonstration du modèle, puis collez un email type et listez vos catégories (« demande de devis », « réclamation », « partenariat », « candidature »). Le modèle indique ensuite dans quelle catégorie il classerait l'email et à quel point il en est sûr (par exemple : « réclamation » à 92 %. Si les résultats sont satisfaisants sur une dizaine d'emails test, l'étape suivante consiste à connecter le modèle à votre boîte mail via l'API Hugging Face ou un outil d'automatisation comme Zapier ou Make.