Apprentissage non supervisé

L'apprentissage non supervisé est une méthode de Machine Learning où l'algorithme analyse des données sans étiquettes préalables. Contrairement à l'apprentissage supervisé, personne n'indique à la machine ce qu'elle doit trouver : elle identifie elle-même des structures, des regroupements ou des anomalies dans les données.

L'application la plus courante de l’apprentissage non supervisé en entreprise reste le clustering (ou segmentation). Cette technique consiste à regrouper automatiquement des éléments similaires dans une base de données massive. 

Prenons un exemple concret : un grossiste en fournitures industrielles passe sa base de données de 4 000 clients dans un algorithme de clustering. L'algorithme identifie deux segments relativement inattendus : 

  • Segment 1 : des clients qui commandent des petits volumes mais très régulièrement, qui paient systématiquement à 15 jours et qui ne négocient jamais les prix. Ce segment représente 12 % du chiffre d'affaires avec une marge supérieure de 8 points à la moyenne. L'entreprise décide de leur attribuer un commercial dédié, de leur proposer un programme de fidélité et d'arrêter de leur envoyer des promotions qui cannibalisent la marge.
  • Segment 2 : des clients qui achètent de grands volumes mais qui concentrent leurs commandes sur les produits en promotion, qui paient systématiquement en retard et qui sollicitent beaucoup le SAV. La marge réelle, une fois les coûts cachés intégrés, est décevante. L'entreprise ajuste alors ses conditions commerciales pour ce segment.

L’apprentissage non supervisé peut avoir d’autres applications dans l’entreprise, par exemple : 

  • Détection d'anomalies : un industriel analyse les données de capteurs de ses machines (température, vibrations, consommation…) pour détecter des signaux faibles qui annoncent une panne imminente. Une banque surveille les transactions en temps réel et alerte quand une opération s'écarte du comportement habituel d'un client ; 
  • Moteurs de recommandation : pour les commerces en ligne, l’algorithme ne se contente pas d’identifier des associations simples (les clients qui achètent le produit A achètent également le produit B). Il va plutôt recommander des références que des clients au profil d'achat similaire ont commandées, même si ces références ne sont pas dans les mêmes catégories du catalogue (ou ne sont pas forcément des produits complémentaires) ;
  • Tri automatique de documents : l’algorithme peut, par exemple, regrouper les emails reçus dans une boîte mail de type « contact » par thématique (réclamations, devis, candidatures, factures) et les router vers les bons services.

💡 Ce qu’il faut savoir

L'apprentissage non supervisé ne produit pas de réponses « justes » ou « fausses ». L'algorithme propose des regroupements, et c'est à l'humain d'interpréter si ces groupes ont un sens dans le contexte de son activité. Un clustering peut révéler 5 segments clients valides sur le plan statistique, mais qui ne sont pas utilisables sur le plan commercial.