L'apprentissage supervisé est une méthode de machine learning où l'algorithme apprend à partir de données étiquetées. L’utilisateur lui fournit des exemples avec les réponses attendues (entrées + sorties), et la machine déduit les règles pour prédire la bonne réponse sur de nouvelles données.
Dans l’entreprise, on compte deux grandes familles d’applications de l’apprentissage supervisé :
- La classification, qui consiste à prédire une catégorie. L'algorithme apprend à trier des éléments dans des cases prédéfinies et applique les règles apprises. Exemples : détecter si un email est un spam ou non, identifier si une transaction est frauduleuse, classer automatiquement des tickets SAV par type de demande (réclamation, question technique, demande commerciale) ;
- La régression, qui consiste à prédire une valeur numérique. L'algorithme apprend à estimer un chiffre en fonction de variables d'entrée. Par exemple : estimer le prix de vente d'un bien immobilier en fonction de sa surface, son emplacement et son état, prévoir le chiffre d'affaires du mois prochain en fonction de l'historique et de la saisonnalité, anticiper le délai de livraison d'une commande, etc.
Prenons un exemple concret : une entreprise de transport veut prédire quels clients risquent de résilier leur contrat dans les 6 prochains mois. Elle constitue un jeu de données historique : pour chaque client passé, elle renseigne des variables (ancienneté, fréquence des commandes, évolution du volume, nombre de réclamations, délai moyen de paiement) et le résultat connu (a résilié/n'a pas résilié).
L'algorithme d’apprentissage supervisé analyse ces milliers d'exemples et identifie les combinaisons de variables qui précèdent une résiliation. Une fois entraîné, le modèle peut scorer les clients actuels : ceux qui présentent les mêmes signaux reçoivent un score de risque élevé. L'entreprise peut alors déclencher une action commerciale ciblée (geste commercial, visite…) pour prévenir le churn.
💡 « Garbage In, Garbage Out »
L'apprentissage supervisé nécessite des données étiquetées, c'est-à-dire des exemples où la réponse est connue. Et c'est souvent son principal frein, car la constitution du jeu de données demande du temps et de la rigueur. Si l'historique est incomplet, biaisé ou mal renseigné, le modèle apprendra des règles fausses et donnera de mauvaises prédictions. C’est le principe de Garbage In, Garbage Out (GIGO).
