Les paramètres sont les valeurs numériques internes que les modèles de machine learning ajustent pendant l'entraînement. Dans les réseaux de neurones, ces paramètres prennent la forme de « poids » (weights) et de « biais » (biases). En 2020, les premiers grands modèles de langage atteignaient 175 milliards de paramètres. Aujourd’hui, les modèles de pointe dépassent le billion (mille milliards).
Paramètres des modèles IA : le facteur des poids
Les réseaux de neurones des modèles IA traitent les données par couches successives. Entre chaque couche, les valeurs sont multipliées par des coefficients numériques : ce sont les poids, qui déterminent l'importance accordée à chaque signal :
- Si le poids est élevé, le signal pèse lourd dans le calcul suivant ;
- Si le poids est proche de zéro, le signal est quasiment ignoré.
Prenons l’exemple d’une tâche de classification d'emails. Le modèle reçoit des caractéristiques en entrée : présence de certains mots, longueur du message, domaine de l'expéditeur, etc. Chaque caractéristique est associée à un poids. Si le mot « gratuit » apparaît souvent dans les spams du jeu d'entraînement, le poids associé à ce mot augmentera au fil de l'apprentissage. Le modèle « apprend » que cette caractéristique est un indicateur fort de spam.
Paramètres des modèles IA : le facteur du biais
Les poids déterminent l'importance de chaque signal entrant, mais ils ne fixent pas le point de départ du calcul.
Reprenons notre exemple. Imaginons que le neurone « spam » fonctionne comme une balance. Les poids déterminent combien chaque indice pèse sur le plateau : le mot « gratuit » pèse lourd, la longueur du message pèse peu, etc. Reste une question : où placer le curseur initial avant d'analyser quoi que ce soit ? C'est le rôle du biais.
La valeur du biais dépend de ce que le modèle a observé pendant l'entraînement. Si 95 % des emails du jeu d'entraînement étaient légitimes, le modèle développe un biais vers « légitime » : il part du principe qu'un email est probablement légitime, et il faudra accumuler plusieurs indices suspects pour faire basculer la balance vers « spam ».
À l'inverse, si le jeu d'entraînement contenait une majorité de spams, le biais pencherait de l'autre côté.
À la fin de l'entraînement, les valeurs des paramètres constituent le « savoir » du modèle. C'est pourquoi les fichiers de poids sont l'élément le plus précieux d'un modèle entraîné : sans eux, il faudrait recommencer l'apprentissage depuis zéro.
💡 Paramètres et hyperparamètres
Les paramètres (poids et biais) sont appris automatiquement pendant l'entraînement. Les hyperparamètres, eux, sont fixés par les ingénieurs avant de lancer l'entraînement : taux d'apprentissage, nombre de couches, taille des lots de données, durée de l'entraînement... Les hyperparamètres influencent la façon dont le modèle apprend, et les paramètres sont ce que le modèle apprend, à proprement parler. À la fin de l'entraînement, les valeurs des paramètres constituent le « savoir » du modèle : c'est pourquoi les fichiers de poids sont l'élément le plus précieux d'un modèle entraîné. Ils sont d’ailleurs ultraconfidentiels.
