La vectorisation est un procédé qui convertit des données non numériques (texte, image, son) en vecteurs, c'est-à-dire en suites de nombres. Les modèles d'IA ne comprennent que les nombres : la vectorisation est l'étape qui leur permet de traiter du langage humain, des photos ou des fichiers audio.
Comprendre la vectorisation en 2 minutes chrono
Un modèle d'IA est, au fond, une machine à calculer. Il additionne, multiplie et compare des nombres. Il ne sait pas ce qu'est un mot, une image ou une note de musique. Pour qu'il puisse traiter ces données, il faut d'abord les traduire dans un langage qu'il comprend : des suites de nombres, ou vecteurs.
Prenons l'exemple du texte. L’approche la plus simple consiste à attribuer un numéro à chaque mot du vocabulaire d’une langue donnée : « chat » = 1, « chien » = 2, « maison » = 3, etc. Mais cette méthode pose un problème : le modèle n'a aucun moyen de savoir que « chat » et « chien » sont plus proches sémantiquement que « chat » et « maison ». Les numéros sont arbitraires.
Les techniques de vectorisation tentent justement de prendre en compte la dimension de la proximité sémantique. Elles représentent chaque mot par un vecteur de plusieurs centaines de dimensions (plutôt que par un chiffre). Chaque dimension capture une caractéristique sémantique du mot.
Dans cet espace vectoriel, les mots qui ont des sens comparables se retrouvent proches les uns des autres. « Roi » et « reine » sont voisins, tout comme « Paris » et « Berlin ». Mieux encore : les relations entre mots sont préservées. Le vecteur qui relie « homme » à « femme » est similaire à celui qui relie « roi » à « reine ».
Les premières méthodes de ce type (Word2Vec, GloVe) attribuaient un vecteur fixe à chaque mot. Le mot « avocat » avait la même représentation, qu'il désigne le fruit ou le professionnel du droit. Les nouveaux modèles comme BERT ou GPT produisent plutôt des vecteurs contextuels : la représentation d'un mot dépend de la phrase dans laquelle il apparaît.
Évidemment, la vectorisation ne se limite pas au texte. Elle s'applique aussi :
- Aux images : les réseaux de neurones convolutifs (CNN) transforment chaque photo en un vecteur qui capture ses caractéristiques visuelles (formes, couleurs, textures). Deux images similaires produiront des vecteurs proches ;
- Au son : les fichiers audio sont convertis en vecteurs qui représentent leurs propriétés acoustiques. C'est ce qui permet la reconnaissance vocale ou l'identification musicale ;
- Aux documents entiers : un PDF de 50 pages peut être résumé en un seul vecteur, ce qui permet de le comparer à d'autres documents ou de le classer automatiquement dans une base de données.
💡 Vectorisation : quel intérêt pour les entreprises ?
Dans l’entreprise, la vectorisation est au cœur des systèmes de recherche sémantique (retrouver des documents par leur sens, pas seulement par des mots-clés), des moteurs de recommandation (suggérer des produits similaires aux clients) et des architectures RAG qui permettent à un modèle de langage de baser ses réponses sur une base documentaire de l’entreprise.
