Un modèle multimodal est un modèle d'intelligence artificielle capable de traiter plusieurs types de données (texte, image, audio, vidéo) au sein d'une même requête. L'utilisateur peut, par exemple, envoyer une photo accompagnée d'une question écrite, et le modèle génère une réponse qui tient compte des deux éléments.
À l'inverse, un modèle unimodal ne traite qu'un seul type de données : du texte vers du texte, ou de l'image vers de l'image. Les versions récentes de GPT, Claude et Gemini sont toutes multimodales.
La brève histoire des modèles IA multimodaux
Les modèles multimodaux sont apparus progressivement à partir de la fin des années 2010, en réponse aux limites des systèmes spécialisés sur un seul type de données.
Les premières avancées ont consisté à coupler des modèles de vision et de langage, notamment pour la description automatique d’images (image captioning) et la recherche texte-image. Un jalon majeur est franchi en 2021 avec CLIP (OpenAI), qui apprend une représentation commune du texte et de l’image à grande échelle.
À partir de 2022-2023, les grands modèles de langage évoluent vers le multimodal : ils intègrent nativement texte, image, puis audio et vidéo, ce qui permet des usages unifiés (raisonnement visuel, analyse de documents, interaction voix-texte).
Les chatbots IA d’OpenAI, Google et Anthropic marquent cette transition en proposant une compréhension croisée des modalités, ouvrant la voie à des assistants capables d’interpréter simultanément des images, des sons et du texte dans une même interaction. La capacité multimodale est progressivement devenue un standard dans le marché des chatbots IA.
Modèle IA multimodal : comment ça marche ?
Les modèles unimodaux sont entraînés sur un seul type de données. Par exemple, un modèle de reconnaissance d'image analyse des pixels, un modèle de langage analyse du texte : chacun reste dans son domaine.
Pour qu'un système unimodal réponde à une question portant sur une image, il faudrait chaîner deux modèles différents : un pour extraire l'information visuelle, un autre pour formuler la réponse, avec une couche d'intégration entre les deux.
Les modèles multimodaux intègrent cette capacité nativement. Pendant l'entraînement, ils apprennent à projeter les différentes modalités dans un espace de représentation commun : le mot « chien », la photo d'un chien et l'aboiement d'un chien finissent par occuper des positions proches dans cet espace vectoriel.
C'est pourquoi le modèle peut établir des correspondances entre une image et une description textuelle, ou répondre à une question portant sur un contenu visuel, sans pipeline externe.
Cette architecture ouvre des usages impossibles avec des modèles unimodaux :
- Analyse de documents scannés : le modèle lit un PDF sous forme d'image et répond à des questions sur son contenu ;
- Diagnostic visuel : l'utilisateur envoie une photo d'un composant défectueux et obtient une explication ou une procédure de réparation ;
- Accessibilité : le modèle décrit oralement le contenu d'une image pour une personne malvoyante ;
- Génération croisée : le modèle produit une image à partir d'instructions écrites, ou une transcription à partir d'un fichier audio.
💡 Le multimodal : des avantages, mais plusieurs limites
Les modèles IA multimodaux consomment beaucoup plus de ressources à l’inférence que les modèles purement textuels. Analyser une image, une vidéo ou un document scanné mobilise davantage de calcul (vision, encodage, fusion des modalités), ce qui explique pourquoi les fonctionnalités multimodales sont souvent plus lentes, plus chères et parfois limitées dans les offres commerciales.
