Le NLP (Natural Language Processing), ou traitement du langage naturel, est le domaine de l'intelligence artificielle qui permet aux machines de traiter du texte écrit ou parlé en langage humain.
Concrètement, un système NLP peut analyser une phrase pour en extraire le sens, identifier les entités mentionnées (personnes, lieux, dates), détecter une intention ou un sentiment, traduire vers une autre langue ou simplement générer une réponse à une question.
Les assistants vocaux, les correcteurs orthographiques, les filtres anti-spam, les outils de traduction automatique et les chatbots reposent tous sur des techniques de NLP. Les grands modèles de langage (LLM) comme GPT ou Claude sont une catégorie de modèles NLP : ils appliquent les principes du traitement du langage naturel à très grande échelle, avec des architectures et des volumes de données qui leur permettent de générer du texte de manière fluide.
NLP : du texte brut à l'information structurée
Pour un humain, le fait de lire une phrase dans une langue qu’il maîtrise et d’en comprendre le sens est instantané. Pour une machine, le texte brut n'est qu'une suite de caractères sans signification particulière. Le NLP désigne l'ensemble des techniques qui permettent de passer de cette suite de caractères à une représentation exploitable par un programme. Le processus s’exécute en 5 étapes :
- Tokenisation : le texte est découpé en unités, qu’on appelle « tokens ». Selon le système, un token peut correspondre à un mot entier, à une partie de mot ou à un caractère. La phrase « Le client demande un remboursement » devient une liste de cinq tokens ou plus que le modèle traite comme des identifiants numériques ;
- Lemmatisation : chaque mot est ramené à sa forme dite « canonique ». Par exemple, « Demande », « demandait », « demandé » deviennent tous « demander ». Cette étape permet au système de reconnaître qu'il s'agit du même verbe malgré les variations ;
- Analyse syntaxique (parsing) : le système identifie la structure grammaticale de la phrase. Quel mot est le sujet, lequel est le verbe, lequel est le complément, etc. Il construit ensuite un arbre de dépendances entre les éléments ;
- Analyse sémantique : le système attribue un sens aux mots en fonction du contexte. Le mot « avocat » dans « consulter un avocat » est relié au champ lexical du droit. Dans « couper un avocat », il renvoie plutôt au champ lexical de l'alimentation. Les modèles IA post-2022 résolvent cette ambiguïté en analysant les mots environnants dans une large fenêtre de contexte, contrairement aux anciens modèles qui ne pouvaient analyser que les deux à quatre mots qui entourent le terme analysé ;
- Analyse pragmatique : le système interprète l'intention de l'énoncé. La phrase « Il fait froid ici » peut être une demande d’information sur la météo de la région de l’utilisateur ou une requête pour avoir des conseils afin de se réchauffer. Cette étape nécessite la prise en compte du contexte de la conversation.
Ces étapes ne sont pas toujours séquentielles. Les architectures « Transformer », sur lesquelles reposent les LLM post-2022, traitent ces niveaux d'analyse de manière intégrée plutôt que par passes successives.
💡 Du filtre anti-spam rudimentaire aux LLM
Les premières applications NLP grand public apparaissent dans les années 1990 : filtres anti-spam, correcteurs orthographiques, moteurs de recherche... Ces systèmes reposent sur des règles écrites manuellement ou sur des statistiques simples (fréquence des mots, n-grammes). À partir de 2013, les réseaux de neurones récurrents (RNN) ont permis d'analyser des séquences de mots et de tenir compte de leur ordre. La traduction automatique et la reconnaissance vocale progressent, mais ces modèles peinent à traiter des textes longs : l'information du début de la phrase se dilue avant d'atteindre la fin. L'architecture « Transformer », publiée par Google en 2017, introduit le mécanisme d'attention : chaque mot peut être mis en relation avec tous les autres mots de la séquence, quelle que soit la distance. C'est cette architecture qui sert de base aux LLM type GPT, Claude, Gemini et Mistral.
