Speech-to-text (STT)

Speech-to-text (littéralement « de la parole au texte ») désigne la transcription automatique d'un signal audio vocal en texte écrit. Ce terme est synonyme d'ASR (Automatic Speech Recognition) et de reconnaissance vocale automatique. Dans le contexte des API et des outils destinés aux développeurs, c’est l'appellation la plus courante.

Le terme « Speech-to-text » s'est imposé comme appellation standard dans l'écosystème des services cloud et des API de transcription. 

Google, Amazon, Microsoft et OpenAI proposent chacun une API Speech-to-text, facturée à la minute d'audio transcrite. Ces services permettent aux développeurs d'intégrer la transcription automatique dans leurs applications sans avoir à entraîner ou héberger eux-mêmes un modèle de reconnaissance vocale.

Whisper, une révolution dans le Speech-to-text en entreprise

En 2022, OpenAI a publié Whisper, un modèle de transcription open source entraîné sur 680 000 heures d'audio multilingue. Whisper a redistribué les cartes : pour la première fois, un modèle atteignant des performances comparables aux API commerciales devenait téléchargeable et utilisable gratuitement. 

Les entreprises peuvent désormais l'exécuter sur leurs propres serveurs, ce qui évite d'envoyer des fichiers audio sensibles (enregistrements de réunions, conversations clients, données médicales) vers des services cloud tiers. Le choix entre une API cloud et un modèle hébergé en interne dépend de plusieurs critères :

  • Confidentialité des données : les secteurs soumis à des réglementations strictes (santé, finance, défense) privilégient l'hébergement local pour éviter que les fichiers audio ne transitent par des serveurs externes ;
  • Volume de transcription : les API cloud facturent à la minute. Au-delà d'un certain volume, il devient plus rentable d’héberger Whisper sur ses propres machines ;
  • Temps réel ou différé : les API cloud proposent généralement des modes de transcription en temps réel (pour les sous-titres en direct ou les assistants vocaux). Whisper, dans sa version standard, traite les fichiers audio en différé ;
  • Langues et accents : Whisper prend en charge une centaine de langues, mais pas à des performances égales. Les API commerciales proposent parfois des modèles optimisés pour des langues moins courantes, voire des accents régionaux (surtout aux États-Unis).

💡 Quel outil de Speech-to-text pour votre entreprise ?

Les entreprises qui ont un besoin de transcription ont aujourd'hui l'embarras du choix : l'application mobile Whisper Transcription (iOS), le site TurboScribe, la fonction de transcription intégrée à Microsoft Word (onglet Dictée > Transcrire) ou encore les transcriptions automatiques intégrées dans Google Meet et Microsoft Teams. Ces options couvrent la plupart des besoins courants : comptes rendus de réunion, retranscription d'entretiens, archivage d'appels commerciaux…