OpenAI a lancé le 7 mai 2026 trois nouveaux modèles vocaux accessibles via son API. GPT-Realtime-2, son premier modèle vocal doté d’un raisonnement de niveau GPT-5, offre désormais une fenêtre de contexte de 128 000 tokens — quatre fois plus qu’avant. Une avancée majeure pour les développeurs qui construisent des agents conversationnels et des outils de traduction en temps réel.
Jusqu’ici, les modèles temps réel d’OpenAI étaient conçus pour la rapidité, mais pas pour la complexité. GPT-Realtime-2 change la donne : il peut raisonner pendant qu’il répond, gérer les interruptions, appeler des outils et adapter son ton selon le contexte de la conversation.
Un modèle vocal capable de penser en parlant
Le principal apport de GPT-Realtime-2 est son niveau de raisonnement intégré. Là où les versions précédentes se contentaient de traiter des requêtes simples, ce nouveau modèle embarque les capacités de GPT-5 dans un flux vocal en direct. La fenêtre de contexte passe de 32 000 à 128 000 tokens, ce qui rend possibles les sessions longues et les flux agentiques complexes sans devoir recharger l’état de la conversation.
Le modèle gère également les interruptions naturelles — un utilisateur peut couper la parole, corriger sa demande ou changer de sujet — et l’IA s’adapte sans perdre le fil. C’est une évolution notable par rapport aux modèles vocaux de génération précédente, qui échouaient souvent dès qu’une conversation devenait non linéaire. Pour les entreprises déployant des agents basés sur ChatGPT, cela représente un changement profond.
Traduire 70 langues en direct avec GPT-Realtime-Translate
OpenAI a accompagné GPT-Realtime-2 de deux modèles complémentaires. GPT-Realtime-Translate propose de la traduction vocale simultanée : il accepte plus de 70 langues en entrée et produit de l’audio traduit dans 13 langues de sortie — dont le français — tout en générant une transcription en parallèle. La facturation se fait à 0,034 dollar par minute d’utilisation.
Le troisième modèle, GPT-Realtime-Whisper, est dédié à la transcription en continu. Il retranscrit la parole au fil de l’eau, sans attendre la fin d’une phrase, à un coût de 0,017 dollar par minute — la moitié du modèle de traduction. Avec ces trois outils, OpenAI propose désormais une suite vocale complète pour les développeurs, à l’heure où iOS 27 ouvre aussi la voix aux assistants IA tiers.
Ce que ça change pour les développeurs et entreprises en France
Les trois modèles sont accessibles dès maintenant via la Realtime API d’OpenAI, sans restriction géographique annoncée. GPT-Realtime-2 est facturé 32 dollars par million de tokens audio en entrée et 64 dollars par million de tokens audio en sortie. Les tokens mis en cache bénéficient d’un tarif réduit à 0,40 dollar par million, ce qui rend les sessions longues nettement plus économiques.
Ces outils ouvrent la voie à des applications concrètes : assistants vocaux d’entreprise, centres d’appel automatisés, interfaces accessibles aux personnes malvoyantes, ou encore outils de traduction simultanée pour les équipes internationales. Une évolution à suivre de près, notamment à l’aune de la dynamique des suppressions de postes liées à l’IA dans les grands groupes tech.
- GPT-Realtime-2 intègre le raisonnement GPT-5 dans un modèle vocal temps réel, avec une fenêtre de 128 000 tokens
- GPT-Realtime-Translate traduit en direct plus de 70 langues vers 13 sorties audio, dont le français
- Les trois modèles sont disponibles dès maintenant via l’API OpenAI, sans restriction géographique connue
