OpenAI a lancé le 7 mai 2026 trois nouveaux modèles vocaux accessibles via son API. GPT-Realtime-2, son premier modèle vocal doté d’un raisonnement de niveau GPT-5, offre désormais une fenêtre de contexte de 128 000 tokens — quatre fois plus qu’avant. Une avancée majeure pour les développeurs qui construisent des agents conversationnels et des outils de traduction en temps réel.

Publicite

Jusqu’ici, les modèles temps réel d’OpenAI étaient conçus pour la rapidité, mais pas pour la complexité. GPT-Realtime-2 change la donne : il peut raisonner pendant qu’il répond, gérer les interruptions, appeler des outils et adapter son ton selon le contexte de la conversation.

Un modèle vocal capable de penser en parlant

Le principal apport de GPT-Realtime-2 est son niveau de raisonnement intégré. Là où les versions précédentes se contentaient de traiter des requêtes simples, ce nouveau modèle embarque les capacités de GPT-5 dans un flux vocal en direct. La fenêtre de contexte passe de 32 000 à 128 000 tokens, ce qui rend possibles les sessions longues et les flux agentiques complexes sans devoir recharger l’état de la conversation.

Le modèle gère également les interruptions naturelles — un utilisateur peut couper la parole, corriger sa demande ou changer de sujet — et l’IA s’adapte sans perdre le fil. C’est une évolution notable par rapport aux modèles vocaux de génération précédente, qui échouaient souvent dès qu’une conversation devenait non linéaire. Pour les entreprises déployant des agents basés sur ChatGPT, cela représente un changement profond.

Traduire 70 langues en direct avec GPT-Realtime-Translate

OpenAI a accompagné GPT-Realtime-2 de deux modèles complémentaires. GPT-Realtime-Translate propose de la traduction vocale simultanée : il accepte plus de 70 langues en entrée et produit de l’audio traduit dans 13 langues de sortie — dont le français — tout en générant une transcription en parallèle. La facturation se fait à 0,034 dollar par minute d’utilisation.

Publicite

Le troisième modèle, GPT-Realtime-Whisper, est dédié à la transcription en continu. Il retranscrit la parole au fil de l’eau, sans attendre la fin d’une phrase, à un coût de 0,017 dollar par minute — la moitié du modèle de traduction. Avec ces trois outils, OpenAI propose désormais une suite vocale complète pour les développeurs, à l’heure où iOS 27 ouvre aussi la voix aux assistants IA tiers.

Ce que ça change pour les développeurs et entreprises en France

Les trois modèles sont accessibles dès maintenant via la Realtime API d’OpenAI, sans restriction géographique annoncée. GPT-Realtime-2 est facturé 32 dollars par million de tokens audio en entrée et 64 dollars par million de tokens audio en sortie. Les tokens mis en cache bénéficient d’un tarif réduit à 0,40 dollar par million, ce qui rend les sessions longues nettement plus économiques.

Ces outils ouvrent la voie à des applications concrètes : assistants vocaux d’entreprise, centres d’appel automatisés, interfaces accessibles aux personnes malvoyantes, ou encore outils de traduction simultanée pour les équipes internationales. Une évolution à suivre de près, notamment à l’aune de la dynamique des suppressions de postes liées à l’IA dans les grands groupes tech.

À retenir

GPT-Realtime-2 intègre le raisonnement GPT-5 dans un modèle vocal temps réel, avec une fenêtre de 128 000 tokens
GPT-Realtime-Translate traduit en direct plus de 70 langues vers 13 sorties audio, dont le français
Les trois modèles sont disponibles dès maintenant via l’API OpenAI, sans restriction géographique connue

Publicite

GPT-Realtime-2 : OpenAI révolutionne les agents vocaux IA

Un modèle vocal capable de penser en parlant

Traduire 70 langues en direct avec GPT-Realtime-Translate

Ce que ça change pour les développeurs et entreprises en France

Alexia Cornu démonte le mythe du cardio et remet la musculation au cœur de la santé des femmes

Benjamin Locreille retrace la vie de Felix Gonzalez-Torres dans un premier livre contre l’oubli

Livre : Marc Lemonier révèle un Paris sensuel et secret dans son nouveau guide érotique

Programme TV ce soir 31 mai : Le Bon Dieu face à James Bond

Le sacre du PSG vire aux débordements : 780 interpellations

Albi : le 1er championnat du monde de rembobinage de cassettes

Son classement padel fait jaser : Cyril Hanouna au cœur d’une polémique qui secoue le milieu

PSG champion : quand les politiques jouent la carte football sur les réseaux sociaux

ChatGPT, Gemini ou Claude : quel assistant IA choisir en 2026

Anthropic dépasse OpenAI et frôle les 1 000 milliards

Robinhood, Visa : l’IA peut désormais dépenser votre argent

Instagram, Facebook, WhatsApp : Meta lance des offres payantes

IA : sans règles d’utilisation, une entreprise a dépensé 500 millions de dollars en un mois sur Claude

Un modèle vocal capable de penser en parlant

Traduire 70 langues en direct avec GPT-Realtime-Translate

Mais aussi

Ce que ça change pour les développeurs et entreprises en France

Mais aussi