Une étude publiée dans la revue Science révèle que le modèle d’IA o1 d’OpenAI surpasse deux médecins urgentistes dans l’établissement de diagnostics. Avec un taux de réussite de 67 %, contre 55 % et 50 % pour les praticiens humains, cette recherche Harvard-Beth Israel ouvre un débat majeur sur la place de l’intelligence artificielle en médecine.

Une expérience inédite menée aux urgences de Boston

Des chercheurs de la Harvard Medical School et du Beth Israel Deaconess Medical Center ont évalué les capacités cliniques du modèle de raisonnement o1 d’OpenAI. L’étude, parue le 1er mai 2026 dans la revue Science, est l’une des premières à confronter directement un grand modèle de langage à de véritables dossiers de patients pris en charge aux urgences.

Les scientifiques ont soumis l’IA à 76 cas réels issus du service des urgences de l’hôpital Beth Israel, en lui fournissant uniquement les données disponibles dans les dossiers électroniques — exactement les mêmes informations consultées par les médecins lors de la prise en charge initiale.

67 % de bonnes réponses, contre 55 % et 50 % pour les médecins

Les résultats sont saisissants. Sur l’ensemble des cas testés, o1 a posé le bon diagnostic — ou un diagnostic très proche — dans 67 % des cas. Les deux médecins urgentistes expérimentés mobilisés pour la comparaison ont obtenu respectivement 55 % et 50 % de réussite.

Les diagnostics ont ensuite été évalués à l’aveugle par deux autres praticiens, qui ignoraient si les réponses provenaient d’un humain ou d’une machine. Le modèle a brillé en particulier sur les cas complexes impliquant des maladies rares ou des présentations cliniques atypiques. Les chercheurs ont également testé l’IA sur des observations publiées dans le New England Journal of Medicine, issues du Massachusetts General Hospital — avec des résultats là encore supérieurs aux attendus.

Une IA qui travaille avec des données imparfaites

Ce qui distingue cette étude des recherches précédentes, c’est son ancrage dans la réalité du terrain. L’IA n’a eu accès qu’au texte brut des dossiers médicaux, sans images radiologiques, sans sons, sans les signaux non-verbaux perceptibles au chevet du patient.

Le Dr Adam Rodman, chercheur clinicien à Beth Israel et co-auteur de l’étude, souligne l’importance de cette contrainte : « C’est la grande conclusion pour moi — elle fonctionne avec les données brutes et imparfaites du service des urgences. Elle pose des diagnostics dans le monde réel. »

Le modèle o1, conçu par OpenAI pour raisonner étape par étape, a par ailleurs largement surpassé GPT-4 dans tous les scénarios testés. Pour mieux comprendre les différences entre ces modèles, notre comparatif des chatbots IA revient sur les forces respectives de chaque solution.

Un outil prometteur, mais pas encore prêt pour la clinique

Les auteurs prennent soin de nuancer leurs conclusions. L’IA s’est mesurée à deux praticiens dans un cadre expérimental contrôlé — et non à une équipe pluridisciplinaire dans un service saturé. L’information textuelle ne peut, seule, remplacer l’examen physique, l’écoute du patient ou l’observation clinique directe.

Les chercheurs appellent à des essais prospectifs rigoureux avant toute intégration dans un parcours de soins. L’objectif reste d’explorer l’IA comme outil d’aide à la décision médicale — non comme substitut aux professionnels de santé. Une logique proche de celle décrite dans l’initiative Agent4Science, où des IA assistent les scientifiques sans les remplacer.

Une tendance de fond dans la santé numérique

Cette étude s’inscrit dans une dynamique plus large. Des modèles comme Mistral Medium 3.5 affichent des performances croissantes sur des tâches médicales complexes, de la synthèse de compte-rendus à la détection d’anomalies biologiques. En parallèle, l’accord OpenAI-AWS ouvre la voie à un déploiement massif de ces technologies dans les infrastructures de santé américaines.

En France, la CNIL et les autorités sanitaires travaillent à un cadre réglementaire pour encadrer ces usages, dans le respect du RGPD et des exigences de l’AI Act européen.

À retenir

Le modèle o1 d’OpenAI a posé le bon diagnostic dans 67 % des urgences testées, contre 55 % et 50 % pour deux médecins humains.
L’étude Harvard-Beth Israel (publiée dans Science) est la première à confronter une IA à de vrais dossiers d’urgences avec des données imparfaites.
Les chercheurs déconseillent tout déploiement clinique immédiat et réclament des essais prospectifs encadrés.