L’éditeur chinois DeepSeek a mis en ligne le 24 avril deux nouveaux modèles d’intelligence artificielle, baptisés V4-Pro et V4-Flash. Annoncés sous licence MIT et accessibles via API, ces modèles affichent des performances proches de GPT-5.5 et Claude Opus 4.7 pour une fraction du prix.

Par Stéphane Larue

L’annonce, dévoilée par le laboratoire de Hangzhou sur sa documentation API, marque le retour fracassant de DeepSeek dans la course aux modèles ouverts. Un an après son premier coup d’éclat qui avait secoué la Silicon Valley, l’éditeur revient avec une architecture remaniée et des tarifs particulièrement agressifs.

Deux versions pour deux usages

Le V4-Pro embarque 1 600 milliards de paramètres au total, dont 49 milliards activés à chaque requête grâce à une architecture Mixture-of-Experts. Le V4-Flash, plus léger, totalise 284 milliards de paramètres avec 13 milliards activés. Les deux modèles partagent une fenêtre de contexte d’un million de tokens, suffisante pour ingérer de longs codes ou des dossiers entiers en une seule requête.

L’innovation technique principale s’appelle Hybrid Attention. Cette mécanique combine attention compressée et attention très compressée pour réduire l’empreinte mémoire sans sacrifier la qualité des réponses. Résultat selon DeepSeek : 27 % seulement des opérations d’inférence et 10 % du cache mémoire nécessaires comparé à la version V3.2.

Une grille tarifaire qui bouscule les géants

C’est sur le portefeuille que DeepSeek frappe le plus fort. Le V4-Flash s’affiche à 1 dollar par million de tokens en entrée et 2 dollars en sortie. Le V4-Pro est facturé 12 et 24 dollars dans la grille standard, mais un rabais de 75 % s’applique jusqu’au 5 mai 2026, ramenant son coût à un niveau quasi imbattable face aux modèles de pointe d’OpenAI ou Anthropic.

Sur les benchmarks, l’écart avec les leaders se mesure désormais en points et non plus en générations. Selon les premiers tests indépendants relayés par TechCrunch, le V4-Pro talonne les meilleurs modèles propriétaires sur les épreuves de codage et de raisonnement long. Le Flash n’est qu’à 1 ou 2 points derrière son grand frère pour 12 fois moins cher.

La publication sous licence MIT permet à n’importe quel développeur de télécharger les poids depuis Hugging Face et de les exécuter sur son propre matériel. Une stratégie d’ouverture qui contraste avec la fermeture progressive des laboratoires américains et qui pourrait, à nouveau, redessiner l’équilibre du marché de l’IA générative.