DeepSeek V4 Pro et Flash : l’IA chinoise à prix cassé

Stéphane Larue
Publié par
Stéphane Larue
Publié parStéphane Larue
Stéphane Larue est journaliste et éditeur indépendant spécialisé dans l actualité des médias, du divertissement et de la culture numérique. Fondateur du site stephanelarue.com, il assure...
4 Min de lecture
Illustration

L’éditeur chinois DeepSeek a mis en ligne le 24 avril deux nouveaux modèles d’intelligence artificielle, baptisés V4-Pro et V4-Flash. Annoncés sous licence MIT et accessibles via API, ces modèles affichent des performances proches de GPT-5.5 et Claude Opus 4.7 pour une fraction du prix.

L’annonce, dévoilée par le laboratoire de Hangzhou sur sa documentation API, marque le retour fracassant de DeepSeek dans la course aux modèles ouverts. Un an après son premier coup d’éclat qui avait secoué la Silicon Valley, l’éditeur revient avec une architecture remaniée et des tarifs particulièrement agressifs.

Deux versions pour deux usages

Le V4-Pro embarque 1 600 milliards de paramètres au total, dont 49 milliards activés à chaque requête grâce à une architecture Mixture-of-Experts. Le V4-Flash, plus léger, totalise 284 milliards de paramètres avec 13 milliards activés. Les deux modèles partagent une fenêtre de contexte d’un million de tokens, suffisante pour ingérer de longs codes ou des dossiers entiers en une seule requête.

L’innovation technique principale s’appelle Hybrid Attention. Cette mécanique combine attention compressée et attention très compressée pour réduire l’empreinte mémoire sans sacrifier la qualité des réponses. Résultat selon DeepSeek : 27 % seulement des opérations d’inférence et 10 % du cache mémoire nécessaires comparé à la version V3.2.

Une grille tarifaire qui bouscule les géants

C’est sur le portefeuille que DeepSeek frappe le plus fort. Le V4-Flash s’affiche à 1 dollar par million de tokens en entrée et 2 dollars en sortie. Le V4-Pro est facturé 12 et 24 dollars dans la grille standard, mais un rabais de 75 % s’applique jusqu’au 5 mai 2026, ramenant son coût à un niveau quasi imbattable face aux modèles de pointe d’OpenAI ou Anthropic.

Sur les benchmarks, l’écart avec les leaders se mesure désormais en points et non plus en générations. Selon les premiers tests indépendants relayés par TechCrunch, le V4-Pro talonne les meilleurs modèles propriétaires sur les épreuves de codage et de raisonnement long. Le Flash n’est qu’à 1 ou 2 points derrière son grand frère pour 12 fois moins cher.

La publication sous licence MIT permet à n’importe quel développeur de télécharger les poids depuis Hugging Face et de les exécuter sur son propre matériel. Une stratégie d’ouverture qui contraste avec la fermeture progressive des laboratoires américains et qui pourrait, à nouveau, redessiner l’équilibre du marché de l’IA générative.

Partagez cet article
Publié parStéphane Larue
Follow:
Stéphane Larue est journaliste et éditeur indépendant spécialisé dans l actualité des médias, du divertissement et de la culture numérique. Fondateur du site stephanelarue.com, il assure une veille quotidienne sur les sujets d information générale, en s appuyant sur les sources officielles et les communiqués de presse. Il publie également des analyses, des interviews et des sélections éditoriales à destination d un large public.