Alibaba a récemment lancé Qwen-3, la toute dernière génération de ses modèles d’intelligence artificielle. Contrairement aux versions précédentes, Qwen-3 ne se limite pas à un seul modèle, mais se compose de huit nouveaux modèles distincts. Ces modèles sont publiés en open source sous la licence Apache 2.0, ce qui les rend gratuits et utilisables partout.
Parmi ces huit modèles, deux sont particulièrement puissants et basés sur une architecture avancée appelée Mixture of Experts (MOE). Les modèles MOE divisent un grand modèle en plusieurs sous-modèles spécialisés, appelés « experts ». Pour chaque tâche, seuls les experts pertinents sont activés grâce à un réseau de routage (« gate ») qui choisit dynamiquement quel expert utiliser. Cette technique permet de réduire les coûts de calcul tout en améliorant la précision, l’efficacité et la scalabilité du modèle. Les deux modèles MOE principaux sont Qwen-3 235B à 22B, un modèle imposant avec 235 milliards de paramètres dont 22 milliards activés par requête, et Qwen-3 30B à 3B, une version plus légère mais toujours en MOE. En plus de ces deux modèles, il existe six modèles denses, allant de 600 millions à 32 milliards de paramètres, conçus pour une variété d’usages, du cloud au mobile.
Caractéristiques Clés de Qwen-3
Qwen-3 présente plusieurs caractéristiques notables :
- Open Source et Licence A2.0 : Le modèle est open source sous licence Apache 2.0, facilitant son intégration et sa personnalisation.
- Entraînement Massif : Il a été entraîné sur plus de 36 trillions de tokens, soit près du double de sa version précédente (Qwen 2.5).
- Support Multilingue Étendu : Qwen-3 prend en charge plus de 119 langues et dialectes.
- Mode Hybrid Sinking : Ce mode de raisonnement hybride permet au modèle de basculer entre une réponse rapide ou un raisonnement étape par étape en fonction de la complexité de la question ou de la tâche.
- Fonctionnalités Multimodales : Qwen-3 permet l’analyse et l’upload de divers types de médias comme des documents, images, vidéos et fichiers audio. Il est également capable de générer des images et des vidéos directement via son interface.
Performances et Benchmarks
Selon les tableaux comparatifs, Qwen-3 surpasse certains modèles concurrents sur certains benchmarks, et rivalise avec d’autres. La source met l’accent sur ses performances en codage. Lors du test Eder, qui couvre plus de 225 exercices, Qwen-3 rivalise avec OpenAI O1 et est meilleur que DeepSeek R1. Il est cependant inférieur à Gemini 1.5 Pro. La source note l’absence de comparaison avec les modèles Claude 3.5 et 3.7 Sonnet d’Anthropic, qui sont reconnus pour leurs bonnes performances en codage. Il est mentionné que des « on dit » suggèrent que les modèles pourraient être entraînés spécifiquement sur ces exercices de benchmark pour améliorer leurs résultats lors des présentations.
Accès et Test des Modèles
Pour l’instant, les deux modèles principaux de Qwen-3 sont gratuits à l’utilisation. Vous pouvez tester les derniers modèles via le chat de Qwen, en sélectionnant simplement les modèles récemment ajoutés. Le chat Qwen offre diverses fonctionnalités comme la génération d’images, de vidéos, ou l’analyse d’images.
Une autre méthode pour tester les modèles est d’utiliser la plateforme OpenRouter. Sur OpenRouter, les derniers modèles de Qwen sont également disponibles en mode gratuit. La source explique comment obtenir une clé API gratuite depuis OpenRouter pour Qwen-3. Il est crucial de mémoriser ou de sauvegarder immédiatement cette clé API car elle ne s’affiche qu’une seule fois.
La clé API peut ensuite être utilisée pour intégrer Qwen-3 dans des environnements de développement, comme VS Code, en utilisant des extensions telles que Kine et RouCode. La source détaille la configuration dans les paramètres de Kine et RouCode, impliquant la sélection du provider OpenRouter, l’insertion de la clé API, et le choix du modèle Qwen-3 gratuit. Il est précisé que le modèle Qwen-3 via OpenRouter, lors de la démonstration, ne prenait pas en charge les images. Kine propose deux modes, « Plan » (où le modèle propose des idées) et « Act » (où il exécute la tâche). RouCode utilise un système de profils pour gérer différentes configurations de modèles et providers.
En résumé, Qwen-3 représente une avancée significative avec ses modèles diversifiés, son architecture MOE pour les versions les plus puissantes, ses vastes capacités multilingues et multimodales, et ses performances prometteuses en codage, le tout rendu accessible grâce à sa nature open source et son utilisation gratuite actuelle.