La start-up DeepSeek renforce sa position dans l’IA générative avec Janus-Pro, un modèle spécialisé dans la génération d’images à partir de texte, conçu pour rivaliser avec les géants du secteur comme DALL-E 3 et Stable Diffusion 3 Medium. Cette innovation s’appuie sur l’héritage de JanusFlow, un framework multimodal combinant un modèle de langage autoregressif et la technologie « rectified flow » pour unifier compréhension et génération d’images.
Points forts de Janus-Pro : Performance, flexibilité et open source
- Architecture optimisée
- Double encodage visuel : Séparation des tâches de compréhension (sémantique haute niveau) et de génération (détails locaux) via des encodeurs dédiés.
- Rectified Flow : Une méthode de modélisation basée sur des équations différentielles ordinaires, simplifiant le processus de génération tout en améliorant la qualité des images.
- Guidage sans classifieur : Utilisation d’un facteur de guidage réglable pour aligner sémantiquement texte et image, réduisant les artefacts visuels.
- Performances de pointe
- Benchmarks :
- MMBench : Score de 79,2 pour la version 7B, surpassant MetaMorph (75,2) et TokenFlow (68,9).
- GenEval : Score de 0,80 en traduction texte-image, contre 0,67 pour DALL-E 3 et 0,74 pour Stable Diffusion 3 Medium.
- Fréchet Inception Distance (FID) : 9,51, meilleur que SDv1.5 et SDXL.
- Benchmarks :
- Open source et accessibilité
- DeepSeek propose deux versions de Janus-Pro (1B et 7B paramètres), avec des modèles et codes disponibles publiquement.
- Une démo en ligne permet de tester le modèle pour des cas d’usage concrets (création artistique, design, etc.).
Applications pratiques et cas d’usage
- Création de contenu : Génération d’illustrations pour médias, publicités ou jeux vidéo.
- Design assisté par IA : Prototypage visuel en architecture ou urbanisme.
- Éducation : Matériel pédagogique interactif combinant texte et images.
- Assistants visuels : Réponses précises à des questions complexes en contexte multimédia.
Limites et perspectives d’amélioration
- Résolution limitée : Les images générées sont restreintes à 384×384 pixels, impactant les détails fins.
- Perte de détails : Certaines générations souffrent d’une reconstruction imparfaite, notamment pour les personnages humains.
- Évolutions prévues : Les chercheurs planchent sur l’augmentation de la résolution et l’intégration de données multimodales supplémentaires.
Conclusion : Pourquoi Janus-Pro change la donne ?
Janus-Pro incarne l’évolution des modèles multimodaux, combinant efficacité technique et accessibilité. Ses performances rivalisent avec les leaders du marché, tout en offrant une alternative transparente et personnalisable.