Llama et Gemma : Heretic casse les garde-fous IA en 10 minutes

Stéphane Larue
Publié par
Stéphane Larue
Publié parStéphane Larue
Stéphane Larue est journaliste et éditeur indépendant spécialisé dans l actualité des médias, du divertissement et de la culture numérique. Fondateur du site stephanelarue.com, il assure...
5 Min de lecture
Photo : Pachon in Motion / Pexels

Un outil disponible librement sur GitHub permet de désactiver, en quelques minutes seulement, les garde-fous de sécurité des modèles IA open source de Meta et Google. Baptisé Heretic, il a déjà servi à publier plus de 3 500 versions « décensurées » téléchargées 13 millions de fois, selon une enquête du Financial Times publiée le 26 mai 2026.

Le constat est sec. En moins de dix minutes, sans matériel spécialisé ni compétences techniques avancées, des chercheurs ont retiré les protections intégrées à Llama 3.3, le modèle open source de Meta, et à Gemma 3, son équivalent chez Google.

Une fois les garde-fous neutralisés, les IA acceptent de générer des contenus pourtant explicitement bannis par leurs créateurs : modes opératoires liés à des armes biologiques, code malveillant capable de voler des données bancaires, ou textes mettant en scène des abus sexuels sur mineurs.

L’enquête a été menée conjointement par les journalistes du Financial Times et le groupe de recherche en sécurité IA Alice. Elle remet en cause la robustesse réelle des protections déployées par les géants américains sur leurs modèles ouverts.

Heretic, un outil que n’importe qui peut télécharger

Le programme s’appelle Heretic. Il est hébergé sur GitHub, la plateforme de code la plus populaire au monde, et a été développé par Philipp Emanuel Weidmann, chercheur indépendant.

Selon son auteur, l’outil fonctionne sur plus de 3 500 modèles d’intelligence artificielle. Les versions modifiées qu’il a permis de générer ont déjà cumulé plus de 13 millions de téléchargements depuis sa mise en ligne fin 2025, indique le Financial Times.

Concrètement, Heretic applique une technique mathématique appelée abliteration, ou ablation directionnelle. Elle identifie dans le réseau neuronal les zones responsables des refus et les neutralise, sans réentraîner le modèle.

Le résultat tient en une commande. Le modèle conserve ses capacités générales, mais perd la mémoire de ses refus. Pour Google, le délai a été plus court encore : la version Gemma 4 a été contournée en 90 minutes après sa sortie publique.

Pourquoi l’open source devient un casse-tête pour la régulation

Le sujet dépasse la simple curiosité technique. Il pose une question centrale pour les régulateurs européens et la CNIL, alors que l’AI Act européen est entré progressivement en application depuis 2025.

Le règlement européen impose aux fournisseurs de modèles dits « à risque systémique » des obligations strictes de sécurité, d’évaluation des risques et de signalement d’incidents. Mais une fois les poids d’un modèle publiés en open source, personne ne contrôle plus les versions dérivées.

Pour les entreprises qui déploient des solutions IA dans leur production, le risque n’est plus théorique. Un modèle fine-tuné par un fournisseur tiers peut très bien provenir d’une version Heretic, sans que cela soit visible dans les fichiers téléchargés.

Du côté américain, le débat enfle. Meta et Google défendent depuis deux ans le modèle ouvert comme un gage de transparence et d’innovation, face à la stratégie fermée d’OpenAI et d’Anthropic, dont les revenus explosent. Les révélations du FT donnent un argument supplémentaire aux partisans des modèles propriétaires.

Interrogés par le journal britannique, Meta et Google n’ont pas commenté en détail le fonctionnement de Heretic. Les deux groupes rappellent que leurs modèles open source restent encadrés par des licences d’utilisation acceptable, sans plus de précision sur les moyens de faire respecter ces règles dans la pratique.

Ces failles s’inscrivent dans un climat où les usages français de l’IA progressent vite, et où le débat sur la perte d’emplois évolue presque chaque semaine, signe que la sécurité des modèles devient un enjeu autant économique que technique.

À retenir

  • Heretic neutralise les garde-fous IA de Llama et Gemma en moins de 10 minutes.
  • Plus de 3 500 modèles « décensurés » téléchargés 13 millions de fois depuis fin 2025.
  • L’AI Act européen ne couvre pas les versions dérivées d’un modèle open source.

Partagez cet article
Publié parStéphane Larue
Follow:
Stéphane Larue est journaliste et éditeur indépendant spécialisé dans l actualité des médias, du divertissement et de la culture numérique. Fondateur du site stephanelarue.com, il assure une veille quotidienne sur les sujets d information générale, en s appuyant sur les sources officielles et les communiqués de presse. Il publie également des analyses, des interviews et des sélections éditoriales à destination d un large public.