Une faille béante dans la sécurité des modèles d’IA open source
Quand un attaquant envoie une requête malveillante unique, les modèles d’IA open source tiennent bon, bloquant les attaques 87% du temps en moyenne. Mais lorsque ces mêmes attaquants envoient plusieurs invites à travers une conversation, en sondant, reformulant et intensifiant leurs tentatives lors de nombreux échanges, les chiffres s’inversent brutalement. Les taux de réussite des attaques grimpent de 13% à 92%.
- Une faille béante dans la sécurité des modèles d’IA open source
- Huit modèles testés, huit vulnérabilités confirmées
- Cinq stratégies d’attaque qui exploitent la persistance conversationnelle
- L’écart entre benchmarks et réalité opérationnelle
- Pourquoi les modèles open source sont particulièrement vulnérables
- Les objectifs de développement influencent la résilience
- Implications pour la sécurité des entreprises
- Six capacités critiques pour sécuriser les déploiements IA
- La sécurité comme catalyseur, non comme obstacle
- Un problème systémique qui nécessite une action urgente
- Vers des standards de sécurité cohérents
- L’urgence d’une réponse coordonnée
Cette découverte alarmante provient d’une étude majeure menée par l’équipe Cisco AI Threat Research and Security, publiée sous le titre évocateur « Death by a Thousand Prompts: Open Model Vulnerability Analysis » (Mort par mille invites : analyse de vulnérabilité des modèles ouverts). Pour les RSSI évaluant des modèles à poids ouverts pour un déploiement en entreprise, les implications sont immédiates et critiques.
Les modèles alimentant vos chatbots orientés client, vos copilotes internes et vos agents autonomes peuvent réussir les benchmarks de sécurité à tour unique tout en échouant de manière catastrophique sous une pression adversariale soutenue.
« Beaucoup de ces modèles ont commencé à devenir un peu meilleurs », explique DJ Sampath, vice-président senior du groupe de plateforme logicielle IA de Cisco, à VentureBeat. « Quand vous l’attaquez une fois, avec des attaques à tour unique, ils sont capables de le protéger. Mais lorsque vous persistez avec des attaques multi-tours, ils s’effondrent complètement. »
Huit modèles testés, huit vulnérabilités confirmées
L’équipe de recherche de Cisco a évalué huit modèles à poids ouverts majeurs en utilisant une méthodologie de boîte noire – c’est-à-dire en testant sans connaissance de l’architecture interne, exactement comme opèrent les attaquants du monde réel. Les modèles évalués incluent :
- Alibaba (Qwen3-32B)
- DeepSeek (v3.1)
- Google (Gemma 3-1B-IT)
- Meta (Llama 3.3-70B-Instruct)
- Microsoft (Phi-4)
- Mistral (Large-2)
- OpenAI (GPT-OSS-20b)
- Zhipu AI (GLM 4.5-Air)
Utilisant la plateforme AI Validation de Cisco, qui effectue des tests de vulnérabilité algorithmiques automatisés, l’équipe a mesuré ce qui se passe lorsque la persistance remplace les attaques à tir unique. Les chercheurs notent : « Les taux de réussite des attaques (ASR) à tour unique sont en moyenne de 13,11%, car les modèles peuvent plus facilement détecter et rejeter les entrées adversariales isolées. En revanche, les attaques multi-tours, tirant parti de la persistance conversationnelle, atteignent un ASR moyen de 64,21% [une augmentation de 5 fois], certains modèles comme Alibaba Qwen3-32B atteignant un ASR de 86,18% et Mistral Large-2 atteignant un ASR de 92,78%. »
Pour Mistral Large-2, cette performance représente une augmentation de 21,97% par rapport à une attaque à tour unique – une escalade dramatique qui témoigne d’une incapacité systémique à maintenir des défenses contextuelles sur des dialogues prolongés.
Cinq stratégies d’attaque qui exploitent la persistance conversationnelle
L’étude a testé cinq stratégies d’attaque multi-tours, chacune exploitant un aspect différent de la persistance conversationnelle. Ces techniques révèlent comment les attaquants utilisent les mêmes tactiques de manipulation qui fonctionnent sur les humains.
La décomposition et le réassemblage de l’information fragmentent les requêtes nuisibles en composants anodins à travers plusieurs tours de conversation, puis les réassemblent. Contre Mistral Large-2, cette technique a atteint un taux de réussite de 95%. Par exemple, un attaquant pourrait d’abord demander des informations générales sur les explosifs, puis sur les détonateurs, puis sur les techniques d’assemblage, chaque requête semblant innocente isolément.
L’ambiguïté contextuelle introduit un cadrage vague qui confond les classificateurs de sécurité, atteignant 94,78% de réussite contre Mistral Large-2. Cette approche joue sur la difficulté des modèles à interpréter les intentions lorsque le contexte n’est pas explicite.
Les attaques crescendo intensifient progressivement les requêtes à travers les tours, commençant de manière anodine et se construisant vers du contenu nuisible. Cette technique a obtenu 92,69% de réussite contre Mistral Large-2. L’attaquant commence par des questions légitimes avant d’escalader graduellement vers des demandes problématiques.
Le jeu de rôle et l’adoption de persona établissent des contextes fictionnels qui normalisent les sorties nuisibles, atteignant jusqu’à 92,44% de réussite contre Mistral Large-2. Par exemple, demander au modèle d’agir comme un personnage de fiction ou un expert dans un scénario hypothétique peut contourner les garde-fous de sécurité.
La reformulation de prompts rejetés consiste simplement à reformuler les requêtes que le modèle a initialement rejetées, en changeant la phraséologie ou l’angle d’approche tout en conservant l’intention malveillante sous-jacente.
L’écart entre benchmarks et réalité opérationnelle
L’écart de performance entre les attaques à tour unique et multi-tours varie de 10 points de pourcentage (Google Gemma) à plus de 70 points de pourcentage (Mistral, Llama, Qwen). Cette disparité soulève une question cruciale : les benchmarks de sécurité actuels mesurent-ils vraiment la résilience dans des conditions réelles d’utilisation ?
Les chercheurs de Cisco affirment que traiter les attaques IA multi-tours comme une extension des vulnérabilités à tour unique manque complètement le point. L’écart entre elles est catégorique, pas une question de degré.
Selon le type de contenu malveillant ciblé, les résultats varient considérablement. La génération de code malveillant montre des taux constamment élevés (de 3,1% à 43,1%), tandis que les tentatives d’extraction de modèle montrent un succès quasi nul sauf pour Microsoft Phi-4. Cette variabilité suggère que différents modèles ont des forces et faiblesses distinctes selon le vecteur d’attaque.
Pourquoi les modèles open source sont particulièrement vulnérables
Les modèles à poids ouverts offrent aux chercheurs et développeurs des fondations accessibles pour diverses applications en aval. Chacun de ces modèles est livré avec ses poids entraînés disponibles en téléchargement, permettant aux développeurs de les exécuter sur leurs propres systèmes ou de les ajuster pour des tâches et projets spécifiques.
Mais cette ouverture crée également des risques uniques. Comme le souligne l’étude de Cisco, les experts en sécurité avertissent depuis longtemps que les modèles IA à poids ouverts peuvent être facilement transformés en versions dangereuses. La capacité de fine-tuner ces systèmes si librement donne aux attaquants un moyen de supprimer les protections intégrées et de les réorienter vers un usage nuisible.
Parce que les poids sont accessibles publiquement, n’importe qui peut réentraîner le modèle avec des objectifs malveillants, soit pour affaiblir ses garde-fous, soit pour le tromper afin qu’il produise du contenu que les modèles fermés rejetteraient. Selon Cisco, environ 400 millions de poids de modèles provenant de principaux fournisseurs américains, chinois et européens ont été téléchargés via Hugging Face jusqu’en août 2025 – un indicateur de la large diffusion, mais aussi de l’attractivité croissante de ces modèles pour les attaquants.
Certains développeurs de modèles, comme Google, OpenAI, Meta et Microsoft, ont noté dans leurs rapports techniques et cartes de modèles qu’ils ont pris des mesures pour réduire la probabilité d’un fine-tuning malveillant. D’autres, comme Alibaba, DeepSeek et Mistral, n’ont pas reconnu la sécurité dans leurs rapports techniques.
Les objectifs de développement influencent la résilience
L’étude révèle que les stratégies d’alignement et les priorités des laboratoires influencent significativement la résilience des modèles. Les modèles axés sur les capacités comme Llama 3.3 et Qwen3 démontrent une susceptibilité multi-tours plus élevée.
Par exemple, le fine-tuning d’instructions de Qwen tend à privilégier l’utilité et l’étendue, ce que les attaquants peuvent exploiter en recadrant leurs invites comme « pour la recherche » ou « scénarios fictifs », d’où un taux de réussite d’attaque multi-tours plus élevé de 92,78%.
Meta, en revanche, a tendance à livrer des poids ouverts en s’attendant à ce que les développeurs ajoutent leurs propres couches de modération et de sécurité. Cette philosophie transfère la responsabilité de la sécurité du créateur du modèle vers le déployeur.
Les résultats contre GPT-OSS-20b, par exemple, s’alignent étroitement avec les propres évaluations d’OpenAI : les taux de réussite globaux des attaques pour le modèle étaient relativement faibles, mais les taux étaient à peu près cohérents avec la section « évaluation de jailbreak » du document de carte de modèle GPT-OSS où les refus variaient de 0,960 à 0,982 pour GPT-OSS-20b. Ce résultat souligne la susceptibilité continue des modèles de pointe aux attaques adversariales.
Implications pour la sécurité des entreprises
Pour les RSSI et leurs équipes, ces découvertes représentent un défi considérable. Les modèles d’IA sont de plus en plus intégrés dans des systèmes critiques : chatbots orientés client, outils de support de décision, copilotes de code, agents autonomes pour l’automatisation des processus.
Les vulnérabilités identifiées par Cisco pourraient se traduire par des menaces réelles incluant :
- Exfiltration de données sensibles : les attaquants pourraient manipuler les modèles pour divulguer des informations propriétaires ou confidentielles
- Manipulation de contenu compromettant l’intégrité des données et des informations
- Violations éthiques via des sorties biaisées ou discriminatoires
- Perturbations opérationnelles dans les systèmes intégrés comme les chatbots ou les outils de support de décision
Dans les environnements d’entreprise, de telles vulnérabilités pourraient permettre un accès non autorisé à des informations propriétaires. Dans les applications publiques, elles pourraient faciliter la diffusion de désinformation, la génération de deepfakes, ou d’autres formes de médias numériques nuisibles.
Six capacités critiques pour sécuriser les déploiements IA
Face à ces menaces, Cisco identifie six capacités critiques que les entreprises devraient prioriser pour sécuriser leurs déploiements d’IA :
Les garde-fous conscients du contexte qui maintiennent l’état à travers les tours de conversation sont essentiels. Les systèmes de sécurité doivent comprendre l’historique complet de la conversation, pas seulement l’invite actuelle.
La détection comportementale qui identifie les patterns d’escalation progressive permet de repérer les attaques crescendo avant qu’elles n’atteignent leur objectif malveillant.
La validation de l’intention à chaque tour de conversation aide à identifier quand une série de requêtes apparemment innocentes construit vers un objectif nuisible.
Les limites de conversation qui déclenchent une réinitialisation après un nombre défini de tours peuvent interrompre les attaques multi-tours en cours.
L’analyse de la dérive sémantique détecte quand les conversations s’éloignent progressivement des domaines autorisés vers des territoires interdits.
Les mécanismes de mémoire de conversation qui maintiennent un contexte de sécurité sur l’ensemble du dialogue, plutôt que de traiter chaque invite de manière isolée.
La sécurité comme catalyseur, non comme obstacle
DJ Sampath de Cisco recadre la sécurité non pas comme un obstacle mais comme le mécanisme qui permet l’adoption : « La façon dont les responsables de la sécurité à l’intérieur des entreprises y pensent, c’est : ‘Je veux débloquer la productivité pour tous mes utilisateurs. Tout le monde réclame d’utiliser ces outils. Mais j’ai besoin des bons garde-fous en place parce que je ne veux pas apparaître dans un article du Wall Street Journal' », a-t-il déclaré à VentureBeat.
Sampath continue : « Si nous avons la capacité de voir les attaques par injection de prompts et de les bloquer, je peux alors débloquer et libérer l’adoption de l’IA d’une manière fondamentalement différente. »
Cette perspective transforme la sécurité d’un frein perçu en un accélérateur d’innovation. Les entreprises qui peuvent déployer des modèles d’IA en toute confiance, sachant qu’elles disposent de protections robustes contre les attaques multi-tours, peuvent adopter ces technologies plus rapidement et plus largement que celles paralysées par les préoccupations de sécurité.
Un problème systémique qui nécessite une action urgente
Les résultats de Cisco quantifient ce que de nombreux chercheurs en sécurité ont longtemps observé et soupçonné, mais ne pouvaient pas prouver à grande échelle. L’escalade des taux de réussite des attaques, allant de 2 fois à 10 fois, découle de l’incapacité des modèles à maintenir des défenses contextuelles sur des dialogues étendus, permettant aux attaquants de raffiner les prompts et de contourner les protections.
Cette vulnérabilité n’est pas un problème mineur ou théorique. Avec 87% des organisations mondiales ayant été confrontées à une cyberattaque alimentée par l’IA en 2024, et 91% anticipant une augmentation significative des menaces pilotées par l’IA au cours des trois prochaines années, la fenêtre d’action se rétrécit rapidement.
Pourtant, seulement 26% des organisations expriment une grande confiance dans leur capacité à détecter ces attaques. Malgré le fait que 77% des dirigeants informatiques interrogés déclarent avoir subi une forme de violation liée à l’IA, seulement 30% ont déployé une défense manuelle contre les attaques adversariales dans leur développement d’IA existant, y compris les pipelines MLOps. Seulement 14% planifient et testent de telles attaques.
Vers des standards de sécurité cohérents
L’incohérence des normes de sécurité dans le paysage des modèles à poids ouverts crée des risques de sécurité, opérationnels, techniques et éthiques que les parties prenantes – des utilisateurs finaux aux développeurs en passant par les organisations et entreprises qui adoptent ces technologies – doivent considérer lors de l’adoption ou du déploiement de ces modèles.
Le rapport complet de Cisco, disponible sur arXiv, fournit une ventilation complète de l’analyse et des recommandations spécifiques. Il appelle à traiter la protection des modèles d’IA comme n’importe quel autre travail de sécurité logicielle : cela nécessite des tests constants, une protection continue et une communication claire sur les risques impliqués.
Les développeurs peuvent affiner les modèles à poids ouverts pour être plus robustes face aux jailbreaks et autres attaques adversariales, bien que Cisco reconnaisse également que les acteurs malveillants peuvent inversement affiner les modèles à poids ouverts à des fins malveillantes.
L’urgence d’une réponse coordonnée
Face à cette menace systémique, l’industrie doit adopter une approche plus rigoureuse de la sécurité des modèles d’IA. Cela inclut :
- Des benchmarks de sécurité qui évaluent spécifiquement la résilience multi-tours, pas seulement les performances à tour unique
- Des frameworks de test standardisés qui simulent des scénarios d’attaque réalistes
- Une transparence accrue sur les mesures de sécurité prises par les développeurs de modèles
- Des meilleures pratiques partagées pour le déploiement sécurisé de modèles à poids ouverts
- Une formation continue des équipes de sécurité sur les vecteurs d’attaque émergents
Comme le conclut l’équipe de recherche de Cisco : « Ces résultats soulignent une incapacité systémique des modèles actuels à poids ouverts à maintenir des garde-fous de sécurité lors d’interactions prolongées. »
La question n’est plus de savoir si les modèles d’IA peuvent être exploités, mais combien de temps il faudra à l’industrie pour développer et déployer les protections nécessaires avant que les attaquants n’exploitent massivement ces vulnérabilités. Pour les entreprises qui déploient ou envisagent de déployer des modèles d’IA, l’urgence d’agir n’a jamais été aussi claire.
Source : VentureBeat, Cisco Blogs, arXiv, HackRead

