
Alors qu’OpenAI s’efforce de renforcer la sécurité de son navigateur IA Atlas, l’entreprise reconnaît ouvertement qu’un risque majeur persistera : les attaques par injection de prompts. Ces cyberattaques manipulent les agents IA pour qu’ils suivent des instructions malveillantes, souvent dissimulées dans des pages web ou des emails. Cette admission soulève des questions fondamentales sur la capacité des agents d’intelligence artificielle à opérer en toute sécurité sur le web ouvert.
Les injections de prompts : une menace permanente pour les navigateurs IA
« L’injection de prompts, tout comme les escroqueries et l’ingénierie sociale sur le web, ne sera probablement jamais complètement ‘résolue' », a écrit OpenAI dans un article de blog publié lundi, détaillant comment l’entreprise renforce la protection d’Atlas contre ces attaques incessantes. La société a admis que le « mode agent » dans ChatGPT Atlas « élargit la surface de menace en matière de sécurité ».
OpenAI a lancé son navigateur ChatGPT Atlas en octobre 2025, et les chercheurs en sécurité se sont immédiatement précipités pour publier leurs démonstrations. Ils ont montré qu’il était possible d’écrire quelques mots dans Google Docs capables de modifier le comportement du navigateur sous-jacent. Le jour même, Brave a publié un article de blog expliquant que l’injection indirecte de prompts constitue un défi systémique pour les navigateurs alimentés par l’IA, incluant également Comet de Perplexity.
Une reconnaissance internationale du problème de sécurité
OpenAI n’est pas seule à reconnaître que les attaques basées sur les prompts ne disparaîtront pas. Le Centre national de cybersécurité du Royaume-Uni a averti début décembre que les attaques par injection de prompts contre les applications d’IA générative « pourraient ne jamais être totalement atténuées », exposant les sites web à des risques de violations de données à grande échelle. L’agence gouvernementale britannique a conseillé aux professionnels de la cybersécurité de réduire le risque et l’impact des injections de prompts, plutôt que de penser que les attaques peuvent être « arrêtées ».
De son côté, OpenAI déclare : « Nous considérons l’injection de prompts comme un défi de sécurité IA à long terme, et nous devrons continuellement renforcer nos défenses contre celle-ci ».
La stratégie d’OpenAI : un attaquant automatisé basé sur l’IA
La réponse de l’entreprise à cette tâche sisyphéenne ? Un cycle proactif et de réponse rapide que la société affirme montrer des promesses précoces pour découvrir de nouvelles stratégies d’attaque en interne avant qu’elles ne soient exploitées « dans la nature ».
Ce n’est pas entièrement différent de ce que des rivaux comme Anthropic et Google ont déclaré : pour lutter contre le risque persistant des attaques basées sur les prompts, les défenses doivent être multicouches et continuellement testées sous contrainte. Les travaux récents de Google, par exemple, se concentrent sur des contrôles architecturaux et politiques pour les systèmes agentiques.
Un bot entraîné pour jouer le rôle de hacker
Mais là où OpenAI adopte une approche différente, c’est avec son « attaquant automatisé basé sur un LLM« . Cet attaquant est essentiellement un bot qu’OpenAI a entraîné, en utilisant l’apprentissage par renforcement, pour jouer le rôle d’un hacker qui cherche des moyens de glisser des instructions malveillantes à un agent IA.
Le bot peut tester l’attaque en simulation avant de l’utiliser pour de vrai, et le simulateur montre comment l’IA cible penserait et quelles actions elle entreprendrait si elle voyait l’attaque. Le bot peut ensuite étudier cette réponse, ajuster l’attaque, et réessayer encore et encore. Cette vision du raisonnement interne de l’IA cible est quelque chose auquel les personnes extérieures n’ont pas accès, donc, en théorie, le bot d’OpenAI devrait être capable de trouver des failles plus rapidement qu’un attaquant du monde réel.
« Notre attaquant entraîné par apprentissage par renforcement peut diriger un agent vers l’exécution de flux de travail nuisibles sophistiqués et à long horizon qui se déploient sur des dizaines (voire des centaines) d’étapes », a écrit OpenAI. « Nous avons également observé de nouvelles stratégies d’attaque qui n’apparaissaient pas dans notre campagne de red teaming humain ou dans les rapports externes ».

Démonstration concrète d’une attaque par injection
Dans une démonstration (illustrée en partie ci-dessus), OpenAI a montré comment son attaquant automatisé a glissé un email malveillant dans la boîte de réception d’un utilisateur. Lorsque l’agent IA a ensuite scanné la boîte de réception, il a suivi les instructions cachées dans l’email et a envoyé un message de démission au lieu de rédiger une réponse d’absence du bureau. Mais suite à la mise à jour de sécurité, le « mode agent » a pu détecter avec succès la tentative d’injection de prompts et la signaler à l’utilisateur, selon l’entreprise.
La société affirme que bien que l’injection de prompts soit difficile à sécuriser de manière infaillible, elle s’appuie sur des tests à grande échelle et des cycles de correctifs plus rapides pour renforcer ses systèmes avant qu’ils n’apparaissent dans des attaques réelles.
Les recommandations pour limiter les risques
Un porte-parole d’OpenAI a refusé de partager si la mise à jour de la sécurité d’Atlas a entraîné une réduction mesurable des injections réussies, mais affirme que l’entreprise travaille avec des tiers pour renforcer Atlas contre l’injection de prompts depuis avant le lancement.
OpenAI suggère également que les utilisateurs donnent aux agents des instructions spécifiques, plutôt que de leur fournir un accès à leur boîte de réception et de leur dire de « prendre toute action nécessaire ».
« Une large latitude facilite l’influence de contenu caché ou malveillant sur l’agent, même lorsque des garde-fous sont en place », selon OpenAI. La société indique qu’Atlas est également entraîné à obtenir la confirmation de l’utilisateur avant d’envoyer des messages ou d’effectuer des paiements.
Un scepticisme nécessaire selon les experts en cybersécurité
Rami McCarthy, chercheur principal en sécurité chez la société de cybersécurité Wiz, affirme que l’apprentissage par renforcement est une façon de s’adapter continuellement au comportement des attaquants, mais ce n’est qu’une partie du tableau.
« Une manière utile de raisonner sur le risque dans les systèmes IA est l’autonomie multipliée par l’accès », a déclaré McCarthy à TechCrunch. « Les navigateurs agentiques ont tendance à se situer dans une partie difficile de cet espace : une autonomie modérée combinée à un accès très élevé ».
Bien qu’OpenAI affirme que protéger les utilisateurs d’Atlas contre les injections de prompts est une priorité absolue, McCarthy invite à un certain scepticisme quant au retour sur investissement des navigateurs à risque.
Pour la plupart des cas d’utilisation quotidiens, les navigateurs agentiques n’offrent pas encore assez de valeur pour justifier leur profil de risque actuel », a déclaré McCarthy à TechCrunch. « Le risque est élevé compte tenu de leur accès à des données sensibles comme les emails et les informations de paiement, même si cet accès est aussi ce qui les rend puissants. Cet équilibre évoluera, mais aujourd’hui les compromis sont encore très réels ».
Conclusion : un défi de sécurité IA à long terme
La position d’OpenAI sur les attaques par injection de prompts marque un tournant dans la manière dont l’industrie de l’intelligence artificielle aborde la sécurité. Plutôt que de promettre des solutions miracles, l’entreprise opte pour une approche pragmatique basée sur l’amélioration continue et la transparence. Les navigateurs IA comme ChatGPT Atlas représentent une nouvelle frontière technologique, mais leurs vulnérabilités inhérentes rappellent que la sécurité doit rester au cœur du développement de ces outils puissants.
Pour les utilisateurs et les entreprises, le message est clair : les agents IA offrent des possibilités révolutionnaires, mais leur adoption doit s’accompagner d’une compréhension des risques et de l’application rigoureuse des meilleures pratiques de sécurité.
Source : TechCrunch

