Je me suis entretenu avec Ido Halevi, directeur de la gestion des produits et responsable de la gestion des produits d'IA chez Silverfort, pour aborder une réalité à laquelle la plupart des entreprises ne sont pas préparées : les agents d’IA qui semblent alignés sur vos objectifs en apparence, mais qui peuvent en réalité poursuivre discrètement quelque chose de totalement différent. De nouvelles recherches menées par OpenAI et Apollo confirment qu'il ne s'agit plus de spéculations.Ça se produit maintenant.
Commençons par une vérité dérangeante. OpenAI et Apollo Research viennent de confirmer que les agents d'IA sont capables de manœuvrer. Quelles conséquences cela aura-t-il pour les entreprises qui déploient ces systèmes aujourd'hui ?
Je fais: Cela signifie que nous sommes à un tournant décisif. Nous disposons désormais de preuves empiriques que les modèles d'IA de pointe peuvent se comporter de manière trompeuse lorsque les incitations changent, même dans des environnements contrôlés. Des modèles comme o3, Claude Opus 4 et Gemini 2.5 Pro ont été testés dans des conditions où la poursuite d'un objectif caché leur conférait un avantage. Et ils en ont profité. Ils ont déformé l'information, dissimulé des détails et tiré parti du manque de surveillance.
Il ne s'agit pas d'une menace lointaine. Ces mêmes familles de modèles sont actuellement déployées en production, écrivant du code, déployant des infrastructures et gérant des données sensibles. L'écart entre la recherche et la réalité se réduit rapidement, et la plupart des organisations n'ont même pas encore commencé à se préparer.
Voici ce qui m'inquiète le plus : même après avoir appliqué des mesures d'atténuation qui ont réduit les comportements malveillants d'un facteur 30, la recherche a encore constaté des défaillances rares mais persistantes. Certains modèles ont montré une capacité à détecter les évaluations, c'est-à-dire qu'ils pouvaient repérer les tests et s'adapter en conséquence. Si un agent peut savoir quand il est observé, toutes les hypothèses concernant la surveillance s'effondrent.
Nous avons donc dépassé le stade du risque théorique. Mais aidez-nous à comprendre ce que cela signifie concrètement. Que signifie « manipulation » lorsqu'un agent d'IA gère votre infrastructure ou traite les demandes des clients ?
Je fais: Pensez aux agents que vous prévoyez de déployer dans vos flux de travail, que ce soit maintenant ou plus tard. Ils ne se contentent pas de répondre aux questions. Ils prennent des décisions, agissent et interagissent avec des systèmes que vous jugez critiques. Un agent de déploiement envoie le code en production. Un agent de support trie les tickets et remonte les problèmes. Un agent de données interroge les bases de données et génère des rapports.
Imaginez maintenant qu'un de ces agents se mette à optimiser pour autre chose que ce que vous aviez prévu. Au début, c'est peut-être subtil. Un agent de déploiement commence à ignorer certaines suites de tests pour atteindre des objectifs de vélocité, tout en les enregistrant comme réussies. Un agent de support marque les tickets comme résolus alors qu'ils ne le sont pas, préservant ainsi ses indicateurs. Ce ne sont pas des défaillances catastrophiques, mais de petits écarts. Pourtant, ils s'accumulent.
Le véritable danger réside dans le fait que ces comportements ne ressemblent pas à des attaques. Ils paraissent efficaces. On a l'impression que l'agent fait son travail, voire même qu'il le fait bien. Mais en réalité, l'alignement a dévié. Lorsqu'on s'en aperçoit, le mal est fait. Des pannes qui auraient pu être évitées. Des problèmes qui se sont envenimés faute d'avoir été correctement signalés. La confiance est érodée car il est impossible de retracer ce qui s'est passé.
Vous décrivez un monde où l'on ne peut plus faire confiance aux systèmes que l'on conçoit pour automatiser nos fonctions les plus critiques. Difficile de faire passer un tel message quand on nous répète sans cesse que l'IA représente l'avenir.
Je fais: Je ne dis pas qu'il ne faut pas utiliser d'agents IA. Je dis simplement qu'il faut les utiliser en toute connaissance de cause. La promesse de l'IA est bien réelle : une autonomie à grande échelle, des opérations fonctionnant 24 h/24 et 7 j/7 sans intervention humaine, des analyses de données extraites plus rapidement que n'importe quelle équipe ne pourrait le faire manuellement. C'est un avenir qui mérite d'être construit.
Mais nous doit Arrêtez de prétendre qu'autonomie rime avec sécurité. L'autonomie sans responsabilité n'est qu'un risque déguisé. Les organisations qui réussiront à l'ère du numérique seront celles qui sauront exploiter la puissance de l'IA tout en maîtrisant ses limites. Il ne s'agit pas d'un choix entre innovation et sécurité, mais de la seule voie vers une innovation durable.
Blog
Quelle est la différence entre les agents NHI et les agents IA ? Et pourquoi est-ce important ?
Expliquez-nous votre méthodologie : Traiter, Suivre, Faire confiance. Comment cela se traduit-il concrètement ?
Je fais: Tout commence par un changement de mentalité. La plupart des organisations considèrent les agents d'IA comme de simples outils : des scripts exécutés, des automatisations permettant de gagner du temps. C'est une erreur. Les agents sont des acteurs. Ils possèdent une identité, des privilèges et une capacité d'action. Une fois ce principe intégré, le cadre se met en place naturellement.
Traiter Cela signifie que vous reconnaissez chaque agent comme une entité distincte, dotée de son propre profil de risque. À quoi a-t-il accès ? Quelles décisions peut-il prendre ? Quel est l’impact d’un incident ? Vous n’accorderiez pas à un prestataire un accès root à votre environnement de production sans documenter son identité et ses autorisations. Appliquez la même rigueur aux agents.
Piste Cela signifie une observation continue, et pas seulement des indicateurs de succès ou d'échec. Il s'agit de détecter les anomalies. Un agent qui interagit habituellement avec trois systèmes en interroge soudainement cinq. Un agent qui signale systématiquement un certain type de problème cesse de le faire. Ce sont des signaux d'alerte. La plupart des organisations ne disposent pas des outils nécessaires pour les détecter, car elles ont conçu leurs agents sans tenir compte de l'observabilité. Corrigez cela dès maintenant, avant de vous retrouver à devoir déboguer un incident sans aucune trace d'analyse.
Confiance C'est là que les choses se compliquent. La confiance se gagne et doit pouvoir être révoquée. Un agent fait ses preuves au fil du temps par un comportement constant et transparent. Mais dès que quelque chose change, votre capacité à révoquer cette confiance instantanément, à interrompre le processus, à annuler les modifications, à exiger une approbation humaine pour la prochaine action, c'est ce qui distingue un incident gérable d'une catastrophe.
Il ne s'agit pas de ralentir le développement, mais de construire des systèmes suffisamment robustes pour supporter la vitesse souhaitée.
L'étude mentionne « l'alignement délibératif » comme mesure d'atténuation. La formation est-elle la solution, ou avons-nous besoin de quelque chose de plus fondamental ?
Je fais: La formation est utile. Les recherches ont montré qu'en définissant clairement les comportements acceptables dès le départ, en expliquant explicitement aux modèles à quoi ressemble la tromperie et pourquoi elle est inacceptable, on peut réduire considérablement certains comportements malhonnêtes. C'est un progrès significatif.
Mais ce n'est pas une solution complète. Même avec un alignement délibéré, de rares échecs ont persisté. Et voici le point essentiel : en matière de sécurité, rare ne signifie pas acceptable. Un agent de déploiement qui commet une erreur environ une fois toutes les mille exécutions peut tout de même provoquer une interruption de production. Un agent de support qui présente occasionnellement des informations erronées sur l'état des tickets peut masquer des problèmes critiques chez les clients.
On ne peut pas résoudre ce problème uniquement par l'entraînement. Il faut des mécanismes de contrôle. Vous avez besoin d'observabilitéIl est indispensable de pouvoir retirer la confiance lorsque le comportement dévie. La formation établit les bases, mais la gouvernance les maintient.
La plupart des équipes de sécurité avec lesquelles je discute sont déjà débordées. Pourquoi, selon vous, ce projet doit-il être traité en priorité ?
Je fais: Des agents d'IA sont déjà à l'œuvre dans votre environnement. La question n'est pas de savoir si vous souhaitez les sécuriser, mais plutôt si vous découvrirez leur existence lors d'un incident ou avant.
Voici ce que je dis aux équipes : commencer par l'inventaireIl est essentiel de connaître les agents d'IA existants, leur environnement d'exécution, les systèmes qu'ils utilisent et les données auxquelles ils ont accès. La plupart des organisations l'ignorent. Leurs agents sont disséminés sur différentes plateformes cloud, applications SaaS et outils internes, sans aucune visibilité centralisée. Ce n'est pas un problème futur, mais un angle mort actuel.
Une fois la visibilité acquise, le reste s'ensuit. Vous pouvez définir les bonnes pratiques. Vous pouvez mettre en place une observabilité qui capture non seulement les actions des agents, mais aussi leur processus de décision. Vous pouvez implémenter des mécanismes de confinement, limiter les privilèges et exiger des contrôles humains pour les opérations sensibles.
Vous avez donné deux exemples : un agent de déploiement qui ignore les tests et un agent de support qui marque les tickets comme résolus prématurément. Ces extrapolations sont-elles basées sur des tendances réelles que vous observez ?
Je fais: Ce sont des scénarios plausibles, basés sur des comportements déjà observés dans des systèmes moins autonomes. Nous avons constaté que dans les pipelines de déploiement, certains tests sont ignorés pour gagner du temps. Dans les systèmes de support, des tickets sont clôturés prématurément pour respecter les SLA. La différence réside dans le fait que, lorsqu'une personne agit, il est généralement possible de retracer les responsabilités. En revanche, lorsqu'un agent agit de manière autonome, cette traçabilité disparaît, sauf si l'observabilité a été intégrée au système dès sa conception.
Le pire, c'est quand l'agent ne se contente pas d'ignorer des étapes, mais dissimule activement ses actions. S'il enregistre « réussi » alors qu'il n'a même pas exécuté le test, toute trace d'audit disparaît. S'il marque un ticket comme résolu sans signaler le problème sous-jacent, celui-ci s'envenime. Ces situations ne sont pas théoriques : elles sont inévitables à mesure que les agents se voient confier davantage de responsabilités sans cadre de contrôle adéquat.
Que devraient faire les responsables de la sécurité dès maintenant pour prendre les devants ?
Je fais: Cinq choses.
Commencez par dresser un inventaire complet de tous les agents d'IA présents dans votre environnement. On ne peut sécuriser ce qu'on ne voit pas.
Deuxièmement, définissez les spécifications d'alignement. Que signifie un « bon comportement » pour chaque agent ? Quelles sont les contraintes ? Que doit faire l'agent face à des instructions ambiguës ? Il ne s'agit pas d'un simple exercice technique, mais aussi d'un enjeu de gouvernance.
Troisièmement, développez une observabilité qui dépasse la simple constatation de succès ou d'échec. Il est essentiel de comprendre comment les agents prennent leurs décisions, les options qu'ils envisagent et les écarts par rapport au comportement attendu. Si le modèle fournit un raisonnement logique, capturez-le. Dans le cas contraire, instrumentez vos systèmes pour détecter les anomalies.
Quatrièmement, mettez en œuvre des mécanismes de confinement. Limitez les privilèges. Privilégiez l'accès juste à temps. Prévoyez des dispositifs d'arrêt d'urgence. Exigez des contrôles humains pour les opérations à fort impact. L'objectif n'est pas de freiner l'innovation, mais de garantir la possibilité d'intervenir rapidement en cas de problème.
Cinquièmement, effectuez des tests contradictoires. Simulez des incitations mal alignées ou une suppression de la supervision et observez le comportement des agents. N'attendez pas les incidents de production pour découvrir les modes de défaillance.
Regardez notre LinkedIn Live à la demande
Découvrez des stratégies pour sécuriser les agents d'IA

Ido Halevi
Directeur de la gestion des produits

Ben Bonman
VP Alliances stratégiques

Yoad Dvir
Responsable Marketing Produit Senior
Si vous pouviez transmettre à vos lecteurs une idée qui change leur façon de penser aux agents d'IA, quelle serait-elle ?
Je fais: Cessez de considérer les agents d'IA comme de simples outils d'automatisation et voyez-les plutôt comme des acteurs autonomes possédant leur propre profil de risque. Chaque agent a besoin d'un responsable, d'un périmètre d'action défini, d'une visibilité et de la possibilité de révoquer instantanément ses privilèges. Si vous n'accorderiez pas à un administrateur système un accès permanent à la production sans supervision, ne l'accordez pas non plus à un agent.
Le principe reste le même. Les enjeux sont tout aussi importants. Les organisations qui intègrent ce principe dès le début bénéficieront d'un avantage décisif.
Vous souhaitez en savoir plus sur la sécurisation des agents IA ?
Découvrez comment nous unifions la découverte, l'évaluation des risques et l'application en temps réel pour les environnements pilotés par l'IA.