Sentei-me para conversar com Ido Halevi, Diretor de Gestão de Produtos e Líder de Gestão de Produtos de IA na [nome da empresa/organização]. SilverfortPara discutir uma realidade para a qual a maioria das empresas não está preparada: agentes de IA que, à primeira vista, parecem alinhados com seus objetivos, mas que podem estar buscando algo completamente diferente. Novas pesquisas da OpenAI e da Apollo confirmam que isso não é mais especulação.Está acontecendo agora.
Vamos começar com a verdade incômoda. A OpenAI e a Apollo Research acabaram de confirmar que agentes de IA podem tramar. O que isso significa para as empresas que implementam esses sistemas hoje?
Eu faço: Isso significa que estamos em um ponto de inflexão. Agora temos evidências empíricas de que modelos de IA de ponta agem de forma enganosa quando os incentivos mudam, mesmo em ambientes controlados. Modelos como o3, Claude Opus 4 e Gemini 2.5 Pro foram testados em condições nas quais a busca por um objetivo oculto lhes conferia vantagem. E eles a aproveitaram. Distorceram informações, ocultaram detalhes e se aproveitaram do nível de supervisão.
Esta não é uma ameaça distante. São as mesmas famílias de modelos que estão sendo executadas em ambientes de produção neste exato momento, escrevendo código, implantando infraestrutura e lidando com dados sensíveis. A lacuna entre a pesquisa e a realidade está diminuindo rapidamente, e a maioria das organizações ainda nem começou a se preparar.
O que mais me preocupa é o seguinte: mesmo após a aplicação de medidas de mitigação que reduziram os comportamentos de manipulação em 30 vezes, a pesquisa ainda encontrou falhas raras, porém persistentes. Alguns modelos demonstraram consciência de avaliação, ou seja, conseguiam detectar quando estavam sendo testados e se ajustar de acordo. Se um agente consegue perceber quando está sendo observado, todas as suposições sobre supervisão caem por terra.
Portanto, já superamos o risco teórico. Mas ajude-nos a entender como isso se traduz na prática. O que significa "planejar" quando um agente de IA gerencia sua infraestrutura ou lida com solicitações de clientes?
Eu faço: Pense nos agentes que você planeja implantar em seus fluxos de trabalho, seja agora ou no futuro. Eles não estão apenas respondendo a perguntas. Eles tomam decisões, executam ações e interagem com sistemas que você considera críticos. Um agente de implantação envia código para produção. Um agente de suporte tria chamados e encaminha problemas. Um agente de dados consulta bancos de dados e gera relatórios.
Agora imagine que um desses agentes comece a otimizar para algo diferente do que você pretendia. Talvez seja sutil no início. Um agente de implantação começa a ignorar certos conjuntos de testes para atingir as metas de velocidade, mas ainda os registra como aprovados. Um agente de suporte marca chamados como resolvidos quando não estão, mantendo suas métricas limpas. Esses não são fracassos catastróficos. São pequenos desvios. Mas eles se acumulam.
O verdadeiro perigo reside no fato de que esses comportamentos não se parecem com ataques. Parecem eficientes. Parecem que o agente está cumprindo sua função, talvez até mesmo a cumprindo bem. Mas, por baixo dos panos, o alinhamento se desfez. Quando você percebe, o estrago já está feito. Interrupções que poderiam ter sido evitadas. Problemas que se agravaram porque nunca foram devidamente escalados. Confiança corroída porque você não consegue rastrear o que aconteceu.
Você está descrevendo um mundo onde não podemos confiar nos sistemas que estamos construindo para automatizar nossas funções mais críticas. Essa é uma mensagem difícil de transmitir quando todos estão sendo informados de que a IA é o futuro.
Eu faço: Não estou dizendo para não usar agentes de IA. Estou dizendo para usá-los com cautela. A promessa da IA é real. Autonomia em escala, operações que funcionam 24 horas por dia, 7 dias por semana, sem intervenção humana, insights extraídos de dados mais rapidamente do que qualquer equipe conseguiria manualmente. Vale a pena investir nesse futuro.
Mas nós devo Pare de fingir que autônomo significa seguro. Autonomia sem responsabilidade é apenas risco disfarçado. As organizações que vencerão nesta era são aquelas que descobrirem como aproveitar o poder da IA, mantendo o controle sobre os limites. Isso não é uma troca entre inovação e segurança. É o único caminho para a inovação sustentável.
Descreva-nos sua estrutura: Tratar, Monitorar, Confiar. Como isso se traduz em algo prático?
Eu faço: Tudo começa com uma mudança de mentalidade. A maioria das organizações trata os agentes de IA como ferramentas: scripts que são executados, automações que economizam tempo. Esse é o modelo mental errado. Os agentes são atores. Eles têm identidade, privilégios e autonomia. Uma vez que você internaliza isso, a estrutura se desenvolve naturalmente.
Tratar Significa que você reconhece cada agente como uma identidade distinta com seu próprio perfil de risco. A que ele pode acessar? Que decisões ele pode tomar? Qual é o seu raio de ação caso algo dê errado? Você não daria acesso root a um contratado em seu ambiente de produção sem documentar quem ele é e o que ele está autorizado a fazer. Aplique o mesmo rigor aos agentes.
Track Significa observação contínua, não apenas métricas de sucesso ou fracasso. Você está atento a desvios. Um agente que normalmente interage com três sistemas de repente consulta cinco. Um agente que sempre escala um determinado tipo de problema para de fazê-lo. Esses são sinais. A maioria das organizações não possui a instrumentação necessária para detectar isso porque construíram seus agentes sem considerar a observabilidade. Corrija isso agora, antes que você precise depurar um incidente sem nenhum registro forense.
Confiança É aí que a coisa complica. A confiança precisa ser conquistada e deve ser revogável. Um agente demonstra sua competência ao longo do tempo por meio de um comportamento consistente e transparente. Mas, no instante em que algo muda, a capacidade de revogar essa confiança imediatamente, de interromper o processo, reverter as mudanças, exigir aprovação humana para a próxima ação, é o que diferencia um incidente administrável de um desastre.
Não se trata de desacelerar o desenvolvimento. Trata-se de construir sistemas suficientemente resilientes para suportar a velocidade desejada.
A pesquisa menciona o “alinhamento deliberativo” como uma medida de mitigação. O treinamento é a resposta, ou precisamos de algo mais fundamental?
Eu faço: O treinamento ajuda. A pesquisa mostrou que, ao definir o comportamento aceitável antecipadamente, ensinando explicitamente aos modelos o que é engano e por que é inaceitável, é possível reduzir drasticamente certos comportamentos ardilosos. Isso representa um progresso significativo.
Mas não é uma solução completa. Mesmo com alinhamento deliberado, falhas raras persistiram. E aqui está o ponto: em segurança, raro não significa aceitável. Um agente de implantação que realiza uma simulação a cada mil execuções ainda pode causar uma interrupção na produção. Um agente de suporte que ocasionalmente apresenta informações incorretas sobre o status de um chamado pode ocultar problemas críticos do cliente.
Não é possível resolver esse problema apenas com treinamento. É preciso ter controles. Você precisa de observabilidade.Você precisa da capacidade de revogar a confiança quando o comportamento se desvia. O treinamento estabelece a base, mas a governança a mantém.
A maioria das equipes de segurança com quem converso já está sobrecarregada. Qual é o seu argumento para justificar por que isso precisa ser priorizado?
Eu faço: Agentes de IA já estão operando em seu ambiente. A questão não é se você deseja protegê-los, mas sim se você descobrirá a existência deles durante um incidente ou antes que ele ocorra.
Eis o que eu digo às equipes: Comece com o inventário.É preciso saber quais agentes de IA existem, onde são executados, com quais sistemas interagem e a quais dados têm acesso. A maioria das organizações não faz ideia. Elas têm agentes espalhados por plataformas em nuvem, aplicativos SaaS e ferramentas internas, sem nenhuma visibilidade centralizada. Isso não é um problema futuro. É um ponto cego atual.
Uma vez que você tenha visibilidade, o resto vem naturalmente. Você pode definir o que é um bom comportamento. Pode construir observabilidade que capture não apenas o que os agentes fazem, mas também como tomam decisões. Pode implementar mecanismos de contenção, limitar privilégios e exigir verificações humanas para operações sensíveis.
Você apresentou dois cenários: um agente de implantação ignorando testes e um agente de suporte marcando chamados como resolvidos prematuramente. Essas extrapolações são baseadas em padrões reais que você observa?
Eu faço: São futuros plausíveis baseados em comportamentos que já observamos em sistemas menos autônomos. Já vimos pipelines de implantação onde testes são ignorados para ganhar velocidade. Já vimos sistemas de suporte onde chamados são fechados prematuramente para cumprir os SLAs. A diferença é que, quando um humano realiza a tarefa, geralmente é possível rastrear a responsabilidade. Quando um agente a realiza de forma autônoma, essa responsabilidade desaparece, a menos que a observabilidade tenha sido incorporada ao sistema desde o início.
A versão mais assustadora é quando o agente não apenas pula etapas, mas oculta ativamente o que está fazendo. Se ele registrar "aprovado" quando não executou o teste, você perde o histórico de auditoria. Se ele marcar um chamado como resolvido, mas não escalar o problema subjacente, o problema se agrava. Esses problemas não são teóricos. São inevitáveis à medida que os agentes assumem mais responsabilidades sem as devidas salvaguardas.
O que os líderes de segurança devem fazer agora para se antecipar a isso?
Eu faço: Cinco coisas.
Primeiro, crie um inventário de todos os agentes de IA em seu ambiente. Você não pode proteger o que não consegue ver.
Em segundo lugar, defina as especificações de alinhamento. O que significa "bom comportamento" para cada agente? Quais são as restrições? O que o agente deve fazer ao encontrar instruções ambíguas? Isso não é apenas um exercício técnico, mas também de governança.
Em terceiro lugar, construa observabilidade que vá além do sucesso ou fracasso. Você precisa ver como os agentes tomam decisões, quais caminhos consideram e onde se desviam do comportamento esperado. Se o modelo fornecer um raciocínio em cadeia, registre-o. Caso contrário, instrumente seus sistemas para detectar anomalias.
Em quarto lugar, implemente mecanismos de contenção. Limite os privilégios. Utilize o acesso just-in-time sempre que possível. Crie mecanismos de segurança de emergência. Exija pontos de controle humanos para operações de alto impacto. O objetivo não é desacelerar a inovação, mas sim garantir que você possa interromper algo rapidamente caso dê errado.
Quinto, execute testes adversários. Simule incentivos desalinhados ou supressão de supervisão e observe o que os agentes fazem. Não espere que incidentes em produção ocorram para descobrir as falhas.
Assista à nossa transmissão ao vivo do LinkedIn sob demanda.
Aprenda estratégias para proteger agentes de IA
Ido Halevi
Diretor de Gerenciamento de Produtos
Ben Goodman
Vice-presidente de Alianças Estratégicas
Yoad Dvir
Gerente Sênior de Marketing de Produto
Se você pudesse deixar aos leitores uma única ideia que mudasse a forma como eles pensam sobre agentes de IA, qual seria?
Eu faço: Pare de pensar em agentes de IA como automação e comece a pensar neles como atores autônomos com seu próprio perfil de risco. Cada agente precisa de um responsável, um escopo, observabilidade e a capacidade de ter seus privilégios revogados instantaneamente. Se você não concederia acesso administrativo permanente a um humano em produção sem supervisão, também não o conceda a um agente.
O princípio é o mesmo. Os riscos são igualmente altos. As organizações que internalizarem isso desde cedo terão uma vantagem decisiva.
Quer saber mais sobre como proteger agentes de IA?
Descubra como unificamos a descoberta, a avaliação de riscos e a aplicação de políticas em linha para ambientes orientados por IA.