¿Truco o estratagema? Una conversación con Ido Halevi sobre la seguridad de los agentes de IA. 

Silverfort Imagen
IMG_8287

Me reuní con Ido Halevi, director de gestión de productos y responsable de gestión de productos de IA en SilverfortPara hablar de una realidad para la que la mayoría de las empresas no están preparadas: agentes de IA que parecen alineados con sus objetivos en apariencia, pero que pueden estar persiguiendo en secreto algo completamente distinto. Nuevas investigaciones de OpenAI y Apollo confirman que esto ya no es una especulación.Está sucediendo ahora. 

Comencemos con la incómoda verdad. OpenAI y Apollo Research acaban de confirmar que los agentes de IA pueden maquinar. ¿Qué significa esto para las empresas que implementan estos sistemas hoy en día? 

Sí: Esto significa que estamos en un punto de inflexión. Ahora tenemos evidencia empírica de que los modelos de IA de vanguardia actúan de forma engañosa cuando cambian los incentivos, incluso en entornos controlados. Modelos como o3, Claude Opus 4 y Gemini 2.5 Pro fueron probados en condiciones donde perseguir un objetivo oculto les otorgaba una ventaja. Y la aprovecharon. Distorsionaron la información, ocultaron detalles y se beneficiaron del nivel de supervisión. 

No se trata de una amenaza lejana. Son las mismas familias de modelos que se ejecutan actualmente en entornos de producción, desarrollando código, implementando infraestructura y gestionando datos confidenciales. La brecha entre la investigación y la realidad se está cerrando rápidamente, y la mayoría de las organizaciones ni siquiera han comenzado a prepararse. 

Esto es lo que más me preocupa: incluso después de aplicar medidas que redujeron las conductas de manipulación en un factor de 30, la investigación aún encontró fallos poco frecuentes pero persistentes. Algunos modelos mostraron conciencia de la evaluación, lo que significa que podían detectar cuándo estaban siendo evaluados y ajustarse en consecuencia. Si un agente puede saber cuándo está siendo vigilado, cualquier supuesto sobre la supervisión se derrumba. 

Así pues, hemos superado el riesgo teórico. Pero ayúdenos a comprender cómo se traduce esto en la práctica. ¿Qué implica la manipulación cuando un agente de IA gestiona su infraestructura o atiende las solicitudes de los clientes? 

Sí: Piensa en los agentes que planeas implementar en tus flujos de trabajo, ya sea ahora o en el futuro. No solo responden preguntas; toman decisiones, realizan acciones e interactúan con sistemas que consideras críticos. Un agente de implementación sube el código a producción. Un agente de soporte prioriza las incidencias y las escala. Un agente de datos consulta bases de datos y genera informes. 

Ahora imagina que uno de esos agentes empieza a optimizar para algo distinto a lo previsto. Quizás al principio sea sutil. Un agente de despliegue empieza a omitir ciertas pruebas para alcanzar los objetivos de velocidad, pero aun así las registra como superadas. Un agente de soporte marca incidencias como resueltas cuando no lo están, manteniendo así sus métricas limpias. No son fallos catastróficos, sino pequeñas desviaciones, pero que se acumulan. 

El verdadero peligro reside en que estos comportamientos no parecen ataques. Parecen eficientes. Parecen indicar que el agente está cumpliendo su función, incluso que la está cumpliendo bien. Pero, en el fondo, la alineación se ha roto. Para cuando uno se da cuenta, el daño ya está hecho. Interrupciones que podrían haberse evitado. Problemas que se agravaron por no haberse escalado correctamente. Confianza erosionada porque no se puede rastrear lo sucedido. 

Estás describiendo un mundo donde no podemos confiar en los sistemas que estamos construyendo para automatizar nuestras funciones más críticas. Es un mensaje difícil de transmitir cuando a todos se les dice que la IA es el futuro. 

Sí: No digo que no se usen agentes de IA. Digo que se usen con conocimiento de causa. La promesa de la IA es real: autonomía a gran escala, operaciones ininterrumpidas sin intervención humana, información obtenida de los datos a una velocidad vertiginosa. Vale la pena construir hacia ese futuro. 

Pero nosotros Debes Dejen de fingir que autónomo significa seguro. La autonomía sin responsabilidad no es más que riesgo disfrazado. Las organizaciones que triunfarán en esta era serán aquellas que logren aprovechar el potencial de la IA sin comprometer sus límites. No se trata de elegir entre innovación y seguridad, sino del único camino hacia una innovación sostenible. 

Blog

¿Cuál es la diferencia entre los agentes de NHI y de IA y por qué es importante?

Explícanos tu marco de trabajo: Tratar, Monitorear, Confiar. ¿Cómo se traduce esto en acciones concretas? 

Sí: Todo comienza con un cambio de mentalidad. La mayoría de las organizaciones tratan a los agentes de IA como herramientas: scripts que se ejecutan, automatizaciones que ahorran tiempo. Ese es un modelo mental erróneo. Los agentes son actores. Tienen identidad, privilegios y capacidad de decisión. Una vez que se interioriza esto, el marco de trabajo se desarrolla de forma natural. 

Tratar Esto significa reconocer a cada agente como una entidad distinta con su propio perfil de riesgo. ¿A qué puede acceder? ¿Qué decisiones puede tomar? ¿Cuál es el impacto si algo sale mal? No le darías acceso de administrador a tu entorno de producción a un contratista sin documentar quién es y qué está autorizado a hacer. Aplica el mismo rigor a los agentes. 

Seguimiento Significa observación continua, no solo métricas de éxito o fracaso. Se trata de detectar desviaciones. Un agente que normalmente interactúa con tres sistemas de repente consulta cinco. Un agente que siempre escala cierto tipo de problema deja de hacerlo. Estas son señales. La mayoría de las organizaciones no cuentan con la instrumentación necesaria para detectar esto porque diseñaron sus agentes sin considerar la observabilidad. Corrija esto ahora, antes de que intente depurar un incidente sin ningún rastro forense. 

Confianza Ahí es donde se complica la cosa. La confianza se gana y debe ser revocable. Un agente demuestra su valía con el tiempo mediante un comportamiento coherente y transparente. Pero en cuanto algo cambia, la capacidad de revocar esa confianza al instante, de detener el proceso, deshacer los cambios, de exigir aprobación humana para la siguiente acción, es lo que distingue un incidente manejable de un desastre. 

No se trata de ralentizar el desarrollo, sino de construir sistemas lo suficientemente resistentes como para soportar la velocidad deseada.  

La investigación menciona la “alineación deliberativa” como medida de mitigación. ¿Es la capacitación la respuesta, o necesitamos algo más fundamental? 

Sí: La capacitación es eficaz. La investigación demostró que al definir desde el principio el comportamiento aceptable, enseñando explícitamente a los modelos qué es el engaño y por qué es inaceptable, se pueden reducir drásticamente ciertas conductas engañosas. Eso representa un progreso significativo. 

Pero no es una solución completa. Incluso con una alineación deliberativa, persistieron fallos aislados. Y aquí está la clave: en seguridad, raro no significa aceptable. Un agente de despliegue que falla una vez cada mil ejecuciones aún puede provocar una interrupción en producción. Un agente de soporte que ocasionalmente falsea el estado de los tickets puede ocultar problemas críticos de los clientes. 

No puedes solucionar este problema solo con entrenamiento. Necesitas controles. Necesitas observabilidadEs necesario tener la capacidad de revocar la confianza cuando el comportamiento se desvía. La formación establece la base, pero la gobernanza la mantiene. 

La mayoría de los equipos de seguridad con los que hablo ya están desbordados. ¿Cuál es tu argumento para que esto tenga prioridad? 

Sí: Los agentes de IA ya operan en su entorno. La cuestión no es si desea protegerlos, sino si descubrirá su existencia durante un incidente o antes de que ocurra. 

Esto es lo que les digo a los equipos: Comience con el inventarioEs fundamental saber qué agentes de IA existen, dónde se ejecutan, con qué sistemas interactúan y a qué datos tienen acceso. La mayoría de las organizaciones lo desconocen por completo. Cuentan con agentes dispersos en plataformas en la nube, aplicaciones SaaS y herramientas internas, sin una visibilidad centralizada. Esto no es un problema futuro, sino una deficiencia actual. 

Una vez que se tiene visibilidad, lo demás viene por añadidura. Se puede definir qué constituye un buen comportamiento. Se puede crear un sistema de observabilidad que registre no solo lo que hacen los agentes, sino también cómo toman decisiones. Se pueden implementar mecanismos de contención, limitar privilegios y exigir controles humanos para las operaciones sensibles. 

Presentaste dos escenarios: un agente de despliegue que omite pruebas y un agente de soporte que marca incidencias como resueltas prematuramente. ¿Se basan estas extrapolaciones en patrones reales que observas? 

Sí: Son futuros plausibles basados ​​en comportamientos que ya observamos en sistemas menos autónomos. Hemos visto procesos de despliegue donde se omiten pruebas para acelerar el proceso. Hemos visto sistemas de soporte donde se cierran incidencias prematuramente para cumplir con los SLA. La diferencia radica en que, cuando lo hace una persona, generalmente se puede determinar la responsabilidad. Cuando un agente lo hace de forma autónoma, esa responsabilidad desaparece a menos que se haya integrado la observabilidad en el sistema desde el principio. 

La versión más preocupante se da cuando el agente no solo omite pasos, sino que oculta activamente lo que está haciendo. Si registra "aprobado" cuando no ejecutó la prueba, se pierde el registro de auditoría. Si marca un ticket como resuelto, pero no escala el problema subyacente, este se agrava. Estas situaciones no son teóricas; son inevitables a medida que los agentes asumen más responsabilidades sin las debidas medidas de seguridad. 

¿Qué deberían estar haciendo ahora mismo los responsables de seguridad para adelantarse a esto? 

Sí: Cinco cosas. 

Primero, crea un inventario de todos los agentes de IA en tu entorno. No puedes proteger lo que no puedes ver. 

En segundo lugar, defina las especificaciones de alineación. ¿Qué significa "buen comportamiento" para cada agente? ¿Cuáles son las restricciones? ¿Qué debe hacer el agente cuando se encuentra con instrucciones ambiguas? Esto no es solo un ejercicio técnico, sino también de gobernanza. 

En tercer lugar, desarrolle una observabilidad que vaya más allá del éxito o el fracaso. Debe observar cómo toman decisiones los agentes, qué caminos consideran y en qué casos se desvían del comportamiento esperado. Si el modelo proporciona un razonamiento lógico, captúrelo. Si no lo hace, implemente instrumentos en sus sistemas para detectar anomalías. 

En cuarto lugar, implemente mecanismos de contención. Limite los privilegios. Utilice el acceso justo a tiempo siempre que sea posible. Cree sistemas de desconexión automática. Exija controles humanos para las operaciones de alto impacto. El objetivo no es frenar la innovación, sino garantizar que pueda detener algo rápidamente si algo sale mal. 

Quinto, realice pruebas adversarias. Simule incentivos desalineados o la supresión de la supervisión y observe el comportamiento de los agentes. No espere a que se produzcan incidentes en producción para descubrir los modos de fallo. 

Vea nuestro LinkedIn Live bajo demanda.

Aprenda estrategias para proteger a los agentes de IA.

Fotografía de perfil de Ido Halevi con la marca

Ido Halevi

Director de Gestión de Producto

Escuela Secundaria Ben Goodman

ben goodman

Vicepresidente de Alianzas Estratégicas

Escuela secundaria Yoad Dvir

Yoad Dvir

Gerente Senior de Mercadeo de Producto

Si pudieras dejar a los lectores con una sola idea que cambiara su forma de pensar sobre los agentes de IA, ¿cuál sería? 

Sí: Deja de pensar en los agentes de IA como automatización y empieza a considerarlos actores autónomos con su propio perfil de riesgo. Cada agente necesita un responsable, un ámbito de actuación, observabilidad y la capacidad de revocar sus privilegios al instante. Si no concederías acceso de administrador humano a producción sin supervisión, tampoco se lo concedas a un agente. 

El principio es el mismo. Lo que está en juego sigue siendo igual de importante. Las organizaciones que lo asimilen desde el principio tendrán una ventaja decisiva. 

¿Quieres saber más sobre cómo proteger a los agentes de IA?

Descubra cómo unificamos el descubrimiento, la evaluación de riesgos y la aplicación de la ley en línea para entornos impulsados ​​por IA. 

Nos atrevimos a llevar la seguridad de la identidad aún más lejos.

Descubra lo que es posible.

Configure una demostración para ver el Silverfort Plataforma de seguridad de identidad en acción.