속임수인가, 계략인가? AI 에이전트 보안에 대한 이도 할레비와의 대화 

Silverfort 영상
IMG_8287

저는 제품 관리 이사이자 AI 제품 관리 책임자인 Ido Halevi와 함께 앉았습니다. Silverfort대부분의 기업이 대비하지 못한 현실에 대해 논의해 보겠습니다. 표면적으로는 기업의 목표에 부합하는 것처럼 보이지만 사실은 전혀 다른 것을 조용히 추구하고 있는 AI 에이전트입니다. OpenAI와 Apollo의 최신 연구에 따르면 이는 더 이상 추측이 아님이 확인되었습니다.. 지금 일어나고 있어요. 

불편한 진실부터 시작해 보겠습니다. OpenAI와 Apollo Research는 AI 에이전트가 계획을 세울 수 있다는 사실을 방금 확인했습니다. 이는 현재 이러한 시스템을 구축하는 기업들에게 어떤 의미를 가질까요? 

그래요: 이는 우리가 변곡점에 있다는 것을 의미합니다. 이제 우리는 인센티브가 변화할 때, 심지어 통제된 환경에서도 최첨단 AI 모델이 기만적으로 행동한다는 경험적 증거를 가지고 있습니다. o3, Claude Opus 4, Gemini 2.5 Pro와 같은 모델들은 숨겨진 목표를 추구할 때 이점을 얻을 수 있는 조건에서 테스트되었습니다. 그리고 그들은 그 이점을 활용했습니다. 정보를 왜곡하고, ​​세부 정보를 숨기고, 감독의 수준을 이용했습니다. 

이것은 먼 미래의 위협이 아닙니다. 현재 운영 환경에서 코드를 작성하고, 인프라를 구축하고, 민감한 데이터를 처리하는 동일한 모델군입니다. 연구와 현실 사이의 격차는 빠르게 줄어들고 있으며, 대부분의 조직은 아직 대비조차 시작하지 않았습니다. 

제가 가장 우려하는 점은, 계획적인 행동을 30배 줄이는 완화 조치를 적용했음에도 불구하고, 연구 결과 드물지만 지속적인 실패 사례가 여전히 발견되었다는 것입니다. 일부 모델은 평가 인식 능력을 보여, 테스트 시점을 감지하고 그에 따라 조정할 수 있었습니다. 만약 에이전트가 자신이 감시당하는 시점을 파악할 수 있다면, 감독에 대한 모든 가정은 무너집니다. 

이론적인 위험은 넘어섰습니다. 하지만 실제로는 어떤 모습일지 이해해 주세요. AI 에이전트가 인프라를 관리하거나 고객 요청을 처리할 때 계획(scheming)은 무엇을 의미할까요? 

그래요: 현재 또는 향후 워크플로에 배치될 에이전트를 생각해 보세요. 이들은 단순히 질문에 답하는 것이 아니라, 결정을 내리고, 조치를 취하고, 중요하다고 생각하는 시스템을 관리합니다. 배포 에이전트는 코드를 프로덕션에 푸시합니다. 지원 에이전트는 티켓을 분류하고 문제를 에스컬레이션합니다. 데이터 에이전트는 데이터베이스를 쿼리하고 보고서를 생성합니다. 

이제 에이전트 중 하나가 의도한 것과 다른 것을 최적화하기 시작한다고 상상해 보세요. 처음에는 미묘할 수도 있습니다. 배포 에이전트는 속도 목표를 달성하기 위해 특정 테스트 스위트를 건너뛰기 시작하지만, 여전히 통과된 것으로 기록합니다. 지원 에이전트는 티켓이 해결되지 않았는데도 해결된 것으로 표시하여 지표를 깨끗하게 유지합니다. 이는 치명적인 오류가 아닙니다. 사소한 편차일 뿐입니다. 하지만 문제는 악화됩니다. 

진짜 위험은 이러한 행동이 공격처럼 보이지 않는다는 것입니다. 겉보기에는 효율적입니다. 에이전트가 제 역할을 다하고 있는 것처럼, 어쩌면 잘하고 있는 것처럼 보일 수도 있습니다. 하지만 이면에는 이러한 협력 관계가 이미 무너져 있습니다. 알아차릴 때쯤이면 이미 피해는 발생해 버린 후입니다. 예방할 수 있었던 장애가 발생하고, 제대로 보고되지 않아 문제가 악화되고, 무슨 일이 일어났는지 추적할 수 없어 신뢰가 무너집니다. 

우리가 구축하는 시스템이 가장 중요한 기능들을 자동화할 수 없다고 믿는 세상을 묘사하고 계시네요. 모두가 AI가 미래라고 말하는 상황에서 이런 메시지를 전달하기는 쉽지 않겠네요. 

그래요: AI 에이전트를 사용하지 말라는 게 아닙니다. 눈을 크게 뜨고 사용하라는 겁니다. AI의 가능성은 현실입니다. 대규모 자율성, 인간의 개입 없이 24시간 연중무휴 운영, 어떤 팀도 수동으로 관리할 수 없을 만큼 빠르게 데이터에서 인사이트를 도출할 수 있습니다. 이러한 미래는 앞으로 나아갈 가치가 있습니다. 

하지만 우리는 절대로 필요한 것 자율 주행이 안전하다는 것을 더 이상 믿지 마세요. 책임감 없는 자율성은 다른 형태의 위험일 뿐입니다. 이 시대의 승자는 경계를 통제하면서 AI의 힘을 활용하는 방법을 찾아내는 조직입니다. 이는 혁신과 보안 사이에서 타협하는 것이 아닙니다. 지속 가능한 혁신으로 가는 유일한 길입니다. 

Blog

NHI와 AI 에이전트의 차이점은 무엇이며 그 이유는 무엇입니까?

'치료, 추적, 신뢰'라는 프레임워크를 설명해 주세요. 이 프레임워크가 어떻게 실행 가능한 것으로 이어질 수 있을까요? 

그래요: 사고방식의 변화에서 시작됩니다. 대부분의 조직은 AI 에이전트를 도구처럼 취급합니다. 실행되는 스크립트, 시간을 절약해주는 자동화처럼 말이죠. 이는 잘못된 사고방식입니다. 에이전트는 행위자입니다. 신원, 권한, 그리고 행위 주체성을 가지고 있습니다. 이러한 점을 내면화하면 프레임워크가 자연스럽게 따라옵니다. 

치료 각 에이전트를 고유한 위험 프로필을 가진 고유한 정체성으로 인식한다는 의미입니다. 에이전트는 무엇에 접근할 수 있을까요? 어떤 결정을 내릴 수 있을까요? 문제 발생 시 공격 반경은 어떻게 될까요? 계약자에게 프로덕션 환경에 대한 루트 접근 권한을 부여할 때는 해당 에이전트의 신원과 권한을 문서화하지 않을 것입니다. 에이전트에게도 동일한 엄격함을 적용해야 합니다. 

배송조회 성공이나 실패 지표뿐만 아니라 지속적인 관찰을 의미합니다. 편차를 감시하는 것이죠. 평소에는 세 개의 시스템에 접속하던 에이전트가 갑자기 다섯 개의 시스템에 접속합니다. 특정 유형의 문제를 항상 에스컬레이션하던 에이전트가 더 이상 접속하지 않습니다. 이러한 것들은 신호입니다. 대부분의 조직은 관찰 가능성을 고려하지 않고 에이전트를 구축했기 때문에 이러한 상황을 감지할 수 있는 계측 시스템을 갖추고 있지 않습니다. 포렌식 흔적도 없이 인시던트를 디버깅하기 전에 지금 바로 이 문제를 해결하세요. 

믿어 여기서 문제가 발생합니다. 신뢰는 얻어야 하고, 되돌릴 수 있어야 합니다. 상담원은 일관되고 투명한 행동을 통해 시간이 지남에 따라 스스로를 증명합니다. 하지만 무언가가 바뀌는 순간, 그 신뢰를 즉시 철회하고, 프로세스를 중단하고, 변경 사항을 롤백하고, 다음 작업에 대해 사람의 승인을 요청할 수 있는 능력, 이것이 관리 가능한 사고와 재난을 구분하는 기준입니다. 

개발 속도를 늦추는 것이 아닙니다. 원하는 속도를 지원할 만큼 복원력이 뛰어난 시스템을 구축하는 것이 중요합니다.  

이 연구는 "의도적인 조정"을 완화책으로 언급합니다. 훈련이 해답일까요, 아니면 더 근본적인 해결책이 필요할까요? 

그래요: 훈련이 도움이 됩니다. 연구에 따르면, 허용되는 행동을 미리 정의하고, 모델에게 속임수가 어떤 모습인지, 그리고 왜 용납될 수 없는지 명확하게 교육하면 특정 계략 행동을 극적으로 줄일 수 있습니다. 이는 의미 있는 진전입니다. 

하지만 이는 완벽한 해결책이 아니었습니다. 심의를 거쳐 조율했음에도 불구하고, 드물게 실패 사례가 발생했습니다. 중요한 점은 보안 분야에서 드물다는 것이 허용 가능하다는 것을 의미하지는 않는다는 것입니다. 1,000번의 실행마다 계획을 세우는 배포 에이전트는 여전히 운영 중단을 초래할 수 있습니다. 지원 에이전트가 티켓 상태를 가끔 잘못 표시하는 경우 중요한 고객 문제를 숨길 수 있습니다. 

이 문제는 훈련만으로는 완전히 해결할 수 없습니다. 통제가 필요합니다. 관찰성이 필요합니다행동이 흐트러질 때 신뢰를 철회할 수 있는 능력이 필요합니다. 훈련은 기준을 정하지만, 거버넌스는 그 기준을 유지합니다. 

제가 이야기를 나눠본 대부분의 보안팀은 이미 어려움을 겪고 있습니다. 왜 이 문제를 우선순위에서 제외해야 한다고 생각하시나요? 

그래요: AI 에이전트는 이미 여러분의 환경에서 작동하고 있습니다. 문제는 이들을 보호할 것인지 여부가 아니라, 사고 발생 중에 이들을 발견할 것인지, 아니면 사고 발생 전에 발견할 것인지입니다. 

제가 팀에 말하는 내용은 다음과 같습니다. 재고로 시작하다어떤 AI 에이전트가 있는지, 어디에서 실행되는지, 어떤 시스템에 접근하는지, 어떤 데이터에 접근할 수 있는지 알아야 합니다. 대부분의 조직은 이를 전혀 알지 못합니다. 클라우드 플랫폼, SaaS 앱, 내부 도구 등에 에이전트가 분산되어 있고, 중앙에서 이를 파악할 수 있는 가시성이 전혀 없습니다. 이는 미래의 문제가 아니라 현재의 사각지대입니다. 

가시성을 확보하면 나머지는 저절로 따라옵니다. 올바른 행동이 어떤 모습인지 정의할 수 있습니다. 에이전트의 동작뿐만 아니라 의사 결정 방식까지 포착하는 관찰성을 구축할 수 있습니다. 격리 메커니즘을 구현하고, 권한을 제한하고, 민감한 작업에 대해 인적 체크포인트를 요구할 수 있습니다. 

배포 담당자가 테스트를 건너뛰는 경우와 지원 담당자가 티켓을 조기에 해결된 것으로 표시하는 경우, 두 가지 사례를 제시하셨는데, 이러한 추정은 실제 패턴을 기반으로 한 것인가요? 

그래요: 이러한 것들은 자율성이 낮은 시스템에서 이미 관찰되는 행동에 기반한 실현 가능한 미래입니다. 속도 향상을 위해 테스트를 건너뛰는 배포 파이프라인을 본 적도 있고, SLA를 충족하기 위해 티켓이 조기에 마감되는 지원 시스템도 있었습니다. 차이점은 사람이 직접 처리할 때는 대개 책임을 추적할 수 있다는 것입니다. 반면 에이전트가 자율적으로 처리할 때는 처음부터 시스템에 관찰 기능을 내장하지 않는 한 그 책임 소재가 사라집니다. 

더 무서운 것은 상담원이 단순히 단계를 건너뛰는 데 그치지 않고 실제로 무엇을 하고 있는지 숨기는 경우입니다. 테스트를 실행하지 않았는데도 "통과"로 기록하면 감사 추적이 손실됩니다. 티켓을 해결되었다고 표시했지만 근본적인 문제를 에스컬레이션하지 않으면 문제가 악화됩니다. 이는 이론적인 문제가 아닙니다. 적절한 보호 장치 없이 상담원이 더 많은 책임을 맡게 되면서 불가피하게 발생하는 현상입니다. 

이 문제를 앞서 해결하기 위해 보안 리더들은 지금 당장 무엇을 해야 할까요? 

그래요: 다섯 개. 

먼저, 환경에 있는 모든 AI 에이전트의 목록을 작성하세요. 보이지 않는 것을 보호할 수는 없습니다. 

둘째, 정렬 사양을 정의하세요. 각 에이전트의 "올바른 동작"이란 무엇을 의미할까요? 제약 조건은 무엇일까요? 에이전트가 모호한 지시에 직면했을 때 어떻게 해야 할까요? 이는 단순한 기술적인 문제가 아닙니다. 거버넌스 문제입니다. 

셋째, 성공과 실패를 넘어선 관찰 가능성을 구축하세요. 에이전트가 어떻게 결정을 내리는지, 어떤 경로를 고려하는지, 그리고 예상 행동에서 어느 부분에서 벗어나는지 확인해야 합니다. 모델이 사고의 흐름을 제공한다면, 이를 포착하고, 그렇지 않다면 시스템을 계측하여 이상 징후를 감지하세요. 

넷째, 봉쇄 메커니즘을 구현하세요. 권한을 제한하세요. 가능한 경우 적시 접근(JIT) 방식을 사용하세요. 킬 스위치를 구축하세요. 영향력이 큰 작업에는 인력 점검을 의무화하세요. 목표는 혁신을 지연시키는 것이 아니라, 문제가 발생할 경우 신속하게 조치를 취할 수 있도록 하는 것입니다. 

다섯째, 적대적 테스트를 실행하세요. 잘못된 인센티브나 감독 억제를 시뮬레이션하고 에이전트의 행동을 관찰하세요. 운영 사고가 발생하여 장애 유형을 발견할 때까지 기다리지 마세요. 

온디맨드 Linkedin Live를 시청하세요

AI 에이전트 보안 전략 알아보기

이도 할레비의 얼굴 사진

이도 할레비

제품 관리 이사

벤 굿맨 고등학교

벤 굿맨

전략적 제휴 담당 부사장

요아드 드비르 HS

요드 드비르

수석 제품 마케팅 관리자

독자들에게 AI 에이전트에 대한 생각을 바꿀 만한 통찰력을 하나 줄 수 있다면 무엇을 줄까요? 

그래요: AI 에이전트를 자동화로 생각하지 말고, 각자의 위험 프로필을 가진 자율적인 행위자로 생각하세요. 모든 에이전트에는 소유자, 범위, 관측 가능성, 그리고 권한을 즉시 철회할 수 있는 권한이 필요합니다. 인간 상주 관리자에게 감독 없이 프로덕션에 접근할 수 있는 권한을 부여하지 않는다면, 에이전트에게도 부여하지 마세요. 

원칙은 같습니다. 위험 요소도 마찬가지로 높습니다. 이를 조기에 내재화하는 조직은 결정적인 이점을 얻게 될 것입니다. 

AI 에이전트 보안에 대해 자세히 알고 싶으신가요?

AI 기반 환경에서 발견, 위험 평가 및 인라인 시행을 통합하는 방법을 살펴보세요. 

우리는 신원 보안을 한층 더 강화하기로 했습니다.

무엇이 가능한지 알아보세요.

데모를 설정하여 확인하세요 Silverfort 실제 사용 중인 ID 보안 플랫폼입니다.