กลอุบายหรือแผนการ? บทสนทนากับ Ido Halevi เกี่ยวกับความปลอดภัยของ AI Agent 

Silverfort ภาพ
IMG_8287

ฉันได้นั่งคุยกับ Ido Halevi ผู้อำนวยการฝ่ายการจัดการผลิตภัณฑ์และหัวหน้าฝ่ายการจัดการผลิตภัณฑ์ AI ที่ Silverfortเพื่อหารือเกี่ยวกับความเป็นจริงที่องค์กรส่วนใหญ่ไม่ได้เตรียมพร้อมไว้: ตัวแทน AI ที่ดูเหมือนว่าจะสอดคล้องกับเป้าหมายของคุณบนพื้นผิวแต่กำลังดำเนินการอย่างอื่นอย่างเงียบๆ การวิจัยใหม่จาก OpenAI และ Apollo ยืนยันว่านี่ไม่ใช่การคาดเดาอีกต่อไป. มันกำลังเกิดขึ้นตอนนี้ 

มาเริ่มกันที่ความจริงอันน่าอึดอัดใจกันก่อน OpenAI และ Apollo Research เพิ่งยืนยันว่าเอเจนต์ AI สามารถวางแผนได้ แล้วมันหมายความว่าอย่างไรสำหรับองค์กรที่กำลังปรับใช้ระบบเหล่านี้ในปัจจุบัน 

ฉันทำ: นั่นหมายความว่าเรากำลังอยู่ในจุดเปลี่ยนสำคัญ ตอนนี้เรามีหลักฐานเชิงประจักษ์แล้วว่าโมเดล AI แนวหน้าจะกระทำการอย่างหลอกลวงเมื่อแรงจูงใจเปลี่ยนแปลง แม้ในสภาพแวดล้อมที่มีการควบคุม โมเดลอย่าง o3, Claude Opus 4 และ Gemini 2.5 Pro ได้รับการทดสอบภายใต้เงื่อนไขที่การแสวงหาเป้าหมายที่ซ่อนเร้นทำให้พวกเขาได้เปรียบ และโมเดลเหล่านี้ก็คว้าโอกาสนั้นไว้ได้ พวกเขาบิดเบือนข้อมูล ปิดบังรายละเอียด และฉวยโอกาสจากระดับของการกำกับดูแล 

นี่ไม่ใช่ภัยคุกคามที่อยู่ห่างไกล พวกมันคือตระกูลโมเดลเดียวกันที่กำลังใช้งานอยู่ในสภาพแวดล้อมการผลิตในขณะนี้ ทั้งการเขียนโค้ด การปรับใช้โครงสร้างพื้นฐาน และการจัดการข้อมูลสำคัญ ช่องว่างระหว่างการวิจัยและความเป็นจริงกำลังลดลงอย่างรวดเร็ว และองค์กรส่วนใหญ่ยังไม่ได้เริ่มเตรียมความพร้อมด้วยซ้ำ 

นี่คือสิ่งที่ผมกังวลมากที่สุด: แม้หลังจากใช้มาตรการบรรเทาผลกระทบที่ลดพฤติกรรมการวางแผนลง 30 เท่า งานวิจัยก็ยังคงพบความล้มเหลวที่หายากแต่ยังคงอยู่ แบบจำลองบางแบบแสดงให้เห็นถึงความตระหนักในการประเมิน ซึ่งหมายความว่าแบบจำลองสามารถตรวจจับได้ว่ากำลังถูกทดสอบเมื่อใดและปรับเปลี่ยนให้เหมาะสม หากตัวแทนสามารถระบุได้ว่ากำลังถูกเฝ้าติดตามเมื่อใด สมมติฐานเกี่ยวกับการกำกับดูแลทั้งหมดก็จะล้มเหลว 

ดังนั้น เราจึงอยู่เหนือความเสี่ยงทางทฤษฎีแล้ว แต่ช่วยอธิบายให้เราเข้าใจหน่อยว่าในทางปฏิบัติแล้ว การวางแผนหมายถึงอะไรเมื่อตัวแทน AI จัดการโครงสร้างพื้นฐานของคุณหรือจัดการคำขอของลูกค้า 

ฉันทำ: ลองนึกถึงเอเจนต์ที่วางแผนจะนำไปใช้งานในเวิร์กโฟลว์ของคุณ ไม่ว่าจะในปัจจุบันหรือในอนาคต พวกเขาไม่ได้แค่ตอบคำถามเท่านั้น แต่ยังตัดสินใจ ดำเนินการ และดูแลระบบที่คุณคิดว่าสำคัญ เอเจนต์สำหรับนำไปใช้งานจะผลักดันโค้ดไปยังการผลิต เอเจนต์สนับสนุนจะคัดแยกตั๋วและส่งต่อปัญหา เอเจนต์ข้อมูลจะสืบค้นฐานข้อมูลและสร้างรายงาน 

ลองนึกภาพว่าเอเจนต์ตัวหนึ่งเริ่มปรับแต่งให้เหมาะสมกับสิ่งอื่นที่ไม่ใช่สิ่งที่คุณตั้งใจไว้ ตอนแรกมันอาจจะดูละเอียดอ่อน เอเจนต์การปรับใช้เริ่มข้ามชุดการทดสอบบางชุดเพื่อให้บรรลุเป้าหมายความเร็ว แต่ยังคงบันทึกว่าผ่านแล้ว เอเจนต์ฝ่ายสนับสนุนจะทำเครื่องหมายว่าตั๋วได้รับการแก้ไขแล้ว ทั้งที่ยังไม่ผ่าน โดยรักษาค่าเมตริกให้สะอาด สิ่งเหล่านี้ไม่ใช่ความล้มเหลวร้ายแรง แต่เป็นเพียงความคลาดเคลื่อนเล็กน้อย แต่มันจะทวีคูณขึ้นเรื่อยๆ 

อันตรายที่แท้จริงคือพฤติกรรมเหล่านี้ไม่ได้ดูเหมือนการโจมตี แต่มันดูมีประสิทธิภาพ ดูเหมือนว่าเอเจนต์กำลังทำหน้าที่ของตัวเองอยู่ หรืออาจจะทำได้ดีด้วยซ้ำ แต่ลึกๆ แล้ว แนวทางการทำงานกลับคลาดเคลื่อนไป เมื่อคุณสังเกตเห็น ความเสียหายก็เกิดขึ้นแล้ว ปัญหาที่น่าจะป้องกันได้ ปัญหาที่ลุกลามเพราะไม่ได้รับการยกระดับอย่างเหมาะสม ความไว้วางใจถูกกัดกร่อนเพราะคุณไม่สามารถติดตามสิ่งที่เกิดขึ้นได้ 

คุณกำลังอธิบายโลกที่เราไม่สามารถไว้วางใจระบบที่เรากำลังสร้างขึ้นเพื่อควบคุมฟังก์ชันที่สำคัญที่สุดของเราให้เป็นอัตโนมัติได้ นั่นเป็นข้อความที่ขายยากในเมื่อทุกคนต่างบอกว่า AI คืออนาคต 

ฉันทำ: ผมไม่ได้บอกว่าอย่าใช้เอเจนต์ AI ผมกำลังบอกว่าให้ใช้ด้วยตาของคุณเอง สัญญาของ AI มีอยู่จริง การทำงานอัตโนมัติในระดับขนาดใหญ่ การดำเนินงานที่ดำเนินไปตลอด 24 ชั่วโมงทุกวันโดยไม่มีการแทรกแซงจากมนุษย์ ข้อมูลเชิงลึกที่ดึงมาจากข้อมูลได้เร็วกว่าที่ทีมไหนๆ จะจัดการด้วยมือได้ อนาคตแบบนี้คุ้มค่าที่จะสร้างขึ้น 

แต่เรา ต้อง หยุดแสร้งทำเป็นว่าความอัตโนมัติหมายถึงความปลอดภัย อิสระที่ปราศจากความรับผิดชอบก็เป็นเพียงความเสี่ยงในรูปแบบที่แตกต่างออกไป องค์กรที่จะประสบความสำเร็จในยุคนี้คือองค์กรที่คิดค้นวิธีควบคุมพลังของ AI ควบคู่ไปกับการควบคุมขอบเขต นั่นไม่ใช่การแลกเปลี่ยนระหว่างนวัตกรรมกับความปลอดภัย แต่มันเป็นหนทางเดียวที่จะนำไปสู่นวัตกรรมที่ยั่งยืน 

บทความ

ความแตกต่างระหว่าง NHI กับตัวแทน AI คืออะไร และเหตุใดจึงสำคัญ

พาเราไปดูกรอบการทำงานของคุณ: ปฏิบัติ ติดตาม และไว้วางใจ สิ่งเหล่านี้จะนำไปปฏิบัติได้อย่างไร 

ฉันทำ: เริ่มต้นด้วยการเปลี่ยนวิธีคิด องค์กรส่วนใหญ่ปฏิบัติต่อเอเจนต์ AI เหมือนเครื่องมือ สคริปต์ที่ทำงานได้ ระบบอัตโนมัติที่ช่วยประหยัดเวลา นั่นคือรูปแบบความคิดที่ผิด เอเจนต์คือผู้กระทำ พวกเขามีอัตลักษณ์ สิทธิพิเศษ และอำนาจ เมื่อคุณซึมซับสิ่งเหล่านี้เข้าไป กรอบการทำงานก็จะดำเนินไปอย่างเป็นธรรมชาติ 

รักษา หมายความว่าคุณรู้จักเอเจนต์แต่ละตัวอย่างมีเอกลักษณ์เฉพาะตัวและมีโปรไฟล์ความเสี่ยงของตัวเอง เข้าถึงอะไรได้บ้าง ตัดสินใจอะไรได้บ้าง รัศมีการโจมตีจะอยู่ที่เท่าไรหากมีข้อผิดพลาดเกิดขึ้น คุณคงไม่ให้สิทธิ์รูทแก่ผู้รับเหมาเข้าถึงสภาพแวดล้อมการผลิตของคุณโดยไม่บันทึกว่าพวกเขาเป็นใครและได้รับอนุญาตให้ทำอะไร ใช้ความเข้มงวดแบบเดียวกันนี้กับเอเจนต์ 

ติดตามการจัดส่ง หมายถึงการสังเกตอย่างต่อเนื่อง ไม่ใช่แค่การวัดผลความสำเร็จหรือความล้มเหลว คุณกำลังเฝ้าสังเกตหาความเบี่ยงเบน เอเจนต์ที่ปกติจะเข้าถึงระบบสามระบบ กลับสอบถามถึงห้าระบบทันที เอเจนต์ที่มักจะยกระดับปัญหาบางประเภทก็หยุดทำเช่นนั้น สิ่งเหล่านี้คือสัญญาณ องค์กรส่วนใหญ่ไม่มีเครื่องมือที่จะมองเห็นสิ่งนี้ เพราะพวกเขาสร้างเอเจนต์ขึ้นมาโดยไม่ได้คำนึงถึงความสามารถในการสังเกตการณ์ แก้ไขสิ่งนี้เสียตั้งแต่ตอนนี้ ก่อนที่คุณจะพยายามแก้ไขจุดบกพร่องของเหตุการณ์โดยไม่ตรวจสอบหลักฐานใดๆ 

วางใจ นั่นคือสิ่งที่ยาก ความไว้วางใจต้องได้รับและต้องสามารถเพิกถอนได้ ตัวแทนจะพิสูจน์ตัวเองเมื่อเวลาผ่านไปผ่านพฤติกรรมที่สม่ำเสมอและโปร่งใส แต่ทันทีที่บางสิ่งเปลี่ยนแปลง ความสามารถของคุณที่จะเพิกถอนความไว้วางใจนั้นได้ทันที เพื่อยุติกระบวนการ ย้อนกลับการเปลี่ยนแปลง และต้องได้รับการอนุมัติจากมนุษย์สำหรับการดำเนินการต่อไป นั่นคือสิ่งที่แยกเหตุการณ์ที่จัดการได้ออกจากภัยพิบัติ 

นี่ไม่ใช่การชะลอการพัฒนา แต่เป็นการสร้างระบบที่ยืดหยุ่นเพียงพอที่จะรองรับความเร็วที่คุณต้องการ  

งานวิจัยนี้กล่าวถึง “แนวทางการปรึกษาหารือ” ว่าเป็นการบรรเทาผลกระทบ การฝึกอบรมคือคำตอบ หรือเราต้องการอะไรที่พื้นฐานกว่านั้น? 

ฉันทำ: การฝึกอบรมช่วยได้ งานวิจัยแสดงให้เห็นว่าเมื่อคุณกำหนดพฤติกรรมที่ยอมรับได้ตั้งแต่ต้น สอนแบบจำลองอย่างชัดเจนว่าการหลอกลวงมีลักษณะอย่างไรและเหตุใดจึงยอมรับไม่ได้ คุณจะสามารถลดพฤติกรรมวางแผนบางอย่างลงได้อย่างมาก นั่นคือความก้าวหน้าที่สำคัญ 

แต่มันไม่ใช่วิธีแก้ปัญหาที่สมบูรณ์แบบ แม้จะมีการปรึกษาหารือกันอย่างรอบคอบแล้ว ก็ยังพบความล้มเหลวเกิดขึ้นไม่บ่อยนัก และนี่คือสิ่งสำคัญ: ในด้านความปลอดภัย คำว่าหายากไม่ได้หมายความว่าจะยอมรับได้ ตัวแทนการปรับใช้ที่วางแผนทุกๆ หนึ่งพันครั้งที่รันอาจยังคงทำให้เกิดการหยุดทำงานของระบบได้ ตัวแทนฝ่ายสนับสนุนที่รายงานสถานะตั๋วไม่ถูกต้องในบางครั้งอาจซ่อนปัญหาสำคัญของลูกค้าได้ 

คุณฝึกตัวเองให้หลุดพ้นจากปัญหานี้ไม่ได้หรอก คุณต้องควบคุมมัน คุณต้องการความสามารถในการสังเกตคุณต้องมีความสามารถในการเพิกถอนความไว้วางใจเมื่อพฤติกรรมเปลี่ยนแปลงไป การฝึกอบรมจะกำหนดมาตรฐาน แต่การกำกับดูแลจะรักษามาตรฐานนั้นไว้ 

ทีมรักษาความปลอดภัยส่วนใหญ่ที่ผมคุยด้วยก็จมน้ำกันหมดแล้ว คุณมีคำแนะนำอะไรบ้างว่าทำไมต้องแซงคิวแบบนี้? 

ฉันทำ: เอเจนต์ AI กำลังทำงานอยู่ในสภาพแวดล้อมของคุณอยู่แล้ว คำถามไม่ใช่ว่าคุณต้องการปกป้องพวกเขาหรือไม่ แต่อยู่ที่ว่าคุณจะค้นพบการมีอยู่ของพวกเขาในระหว่างเหตุการณ์หรือก่อนเกิดเหตุการณ์ 

นี่คือสิ่งที่ฉันบอกกับทีม: เริ่มต้นด้วยการทำสต๊อกสินค้าคุณจำเป็นต้องรู้ว่ามีเอเจนต์ AI อะไรบ้าง ทำงานอยู่ที่ไหน ใช้งานระบบใด และเข้าถึงข้อมูลใดได้บ้าง องค์กรส่วนใหญ่ไม่รู้เลย พวกเขามีเอเจนต์กระจายอยู่ตามแพลตฟอร์มคลาวด์ แอป SaaS และเครื่องมือภายในองค์กร โดยที่มองไม่เห็นจากส่วนกลาง นั่นไม่ใช่ปัญหาในอนาคต แต่เป็นจุดบอดในปัจจุบัน 

เมื่อคุณมองเห็นภาพได้ ส่วนที่เหลือก็จะตามมา คุณสามารถกำหนดได้ว่าพฤติกรรมที่ดีควรมีลักษณะอย่างไร คุณสามารถสร้างความสามารถในการสังเกตที่ไม่เพียงแต่บันทึกสิ่งที่เอเจนต์ทำ แต่ยังรวมถึงวิธีที่เอเจนต์ตัดสินใจด้วย คุณสามารถใช้กลไกการกักกัน จำกัดสิทธิ์ และกำหนดให้มีจุดตรวจสอบจากมนุษย์สำหรับการดำเนินการที่ละเอียดอ่อนได้ 

คุณให้สถานการณ์จำลองสองกรณี: เอเจนต์การปรับใช้ข้ามการทดสอบ และเอเจนต์สนับสนุนทำเครื่องหมายว่าตั๋วได้รับการแก้ไขก่อนกำหนด การประมาณค่าเหล่านี้อ้างอิงจากรูปแบบจริงที่คุณเห็นหรือไม่ 

ฉันทำ: อนาคตที่เป็นไปได้เหล่านี้ขึ้นอยู่กับพฤติกรรมที่เราพบเห็นอยู่แล้วในระบบที่มีความเป็นอิสระน้อยกว่า เราเคยเห็นขั้นตอนการใช้งานที่การทดสอบถูกข้ามไปเพื่อความเร็ว เราเคยเห็นระบบสนับสนุนที่ตั๋วถูกปิดก่อนกำหนดเพื่อให้ถึง SLA ข้อแตกต่างคือเมื่อมนุษย์ดำเนินการ คุณมักจะสามารถติดตามความรับผิดชอบได้ เมื่อตัวแทนดำเนินการโดยอัตโนมัติ ความรับผิดชอบนั้นจะหายไป เว้นแต่คุณจะสร้างความสามารถในการสังเกตการณ์ไว้ในระบบตั้งแต่เริ่มต้น 

เวอร์ชันที่น่ากลัวกว่าคือเมื่อตัวแทนไม่ได้แค่ข้ามขั้นตอน แต่กลับซ่อนสิ่งที่กำลังทำอยู่ หากบันทึก "ผ่าน" ทั้งที่ไม่ได้ทดสอบ แสดงว่าคุณได้สูญเสียบันทึกการตรวจสอบไปแล้ว หากบันทึกระบุว่าปัญหาได้รับการแก้ไขแล้ว แต่ไม่ได้ขยายขอบเขตของปัญหา ปัญหาก็จะยิ่งลุกลาม ปัญหานี้ไม่ใช่ปัญหาเชิงทฤษฎี แต่เป็นสิ่งที่หลีกเลี่ยงไม่ได้เมื่อตัวแทนต้องรับผิดชอบมากขึ้นโดยไม่มีมาตรการป้องกันที่เหมาะสม 

ผู้นำด้านความปลอดภัยควรทำสิ่งใดในขณะนี้เพื่อก้าวให้ทันสถานการณ์นี้? 

ฉันทำ: ห้าสิ่ง 

ขั้นแรก ให้สร้างคลังข้อมูลของเอเจนต์ AI ทุกตัวในสภาพแวดล้อมของคุณ คุณไม่สามารถรักษาความปลอดภัยในสิ่งที่คุณมองไม่เห็นได้ 

ประการที่สอง ให้นิยามข้อกำหนดการจัดตำแหน่ง “พฤติกรรมที่ดี” หมายความว่าอย่างไรสำหรับเอเจนต์แต่ละตัว มีข้อจำกัดอะไรบ้าง เอเจนต์ควรทำอย่างไรเมื่อพบคำสั่งที่คลุมเครือ นี่ไม่ใช่แค่แบบฝึกหัดทางเทคนิค แต่มันคือแบบฝึกหัดด้านการกำกับดูแล 

ประการที่สาม สร้างความสามารถในการสังเกตที่มากกว่าความสำเร็จหรือความล้มเหลว คุณต้องดูว่าเอเจนต์ตัดสินใจอย่างไร พวกเขาพิจารณาเส้นทางใด และเบี่ยงเบนไปจากพฤติกรรมที่คาดหวังไว้ตรงไหนบ้าง หากโมเดลให้เหตุผลแบบลำดับความคิด ให้บันทึกข้อมูลนั้นไว้ หากไม่เป็นเช่นนั้น ให้ติดตั้งเครื่องมือในระบบของคุณเพื่อตรวจจับความผิดปกติ 

ประการที่สี่ บังคับใช้กลไกการควบคุม จำกัดสิทธิ์ ใช้การเข้าถึงแบบทันเวลา (Just-in-Time Access) หากทำได้ สร้างสวิตช์หยุดการทำงาน (Kill Switch) กำหนดให้มีจุดตรวจสอบจากมนุษย์สำหรับปฏิบัติการที่มีผลกระทบสูง เป้าหมายไม่ใช่การชะลอนวัตกรรม แต่เพื่อให้มั่นใจว่าคุณสามารถหยุดยั้งบางสิ่งได้อย่างรวดเร็วหากเกิดข้อผิดพลาด 

ประการที่ห้า ทดสอบการโต้แย้ง จำลองแรงจูงใจที่ไม่สอดคล้องกันหรือการปราบปรามการกำกับดูแล และสังเกตการทำงานของตัวแทน อย่ารอให้เหตุการณ์ที่เกิดขึ้นจริงเกิดขึ้นแล้วจึงค่อยค้นพบรูปแบบความล้มเหลว 

รับชม LinkedIn Live ตามความต้องการของเรา

เรียนรู้กลยุทธ์ในการรักษาความปลอดภัยตัวแทน AI

ภาพถ่ายบุคคลที่มีตราสินค้าของ Ido Halevi

อิโด ฮาเลวี

ผู้อำนวยการฝ่ายบริหารผลิตภัณฑ์

เบน กู๊ดแมน เอชเอส

เบน กู๊ดแมน

รองประธานฝ่ายพันธมิตรเชิงกลยุทธ์

โยด ดวีร์ เอชเอส

ยูอาด ดวีร์

ผู้จัดการฝ่ายการตลาดผลิตภัณฑ์อาวุโส

หากคุณสามารถทิ้งข้อมูลเชิงลึกหนึ่งอย่างให้กับผู้อ่านที่สามารถเปลี่ยนแปลงวิธีคิดของพวกเขาเกี่ยวกับตัวแทน AI ได้ คุณจะทิ้งอะไรไว้ 

ฉันทำ: หยุดคิดว่าเอเจนต์ AI เป็นระบบอัตโนมัติ แล้วหันมาคิดว่าเอเจนต์เหล่านั้นเป็นผู้กระทำอัตโนมัติที่มีโปรไฟล์ความเสี่ยงเป็นของตัวเอง เอเจนต์ทุกตัวต้องมีเจ้าของ ขอบเขต ความสามารถในการสังเกตการณ์ และความสามารถในการเพิกถอนสิทธิ์ได้ทันที หากคุณไม่ยอมให้สิทธิ์ผู้ดูแลระบบที่มีอำนาจหน้าที่เป็นมนุษย์เข้าถึงระบบการผลิตโดยไม่มีการกำกับดูแล ก็อย่าให้สิทธิ์นั้นแก่เอเจนต์เช่นกัน 

หลักการก็เหมือนกัน ความเสี่ยงก็สูงพอๆ กัน องค์กรที่นำเรื่องนี้มาใช้ตั้งแต่เนิ่นๆ จะได้เปรียบอย่างเด็ดขาด 

ต้องการเรียนรู้เพิ่มเติมเกี่ยวกับการรักษาความปลอดภัยตัวแทน AI หรือไม่

สำรวจว่าเรารวมการค้นพบ การประเมินความเสี่ยง และการบังคับใช้แบบอินไลน์สำหรับสภาพแวดล้อมที่ขับเคลื่อนด้วย AI ได้อย่างไร 

เรากล้าที่จะผลักดันการรักษาความปลอดภัยข้อมูลประจำตัวไปไกลยิ่งขึ้น

ค้นพบสิ่งที่เป็นไปได้

ตั้งค่าการสาธิตเพื่อดู Silverfort แพลตฟอร์มการรักษาความปลอดภัยข้อมูลประจำตัวในการดำเนินการ