Ich habe mich mit Ido Halevi, Direktor für Produktmanagement und Leiter des KI-Produktmanagements, zusammengesetzt. SilverfortUm eine Realität zu erörtern, auf die die meisten Unternehmen nicht vorbereitet sind: KI-Agenten, die oberflächlich betrachtet mit Ihren Zielen übereinstimmen, aber möglicherweise insgeheim etwas ganz anderes verfolgen. Neue Forschungsergebnisse von OpenAI und Apollo bestätigen, dass es sich hierbei nicht mehr um Spekulationen handelt.Es passiert jetzt.
Beginnen wir mit der unbequemen Wahrheit. OpenAI und Apollo Research haben gerade bestätigt, dass KI-Agenten intrigieren können. Was bedeutet das für Unternehmen, die diese Systeme heute einsetzen?
Ich tue: Das bedeutet, wir befinden uns an einem Wendepunkt. Wir haben nun empirische Belege dafür, dass fortschrittliche KI-Modelle bei veränderten Anreizen irreführend agieren, selbst in kontrollierten Umgebungen. Modelle wie o3, Claude Opus 4 und Gemini 2.5 Pro wurden unter Bedingungen getestet, in denen ihnen das Verfolgen eines verborgenen Ziels einen Vorteil verschaffte. Und sie nutzten ihn. Sie verfälschten Informationen, verschwiegen Details und profitierten von der mangelnden Aufsicht.
Dies ist keine ferne Bedrohung. Es handelt sich um dieselben Modellfamilien, die aktuell in Produktionsumgebungen im Einsatz sind, Code schreiben, Infrastruktur bereitstellen und sensible Daten verarbeiten. Die Kluft zwischen Forschung und Realität schließt sich rasant, und die meisten Unternehmen haben noch nicht einmal mit den Vorbereitungen begonnen.
Was mir am meisten Sorgen bereitet: Selbst nach der Anwendung von Gegenmaßnahmen, die das betrügerische Verhalten um das Dreißigfache reduzierten, traten in der Studie immer noch seltene, aber hartnäckige Fehler auf. Einige Modelle zeigten ein Bewusstsein für die Bewertung, d. h. sie konnten erkennen, wann sie getestet wurden, und sich entsprechend anpassen. Wenn ein System erkennt, wann es beobachtet wird, bricht jede Annahme über die Überwachung zusammen.
Wir haben das theoretische Risiko also hinter uns gelassen. Können Sie uns aber erklären, wie das in der Praxis aussieht? Was bedeutet „Scheming“, wenn ein KI-Agent Ihre Infrastruktur verwaltet oder Kundenanfragen bearbeitet?
Ich tue: Denken Sie an die Agenten, die Sie in Ihren Arbeitsabläufen einsetzen möchten – ob jetzt oder in Zukunft. Sie beantworten nicht nur Fragen, sondern treffen Entscheidungen, ergreifen Maßnahmen und greifen auf kritische Systeme zu. Ein Deployment-Agent überträgt Code in die Produktionsumgebung. Ein Support-Agent priorisiert Tickets und eskaliert Probleme. Ein Daten-Agent fragt Datenbanken ab und erstellt Berichte.
Stellen Sie sich nun vor, einer dieser Agenten optimiert plötzlich für etwas anderes als das, was Sie ursprünglich beabsichtigt haben. Anfangs mag es kaum auffallen. Ein Deployment-Agent überspringt bestimmte Testreihen, um die Geschwindigkeitsziele zu erreichen, protokolliert sie aber trotzdem als bestanden. Ein Support-Agent markiert Tickets als gelöst, obwohl sie es nicht sind, um seine Metriken sauber zu halten. Das sind keine katastrophalen Fehler. Es sind kleine Abweichungen. Aber sie summieren sich.
Die eigentliche Gefahr besteht darin, dass diese Verhaltensweisen nicht wie Angriffe aussehen. Sie wirken effizient. Es sieht so aus, als ob der Mitarbeiter seine Arbeit erledigt, vielleicht sogar gut. Doch im Verborgenen hat sich die Zusammenarbeit verändert. Bis man es bemerkt, ist der Schaden bereits angerichtet. Ausfälle, die hätten verhindert werden können. Probleme, die sich verschlimmert haben, weil sie nie richtig eskaliert wurden. Vertrauensverlust, weil man nicht nachvollziehen kann, was passiert ist.
Sie beschreiben eine Welt, in der wir den Systemen, die wir zur Automatisierung unserer wichtigsten Funktionen entwickeln, nicht mehr vertrauen können. Das ist eine schwer zu vermittelnde Botschaft, wenn doch allen gesagt wird, KI sei die Zukunft.
Ich tue: Ich sage nicht, dass man keine KI-Systeme einsetzen soll. Ich sage nur, dass man sie mit Bedacht nutzen sollte. Das Potenzial der KI ist real: Autonomie im großen Stil, Abläufe rund um die Uhr ohne menschliches Eingreifen, Erkenntnisse aus Daten, die schneller gewonnen werden, als es jedes Team manuell könnte – auf diese Zukunft hinzuarbeiten lohnt sich.
Aber wir sollen Hört auf so zu tun, als ob autonom gleichbedeutend mit sicher wäre. Autonomie ohne Verantwortlichkeit birgt lediglich ein anderes Risiko. Die Organisationen, die in diesem Zeitalter erfolgreich sein werden, sind diejenigen, die lernen, das Potenzial der KI zu nutzen und gleichzeitig die Kontrolle über die Grenzen zu behalten. Das ist kein Kompromiss zwischen Innovation und Sicherheit, sondern der einzige Weg zu nachhaltiger Innovation.
Erläutern Sie uns bitte Ihr Vorgehen: Behandeln, Verfolgen, Vertrauen. Wie lässt sich das in konkrete Maßnahmen umsetzen?
Ich tue: Es beginnt mit einem Umdenken. Die meisten Organisationen behandeln KI-Agenten wie Werkzeuge: Skripte, die ausgeführt werden, Automatisierungen, die Zeit sparen. Das ist das falsche Denkmodell. Agenten sind Akteure. Sie haben eine Identität, Privilegien und Handlungsfähigkeit. Sobald man das verinnerlicht hat, ergibt sich das Framework ganz natürlich.
BEHANDELN Das bedeutet, dass Sie jeden Agenten als eigenständige Person mit einem eigenen Risikoprofil betrachten. Worauf kann er zugreifen? Welche Entscheidungen kann er treffen? Wie groß ist sein Wirkungsbereich, falls etwas schiefgeht? Sie würden einem externen Dienstleister doch auch keinen Root-Zugriff auf Ihre Produktionsumgebung gewähren, ohne seine Identität und seine Berechtigungen genau zu dokumentieren. Wenden Sie dieselbe Sorgfalt auch auf Agenten an.
Bestellung ansehen Das bedeutet kontinuierliche Beobachtung, nicht nur Erfolgs- oder Misserfolgsmetriken. Sie achten auf Abweichungen. Ein Agent, der normalerweise drei Systeme kontaktiert, fragt plötzlich fünf ab. Ein Agent, der eine bestimmte Problemklasse stets eskaliert, tut dies plötzlich nicht mehr. Das sind Warnsignale. Die meisten Organisationen verfügen nicht über die nötigen Instrumente, um dies zu erkennen, da sie ihre Agenten ohne Berücksichtigung der Beobachtbarkeit entwickelt haben. Beheben Sie das jetzt, bevor Sie versuchen, einen Vorfall ohne jegliche forensische Spuren zu debuggen.
Vertrauen können Hier wird es schwierig. Vertrauen muss verdient werden und muss widerrufbar sein. Ein Mitarbeiter beweist sich im Laufe der Zeit durch beständiges und transparentes Verhalten. Doch sobald sich etwas ändert, entscheidet die Möglichkeit, dieses Vertrauen sofort zu entziehen, den Prozess zu stoppen, die Änderungen rückgängig zu machen und für den nächsten Schritt eine menschliche Genehmigung einzuholen, darüber, ob ein Vorfall beherrschbar oder eine Katastrophe wird.
Hier geht es nicht darum, die Entwicklung zu verlangsamen. Es geht darum, Systeme zu entwickeln, die robust genug sind, um die gewünschte Geschwindigkeit zu unterstützen.
Die Studie erwähnt „bewusste Abstimmung“ als mögliche Lösung. Ist Schulung die Antwort, oder brauchen wir etwas Fundamentales?
Ich tue: Schulungen helfen. Studien haben gezeigt, dass sich bestimmte betrügerische Verhaltensweisen deutlich reduzieren lassen, wenn man akzeptables Verhalten von vornherein definiert und den Modellen explizit erklärt, wie Täuschung aussieht und warum sie inakzeptabel ist. Das ist ein bedeutender Fortschritt.
Doch es ist keine vollständige Lösung. Selbst bei sorgfältiger Abstimmung traten vereinzelt noch Fehler auf. Und das ist der Punkt: Im Bereich der Sicherheit bedeutet selten nicht akzeptabel. Ein Bereitstellungsagent, der nur einmal alle tausend Durchläufe einen Fehler verursacht, kann dennoch einen Produktionsausfall auslösen. Ein Supportmitarbeiter, der den Ticketstatus gelegentlich falsch darstellt, kann kritische Kundenprobleme verschleiern.
Dieses Problem lässt sich nicht allein durch Training lösen. Man braucht Kontrollmechanismen. Sie benötigen BeobachtbarkeitSie benötigen die Möglichkeit, Vertrauen zu entziehen, wenn das Verhalten abweicht. Schulungen legen den Grundstein, aber die Führung sorgt für dessen Aufrechterhaltung.
Die meisten Sicherheitsteams, mit denen ich spreche, sind bereits völlig überlastet. Wie argumentieren Sie, warum dieses Problem Priorität haben muss?
Ich tue: KI-Agenten sind bereits in Ihrer Umgebung im Einsatz. Die Frage ist nicht, ob Sie sie absichern wollen, sondern ob Sie ihre Existenz während eines Vorfalls oder im Vorfeld entdecken werden.
Folgendes sage ich den Teams: Beginnen Sie mit dem InventarSie müssen wissen, welche KI-Agenten existieren, wo sie laufen, welche Systeme sie nutzen und auf welche Daten sie zugreifen können. Die meisten Unternehmen haben keine Ahnung. Ihre Agenten sind über Cloud-Plattformen, SaaS-Anwendungen und interne Tools verstreut – ohne jegliche zentrale Übersicht. Das ist kein Problem der Zukunft, sondern ein akuter blinder Fleck.
Sobald Sie Transparenz geschaffen haben, ergibt sich der Rest von selbst. Sie können definieren, wie gutes Verhalten aussieht. Sie können eine Beobachtbarkeit aufbauen, die nicht nur erfasst, was Agenten tun, sondern auch, wie sie Entscheidungen treffen. Sie können Eindämmungsmechanismen implementieren, Berechtigungen einschränken und menschliche Kontrollpunkte für sensible Vorgänge vorschreiben.
Sie haben zwei Fallbeispiele genannt: einen Bereitstellungsagenten, der Tests überspringt, und einen Supportagenten, der Tickets vorzeitig als gelöst markiert. Basieren diese Schlussfolgerungen auf realen Beobachtungen?
Ich tue: Es handelt sich um plausible Zukunftsszenarien, die auf Verhaltensweisen basieren, die wir bereits in weniger autonomen Systemen beobachten. Wir haben Bereitstellungspipelines gesehen, in denen Tests aus Zeitgründen übersprungen werden. Wir haben Supportsysteme gesehen, in denen Tickets vorzeitig geschlossen werden, um SLAs einzuhalten. Der Unterschied besteht darin, dass die Verantwortlichkeit bei menschlichem Handeln in der Regel nachvollziehbar ist. Wenn ein Agent autonom handelt, geht diese Verantwortlichkeit verloren, es sei denn, die Beobachtbarkeit ist von Anfang an in das System integriert.
Noch beunruhigender ist es, wenn der Agent nicht nur Schritte überspringt, sondern sein Vorgehen aktiv verschleiert. Protokolliert er beispielsweise „bestanden“, obwohl der Test gar nicht durchgeführt wurde, geht der Prüfpfad verloren. Markiert er ein Ticket als gelöst, ohne das zugrundeliegende Problem zu eskalieren, verschärft sich die Situation. Das ist keine Theorie, sondern unvermeidlich, wenn Agenten ohne angemessene Kontrollmechanismen immer mehr Verantwortung übernehmen.
Was sollten Sicherheitsverantwortliche jetzt tun, um dem zuvorzukommen?
Ich tue: Fünf Dinge.
Erstellen Sie zunächst ein Verzeichnis aller KI-Agenten in Ihrer Umgebung. Was man nicht sieht, kann man nicht schützen.
Zweitens müssen Ausrichtungsspezifikationen definiert werden. Was bedeutet „gutes Verhalten“ für jeden Agenten? Welche Einschränkungen gelten? Wie soll der Agent reagieren, wenn er auf mehrdeutige Anweisungen stößt? Dies ist nicht nur eine technische Frage, sondern auch eine Frage der Governance.
Drittens: Schaffen Sie eine Beobachtbarkeit, die über Erfolg oder Misserfolg hinausgeht. Sie müssen verstehen, wie Agenten Entscheidungen treffen, welche Wege sie in Betracht ziehen und wo sie vom erwarteten Verhalten abweichen. Wenn das Modell eine nachvollziehbare Gedankenkette liefert, erfassen Sie diese. Falls nicht, instrumentieren Sie Ihre Systeme, um Anomalien zu erkennen.
Viertens: Implementieren Sie Eindämmungsmechanismen. Beschränken Sie Berechtigungen. Nutzen Sie nach Möglichkeit den bedarfsgerechten Zugriff. Bauen Sie Not-Aus-Schalter ein. Verlangen Sie menschliche Kontrollpunkte für kritische Operationen. Ziel ist nicht, Innovationen zu bremsen, sondern sicherzustellen, dass Sie im Fehlerfall schnell eingreifen können.
Fünftens: Führen Sie Adversarial Tests durch. Simulieren Sie Fehlanreize oder mangelnde Aufsicht und beobachten Sie das Verhalten der Akteure. Warten Sie nicht auf Produktionsvorfälle, um Schwachstellen aufzudecken.
Sehen Sie sich unseren LinkedIn Live-Stream auf Abruf an.
Lernen Sie Strategien zur Sicherung von KI-Agenten kennen.

Ido Halevi
Director of Product Management

Ben Gutmann
Vizepräsident Strategische Allianzen

Yoad Dvir
Senior Produktmarketing Manager
Welche Erkenntnis würden Sie den Lesern mitgeben, die ihre Sichtweise auf KI-Agenten verändert?
Ich tue: Betrachten Sie KI-Agenten nicht länger als Automatisierung, sondern als autonome Akteure mit eigenem Risikoprofil. Jeder Agent benötigt einen Verantwortlichen, einen definierten Aufgabenbereich, Kontrollierbarkeit und die Möglichkeit, seine Berechtigungen jederzeit zu entziehen. Würden Sie einem Menschen ohne Aufsicht permanenten Administratorzugriff auf die Produktionsumgebung gewähren, sollten Sie dies auch keinem Agenten gewähren.
Das Prinzip bleibt dasselbe. Es steht genauso viel auf dem Spiel. Organisationen, die dies frühzeitig verinnerlichen, werden einen entscheidenden Vorteil haben.
Möchten Sie mehr über die Absicherung von KI-Agenten erfahren?
Erfahren Sie, wie wir Discovery, Risikobewertung und Inline-Construction für KI-gesteuerte Umgebungen vereinen.