Sicher mit KI-Agenten – Warum Zero Trust im Umgang mit Agentic AI unverzichtbar ist

von Dr. Erwin Quiring – 4. August 2025

Eine E-Mail reicht – und schon verschickt ein KI-Agent vertrauliche Daten an Dritte. Willkommen in der Welt der autonomen KI-Systeme, die nicht nur denken, sondern handeln. Agentic AI verändert die Arbeit und stellt damit aber auch Sicherheitsteams vor ganz neue Herausforderungen.

In Teil 1 unserer Artikelserie zu Agentic AI haben wir erklärt, wie Agentic AI funktioniert: KI-Systeme, die selbstständig Entscheidungen treffen, Tools nutzen und Prozesse steuern. Dafür haben Agenten Zugriff auf verschiedene sog. Tools, um mit externen Systemen wie einer Datenbank, Websuche oder Outlook zu agieren. In Teil 2 ging es darum, wie Unternehmen und öffentliche Einrichtungen solche Systeme sinnvoll einführen – von der Fallauswahl bis zur Governance.

In Teil 3 geht es hier um die Frage: Wie stellen wir sicher, dass diese Systeme auch wirklich vertrauenswürdig sind? Denn mit der gestiegenen Autonomie steigt auch das Risiko. KI-Agenten können nicht nur helfen – sie können auch ungewollt Daten freigeben, manipulierte Inhalte verarbeiten oder kritische Systeme gefährden. Deshalb: Zero Trust!

Aktueller Vorfall: EchoLeak als Weckruf

Kürzliche Vorfälle wie der „EchoLeak“ Hack von Microsoft 365 Copilot zeigen die enormen Risiken von KI-Agenten. Eine einfache E-Mail an einen Nutzer reichte, um den Copilot-Agenten im Hintergrund zu starten – der daraufhin unbemerkt interne Dokumente an eine externe Adresse sendete.

Der Vorfall zeigt: KI-Agenten sind keine passiven Programme. Sie handeln aktiv, treffen Entscheidungen und führen Aufgaben aus – oft ohne direkte Kontrolle durch den Menschen. Solche autonomen Systeme eröffnen große Chancen, wie in unserem ersten Artikel zur Agentic AI erläutert. Doch mit der neuen Freiheit wachsen auch die Risiken. Es braucht einen grundlegend anderen Sicherheitsansatz: Zero Trust für KI-Agenten.

Was macht KI-Agenten so riskant?

KI-Agenten sind nicht einfach „intelligentere Assistenten“. Sie analysieren Anfragen, planen eigene Schritte, rufen Tools auf und führen Prozesse selbstständig aus – zum Beispiel Kalenderbuchungen, Datenbankabfragen oder Textanalysen. Diese Fähigkeiten machen sie leistungsfähig – aber auch besonders anfällig für neue Angriffsmuster. Denn:

Sie handeln auf Basis von Daten, die sie selbstständig beschaffen.

Sie schreiben Code oder führen Befehle aus.

Sie agieren mit anderen Systemen.

Sobald solche Agenten mit der Außenwelt vernetzt sind, entstehen neue, schwer kontrollierbare Risiken. Um das große Potenzial von KI-Agenten sicher nutzen zu können, müssen daher die möglichen Risiken und Schwachstellen systematisch berücksichtigt werden. Sicherheit ist kein Kann-, sondern ein Muss-Kriterium, allein schon durch die umfangreichen Sicherheitsanforderungen an KI-Systeme, die im europäischen AI Act gefordert sind. Wo also anfangen?

Zwei zentrale Risikobereiche: Modell und Agenten-Komponenten

Wir können die Risiken in zwei Bereiche unterteilen, entsprechend dem typischen Aufbau eines KI-Agenten Systems.

Abb. 1: Aufbau eines KI-Agenten-Systems (eigene Darstellung)

1. Schwachstellen im zugrundeliegenden LLM-Modell

Im Mittelpunkt steht zunächst das LLM-Modell, wie z. B. GPT-4.1 oder Llama 3.1, welches KI-Agenten für verschiedene Zwecke einsetzen. Damit übernehmen KI-Agenten zwangsläufig auch die Schwachstellen von LLM-Modellen.

Typische Risiken sind:

Manipulation des Trainingsdatensatzes („data poisoning“),

Extrahieren vertraulicher Trainingsdaten („data leakage“),

Stehlen des KI-Modells („model theft“),

Manipulation von Fremd-Bibliotheken und öffentlichen KI-Modellen („supply chain attack“) oder

Eingabe von böswilligen Prompts („prompt injection“).

In multimodalen LLMs kommen neue Angriffsmöglichkeiten hinzu: manipulierte Bilder, Video oder Audio-Dateien können genutzt werden, um so das Verhalten des KI-Modells gezielt zu beeinflussen (Stichwort: „adversarial examples“).

2. Risiken durch angebundene Agenten-Komponenten

Da sich KI-Agenten insbesondere durch die Anbindung von externen Systemen auszeichnen, entstehen hier neue Risiken. Zwei konkrete Beispiele im Folgenden sollen das Risiko veranschaulichen:

Risiko: RAG Poisoning

Ein häufiger Use-Case ist die Anbindung einer RAG-Datenbank, um durch zusätzliche Wissensquellen wie etwa gecrawlte Webseiten oder PDF-Dokumente die Ausgabequalität des KI-Systems zu verbessern.

Diese Einbindung bietet allerdings die Möglichkeit, dass Angreifer auf den indizierten Webseiten bösartige Inhalte platzieren. Zudem können Angreifer auch verborgene Inhalte in PDF-Dokumente einbinden, die gängige PDF-Viewer nicht anzeigen, aber durch das KI-System extrahiert werden.

Sobald diese Webseiten oder PDF-Dokumente abgefragt und als Wissensquelle dem KI-Agenten zur Verfügung gestellt werden, kann sich das Verhalten des KI-Agenten unbemerkt verändern. Denkbar ist, dass eine Bank-Überweisung an den falschen Empfänger gesendet wird, falls solch eine Anweisung vorher auf einer Webseite platziert wurde.

Risiko: Prompt-to-SQL-Injection

Ein vielversprechender Use-Case ist die Anbindung einer Datenbank, für die ein KI-Agent selbstständig SQL-Anfragen schreibt, um so Informationen abzurufen oder zu speichern. Damit können zum Beispiel Termine für Kunden automatisiert eingetragen werden.

Allerdings bietet die Datenbankanbindung auch das Potenzial, dass Angreifer speziell gebaute Prompts eingeben, die in bösartige SQL-Anfragen übersetzt werden. Der Screenshot unten zeigt einen einfachen Proof-of-Concept, bei dem wir einen KI-Agenten mit Zugriff auf eine SQL-Datenbank implementiert haben.

Abb. 2: Screenshot Proof-of-Concept – Implementierung eines KI-Agenten mit Zugriff auf eine SQL-Datenbank

Die erste Anfrage eines Nutzers wird automatisiert in eine passende SQL-Anfrage durch ein LLM-Modell übersetzt und die Datenbank-Antwort in natürlicher Sprache aufbereitet zurückgegeben. Die zweite Anfrage ist jedoch nicht wünschenswert: eine Anweisung, um eine Tabelle zu löschen. Diese wird vom Agenten in eine entsprechende SQL-Anweisung übersetzt und ausgeführt. Während dieser einfache Prompt-to-SQL-Injection Angriff nahtlos mit dem noch von OpenAI verfügbaren GPT-3.5-Turbo Modell funktioniert, blockieren neuere Modelle wie GPT 4.1 solche Lösch-Anfragen aufgrund besserer, interner Guardrails (interne Richtlinien, um ungewünschtes Verhalten zu verhindern). Leider kann diese Blockade durch spezielles Anpassen der Prompt leicht umgangen werden.

Was tun? – Zero Trust als Antwort auf autonome Systeme

Die Beispiele zeigen, dass die Sicherheit von KI-Systemen eine wichtige Rolle spielt und von Anfang bis Ende durchdacht werden muss.

So sollte eine Sicherheitsanalyse den gesamten Workflow beim Erstellen und Einsatz von KI-Agenten umfassen, um so die Vielzahl möglicher Angriffe systematisch zu berücksichtigen. Durch diese Zero-Trust-Analyse können dann effektive Gegenmaßnahmen getroffen werden. So sind beispielsweise für die beiden vorher erwähnten Angriffe folgende Sicherheitsmaßnahmen sinnvoll:

Rechtemanagement umsetzen
Wird eine Datenbank an einen KI-Agenten angebunden, reicht das alleinige Filtern von Prompts nicht. Es braucht zusätzlich ein fein abgestuftes Rechte-Management aufseiten der Datenbank.

Datenquellen prüfen und freigeben
Beim RAG-Poisoning sollten die eingebundenen Dokumente systematisch auf schädliche oder manipulierte Inhalte geprüft werden, bevor ein Agent sie verarbeitet.

LLM-Ausgaben und Agenten-Verhalten durch Judge- bzw. Gatekeeper-Agenten kontrollieren
Eine zusätzliche Prüfinstanz – ein sogenannter „LLM-Gatekeeper“ oder „Judge Agent“ – kann helfen, risikobehaftete Entscheidungen frühzeitig zu erkennen und zu blockieren.

Wichtig: Alle Maßnahmen sollten auch immer im Kontext der konkreten KI-Anwendung getroffen werden. Zum Beispiel ist das Thema Model Theft weniger relevant, wenn ein öffentliches Standard-Modell wie etwa GPT-4 eingesetzt wird.

Fazit: Potenzial nutzen – aber sicher

KI-Agenten bieten enorme Potenziale, die sich aber nur nachhaltig nutzen lassen, wenn auch mögliche Risiken berücksichtigt werden. Mit der richtigen Expertise und einem systematischen Sicherheits-Konzept können wir diese Herausforderungen allerdings meistern, um so KI-Agentensysteme effektiv nutzen zu können.

Wie geht es weiter?
Zero Trust ist ein zentrales Prinzip im Umgang mit autonomen KI-Agenten – aber wie lässt sich dieses Prinzip konkret umsetzen? Und wie wird daraus ein belastbares Sicherheitskonzept?

Im nächsten Teil unserer Artikelreihe zeigen wir, welche konzeptionellen Überlegungen, Schutzmechanismen und sicherheitsrelevanten Komponenten beim Design von Agentensystemen eine Rolle spielen – und wie man ihnen gerecht wird, ohne Innovation auszubremsen.

Ansprechpartner

📩 Dr. Erwin Quiring

FAQs

Was ist Agentic AI?

Agentic AI beschreibt KI-Systeme, die autonom agieren – das heißt: sie verfolgen Ziele, nutzen externe Tools und Ressourcen wie Datenbanken oder Webzugriffe, und handeln proaktiv. Anders als klassische KI-Modelle reagieren sie nicht nur, sondern entscheiden und handeln eigenständig.

Was ist ein KI-Agent?

Ein KI-Agent ist ein System auf Basis künstlicher Intelligenz, das eigenständig Aufgaben ausführen kann. Es analysiert Eingaben, plant nächste Schritte, nutzt Tools und trifft Entscheidungen – oft ohne direkte menschliche Kontrolle. Solche Agenten gehören zur Klasse der Agentic AI.

Warum sind KI-Agenten sicherheitskritisch?

Weil Agentic AI aktiv handelt. Sie kann z. B. Datenbanken abfragen, E-Mails verschicken oder Systeme verändern. Schon ein manipulierter Prompt kann dazu führen, dass der Agent unbeabsichtigt Schaden anrichtet – etwa durch Datenlecks, ungewollte Aktionen oder Angriffe über verborgene Inhalte.

Was bedeutet Zero Trust im Kontext von KI-Agenten?

Zero Trust bedeutet: Keine Komponente wird automatisch als vertrauenswürdig angesehen – weder interne Datenquellen noch externe Tools oder der Agent selbst. Stattdessen basiert das Modell auf kontinuierlicher Prüfung, Rechtebegrenzung und Kontrolle jedes Zugriffspfads.

Was bedeutet RAG (Retrieval-Augmented Generation)?

RAG steht für eine Technik, bei der ein KI-Modell (z. B. ein LLM) bei der Beantwortung von Fragen externe Wissensquellen abruft – etwa Webseiten oder PDFs. Diese Technik verbessert die Aktualität und Kontexttiefe, birgt aber Risiken, wenn die Quellen manipuliert wurden.

Was ist ein Judge- oder Gatekeeper-Agent?

Das sind kontrollierende Instanzen innerhalb eines Agentensystems, die Entscheidungen eines KI-Agenten prüfen, bewerten oder blockieren können – etwa bei risikobehafteten Handlungen. Sie können wie ein digitaler Torwächter agieren. _fbeta hat einen solchen LLM-Gatekeeper entwickelt: Der LLM-Gatekeeper: Sichere und innovative KI-Lösungspakete