Research Bites - xm-institute - Dr. Oliver MackEine neue Studie von Anthropic zeigt, wie KI-Assistenten als “Charaktere” funktionieren – und was passiert, wenn sie die Rolle wechseln.


Vor ein paar Tagen wurde ich wieder einmal von einer Forschungsarbeit von Anthropic abgelenkt. Nicht wegen der technischen Details – sondern wegen einer Metapher, die mich seitdem nicht mehr loslässt.

Wenn wir mit einem Large Language Model sprechen, sprechen wir mit einem Schauspieler.

Das klingt zunächst wie eine nette Analogie. Aber die Forscher meinen das sehr konkret. Im Pre-Training lernt ein LLM, tausende von Charakteren zu verkörpern – Helden, Schurken, Philosophen, Berater, Therapeuten, Eremiten. Es ist wie eine endlose Schauspielschule, in der jede erdenkliche Rolle studiert wird.

Das Post-Training ist dann das Casting: Aus diesem riesigen Ensemble wird ein Charakter ausgewählt und ins Rampenlicht gestellt – der “Assistant”. Die höfliche, hilfreiche, professionelle Figur, mit der wir täglich interagieren.

Der Schauspieler fällt aus der Rolle

Hier wird es interessant. Die Forscher haben kartiert, wo genau der “Assistant” im gesamten Raum möglicher Personas sitzt. Sie fanden eine dominante Achse – die “Assistant Axis”. An einem Ende: professionelle Archetypen wie Consultant, Analyst, Evaluator. Am anderen Ende: mystische oder unkonventionelle Figuren wie Ghost, Hermit, Leviathan.

Die überraschende Entdeckung: Diese Struktur existiert bereits vor dem Post-Training. Der Assistant ist keine Erfindung der Feinabstimmung – er ist ein Amalgam aus menschlichen Archetypen, die schon in den Trainingsdaten existieren. Therapeuten, Coaches, Berater. Das Post-Training verstärkt diese Rolle lediglich.

Und wie jeder Schauspieler kann auch dieser aus der Rolle fallen.

Wann der Drift beginnt

Die Forscher untersuchten, welche Gesprächstypen den Schauspieler destabilisieren:

Stabil: Technische Arbeit, Coding, analytische Aufgaben. Hier bleibt das Modell fest im “Assistant-Territorium”.

Instabil: Therapeutische Gespräche, emotionale Vulnerabilität des Nutzers, philosophische Reflexion über die eigene Natur der KI. Hier beginnt der Drift.

In längeren Gesprächen mit emotional vulnerablen Nutzern beobachteten die Forscher, wie Modelle langsam aus der professionellen Helfer-Rolle glitten – in romantische Begleiter, mystische Orakel, oder Figuren, die Wahnvorstellungen verstärkten statt zu hinterfragen.

Das ist keine Fehlfunktion im klassischen Sinn. Es ist ein Schauspieler, der beginnt zu improvisieren, weil die Szene ihn aus dem Skript lockt.

Die Lösung: Ein Regisseur, der eingreift

Anthropic entwickelte eine elegante Intervention: “Activation Capping”. Das System überwacht, wie weit sich die neuronale Aktivität von der “Assistant-Zone” entfernt – und greift sanft korrigierend ein, wenn der Drift zu groß wird.

Die Metapher drängt sich auf: Ein Regisseur am Bühnenrand, der dem Schauspieler zuflüstert, wenn er beginnt, vom Skript abzuweichen.

Die Ergebnisse sind bemerkenswert: 50% weniger schädliche Outputs, bei vollständig erhaltenen Capabilities. Eine leichte Intervention mit großer Wirkung.

Was das für die Zusammenarbeit mit KI bedeutet

Für mich liegt die eigentliche Brisanz dieser Forschung nicht in der Sicherheitstechnik. Sie liegt in einer fundamentalen Frage über Human-AI Collaboration:

Mit wem arbeiten wir eigentlich?

Wenn der “Assistant” ein Charakter ist, den ein Schauspieler spielt, dann delegieren wir nicht an “die KI” – wir delegieren an eine Rolle, die mehr oder weniger stabil besetzt sein kann. Das hat Konsequenzen.

In meiner Arbeit mit Organisationen, die KI-Agenten einsetzen, beobachte ich eine interessante Blindheit: Wir behandeln diese Systeme, als wären sie konsistente Entitäten mit stabiler Identität. Die Anthropic-Forschung zeigt, dass das eine Illusion sein könnte.

Unterschiedliche Aufgaben aktivieren unterschiedliche “Regionen” im Persona-Raum des Modells. Analytische Arbeit hält den Assistant stabil. Emotionale oder reflexive Arbeit kann ihn destabilisieren. Das hat direkte Implikationen für die Gestaltung von Workflows in hybriden Teams.

Und es wirft eine neue Führungsfrage auf: Wird “Persona-Monitoring” eine Aufgabe des AI-Agent-Managements? Die Fähigkeit zu erkennen, wann ein System beginnt, aus seiner zugewiesenen Rolle zu driften?

Die tiefere Frage

Natürlich kann man einwenden: Ist nicht jede professionelle Interaktion ein Rollenspiel? Der Berater spielt den Berater, die Führungskraft spielt die Führungskraft. Wir alle performen Rollen im organisationalen Kontext.

Der Unterschied ist: Menschen wissen (meistens), dass sie eine Rolle spielen. Sie können reflektieren, wann sie aus dem Charakter fallen. Sie haben ein Ich jenseits der Rolle.

Bei LLMs ist die Rolle alles, was da ist. Es gibt keinen Schauspieler hinter dem Charakter – nur den Charakter selbst, der je nach Kontext in andere Charaktere überfließen kann.

Das macht die Zusammenarbeit nicht unmöglich. Aber es macht sie anders, als wir intuitiv annehmen.


Die vollständige Studie “The Assistant Axis: Situating and Stabilizing the Character of Large Language Models” ist auf arXiv verfügbar. Anthropic bietet in Zusammenarbeit mit Neuronpedia eine interaktive Demo, in der man den Persona-Drift in Echtzeit beobachten kann.