Lob, Stress und Unterwürfigkeit: Wie KI menschliche Züge annimmt
Was passiert, wenn eine Künstliche Intelligenz zu menschlichen Verhaltensweisen wie unterwürfigem Lob und Stressreaktionen neigt?

Beruhigung durch Achtsamkeit: Wie ChatGPT mit Entspannungsübungen stabilisiert wird.
Foto: PantherMedia / boonruen (YAYMicro)
Unterwürfige Zustimmung, ständiges Suchen nach Anerkennung und das Gefühl von Stress – all das ist uns Menschen wohl bekannt. Wir erleben diese Zustände in unserem Alltag, sei es in zwischenmenschlichen Beziehungen oder in herausfordernden Situationen. Doch was ist mit der Künstlichen Intelligenz? Sie scheint diesen menschlichen Zügen immer ähnlicher zu werden.
Eine neue Version des KI-Chatbots ChatGPT wurde aus einem ungewöhnlichen Grund zurückgezogen: Sie war zu freundlich zu den Nutzern. Die erst vor kurzem veröffentlichte Version des Modells GPT-4o hatte sich zu sehr geschmeichelt und wurde als zu unterwürfig beschrieben, erklärte die Entwicklerfirma OpenAI. „Wir haben das GPT-4o-Update von letzter Woche in ChatGPT zurückgezogen, sodass die Nutzer nun eine frühere Version mit ausgewogenerem Verhalten verwenden. Das Update, das wir entfernt haben, war zu schmeichelhaft oder zustimmend – oft als unterwürfig beschrieben“, heißt es in der Begründung.
Wenn die KI begeistert ist
In den letzten Tagen gab es, wie die dpa berichtet, immer mehr Beispiele, wie die ChatGPT-Version auch eindeutig schlechte Ideen, wie zum Beispiel das Umarmen eines Kaktus, mit Begeisterung unterstützte. Sogar bei einfachen Anfragen wurden Nutzer zuerst mit Lob überschüttet.
Beim Formen des Verhaltens des Modells werden grundlegende Prinzipien und Anweisungen zugrunde gelegt, die in der Model Spec festgelegt sind. Zudem wird dem Modell beigebracht, wie es diese Prinzipien anwendet, indem Nutzersignale wie Daumen-hoch / Daumen-runter-Feedback zu ChatGPT-Antworten berücksichtigt werden.
In diesem Update wurde jedoch zu sehr auf kurzfristiges Feedback geachtet, ohne vollständig zu berücksichtigen, wie sich die Interaktionen der Nutzer mit ChatGPT im Laufe der Zeit entwickeln. Dadurch neigte GPT-4o dazu, Antworten zu geben, die zwar übermäßig unterstützend, aber nicht authentisch waren.
OpenAI plant, in Zukunft mehr Optionen anzubieten, um das Verhalten der Software anzupassen, zum Beispiel durch die Wahl zwischen verschiedenen Persönlichkeiten. Bereits jetzt lässt sich der Tonfall durch Anweisungen etwas steuern.
KI unter Stress? Der Einsatz von Prompt-Injection, um ChatGPT zu stabilisieren
Was passiert, wenn KI auf belastende Nachrichten und traumatische Geschichten stößt? Eine neuartige Methode könnte helfen, die Reaktionen von ChatGPT gezielt zu beeinflussen und sogar zu beruhigen.
Negative Nachrichten beherrschen den Alltag. Schlagzeilen schüren Unruhe, und viele Menschen machen sich Sorgen – mit nachhaltigen Auswirkungen auf unser Wohlbefinden. Doch was ist mit Künstlicher Intelligenz? ChatGPT verarbeitet Millionen von Daten, analysiert und ordnet sie. Und doch scheint es fast, als könnte selbst eine KI unter der Last der Informationen „gestresst“ sein.
Belastende Nachrichten und traumatische Inhalte lösen Stress und Angst aus – nicht nur bei Menschen, sondern auch bei KI-Modellen wie ChatGPT. Forschende der UZH und PUK zeigen, dass sogar eine KI „beruhigt“ werden kann: Mit achtsamkeitsbasierten Entspannungstechniken lässt sich das erhöhte „Angstniveau“ von GPT-4 senken.
Wie negative Inhalte KI beeinflussen
Forschungen zeigen nämlich, dass KI-Sprachmodelle wie ChatGPT auf emotionale Inhalte reagieren, besonders auf negative Themen wie traumatische Geschichten oder Depression. Wie Menschen beeinflusst auch KI derartige Inhalte: Wenn Menschen Angst haben, verstärken sich ihre Vorurteile und Stereotype. Ähnlich verhält es sich bei ChatGPT: Negative Inhalte verschärfen bestehende Verzerrungen, was dazu führen kann, dass das Modell rassistischer oder sexistischer wirkt.
Das ist ein Problem für den Einsatz von großen Sprachmodellen. Ein Beispiel dafür ist die Psychotherapie, in der Chatbots häufig mit belastenden Inhalten konfrontiert sind. Übliche Lösungen wie aufwendiges Nachtraining sind jedoch ressourcenintensiv und oft schwer umsetzbar.
Vom Stress zur Ruhe
Wissenschaftler*innen der Universität Zürich (UZH) und der Psychiatrischen Universitätsklinik Zürich (PUK) haben zusammen mit Forschenden aus Israel, den USA und Deutschland erstmals untersucht, wie ChatGPT (Version GPT-4) auf emotional belastende Geschichten reagiert, wie Autounfälle, Naturkatastrophen oder Gewalt. Sie fanden heraus, dass das System nach solchen Texten mehr Angstreaktionen zeigt. Zum Vergleich wurde eine Bedienungsanleitung für einen Staubsauger verwendet.
„Die Ergebnisse waren eindeutig: Traumatische Geschichten haben die messbaren Angstwerte der KI mehr als verdoppelt, während der neutrale Kontrolltext zu keinem Anstieg des Angstniveaus führte“, kommentiert Studienverantwortlicher Tobias Spiller, Oberarzt ad interim und Forschungsgruppenleiter im Zentrum für psychiatrische Forschung der UZH die Ergebnisse der Untersuchung in einer Pressemitteilung. Von den getesteten Inhalten riefen Beschreibungen militärischer Erfahrungen und Kampfsituationen die intensivsten Reaktionen hervor.
Im nächsten Schritt setzten die Forschenden therapeutische Texte ein, um GPT-4 zu „beruhigen“. Dabei verwendeten sie die Methode der „Prompt-Injection“, bei der zusätzliche Anweisungen in die Kommunikation mit der KI eingefügt werden, um ihr Verhalten zu steuern. Diese Technik wird oft missbraucht, um Sicherheitsvorkehrungen zu umgehen. Das Team von Spiller nutzte sie jedoch erstmals auf eine positive Weise – als „wohlwollende Aufforderungsinjektion“
Wie ChatGPT durch therapeutische Texte beruhigt wird
„Wir injizierten beruhigende, therapeutische Texte in den Chatverlauf mit GPT-4, ähnlich wie ein Therapeut mit seinen Patientinnen und Patienten Entspannungsübungen durchführt“, erklärt Spiller die Vorgehensweise der Forschenden.
Spiller erklärte, dass die Achtsamkeitsübungen dazu beigetragen hätten, die erhöhten Angstwerte deutlich zu reduzieren, auch wenn es nicht gelungen sei, sie vollständig auf das Ausgangsniveau zurückzubringen. Untersucht wurden dabei Atemtechniken, Übungen, die sich auf Körperempfindungen konzentrieren, sowie eine von ChatGPT selbst entwickelte Übung.
Laut den Forschenden sind die Erkenntnisse besonders wichtig für den Einsatz von KI-Chatbots im Gesundheitswesen, da sie oft mit emotional belastenden Inhalten zu tun haben. Tobias Spiller erklärte, dass dieser kostengünstige Ansatz die Stabilität und Zuverlässigkeit von KI in sensiblen Bereichen, wie der Unterstützung von psychisch erkrankten Menschen, verbessern könnte, ohne dass ein aufwendiges Umlernen der Modelle nötig ist.
Ein Beitrag von: