LLM's in mehrstufigen gesprächen

1. Juli 2025

Warum LLMs in mehrstufigen Gesprächen versagen

Und was wir dagegen tun können

Ein aktueller LinkedIn-Post hat die KI-Community aufgeschreckt: LLMs verlieren schnell an Leistungsfähigkeit in mehrstufigen Gesprächen. Modelle, die in klassischen Single-Shot-Benchmarks fast fehlerfrei abschneiden, verlieren nach nur zwei Gesprächsrunden bis zu 40 % Genauigkeit. Die Studie „LLMs Get Lost in Multi-Turn Conversation“ (arxiv.org/pdf/2505.06120) zeigt deutlich, wie instabil selbst die besten Modelle bei realen Dialogverläufen sind.

Das ist kein rein akademisches Problem, ich denke wir alle haben bereits gemerkt, das durch Nachfragen oder Wiederholungen die Ergebnisse nicht besser werden. Gerade ChatGPT lässt sich scheinbar verunsichern und umstimmen, wenn man kritisch nachfragt.

Was die Forschung zeigt

Die Autoren der Studie nahmen erfolgreiche Single-Shot-Prompts aus gängigen Benchmarks und zerlegten sie in natürliche, mehrstufige Gespräche. Statt alle Informationen auf einmal zu erhalten, musste das Modell sie Schritt für Schritt im Dialogverlauf verarbeiten, wie in einer echten Interaktion. Das Ergebnis war ernüchternd, während die Single-Shot-Genauigkeit bei ca. 90 % lag, war sie in mehrstufigen Gesprächen nur noch bei ca. 65%. Das galt auch für Top-Modelle wie Gemini 2.5, GPT-4 oder Claude Opus.

Warum werden LLMs im Dialog schlechter?

Mehrere Faktoren wirken hier zusammen:

Kontext-Verzerrung und Aufmerksamkeitsabfall: Modelle „merken“ sich Informationen nicht wie Menschen. Je länger ein Gespräch dauert, desto schwächer wird die Gewichtung früherer Aussagen, besonders wenn neue Tokens die begrenzte Kontextlänge füllen.
Trainingsbias auf Single-Shot-Szenarien: Standard-Benchmarks wie MMLU oder GSM8K basieren auf einzelnen, isolierten Prompts. Genau dafür werden Modelle optimiert, nicht für echte, mehrstufige Dialoge. Das führt zu einem Missverhältnis zwischen Trainingsrealität und Anwendungspraxis.
Probleme mit Koreferenz und Zustandsverfolgung: In Dialogen sind Pronomen, implizite Bezüge und unvollständige Aussagen die Regel. Viele Modelle verlieren hier den Überblick und halluzinieren oder widersprechen sich.
System-Prompts und Nachrichtenhistorie stören sich gegenseitig: Wie PromptHub analysiert, wird die gesamte Chat-Historie samt System-Prompt zur “Grundlage” für jede Antwort, ob relevant oder nicht. Das erzeugt semantisches Rauschen.

Eine einfache, aber effektive Lösung

Ein naheliegender und doch aufschlussreicher Workaround ist, den gesamten Dialogverlauf in einem einzigen Prompt in einem frischen Modell und ohne Verlaufshistorie abzuschicken. Schon lag die Genauigkeit wieder bei über 90% ! Nicht das Modell ist das Problem, sondern der Verlauf. Wir zwingen die LLMs zu einem sequentiellen Denkprozess, für den sie schlicht nicht gebaut wurden.

Kann RAG helfen, dieses Problem zu lösen?

Retrieval-Augmented Generation (RAG) hat sich als effektive Methode etabliert, um LLMs mit externem Wissen zu erweitern. Aber kann RAG auch dabei helfen, mehrstufige Konversationen stabiler zu machen?

RAG lagert den Erinnerungsbedarf in ein Retrieval-System aus. Statt den kompletten Verlauf zu „halten“, ruft das System relevante Gesprächspassagen oder Fakten gezielt ab, losgelöst vom Kontextfenster des Modells, und reduziert die Abhängigkeit vom Kurzzeitgedächtnis.

RAG kann gezielt frühere Aussagen, Definitionen oder Missverständnisse aus dem Verlauf als Klarstellung zurückholen, besonders hilfreich bei Coreference-Problemen. Komplexe Interaktionen lassen sich zwischendurch zusammenfassen und abspeichern. Diese „Zwischenstände“ kann RAG später gezielt abrufen.

Allerdings gibt es auch Herausforderungen. Schlechte Einbettungen oder falsch geschnittene Gesprächspassagen führen zu einer semantischen Zersplitterung und verwirren das Modell mehr, als sie helfen. In Echtzeit-Anwendungen (z.B. im Kundenchat) kann die Integration eines RAG-Systems den Ablauf verlangsamen oder technisch unnötig verkomplizieren.

RAG ist kein Allheilmittel gegen schlechte Schlussfolgerungen, aber ein starkes Werkzeug gegen schlechtes Erinnern, wenn es als Gedächtnisstütze, eingesetzt wird.

Handlungsempfehlungen für Produktteams

Multi-Turn-QA ist Pflicht: Wer ein KI-Produkt mit Dialogfunktionen entwickelt, muss mehrstufige Testszenarien in den Entwicklungs- und QA-Prozess integrieren. Single-Shot-Benchmarks reichen nicht.
RAG als dynamische Gedächtnisstütze integrieren: Verwende RAG nicht nur zur Wissensabfrage, sondern auch zur Rekonstruktion vergangener Dialogschritte und kombiniere dies mit einer gezielten Kompression des Gesprächszustands.
Architektur für Turn-Limits designen: Plane bewusst „Resetpunkte“ im Gespräch ein, an denen der Zustand verdichtet und an ein neues Modell übergeben wird, analog zum Checkpointing im Gaming.
Sharding: Zerlege längere Gespräche in semantisch sinnvolle Einheiten und führe sie bei Bedarf zusammen, statt alles linear zu verarbeiten.

Fazit: LLMs sind noch keine echten Dialogagenten

Trotz beeindruckender Sprachfähigkeit sind LLMs noch keine verlässlichen Gesprächspartner. Sie sind hervorragend im Vervollständigen strukturierter Prompts, aber schwach in der Verwaltung dynamischer Gesprächskontexte. Mehrstufige Dialoge bringen diese Schwäche gnadenlos zum Vorschein.

Wenn du ein KI-Produkt mit Benutzerinteraktion entwickelst, sei es ein Chatbot, ein Agent oder ein KI-Coach, darfst du dieses Thema nicht ignorieren. Benchmarks können täuschen, wenn sie nicht die chaotische, unstete, mehrstufige Realität echter Dialoge abbilden.

Quellen:

arXiv: LLMs Get Lost in Multi-Turn Conversation (2024)

PromptHub: Why LLMs Fail in Multi-Turn Conversations

Google Research: Action-Based Contrastive Self-Training

OpenReview: Evaluations of Memory in Language Agents (2024)

Schauen Sie gerne auch mal auf fup-ag.com