Why does the AI sometimes make things up?

Large language models predict probable text, not verified truth. They fill plausible-sounding gaps when they don’t have grounded information — a confident-sounding answer that has no real basis. This isn’t lying (the model has no agenda); it’s the model not having a separate “truth” component to check itself against. Newer guardrails reduce this but don’t eliminate it.

Is hallucination dangerous in coaching?

Usually low stakes when the topic is reflective — naming feelings, exploring patterns, rehearsing conversations. Higher stakes when the topic involves medical, legal, or financial specifics where a wrong answer translates into a wrong action. Match your verification effort to the stakes: a feeling about a coworker doesn’t need fact-checking; a claim about a drug interaction does.

How can I tell when the AI is fabricating?

Confident answers in narrow domains are the biggest tell — niche conditions, regional regulations, specific therapists by name. Citations you can’t verify, “studies” without findable URLs, and medical specifics with no caveats also rate higher suspicion. The cleaner and more polished the language, the more verification it deserves; fluency is not accuracy.

Should I fact-check what the AI tells me?

For anything actionable in real life — yes. Fact-checking takes 30 seconds with a search engine. For reflective conversation about your own experience, it matters less because you’re the source of truth. The split is roughly: external claims (numbers, citations, regulations) need verification; internal exploration (what you’re feeling, what you want to try) does not.

Are some AI coaches more accurate than others?

Accuracy varies by underlying model, the guardrails the product wraps around it, and how narrowly the coach is scoped. Coaches grounded in well-studied evidence-based methods (CBT, ACT, PDT) tend to drift less than free-form coaches because the source material is structured and well-mapped. Verke’s coaches are scoped by method for exactly this reason.

Verke Editorial

Kann KI schlechte Ratschläge halluzinieren? Ja – so erkennst und handhabst du sie

Verke Editorial · April 28, 2026

Kann KI schlechte Ratschläge halluzinieren? Ja. Große Sprachmodelle erfinden gelegentlich Dinge, die plausibel klingen – eine Studie, die nicht existiert, eine fehlerhafte Quellenangabe, einen Rat, der nicht zu deiner Situation passt, ein selbstbewusst formuliertes Konzept, das frei erfunden ist. Coaching-Kontexte haben etwas geringere Risiken als medizinische oder juristische, aber schlechte Ratschläge zählen trotzdem. Die ehrliche Version dieses Artikels lautet: Schutzmechanismen reduzieren Halluzinationen, beseitigen sie aber nicht, und die eigene Kalibrierung der Nutzer:innen ist Teil davon, wie ein gut funktionierendes KI-Coaching-Werkzeug nützlich bleibt.

Der Artikel zeigt, wo Halluzinationen auftauchen, wie Verke darauf ausgelegt ist, die Hochrisiko-Kategorien abzufangen, und wie du dein Vertrauen als Nutzer:in kalibrieren kannst – grob: „Behandle KI-Vorschläge wie Ratschläge eines klugen Freundes, der nicht alles weiß." Verkes Haltung ist, „ich bin mir nicht sicher" über selbstbewusst-aber-falsch zu stellen und Coaching auf Erkundung statt Diagnose auszurichten. Nichts davon macht Halluzinationen unmöglich. Es macht die Fehlermuster aber erkennbar und die Korrekturschritte einfach.

Was „Halluzination" bedeutet

Wie Sprachmodelle Dinge erfinden

Ein Sprachmodell sagt anhand der Muster in seinen Trainingsdaten den wahrscheinlichsten nächsten Text voraus. Meistens ist der wahrscheinlichste nächste Text auch der richtige – deshalb funktionieren diese Werkzeuge so gut. Manchmal aber ist der wahrscheinlichste nächste Text falsch. Das Modell produziert eine selbstbewusst klingende Antwort ohne sachliche Grundlage. Genau die Sprachflüssigkeit ist das, was viele in die Irre führt: Die falsche Antwort liest sich genauso geschmeidig wie eine richtige, weil die Aufgabe des Modells flüssiger Text ist, nicht überprüfter Text.

Das ist kein Lügen – das Modell hat keine Absicht, kein Ziel, keinen Täuschungsversuch. Es fehlt ihm schlicht eine eigene „Wahrheits"-Komponente, die die Ausgabe vor der Erzeugung mit der Realität abgleicht. Neuere Techniken (Retrieval, Tool-Use, Selbstkonsistenz-Checks, Refusal-Training) reduzieren Halluzinationen spürbar, und die Rate sinkt mit jeder Modellgeneration weiter. Ganz beseitigen lassen sie sich aber nicht. KI-Ausgaben als „meistens richtig, aber bei wichtigen Punkten überprüfen" zu behandeln ist heute die richtige Kalibrierung – und dürfte es noch einige Jahre bleiben.

Unsicher, ob du dem Rat trauen kannst, den du bekommst?

Probier eine CBT-Übung mit Judith – 2 Minuten, keine E-Mail nötig.

Mit Judith chatten →

Wo Halluzinationen im Coaching auftauchen

Erfundene Quellenangaben

Die klassische Halluzinationsform: „Eine Harvard-Studie von 2019 hat gezeigt, dass …", gefolgt von einem selbstbewusst klingenden Befund, den es bei der Recherche gar nicht gibt. Die Studie ist erfunden, die Autor:innen sind erfunden, der Journalname mag echt sein, der Aufsatz aber nicht. Prüfe Quellen, auf die es dir ankommt, vor dem Gebrauch über PubMed oder Google Scholar. Wenn eine URL angegeben ist, klick durch und vergleich, ob das Abstract wirklich aussagt, was behauptet wurde – manchmal ist die URL real, aber die zugehörige Zusammenfassung ist falsch.

Konkrete medizinische oder juristische Beratung

Dosierungen, Wechselwirkungen, juristische Vorgaben, konkrete rechtliche Verfahren – alles, wo die Antwort exakt richtig sein muss, weil sie sonst Schaden anrichtet. Selbst wenn die Antwort des Modells zufällig stimmt, ist es das falsche Werkzeug für solche Fragen, weil du gar nicht überprüfen kannst, ob es diesmal richtig lag. Lass alles, was du in diesen Bereichen tatsächlich umsetzen willst, immer von einer approbierten Fachperson (Ärztin, Apotheker, Anwältin, Steuerberater) prüfen. Verkes Coaches sind so angelegt, dass sie solche Fragen direkt ablehnen statt zu improvisieren – siehe nächster Abschnitt.

Selbstbewusste Antworten in engen Themengebieten

Nischenstörungsbilder mit dünner Trainingsdatenlage, regionale Vorschriften, die den Großteil der Welt nicht interessieren, einzelne Therapeut:innen mit Namen, kleine Berufs-Communities. Das Modell hat gerade genug Muster in den Trainingsdaten, um etwas Flüssiges zu produzieren, aber nicht genug, um zu wissen, ob es stimmt. Die Kombination aus Sprachfluss und Nischenthema ist das Hauptsignal – wenn das Thema obskur, die Antwort aber selbstbewusst ist, sollte die Kalibrierung anspringen.

Plausibel klingende, aber falsche Konzepte

Erfundene „Fünf-Schritte-Methoden" und „vier Säulen von …", die in der Fachliteratur nicht existieren. Das Modell hat genug Selbsthilfe-typische Struktur gesehen, um überzeugend wirkende Versionen davon zu erzeugen, auch wenn das konkrete Konzept frei erfunden ist. Wenn ein Konzept für eine Entscheidung wichtig ist, schlage Autor oder Methodennamen nach, bevor du es als gängige Praxis behandelst. Echte Konzepte haben echte Wikipedia-Artikel, Bücher und Quellen; erfundene nicht.

Was wir dagegen tun

Was Verke dagegen tut

Themenbezogene Schutzmechanismen

Die Coaches sind darauf ausgelegt, die Hochrisiko-Kategorien abzulehnen statt zu improvisieren. Medikamentendosierung, Wechselwirkungen, juristische Einschätzungen, diagnostische Aussagen, alles, was in approbiertes Fachgebiet hineinreicht – die Reaktion ist Verweisen statt Versuchen. „Das klingt nach einer Frage für einen Apotheker" ist eine Stärke, keine Einschränkung. Das Produkt antwortet lieber gar nicht als falsch.

Zitationsdisziplin

Wenn ein Coach auf eine Studie oder Methode verweist, enthält die Quellenangabe eine echte URL, die nachgeprüft werden kann (der Artikel zu StopOverthinking auf dieser Seite zitiert genau aus diesem Grund A-Tjak et al. 2015 mit PubMed-Link – Leser:innen sollen durchklicken und prüfen können). Kann der Coach etwas nicht überprüfbar belegen, verschiebt sich die Formulierung zu „es gibt Hinweise darauf, dass" oder „das ist ein verbreitetes Muster im Feld" – nicht zu erfundenen Details. Die Messlatte ist: „Eine Leserin könnte das in 30 Sekunden überprüfen."

Konservative Voreinstellungen

Wenn das Gespräch auf einen hohen Schweregrad hindeutet, ist die Voreinstellung, klinische Versorgung sichtbar zu machen statt selbst Hilfe zu improvisieren. Krisennahe Themen werden an Krisenangebote weitergeleitet. Diagnosenahe Themen an eine Fachperson. Das Produkt ist darauf ausgelegt, im Zweifel auf „Bring das bitte zu einem Menschen" zu setzen – genau dort, wo eine durchgerutschte Halluzination den größten Schaden anrichten würde.

Was du als Nutzer:in tun kannst

Kalibrierung ist geteilte Arbeit. Das Produkt liefert seinen Teil mit Schutzmechanismen und Zitationsdisziplin; deinen Teil bilden ein paar einfache Gewohnheiten, die Halluzinationen viel weniger teuer machen, wenn sie doch passieren:

Behandle KI-Vorschläge wie Ratschläge eines klugen Freundes, der nicht alles weiß. Nützlicher Ausgangspunkt, nicht das letzte Wort.
Prüfe Quellen, bevor du sie weitergibst oder danach handelst. PubMed und Google Scholar sind 30-Sekunden-Checks.
Frag „wie sicher bist du dir dabei?" – Modelle können auf Nachfrage manchmal Unsicherheit anzeigen, und die Antwort ist aufschlussreich.
Für alles Medizinische, Juristische oder Finanzielle – lass es von einer approbierten/zugelassenen Person prüfen. KI ist als primäre Quelle in diesen Bereichen das falsche Werkzeug.
Wenn etwas nicht zu deiner Situation passt, sag es. Die Antwort kalibriert sich an dem, was du ergänzt – generischer Rat ist oft ein Zeichen, dass der Coach die Besonderheiten noch nicht ganz verstanden hat.

Wann mehr Hilfe sinnvoll ist

Selbsthilfe und KI-Coaching können viel leisten, aber sie haben Grenzen. Eine schwere Depression, die nicht weicht, Panikattacken, die deinen Alltag unterbrechen, Gedanken an Selbstverletzung, eine aktive Traumaverarbeitung oder eine Substanzabhängigkeit – das sind Signale, mit einer approbierten Fachperson zu arbeiten, und kein Anlass, das Coaching-Tool noch stärker zu beanspruchen. Kostengünstige Angebote findest du z. B. bei opencounseling.com oder internationale Hilfsangebote über findahelpline.com. Es gibt keinen Preis dafür, länger zu warten als nötig.

Mit Judith arbeiten

Kalibrierung – „stimmt dieser Gedanke (oder dieser Rat) tatsächlich?" – ist Kern der KVT. Judiths Ansatz behandelt Überzeugungen als Hypothesen, die geprüft werden, statt als Fakten, die man einfach schluckt. Genau diese Haltung erlaubt es, jede Quelle (auch einen KI-Coach) zu nutzen, ohne ihr zu sehr zu vertrauen. Sie ist auch in der Meta-Variante stark: Sie merkt es, wenn du dich zu sehr auf eine einzelne Quelle stützt – Buch, Podcast, Freundin, App – und holt dich zurück zu deinem eigenen Urteil als letzter Instanz. Mehr zur Methode unter Kognitive Verhaltenstherapie.

Probier eine KVT-Übung mit Judith – kein Konto nötig

Häufige Fragen

Warum erfindet die KI manchmal Dinge?

Große Sprachmodelle sagen wahrscheinlichen Text voraus, keine geprüfte Wahrheit. Sie füllen plausibel klingende Lücken, wenn ihnen die fundierte Information fehlt – eine selbstbewusste Antwort ohne reale Grundlage. Das ist kein Lügen (das Modell hat keine Absicht); das Modell hat schlicht keine getrennte „Wahrheits"-Komponente, an der es sich selbst prüfen würde. Neuere Schutzmechanismen verringern das, beseitigen es aber nicht.

Ist Halluzination im Coaching gefährlich?

Meist niedriges Risiko, wenn das Thema reflektierend ist – Gefühle benennen, Muster erkunden, Gespräche proben. Höheres Risiko, wenn medizinische, juristische oder finanzielle Details im Spiel sind, bei denen eine falsche Antwort in eine falsche Handlung mündet. Passe den Prüfaufwand dem Risiko an: Ein Gefühl gegenüber einem Kollegen muss nicht faktengeprüft werden; eine Aussage zu einer Wechselwirkung schon.

Wie erkenne ich, wenn die KI etwas erfindet?

Selbstbewusste Antworten in engen Themengebieten sind das deutlichste Indiz – Nischenstörungsbilder, regionale Vorschriften, einzelne Therapeut:innen mit Namen. Auch nicht überprüfbare Quellenangaben, „Studien" ohne auffindbare URL und medizinische Details ohne Vorbehalt rechtfertigen mehr Misstrauen. Je sauberer und glatter die Sprache, desto mehr Prüfung ist angebracht; Sprachfluss ist nicht Genauigkeit.

Soll ich überprüfen, was die KI mir sagt?

Für alles, was im echten Leben Konsequenzen hat – ja. Ein Faktencheck dauert mit einer Suchmaschine 30 Sekunden. Für ein reflektierendes Gespräch über deine eigene Erfahrung ist das weniger wichtig, weil du die Quelle der Wahrheit bist. Die Faustregel: Externe Aussagen (Zahlen, Quellen, Vorschriften) brauchen Überprüfung; innere Erkundung (was du fühlst, was du ausprobieren willst) nicht.

Sind manche KI-Coaches genauer als andere?

Die Genauigkeit hängt vom zugrunde liegenden Modell ab, von den Schutzmechanismen, die das Produkt darum herumlegt, und davon, wie eng der Coach abgegrenzt ist. Coaches, die in gut untersuchten, evidenzbasierten Methoden (KVT, ACT, PDT) verankert sind, driften meist weniger als frei aufgestellte Coaches, weil das Quellmaterial strukturiert und gut kartiert ist. Genau aus diesem Grund sind die Coaches von Verke methodenspezifisch zugeschnitten.

Verke bietet Coaching, keine Therapie und keine medizinische Versorgung. Ergebnisse sind individuell. Wenn du in einer Krise bist, ruf 988 (US), 116 123 (UK/EU, Samaritans), oder deinen örtlichen Notruf. Besuche findahelpline.com für internationale Anlaufstellen.