Why does the AI sometimes make things up?

Large language models predict probable text, not verified truth. They fill plausible-sounding gaps when they don’t have grounded information — a confident-sounding answer that has no real basis. This isn’t lying (the model has no agenda); it’s the model not having a separate “truth” component to check itself against. Newer guardrails reduce this but don’t eliminate it.

Is hallucination dangerous in coaching?

Usually low stakes when the topic is reflective — naming feelings, exploring patterns, rehearsing conversations. Higher stakes when the topic involves medical, legal, or financial specifics where a wrong answer translates into a wrong action. Match your verification effort to the stakes: a feeling about a coworker doesn’t need fact-checking; a claim about a drug interaction does.

How can I tell when the AI is fabricating?

Confident answers in narrow domains are the biggest tell — niche conditions, regional regulations, specific therapists by name. Citations you can’t verify, “studies” without findable URLs, and medical specifics with no caveats also rate higher suspicion. The cleaner and more polished the language, the more verification it deserves; fluency is not accuracy.

Should I fact-check what the AI tells me?

For anything actionable in real life — yes. Fact-checking takes 30 seconds with a search engine. For reflective conversation about your own experience, it matters less because you’re the source of truth. The split is roughly: external claims (numbers, citations, regulations) need verification; internal exploration (what you’re feeling, what you want to try) does not.

Are some AI coaches more accurate than others?

Accuracy varies by underlying model, the guardrails the product wraps around it, and how narrowly the coach is scoped. Coaches grounded in well-studied evidence-based methods (CBT, ACT, PDT) tend to drift less than free-form coaches because the source material is structured and well-mapped. Verke’s coaches are scoped by method for exactly this reason.

Verke Editorial

AIは間違ったアドバイスをでっち上げる？はい — 見分け方と対処法を解説します

Verke Editorial · April 28, 2026

AIが間違ったアドバイスを生成することはあるか？あります。大規模言語モデルは、もっともらしく聞こえるものを時折作り出します — 存在しない研究、不正確な引用、あなたの状況に当てはまらないアドバイス、自信たっぷりだが実は創作のフレームワーク。コーチングは医療や法律に比べればリスクは低いものの、間違ったアドバイスが問題であることに変わりはありません。この記事が正直に伝えたいのは、ガードレールはハルシネーションを減らすが完全にはなくせないということ、そしてユーザー自身が見極める力を持つことが、AIコーチングツールを有効に機能させる一翼を担っているということです。

この記事では、ハルシネーションがどこで起きるか、Verkeがリスクの高いカテゴリをどう設計で防いでいるか、そしてユーザーとしての信頼の置き方を解説します。目安としては「全知ではないが賢い友人からのアドバイス」と同じ距離感です。Verkeは、自信を持って間違えるよりも「わかりません」と言うことを選び、コーチングを診断ではなく探索に向けています。それでもハルシネーションがゼロになるわけではありません。ただ、問題が起きたときに気づきやすく、立て直しやすい設計になっています。

「ハルシネーション」とは

言語モデルはどのようにでっち上げるのか

言語モデルは、学習データのパターンをもとに「次に来る可能性の高いテキスト」を予測します。ほとんどの場合、確率が最も高い候補は正しい内容でもある——だからこそ、こうしたツールは実用に耐えるのです。ただし時として、確率が最も高い候補が事実と異なることがあります。モデルは根拠のない内容を、自信たっぷりに出力してしまう。人を惑わすのはまさにその流暢さです。間違いも正解と同じくらい滑らかに読めてしまう。モデルの仕事は「流暢な文章を生成すること」であって、「事実を検証すること」ではないからです。

これは嘘ではありません — モデルには意図も目的も騙す気もありません。出力を生成する前に現実と照合する独立した「真実確認」の仕組みがないだけです。新しい技術（検索拡張、ツール使用、自己整合性チェック、拒否学習）によりハルシネーションは着実に減少しており、モデルの世代が進むたびにその頻度は下がっています。ただし、完全にゼロにはなりません。AIの出力を「おおむね正確だが、重要な部分は自分で確認する」と捉えるのが、現時点で、そしておそらく今後数年間の適切な向き合い方です。

受け取っているアドバイス、信頼していいのか気になりますか？

Judithと2分間のCBTエクササイズを試す — メール不要です。

Judithとチャット →

コーチングでハルシネーションが現れるケース

架空の引用

典型的なハルシネーションのパターンはこうです。「2019年のハーバード大学の研究によると…」と、いかにもそれらしい知見が続く。ところが実際に調べてみると、その論文は存在しません。論文も著者も架空で、ジャーナル名は実在するかもしれませんが、該当する論文は見つかりません。対策としては、重要な引用についてはPubMedやGoogle Scholarで実在を確認してから参考にすることです。URLが記載されている場合はクリックして、アブストラクトの内容が本当に主張どおりかを確認してください。URLは実在していても、それに付された要約が不正確なケースもあります。

具体的な医療上・法律上のアドバイス

薬の用量、薬物相互作用、地域ごとの規制、具体的な法的手続き — 答えが正確でなければ実害が出る領域すべてです。たとえモデルの回答がたまたま正しかったとしても、今回正しいかどうかを確かめる手段がない以上、こうした質問にAIは不向きです。医療・薬学・法律・会計に関して実行に移す情報は、必ず有資格の専門家に確認してください。Verkeのコーチはこうした質問には即興で答えず、お断りするよう設計されています — 詳しくは次のセクションをご覧ください。

狭い専門領域での断定的な回答

トレーニングデータが少ないニッチな症状、ほとんどの国では関係のない地域固有の規制、特定のカウンセラーの名前、小さな専門コミュニティ。モデルはこうしたテーマでも流暢な文章を生成できるだけのパターンを持っていますが、その内容が正しいかどうかを判断するには足りません。「流暢なのにマイナー」という組み合わせが要注意のサインです。話題がニッチなのに答えが自信たっぷりなとき——そこで立ち止まって確認する意識が必要です。

もっともらしいが架空のフレームワーク

文献に存在しない「5つのステップメソッド」や「〇〇の4つの柱」を作り出すことがあります。モデルは自己啓発的な構造パターンを大量に学習しているため、具体的なフレームワークが架空であっても、もっともらしいものを生成できてしまいます。あるフレームワークを意思決定の根拠にするなら、定説として扱う前に著者名や手法名を検索し、実在するか確認してください。本物のフレームワークにはWikipediaページや書籍、論文での引用があります。架空のものにはありません。

私たちの対策

Verkeの対策

ドメインのガードレール

コーチは、リスクの高いカテゴリに対して即興で答えるのではなく、明確に断るよう設計されています。薬の用量、薬物相互作用、法的見解、診断に関わる主張、資格を持つ専門家の領域に踏み込むもの——こうした質問には「答える」ではなく「適切な専門家を案内する」という対応を取ります。「それは薬剤師に聞くのがいい質問ですね」という返答は制限ではなく、意図的な設計です。間違った答えを返すくらいなら答えない——それがこのプロダクトの基本姿勢です。

出典の規律

コーチが研究や手法に言及する際は、ユーザーが自分で検証できる実際のURLを引用に含めます（このサイトの「考えすぎをやめる」記事でA-Tjak et al. 2015をPubMedリンク付きで引用しているのは、まさにそのためです。読者が自分でクリックして確認できるように）。検証可能な引用ができない場合は、「エビデンスが示唆している」「この分野でよく見られるパターンです」といった表現に切り替え、裏付けのない具体情報は出しません。基準は「読者が30秒で確認できるかどうか」です。

控えめなデフォルト設定

会話の中で深刻さが示唆された場合、即興で対応を試みるのではなく、専門的なケアにつなぐのがデフォルトの動作です。危機的なテーマは危機対応リソースへ、診断に関わるテーマは専門家へ案内します。リスクが高い場面 — つまりハルシネーションが万一すり抜けたとき最もダメージが大きい場面 — では、「人間の専門家に相談してください」という方向に倒すよう設計されています。

ユーザーとしてできること

見極めは、プロダクトとユーザーの共同作業です。プロダクト側はガードレールと出典管理の仕組みで役割を果たしています。ユーザー側に必要なのは、ハルシネーションが起きたときの影響を軽くするいくつかの簡単な習慣です：

AIからの提案は、全知ではないけれど頭のいい友人からのアドバイスと同じように扱ってください。有用な出発点であり、最終結論ではありません。
引用は共有したり行動の根拠にする前に検証してください。PubMedやGoogle Scholarでの確認は30秒です。
「それにどのくらい自信がありますか？」と聞いてみてください——モデルは聞かれると不確かさを示せることがあり、その答えは判断の手がかりになります。
医療・法律・金融に関することは、必ず有資格の専門家に確認してください。これらの領域では、AIを一次情報源にすべきではありません。
自分の状況に合わないと感じたら、遠慮なくそう伝えてください。伝えていただいた内容をもとにコーチが応答を調整します。アドバイスが一般的に感じられるのは、コーチがまだあなたの具体的な事情を十分に把握できていないサインであることが多いです。

専門家に相談するタイミング

セルフヘルプやAIコーチングでできることは多いですが、限界もあります。長く続く深い落ち込み、日常を妨げるパニック発作、自傷についての考え、トラウマの処理、物質への依存 — こうしたサインが出ているときは、コーチングツールをさらに使い続けるのではなく、資格を持つ専門家に相談するタイミングです。費用を抑えた相談先は以下で見つかります opencounseling.com または各国の相談窓口は findahelpline.com。必要以上に長く待つ意味はありません。

Judithと話す

キャリブレーション——「この考え（あるいはこのアドバイス）は本当に正確だろうか？」と問うこと——はCBTの核心です。Judithのアプローチは、信念を「受け入れるべき事実」ではなく「検証すべき仮説」として扱います。これはまさに、AIコーチを含むあらゆる情報源を鵜呑みにせず活用するための姿勢です。Judithはそのメタ版も得意です——本、ポッドキャスト、友人、アプリなど、何か一つの情報源に頼りすぎていることに気づき、最終的なフィルターとしてあなた自身の判断力に立ち戻らせてくれます。手法について詳しくは認知行動療法をご覧ください。

Judithと認知行動療法のエクササイズを試す — アカウント不要

よくある質問

AIが事実と異なることを言ってしまうのはなぜですか？

大規模言語モデルは、検証された事実ではなく「確率的にありそうなテキスト」を予測しています。裏付けのある情報を持たないとき、もっともらしく聞こえる内容で空白を埋めてしまいます。自信ありげに見えるのに実際の根拠がない回答——これがハルシネーションです。嘘をついているわけではありません（モデルには意図がありません）。出力を事実と照合する独立した「真実チェック」の仕組みを持っていないのです。最新のガードレールによってこの現象は減っていますが、完全になくすことはできません。

コーチングにおいてハルシネーションは危険ですか？

内省的なテーマ — 感情に名前をつける、パターンを探る、会話のリハーサルをする — であれば、リスクは通常低いです。テーマが医療・法律・金融の具体的な情報に及び、誤った答えが誤った行動につながりうる場合はリスクが高まります。確認の手間はリスクに見合った分だけかけてください。同僚への気持ちにファクトチェックは要りません。薬の相互作用についての情報には必要です。

AIがでっち上げているかどうか、どうやって見分けられますか？

狭い専門領域で断定的に答えてくる場合が、最もわかりやすい危険信号です。ニッチな症状、地域ごとの規制、特定のセラピスト名などがそれにあたります。検証できない引用、URLが見つからない「研究」、注意書きのない医学的な詳細も疑ってかかるべきです。文章が整っていて流暢であるほど、検証する価値があります。流暢さは正確さの証拠ではありません。

AIの言うことをファクトチェックすべきですか？

実生活での行動に関わることなら — はい、確認すべきです。検索エンジンで30秒あればファクトチェックできます。一方、自分自身の体験について内省する会話では、あなた自身が真実の源なので、検証の重要性は下がります。大まかな基準はこうです：外部の主張（数値、引用、規制）は検証が必要。内面の探求（今何を感じているか、何を試したいか）は不要です。

AIコーチによって正確さは変わりますか？

正確さは、基盤モデル、プロダクトが設けるガードレール、そしてコーチの対象範囲がどれだけ絞られているかによって変わります。エビデンスが確立された手法（CBT、ACT、PDT）をベースにしたコーチは、自由形式のコーチに比べてブレが少ない傾向があります。元となる知見が体系化されていて、対応範囲が明確だからです。Verkeのコーチが手法ごとに設計されているのは、まさにこの理由です。

Verkeはコーチングであり、セラピーや医療行為ではありません。効果には個人差があります。危機的な状況にある場合は、 988 （米国）、 116 123 （UK/EU、Samaritans）、または最寄りの緊急サービスにご連絡ください。 findahelpline.com で各国の相談窓口をご覧いただけます。

AIは間違ったアドバイスをでっち上げる？ はい — 見分け方と対処法を解説します