ハルシネーションとは何か
生成AIが「事実と異なる内容を自信を持って答える」現象をハルシネーションと呼びます。
ハルシネーションの具体例
ハルシネーション(Hallucination)とは、生成AIが存在しない事実・架空の人物・誤った数値を、あたかも正確な情報であるかのように堂々と出力する現象です。「A社の2023年の売上を教えて」という質問に対して、実際とは異なる数字を確信を持って答えることがあります。「〜という論文があります」と架空の論文を引用することも報告されています。
なぜハルシネーションが起きるのか
ハルシネーションが発生する根本的な原因は、LLMの仕組みにあります。LLMは「次のトークンの確率分布を計算して出力する」機械であり、その出力が事実かどうかを内部で確認する機構を持っていません。学習データに含まれる不正確な情報を学習していること、またトレーニングの最適化過程で「もっともらしく聞こえる回答」を生成する方向に調整されることも一因です。
ハルシネーションが起きやすい状況
- 最新情報の質問:学習データのカットオフ以降の出来事は知識がなく、古い情報から推測して誤ることがある
- ニッチな専門知識:学習データが少ない分野では正確な情報が少なく、誤答率が高まる
- 数値・統計の引用:具体的な数字が要求される場合、もっともらしい数字を生成することがある
- 長い推論チェーン:多段階の推論を要する問題では誤りが蓄積されやすい
知識の鮮度問題とコンテキスト制限
学習データのカットオフと、参照できる情報量の上限がAIの重要な制約です。
学習データのカットオフ
LLMは特定の時点(学習データのカットオフ)までの情報しか持っていません。そのため、法改正・市場変動・新技術など、最新情報に基づく回答を求める用途では注意が必要です。RAG(Retrieval Augmented Generation)を用いて外部の最新情報を取得し、回答に反映させる手法が有効な対策となります。
コンテキストウィンドウの制限
モデルが1回のやり取りで参照できるテキスト量(コンテキストウィンドウ)には上限があります。モデルごとに数万〜数十万トークン程度の範囲があり、長い文書や会議録、データをすべて一度に渡せないケースもあります。そのため、実務では適切に分割(チャンク化)したり、要約を挟むなどの設計が必要になります。また、コンテキスト内に収まる情報しか参照できないため、長い対話では初期の内容が反映されにくくなることがあります。
推論と計算の弱点
複雑な数値計算や多段階推論はAIが苦手とする領域です。
複雑な数値計算への対応
LLMは数学的な計算が得意ではありません。足し算・掛け算のような単純計算は正確にできますが、桁数が増えたり、多段階の計算が必要になると誤りが増えます。これはLLMが「計算する」のではなく「計算結果のように見えるトークンを生成する」機械だからです。数値計算が重要な用途では、LLMに計算そのものを任せるのではなく、Function CallingでPythonなどの計算ツールに処理を委ねる設計が必要です。
多段階推論の誤りの蓄積
「AだからB、BだからC、CだからD」のように推論を多段階に積み上げる場合、初期の段階でわずかな誤りがあっても最終的な答えが大きく誤ることがあります。Chain-of-Thought(CoT)プロンプティングで推論過程を明示させることで精度が上がりますが、完全には解消されません。複数回の質問に分けて段階的に確認する設計が有効です。
バイアスと公平性の問題
LLMは学習データに含まれる人間社会のバイアス(性別・人種・文化的偏見)を反映する可能性があります。採用選考・審査・意思決定支援などへのLLM活用は、バイアスの検証と適切な人間レビューを組み合わせる設計が不可欠です。
リスク管理と対策
ハルシネーションを前提としたリスク管理設計が重要です。
ファクトチェックと人間レビューの組み込み
- 重要な事実・数値には必ず出典を明示させる:プロンプトに「出典となるURLやソースも提示してください」と加える
- 人間によるレビューフローを設計する:法律・医療・財務情報など誤りが重大な分野では必ず専門家が確認
- ダブルチェックを組み込む:同じ質問を別の表現で複数回行い、回答の一貫性を確認する
RAGによる知識補完
RAG(Retrieval Augmented Generation)は、LLMが回答を生成する前に自社データベース・最新情報から関連情報を検索して文脈として与える手法です。ハルシネーションの主要な原因である「知識不足」を補い、最新情報・自社特有の情報に基づく回答が可能になります。カットオフ問題の実用的な解決策として、多くのLLMビジネス活用で採用されています。RAGの詳細はシリーズ第18回で解説します。
プロンプト設計によるリスク低減
- 「わからない場合は正直に『わかりません』と答えてください」とプロンプトに明記する
- 「確実に知っている情報だけ答えて」「推測の場合はその旨を明示して」と指示する
- 回答の信頼度を自己評価させる(「自信度:高/中/低」を付けさせる)
まとめ
この記事では、生成AIのハルシネーション・知識のカットオフ・推論の限界・リスク管理の対策を解説しました。
- ハルシネーションはLLMの構造的な特性であり、「もっともらしく聞こえる誤情報」を自信を持って出力することがある
- 学習データのカットオフにより最新情報には対応できず、RAGによる知識補完が有効な対策となる
- 複雑な数値計算や多段階推論はLLMが苦手とする領域で、外部ツールとの連携設計が重要
- ファクトチェック・人間レビュー・RAG・プロンプト設計の組み合わせでリスクを管理する
これらを理解することで、生成AIを業務に活用する際のリスクを正確に評価し、安全で効果的な導入設計ができるようになります。


コメント