要旨: 大規模言語モデルはしばしば、裏付けのない主張を生成します。これを、出力境界における分類誤りとして捉えます。すなわち、内部で生成された補完(completion)が、証拠に基づくもののように出力されてしまうのです。これにより、指示に基づく拒否と、構造的な棄却(abstention)ゲートを組み合わせた複合介入が動機づけられます。ゲートは、3つのブラックボックス信号からサポート不足スコア St を計算します。自己整合性(At)、言い換え安定性(Pt)、引用カバレッジ(Ct)です。そして St が閾値を超えると出力をブロックします。50件の項目、5つのエピステミック(認識論的)レジーム、3つのモデルにわたる統制された評価では、いずれの仕組み単独でも不十分でした。指示のみのプロンプトは幻覚(hallucination)を大幅に低減しましたが、それでも答えられる項目に対して過度に慎重な棄却が見られ、また GPT-3.5-turbo では残存する幻覚が確認されました。構造ゲートは、モデル間で答え可能な正確性を保持しましたが、証拠が衝突する項目に対する確信的な創作(confabulation)を見逃しました。複合アーキテクチャは、幻覚を低く抑えつつ高い全体精度を達成しましたが、指示コンポーネントからの過度な棄却もある程度引き継ぎました。補足として、TruthfulQA から導出した 100項目の無文脈ストレステストでは、構造的なゲーティングが、能力(capability)に依存しない棄却の下限(abstention floor)を提供することが示されました。全体として、指示に基づく拒否と構造的ゲーティングは補完的な失敗モードを持つため、効果的な幻覚抑制には両方の仕組みを組み合わせることが有益であることが示唆されます。
出力境界の誤分類としての幻覚:言語モデルのための複合的な棄権アーキテクチャ
arXiv cs.CL / 2026/4/9
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、幻覚は「出力境界の誤分類」として理解できると主張している。すなわち、内部で生成されたテキストが、証拠に対する十分な根拠づけなしに出力される状況である。
- 命令ベースの棄権(拒否)と、自己整合性・言い換え安定性・引用カバレッジから導出されるサポート不足スコア St を用いた構造的な棄権ゲートを組み合わせた、複合的な棄権アーキテクチャを提案する。
- 50項目、5つのエピステミックな状況(認識論的レジーム)、3つのモデルにわたる評価では、命令のみのプロンプトや構造ゲート単体はいずれも幻覚を完全には解消できず、過剰棄権や残存する幻覚といったトレードオフが見られた。
- 複合アプローチは全体的な精度を向上させつつ幻覚を低減するが、命令コンポーネント由来の過剰棄権の挙動も一部継承しており、特定の「相反する証拠」がある設定では自信のある創作(confabulation)を見逃す可能性がある。
- TruthfulQA に基づく文脈なしの100項目ストレステストでは、構造ゲートが能力に依存しない棄権の最低限(abstention floor)を提供することが示され、両メカニズムを組み合わせるべきという主張を支持する。




