I-CALM:LLMの幻覚抑制のための、確信度を意識した棄権に対するインセンティブ付け

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • LLMの幻覚は「確信があるが誤りの回答」を出してしまう点が課題で、二値的な採点設計が“正直な不確実性の表明(棄権)”より“回答”を優遇することが一因だと述べています。
  • モデル改修なしのプロンプト介入として、答える/棄権するの報酬設計を明示し、さらに真実性・謙虚さ・責任を促す規範(norms)を組み込んだI-CALMを提案しています。
  • 事実質問で検証可能な正解がある設定(事実質問に対するエピステミック棄権)で、自己申告の言語的な自信を不確実性シグナルとして使い、言い換えへの頑健性やトークン確率ベースラインとの較正がある程度成立することを示します。
  • GPT-5 mini(PopQA)で、特に“自信の引き出し+棄権の報酬+規範”の組合せにより、誤答率が主に「誤りやすいケースを棄権へ移す」形で下がり、カバレッジ(回答範囲)と信頼性(reliability)のトレードオフが生じることを報告しています。
  • 棄権報酬を変えることで「棄権時の幻覚(abstention-hallucination)」とのフロンティアが得られ、選択的回答の改善が学習なしで可能であることを示し、コードも公開されています。