I-CALM：LLMの幻覚抑制のための、確信度を意識した棄権に対するインセンティブ付け

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

LLMの幻覚は「確信があるが誤りの回答」を出してしまう点が課題で、二値的な採点設計が“正直な不確実性の表明（棄権）”より“回答”を優遇することが一因だと述べています。
モデル改修なしのプロンプト介入として、答える/棄権するの報酬設計を明示し、さらに真実性・謙虚さ・責任を促す規範（norms）を組み込んだI-CALMを提案しています。
事実質問で検証可能な正解がある設定（事実質問に対するエピステミック棄権）で、自己申告の言語的な自信を不確実性シグナルとして使い、言い換えへの頑健性やトークン確率ベースラインとの較正がある程度成立することを示します。
GPT-5 mini（PopQA）で、特に“自信の引き出し＋棄権の報酬＋規範”の組合せにより、誤答率が主に「誤りやすいケースを棄権へ移す」形で下がり、カバレッジ（回答範囲）と信頼性（reliability）のトレードオフが生じることを報告しています。
棄権報酬を変えることで「棄権時の幻覚（abstention-hallucination）」とのフロンティアが得られ、選択的回答の改善が学習なしで可能であることを示し、コードも公開されています。

AI Business

日経XTECH

日経XTECH

日経XTECH

日経XTECH