間違いを知る:LLMの誤り検出における自信と正確さの整合

arXiv cs.LG / 2026/3/10

Ideas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文は正規化された信頼度スコアと自己評価フレームワークを導入し、多様なベンチマークタスクおよびアーキテクチャにわたって大規模言語モデルの信頼度を確実に推定可能とした。
  • 研究により、教師あり微調整(SFT)が適切に校正された信頼度スコアを生成するのに対し、PPO、GRPO、DPOなどの強化学習手法は報酬の悪用により過信を招くことが示された。
  • 著者らは、強化学習で訓練されたモデルの信頼度の信頼性を回復するために、自己蒸留を用いた強化学習後の教師あり微調整を提案。
  • 実証結果では、SFT訓練済みモデルで信頼度と正確性の指標およびキャリブレーション誤差が大幅に改善される一方、RL手法は信頼性を悪化させることが示された。
  • モデルの信頼度に基づいて効率的な検索処理を行う適応的検索強化生成の実用例が示され、検索回数を減らしつつ最大精度向上の95%を達成した。

コンピュータサイエンス > 機械学習

arXiv:2603.06604 (cs)
[2026年2月18日に投稿]

題名:自分が間違っているときはいつ分かるか:LLMの誤り検出において信頼度を正しさに整合させる

Xie Xiaohu、Liu Xiaohu、Yao Benjaminによる「自分が間違っているときはいつ分かるか:LLMの誤り検出において信頼度を正しさに整合させる」という論文のPDFを表示
PDFを見る HTML(実験的)
概要:大規模言語モデル(LLM)が、重要な意思決定システムでますます広く導入されるようになる一方で、その不確実性を測定するための信頼できる手法が欠けていることは、根本的な信頼性リスクにつながっています。本研究では、出力アンカートークンの確率に基づく正規化された信頼度スコアを提案します。構造化タスクでは分類ラベル、オープンエンド生成では自己評価応答(Yes/No)を用います。これにより、外部検証を行わず、最小限のオーバーヘッドで、誤りやハリュシネーションを直接検出できるようになります。本研究の主要な貢献は3点です。まず、正規化された信頼度スコアと自己評価の枠組みを提案し、7つの多様なベンチマークタスクと、異なるアーキテクチャおよびサイズの5つのLLMにわたって、誤り検出のための信頼度推定が信頼できる形で露出されることを示します。次に、理論解析により、教師ありファインチューニング(SFT)は最大尤度推定によってよくキャリブレーションされた信頼度をもたらすのに対し、強化学習手法(PPO、GRPO)およびDPOは報酬の搾取によって過信頼を誘発することを明らかにします。第三に、RLで学習したモデルにおける信頼度の信頼性を回復するために、自己蒸留を伴うポストRL SFTを提案します。実験結果では、SFTがQwen3-4Bにおける平均の信頼度-正しさAUROCを0.806から0.879へ改善し、キャリブレーション誤差を0.163から0.034へ低減したのに対し、GRPOとDPOは信頼度の信頼性を悪化させました。さらに、実用的な価値として、適応的な検索拡張生成(RAG)を示しました。モデルが信頼度を欠く場合にのみ文脈を選択的に取得し、TriviaQAで達成可能な最大精度向上の95%を回復するのに、検索処理の58%だけを用います。
科目: 機械学習(cs.LG); 計算と言語(cs.CL)
引用形式: arXiv:2603.06604 [cs.LG]
  (または arXiv:2603.06604v1 [cs.LG] この版の場合)
  https://doi.org/10.48550/arXiv.2603.06604
ここを詳しく学ぶ
DataCite 経由で発行された arXiv DOI

投稿履歴

差出人: Xiaohu Xie [メールを見る]
[v1] 2026年2月18日(水)07:05:12 UTC(70 KB)
全文リンク:

論文へのアクセス:

    「自分が間違っているときはいつ分かるか:LLMの誤り検出において信頼度を正しさに整合させる」という題名の論文のPDF(Xie Xiaohu、Liu Xiaohu、Yao Benjamin)を表示
  • PDFを見る
  • HTML(実験的)
  • TeXソース
現在の閲覧コンテキスト:
cs.LG
次の形で閲覧を変更:

参考文献 & 被引用

BibTeX形式で引用をエクスポート 読み込み中...

BibTeX形式の引用

×
提供データ:

ブックマーク

BibSonomyロゴ Redditロゴ
書誌ツール

書誌および引用ツール

書誌エクスプローラー切り替え
書誌エクスプローラー (エクスプローラーとは?)
Conn
Connected Papers
ected Papers Toggle
Connected Papers (Connected Papersとは?)
Litmaps Toggle
Litmaps (Litmapsとは?)
scite.ai Toggle
scite Smart Citations (Smart Citationsとは?)
Code, Data, Media

Code, Data and Media Associated with this Article

alphaXiv Toggle
alphaXiv (alphaXivとは?)
Links to Code Toggle
CatalyzeX Code Finder for Papers (CatalyzeXとは?)
DagsHub Toggle
DagsHub (DagsHubとは?)
GotitPub Toggle
Gotit.pub (GotitPubとは?)
Huggingface Toggle
Hugging Face (Huggingfaceとは?)
Links to Code Toggle
Papers with Code (Papers with Codeとは?)
ScienceCast Toggle
ScienceCast (ScienceCastとは?)
Demos

Demos

Replicate Toggle
Replicate (Replicateとは?)
Spaces Toggle
Hugging Face Spaces (Spacesとは?)
Spaces Toggle
TXYZ.AI (TXYZ.AIとは?)
Related Papers

Recommenders and Search Tools

Link to Influence Flower
Influence Flower (Influence Flowerとは?)
Core recommender toggle
CORE Recommender (COREとは?)
IArxiv recommender toggle
IArxiv Recommender (IArxivとは?)
arXivLabs について

arXivLabs:コミュニティの協力者と進める実験的なプロジェクト

arXivLabs は、協力者が当社の Web サイト上で新しい arXiv の機能を直接開発・共有できるようにするためのフレームワークです。

arXivLabs に取り組む個人および組織はいずれも、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、それを共有することに賛同しています。arXiv はこれらの価値観に取り組み、それに準拠するパートナーとのみ連携します。

arXiv のコミュニティに価値を加えるプロジェクトのアイデアはありますか? arXivLabs の詳細はこちら