間違いを知る：LLMの誤り検出における自信と正確さの整合

arXiv cs.LG / 2026/3/10

Ideas & Deep AnalysisTools & Practical UsageModels & Research

原文を読む →

共有:

要点

本論文は正規化された信頼度スコアと自己評価フレームワークを導入し、多様なベンチマークタスクおよびアーキテクチャにわたって大規模言語モデルの信頼度を確実に推定可能とした。
研究により、教師あり微調整（SFT）が適切に校正された信頼度スコアを生成するのに対し、PPO、GRPO、DPOなどの強化学習手法は報酬の悪用により過信を招くことが示された。
著者らは、強化学習で訓練されたモデルの信頼度の信頼性を回復するために、自己蒸留を用いた強化学習後の教師あり微調整を提案。
実証結果では、SFT訓練済みモデルで信頼度と正確性の指標およびキャリブレーション誤差が大幅に改善される一方、RL手法は信頼性を悪化させることが示された。
モデルの信頼度に基づいて効率的な検索処理を行う適応的検索強化生成の実用例が示され、検索回数を減らしつつ最大精度向上の95％を達成した。

コンピュータサイエンス > 機械学習

arXiv:2603.06604 (cs)

[2026年2月18日に投稿]

題名:自分が間違っているときはいつ分かるか：LLMの誤り検出において信頼度を正しさに整合させる

著者:Xie Xiaohu, Liu Xiaohu, Yao Benjamin

Xie Xiaohu、Liu Xiaohu、Yao Benjaminによる「自分が間違っているときはいつ分かるか：LLMの誤り検出において信頼度を正しさに整合させる」という論文のPDFを表示

PDFを見る HTML（実験的）

概要:大規模言語モデル（LLM）が、重要な意思決定システムでますます広く導入されるようになる一方で、その不確実性を測定するための信頼できる手法が欠けていることは、根本的な信頼性リスクにつながっています。本研究では、出力アンカートークンの確率に基づく正規化された信頼度スコアを提案します。構造化タスクでは分類ラベル、オープンエンド生成では自己評価応答（Yes/No）を用います。これにより、外部検証を行わず、最小限のオーバーヘッドで、誤りやハリュシネーションを直接検出できるようになります。本研究の主要な貢献は3点です。まず、正規化された信頼度スコアと自己評価の枠組みを提案し、7つの多様なベンチマークタスクと、異なるアーキテクチャおよびサイズの5つのLLMにわたって、誤り検出のための信頼度推定が信頼できる形で露出されることを示します。次に、理論解析により、教師ありファインチューニング（SFT）は最大尤度推定によってよくキャリブレーションされた信頼度をもたらすのに対し、強化学習手法（PPO、GRPO）およびDPOは報酬の搾取によって過信頼を誘発することを明らかにします。第三に、RLで学習したモデルにおける信頼度の信頼性を回復するために、自己蒸留を伴うポストRL SFTを提案します。実験結果では、SFTがQwen3-4Bにおける平均の信頼度-正しさAUROCを0.806から0.879へ改善し、キャリブレーション誤差を0.163から0.034へ低減したのに対し、GRPOとDPOは信頼度の信頼性を悪化させました。さらに、実用的な価値として、適応的な検索拡張生成（RAG）を示しました。モデルが信頼度を欠く場合にのみ文脈を選択的に取得し、TriviaQAで達成可能な最大精度向上の95%を回復するのに、検索処理の58%だけを用います。

科目:	機械学習（cs.LG）; 計算と言語（cs.CL）
引用形式:	arXiv:2603.06604 [cs.LG]
	（または arXiv:2603.06604v1 [cs.LG] この版の場合）
	https://doi.org/10.48550/arXiv.2603.06604 ここを詳しく学ぶ DataCite 経由で発行された arXiv DOI

投稿履歴

差出人: Xiaohu Xie [メールを見る]
[v1] 2026年2月18日（水）07:05:12 UTC（70 KB）

全文リンク:

論文へのアクセス:

「自分が間違っているときはいつ分かるか：LLMの誤り検出において信頼度を正しさに整合させる」という題名の論文のPDF（Xie Xiaohu、Liu Xiaohu、Yao Benjamin）を表示

PDFを見る
HTML（実験的）
TeXソース

ライセンスを見る

現在の閲覧コンテキスト:

cs.LG

< 前へ | 次へ >

新着 | 最近 | 2026-03

次の形で閲覧を変更:

cs
cs.CL

参考文献 & 被引用

NASA ADS
Google Scholar
Semantic Scholar

BibTeX形式で引用をエクスポート読み込み中...

BibTeX形式の引用

提供データ:

ブックマーク

書誌ツール

書誌および引用ツール

書誌エクスプローラー切り替え

書誌エクスプローラー (エクスプローラーとは？)

Conn

Connected Papers

ected Papers Toggle

Connected Papers (Connected Papersとは？)

Litmaps Toggle

Litmaps (Litmapsとは？)

scite.ai Toggle

scite Smart Citations (Smart Citationsとは？)

Code, Data, Media

Code, Data and Media Associated with this Article

alphaXiv Toggle

alphaXiv (alphaXivとは？)

Links to Code Toggle

CatalyzeX Code Finder for Papers (CatalyzeXとは？)

DagsHub Toggle

DagsHub (DagsHubとは？)

GotitPub Toggle

Gotit.pub (GotitPubとは？)

Huggingface Toggle

Hugging Face (Huggingfaceとは？)

Links to Code Toggle

Papers with Code (Papers with Codeとは？)

ScienceCast Toggle

ScienceCast (ScienceCastとは？)

Demos

Replicate Toggle

Replicate (Replicateとは？)

Spaces Toggle

Hugging Face Spaces (Spacesとは？)

Spaces Toggle

TXYZ.AI (TXYZ.AIとは？)

Recommenders and Search Tools

Link to Influence Flower

Influence Flower (Influence Flowerとは？)

Core recommender toggle

CORE Recommender (COREとは？)

IArxiv recommender toggle

IArxiv Recommender (IArxivとは？)

著者
掲載先
所属機関
トピック

arXivLabs について

arXivLabs：コミュニティの協力者と進める実験的なプロジェクト

arXivLabs は、協力者が当社の Web サイト上で新しい arXiv の機能を直接開発・共有できるようにするためのフレームワークです。

arXivLabs に取り組む個人および組織はいずれも、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、それを共有することに賛同しています。arXiv はこれらの価値観に取り組み、それに準拠するパートナーとのみ連携します。

arXiv のコミュニティに価値を加えるプロジェクトのアイデアはありますか？ arXivLabs の詳細はこちら。

この論文のどの著者が推認者（エンダーサー）ですか？ | MathJax を無効化（MathJax とは？）

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 3/10Dailyインサイトを見る →

Black Hat USA

AI Business

Black Hat Asia

AI Business

データサイエンティストの役割 AIで変わる、分析から「価値創造」へ

日経XTECH

ベイシアグループが横断ハッカソン、業務時間の5％を他事業へ割り当て