コンピュータサイエンス > 機械学習
arXiv:2603.06604 (cs)
[2026年2月18日に投稿]
題名:自分が間違っているときはいつ分かるか:LLMの誤り検出において信頼度を正しさに整合させる
Xie Xiaohu、Liu Xiaohu、Yao Benjaminによる「自分が間違っているときはいつ分かるか:LLMの誤り検出において信頼度を正しさに整合させる」という論文のPDFを表示
PDFを見る
HTML(実験的)
概要:大規模言語モデル(LLM)が、重要な意思決定システムでますます広く導入されるようになる一方で、その不確実性を測定するための信頼できる手法が欠けていることは、根本的な信頼性リスクにつながっています。本研究では、出力アンカートークンの確率に基づく正規化された信頼度スコアを提案します。構造化タスクでは分類ラベル、オープンエンド生成では自己評価応答(Yes/No)を用います。これにより、外部検証を行わず、最小限のオーバーヘッドで、誤りやハリュシネーションを直接検出できるようになります。本研究の主要な貢献は3点です。まず、正規化された信頼度スコアと自己評価の枠組みを提案し、7つの多様なベンチマークタスクと、異なるアーキテクチャおよびサイズの5つのLLMにわたって、誤り検出のための信頼度推定が信頼できる形で露出されることを示します。次に、理論解析により、教師ありファインチューニング(SFT)は最大尤度推定によってよくキャリブレーションされた信頼度をもたらすのに対し、強化学習手法(PPO、GRPO)およびDPOは報酬の搾取によって過信頼を誘発することを明らかにします。第三に、RLで学習したモデルにおける信頼度の信頼性を回復するために、自己蒸留を伴うポストRL SFTを提案します。実験結果では、SFTがQwen3-4Bにおける平均の信頼度-正しさAUROCを0.806から0.879へ改善し、キャリブレーション誤差を0.163から0.034へ低減したのに対し、GRPOとDPOは信頼度の信頼性を悪化させました。さらに、実用的な価値として、適応的な検索拡張生成(RAG)を示しました。モデルが信頼度を欠く場合にのみ文脈を選択的に取得し、TriviaQAで達成可能な最大精度向上の95%を回復するのに、検索処理の58%だけを用います。
| 科目: | 機械学習(cs.LG); 計算と言語(cs.CL) |
| 引用形式: | arXiv:2603.06604 [cs.LG] |
| (または arXiv:2603.06604v1 [cs.LG] この版の場合) | |
| https://doi.org/10.48550/arXiv.2603.06604
ここを詳しく学ぶ
DataCite 経由で発行された arXiv DOI
|
書誌ツール
書誌および引用ツール
書誌エクスプローラー切り替え
書誌エクスプローラー (エクスプローラーとは?)
Conn
Connected Papers
Connected Papers (Connected Papersとは?)
Litmaps Toggle
Litmaps (Litmapsとは?)
scite.ai Toggle
scite Smart Citations (Smart Citationsとは?)
Code, Data and Media Associated with this Article
alphaXiv Toggle
alphaXiv (alphaXivとは?)
Links to Code Toggle
CatalyzeX Code Finder for Papers (CatalyzeXとは?)
DagsHub Toggle
DagsHub (DagsHubとは?)
GotitPub Toggle
Gotit.pub (GotitPubとは?)
Huggingface Toggle
Hugging Face (Huggingfaceとは?)
Links to Code Toggle
Papers with Code (Papers with Codeとは?)
ScienceCast Toggle
ScienceCast (ScienceCastとは?)
Demos
Replicate Toggle
Replicate (Replicateとは?)
Spaces Toggle
Hugging Face Spaces (Spacesとは?)
Spaces Toggle
TXYZ.AI (TXYZ.AIとは?)
Recommenders and Search Tools
Link to Influence Flower
Influence Flower (Influence Flowerとは?)
Core recommender toggle
CORE Recommender (COREとは?)
IArxiv recommender toggle
IArxiv Recommender
(IArxivとは?)
arXivLabs:コミュニティの協力者と進める実験的なプロジェクト
arXivLabs は、協力者が当社の Web サイト上で新しい arXiv の機能を直接開発・共有できるようにするためのフレームワークです。
arXivLabs に取り組む個人および組織はいずれも、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、それを共有することに賛同しています。arXiv はこれらの価値観に取り組み、それに準拠するパートナーとのみ連携します。
arXiv のコミュニティに価値を加えるプロジェクトのアイデアはありますか? arXivLabs の詳細はこちら。



