信頼度の再評価:スケール設計がLLMのメタ認知に示すもの

arXiv cs.AI / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • 本研究は大規模言語モデル(LLM)による言語化された信頼度スコアを分析し、これらのスコアが重度に離散化されており、主に3つの端数のない値に集中していることを明らかにした。
  • 研究者は異なる信頼度スケールの設計を試み、粒度、境界位置、範囲の規則性を調整して、それらがメタ認知感受性に与える影響を評価した。
  • その結果、0–20スケールは標準の0–100スケールと比べてメタ認知効率を向上させる一方で、境界の圧縮は性能を悪化させ、範囲が不規則でも端数のない数値への嗜好が残ることが示された。
  • 信頼度スケールの設計はLLMの不確実性報告の信頼性に大きく影響し、信頼度スケール設計はLLM評価時に重要な変数として考慮されるべきである。
  • 本研究は、LLMの出力解釈やAIモデルのメタ認知研究を進める上でスケール設計の重要性を強調している。

コンピュータサイエンス > 応用人工知能

arXiv:2603.09309 (cs)
[2026年3月10日に投稿]

題目:Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

著者:Yuyang Dai
Yuyang Dai による論文「Rescaling Confidence: What Scale Design Reveals About LLM Metacognition」の PDF を表示
PDF を表示 HTML(実験的)
要旨:LLM が数値の確信度スコアを報告することで言語化された確信(verbalized confidence)は、ブラックボックス設定における不確実性の推定によく用いられているが、確信度のスケール自体(通常 0--100)はほとんど検討されていない。われわれは、この設計上の選択が中立ではないことを示す。6 つの LLM と 3 つのデータセットにわたって、言語化された確信は大きく離散化されており、78% 以上の応答が、わずか 3 つの丸めた数の値に集中している。この現象を調べるために、確信度スケールを 3 つの次元(粒度、境界の配置、レンジの規則性)に沿って体系的に操作し、meta-d' を用いてメタ認知的感度を評価する。0--20 スケールは、標準的な 0--100 形式と比べて一貫してメタ認知効率を改善する一方で、境界圧縮は性能を低下させ、また不規則なレンジの下でも丸めた数への嗜好は持続する。これらの結果は、確信度スケールの設計が、言語化された不確実性の質に直接影響することを示しており、LLM 評価において一次の実験変数として扱うべきである。
コメント:
対象分野: 応用人工知能(cs.AI)
MSC 分類: 自然言語処理
引用: arXiv:2603.09309 [cs.AI]
  (この版については arXiv:2603.09309v1 [cs.AI] を使用)
  https://doi.org/10.48550/arXiv.2603.09309
さらに詳しく学ぶ
DataCite による arXiv 発行 DOI

投稿履歴

作成者: Yuyang Dai [メールを表示]
[v1] 2026年3月10日(火)07:41:14 UTC(232 KB)
本文リンク:

論文へのアクセス:

現在の閲覧コンテキスト:
cs.AI
< prev   |   next >
次で閲覧を切り替え:
cs
BibTeX引用をエクスポート 読み込み中...

BibTeX形式の引用

×
データ提供元:

ブックマーク

BibSonomyロゴ Redditロゴ
書誌ツール

書誌および引用ツール

書誌エクスプローラーの切り替え
書誌エクスプローラー (エクスプローラーとは?)
Connected Papersの切り替え
Connected Papers (Connected Papersとは?)
Litmapsの切り替え
Litmaps (Litmapsとは?)
scite.aiの切り替え
scite Smart Citations (Smart Citationsとは?)
コード、データ、メディア

本論文に関連するコード、データ、メディア

alphaXivの切り替え
alphaXiv (alphaXivとは?)
コードへのリンクの切り替え
論文向け CatalyzeX コードファインダー (CatalyzeXとは?)
DagsHubの切り替え
DagsHub (DagsHubとは?)
GotitPub トグル
Huggingface トグル
コードへのリンク トグル
ScienceCast トグル
デモ

デモ

Replicate トグル
Spaces トグル
Hugging Face Spaces (Spaces とは何ですか?)
Spaces トグル
関連論文

レコメンダーおよび検索ツール

Influence Flower へのリンク
Core レコメンダー トグル
CORE レコメンダー (CORE とは何ですか?)
arXivLabs について

arXivLabs:コミュニティの協力者とともに取り組む実験的プロジェクト

arXivLabs は、協力者が当社のWebサイト上で直接新しい arXiv の機能を開発し、共有できるようにするための仕組み(フレームワーク)です。

arXivLabs に携わる個人および組織は、公開性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、それを大切にしてきました。arXiv はこれらの価値観に取り組んでおり、それらを順守するパートナーとのみ連携します。

arXiv のコミュニティに価値を加えるプロジェクトのアイデアはありますか? arXivLabs の詳細はこちら