信頼度の再評価：スケール設計がLLMのメタ認知に示すもの

arXiv cs.AI / 2026/3/11

Ideas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本研究は大規模言語モデル（LLM）による言語化された信頼度スコアを分析し、これらのスコアが重度に離散化されており、主に3つの端数のない値に集中していることを明らかにした。
研究者は異なる信頼度スケールの設計を試み、粒度、境界位置、範囲の規則性を調整して、それらがメタ認知感受性に与える影響を評価した。
その結果、0–20スケールは標準の0–100スケールと比べてメタ認知効率を向上させる一方で、境界の圧縮は性能を悪化させ、範囲が不規則でも端数のない数値への嗜好が残ることが示された。
信頼度スケールの設計はLLMの不確実性報告の信頼性に大きく影響し、信頼度スケール設計はLLM評価時に重要な変数として考慮されるべきである。
本研究は、LLMの出力解釈やAIモデルのメタ認知研究を進める上でスケール設計の重要性を強調している。

コンピュータサイエンス > 応用人工知能

arXiv:2603.09309 (cs)

[2026年3月10日に投稿]

題目:Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

著者:Yuyang Dai

Yuyang Dai による論文「Rescaling Confidence: What Scale Design Reveals About LLM Metacognition」の PDF を表示

PDF を表示 HTML（実験的）

要旨:LLM が数値の確信度スコアを報告することで言語化された確信（verbalized confidence）は、ブラックボックス設定における不確実性の推定によく用いられているが、確信度のスケール自体（通常 0--100）はほとんど検討されていない。われわれは、この設計上の選択が中立ではないことを示す。6 つの LLM と 3 つのデータセットにわたって、言語化された確信は大きく離散化されており、78% 以上の応答が、わずか 3 つの丸めた数の値に集中している。この現象を調べるために、確信度スケールを 3 つの次元（粒度、境界の配置、レンジの規則性）に沿って体系的に操作し、meta-d' を用いてメタ認知的感度を評価する。0--20 スケールは、標準的な 0--100 形式と比べて一貫してメタ認知効率を改善する一方で、境界圧縮は性能を低下させ、また不規則なレンジの下でも丸めた数への嗜好は持続する。これらの結果は、確信度スケールの設計が、言語化された不確実性の質に直接影響することを示しており、LLM 評価において一次の実験変数として扱うべきである。

コメント:
対象分野:	応用人工知能（cs.AI）
MSC 分類:	自然言語処理
引用:	arXiv:2603.09309 [cs.AI]
	（この版については arXiv:2603.09309v1 [cs.AI] を使用）
	https://doi.org/10.48550/arXiv.2603.09309 さらに詳しく学ぶ DataCite による arXiv 発行 DOI

投稿履歴

作成者: Yuyang Dai [メールを表示]
[v1] 2026年3月10日（火）07:41:14 UTC（232 KB）

本文リンク:

論文へのアクセス:

Yuyang Dai による論文「Rescaling Confidence: What Scale Design Reveals About LLM Metacognition」の PDF を表示

PDF を表示
HTML（実験的）
TeX ソース

ライセンスを表示

現在の閲覧コンテキスト:

cs.AI

< prev | next >

new | recent | 2026-03

次で閲覧を切り替え:

参考文献 & 引用

BibTeX引用をエクスポート読み込み中...

BibTeX形式の引用

データ提供元:

ブックマーク

書誌ツール

書誌および引用ツール

書誌エクスプローラーの切り替え

書誌エクスプローラー (エクスプローラーとは？)

Connected Papersの切り替え

Connected Papers (Connected Papersとは？)

Litmapsの切り替え

Litmaps (Litmapsとは？)

scite.aiの切り替え

scite Smart Citations (Smart Citationsとは？)

コード、データ、メディア

本論文に関連するコード、データ、メディア

alphaXivの切り替え

alphaXiv (alphaXivとは？)

コードへのリンクの切り替え

論文向け CatalyzeX コードファインダー (CatalyzeXとは？)

DagsHubの切り替え

DagsHub (DagsHubとは？)

GotitPub トグル

Gotit.pub (GotitPub とは何ですか？)

Huggingface トグル

Hugging Face (Huggingface とは何ですか？)

コードへのリンクトグル

Papers with Code (Papers with Code とは何ですか？)

ScienceCast トグル

ScienceCast (ScienceCast とは何ですか？)

デモ

Replicate トグル

Replicate (Replicate とは何ですか？)

Spaces トグル

Hugging Face Spaces (Spaces とは何ですか？)

Spaces トグル

TXYZ.AI (TXYZ.AI とは何ですか？)

レコメンダーおよび検索ツール

Influence Flower へのリンク

Influence Flower (Influence Flower とは何ですか？)

Core レコメンダートグル

CORE レコメンダー (CORE とは何ですか？)

著者
掲載先
所属機関
トピック

arXivLabs について

arXivLabs：コミュニティの協力者とともに取り組む実験的プロジェクト

arXivLabs は、協力者が当社のWebサイト上で直接新しい arXiv の機能を開発し、共有できるようにするための仕組み（フレームワーク）です。

arXivLabs に携わる個人および組織は、公開性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、それを大切にしてきました。arXiv はこれらの価値観に取り組んでおり、それらを順守するパートナーとのみ連携します。

arXiv のコミュニティに価値を加えるプロジェクトのアイデアはありますか？ arXivLabs の詳細はこちら。

この論文のどの著者が推奨者（endorser）ですか？ | MathJax を無効化（MathJax とは何ですか？）

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

成長を生み出すCRM開発

Dev.to

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

Dev.to

API vs Local LLM、まだ感覚で選んでないか？

Qiita

実際に機能するAIプロンプトの書き方

Dev.to

信頼度の再評価：スケール設計がLLMのメタ認知に示すもの

要点

コンピュータサイエンス > 応用人工知能

題目:Rescaling Confidence: What Scale Design Reveals About LLM Metacognition

投稿履歴

論文へのアクセス:

参考文献 & 引用

BibTeX形式の引用

ブックマーク

書誌および引用ツール

本論文に関連するコード、データ、メディア

デモ

レコメンダーおよび検索ツール

arXivLabs：コミュニティの協力者とともに取り組む実験的プロジェクト

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

成長を生み出すCRM開発

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

API vs Local LLM、まだ感覚で選んでないか？

実際に機能するAIプロンプトの書き方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer