内側から外へ：信頼度キャリブレーションのための段階的分布改良

arXiv cs.LG / 2026/3/18

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、単一クエリのローアウトに依存するのではなく、モデルの信頼度分布を段階的な自己報酬信号として用いる、DistriTTRL という強化学習フレームワークを提案します。
訓練時とテスト時の条件の不一致によるテスト時トレーニングのギャップに対処し、多様性を標的としたペナルティを通じて投票ベースのテスト時戦略における報酬ハッキングを緩和します。
信頼度の分布の事前情報と自己報酬信号を組み合わせることで、DistriTTRLは複数のモデルとベンチマークにおいて顕著な性能向上を達成します。
この研究は強化学習における信頼度キャリブレーションを前進させ、将来の研究やキャリブレーションされたAIシステムの展開に影響を与える可能性があります。

要旨: 強化学習 (RL) において、モデルの内部情報を自己報酬信号として活用することは、ラベルフリーという性質のために広く注目を集めてきました。これまでの研究は、Test-Time Scaling (TTS) 戦略を RL に適用する上で顕著な進展を示してきた一方で、テスト時と訓練時の内部情報の不一致は十分に対処されていません。さらに、投票ベースの TTS 戦略に基づくテスト時トレーニングは、しばしば報酬ハッキングの問題に悩まされます。これらの問題に対処するために、DistriTTRL を提案します。DistriTTRL は、単一クエリのロールアウトのみに依存するのではなく、RL 中のモデルの信頼度の分布事前情報を活用して報酬信号を逐次最適化します。さらに、投票ベースの TTS 戦略によって生じる一貫した報酬ハッキング現象を、多様性を標的としたペナルティを用いて緩和します。モデルの能力と自己報酬信号が互いに補完し合うこのトレーニング機構と、報酬ハッキングの緩和の恩恵を受け、DistriTTRL は複数のモデルとベンチマークに渡って顕著な性能向上を達成しています。）

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

Dev.to

MCPスキルとMCPツール: サーバーを正しく構成する方法

Dev.to

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

Dev.to

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

Dev.to

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

内側から外へ：信頼度キャリブレーションのための段階的分布改良

要点

関連記事

追跡業務の自動化：フェスティバル出店者のコンプライアンスのためのAI

MCPスキルとMCPツール: サーバーを正しく構成する方法

2026年にすべてのコンテンツクリエイターが必要とする500のAIプロンプト（20件の無料サンプル付き）

娘のためのAIを活用したゲームを作る — 第1部: 彼女も作れるとしたら？

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer