要旨: 強化学習 (RL) において、モデルの内部情報を自己報酬信号として活用することは、ラベルフリーという性質のために広く注目を集めてきました。これまでの研究は、Test-Time Scaling (TTS) 戦略を RL に適用する上で顕著な進展を示してきた一方で、テスト時と訓練時の内部情報の不一致は十分に対処されていません。さらに、投票ベースの TTS 戦略に基づくテスト時トレーニングは、しばしば報酬ハッキングの問題に悩まされます。これらの問題に対処するために、DistriTTRL を提案します。DistriTTRL は、単一クエリのロールアウトのみに依存するのではなく、RL 中のモデルの信頼度の分布事前情報を活用して報酬信号を逐次最適化します。さらに、投票ベースの TTS 戦略によって生じる一貫した報酬ハッキング現象を、多様性を標的としたペナルティを用いて緩和します。モデルの能力と自己報酬信号が互いに補完し合うこのトレーニング機構と、報酬ハッキングの緩和の恩恵を受け、DistriTTRL は複数のモデルとベンチマークに渡って顕著な性能向上を達成しています。)
内側から外へ:信頼度キャリブレーションのための段階的分布改良
arXiv cs.LG / 2026/3/18
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、単一クエリのローアウトに依存するのではなく、モデルの信頼度分布を段階的な自己報酬信号として用いる、DistriTTRL という強化学習フレームワークを提案します。
- 訓練時とテスト時の条件の不一致によるテスト時トレーニングのギャップに対処し、多様性を標的としたペナルティを通じて投票ベースのテスト時戦略における報酬ハッキングを緩和します。
- 信頼度の分布の事前情報と自己報酬信号を組み合わせることで、DistriTTRLは複数のモデルとベンチマークにおいて顕著な性能向上を達成します。
- この研究は強化学習における信頼度キャリブレーションを前進させ、将来の研究やキャリブレーションされたAIシステムの展開に影響を与える可能性があります。
