テスト時スケーリングのための固有報酬としてのエントロピー・セントロイド
arXiv cs.AI / 2026/4/30
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、外部の報酬モデルを不要にするために、言語モデルのテスト時スケーリングを改善する「固有の不確実性ベース報酬」手法を提案する。
- それは、高エントロピー・トークンから始まり連続する低エントロピー・トークンで終わる可変長セグメントとして High Entropy Phase(HEP)を定義し、推論中の不確実性の時間的構造を捉える。
- HEPに基づき、生成軌跡上における全HEPの重み付き平均位置として Entropy Centroid(物理の中心質量の発想に着想)を導入し、不確実性がいつ分布するかを定量化する。
- さらに「Lowest Centroid」手法として、複数候補のうちエントロピー・セントロイドが最も低い応答を選択することで応答品質の向上を狙う。
- 数学・コード生成・論理推論・エージェント課題で、14B〜480Bパラメータ規模のモデルに対して実験した結果、既存ベースラインを一貫して上回り、モデル規模が大きくなるほど安定した改善が得られたと報告している(コードも公開)。




