テスト時スケーリングのための固有報酬としてのエントロピー・セントロイド

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、外部の報酬モデルを不要にするために、言語モデルのテスト時スケーリングを改善する「固有の不確実性ベース報酬」手法を提案する。
それは、高エントロピー・トークンから始まり連続する低エントロピー・トークンで終わる可変長セグメントとして High Entropy Phase（HEP）を定義し、推論中の不確実性の時間的構造を捉える。
HEPに基づき、生成軌跡上における全HEPの重み付き平均位置として Entropy Centroid（物理の中心質量の発想に着想）を導入し、不確実性がいつ分布するかを定量化する。
さらに「Lowest Centroid」手法として、複数候補のうちエントロピー・セントロイドが最も低い応答を選択することで応答品質の向上を狙う。
数学・コード生成・論理推論・エージェント課題で、14B〜480Bパラメータ規模のモデルに対して実験した結果、既存ベースラインを一貫して上回り、モデル規模が大きくなるほど安定した改善が得られたと報告している（コードも公開）。

Abstract

大規模言語モデルのテスト時計算をスケールアップする効果的な方法は、複数の応答をサンプリングしてから最良のものを選択することであり、Grok Heavy や Gemini Deep Think のような手法がこれに当たります。既存の選択方法は、多くの場合、外部の報酬モデルに依存しています。これは強力な報酬モデルの学習を必要とし、さらに計算オーバーヘッドも増加させます。代替として、これまでのアプローチでは、確信度やエントロピーといった固有の（intrinsic）信号を探ってきましたが、これらの信号は素朴な集約を行うとノイズが多くなります。本研究では、エントロピーの高いトークンは推論中に連続したグループにクラスタリングされる傾向があることを観察します。これにより、個々のトークンよりも安定した形でモデルの不確実性を捉えられます。さらに、これらのクラスタは、推論プロセス全体を通じてモデルの不確実性の時間的なパターンを明らかにします。この観察に動機づけられ、時間的構造としての不確実性を固有報酬（intrinsic reward）として用いることを提案します。具体的には、まず、セグメント（区間）レベルの不確実性の基本単位を High Entropy Phase（HEP）として形式化します。これは、エントロピーの高いトークンから始まり、連続する低エントロピーのトークンが現れるまで続く、長さ可変のセグメントです。次に、物理学における重心（center of mass）の概念に着想を得て、軌跡上に存在するすべての HEP の重み付き平均位置として Entropy Centroid を定義します。直感的には、重心が低いほど、初期段階での探索の後に確信のある生成が行われていることを示し、これはしばしば応答品質の高さに対応することが分かりました。この洞察に基づき、複数の候補のうち、エントロピー重心が最も低い応答を選択する Lowest Centroid 法を提案します。数学、コード生成、論理推論、エージェント的タスクに関する実験を、14B から 480B までのモデル規模にわたって行ったところ、Lowest Centroid は一貫して既存のベースラインを上回り、モデルサイズが増えるほど安定した改善が得られることが示されました。コードは https://github.com/hkust-nlp/entropy-centroid で公開されています。