概要: トークンは、現代の自己回帰(autoregressive)モデルにおける計算の基本単位であり、生成長は推論コストと推論性能の両方に直接影響します。その重要性にもかかわらず、既存の手法は細粒度の長さモデリングが不足しており、主に粗粒度のシーケンス単位で動作しています。私たちは、残りの生成長をモデル化するトークンレベルの枠組みである Length Value Model(LenVM)を提案します。長さモデリングを価値推定問題として定式化し、生成された各トークンに対して一定の負の報酬を割り当てることで、LenVMは、残りの生成ホライズンに対する単調な代理として機能する、有界かつ割引されたリターンを予測します。この定式化により、注釈不要・高密度・偏りなし・スケーラブルな教師信号が得られます。LLMおよびVLMに関する実験により、LenVMが推論時に非常に有効な信号を提供することを示します。LIFEBenchの正確な長さ一致タスクでは、7BモデルにLenVMを適用することで、長さスコアが30.9から64.8へ改善し、最先端のクローズドソースモデルを大きく上回ります。さらにLenVMは、性能と効率のトレードオフを連続的に制御できるようにします。GSM8Kでは、200トークンの予算で、LenVMはトークン予算ベースラインの6%に対して63%の精度を維持します。また、プロンプト境界から総生成長を正確に予測します。最後に、LenVMのトークンレベルの値は、生成ダイナミクスを解釈可能な形で提供し、特定のトークンが推論をより短い状態またはより長い状態へどのようにシフトさせるかを明らかにします。結果は、LenVMが幅広い応用を支えること、そしてトークン長をトークンレベルの価値信号として効果的にモデル化できることを示しており、長さモデリングのための一般的な枠組みとして、また将来のRL学習を支え得る長さ固有の価値信号としてのLenVMの可能性を強調しています。コードは https://github.com/eric-ai-lab/Length-Value-Model で利用可能です。
Length Value Model:トークン単位の長さモデリングのためのスケーラブルな価値事前学習
arXiv cs.CL / 2026/5/1
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文は、自己回帰型LLMにおける生成残り長さをトークン単位で扱うLength Value Model(LenVM)を提案し、従来の粗い系列レベル中心のアプローチを補うことを目的としています。
- LenVMは、生成トークンごとに一定の負の報酬を与えて価値推定問題として長さモデリングを定式化し、残りの生成ホライズンの単調な代理となる有界で割引されたリターンを出力します。
- この手法は注釈不要で密なスーパービジョンを提供し、大規模化に適しており、LLMとVLMの実験では推論時に有効な信号を強く示しています。
- LIFEBenchの「厳密な長さ一致」タスクでは、7BモデルにLenVMを適用すると長さスコアが30.9から64.8へ大幅に向上し、最先端のクローズドモデルを上回ります。
- LenVMはさらに、性能と効率のトレードオフを連続的に制御でき、GSM8Kでトークン予算200で63%の精度を維持する一方、トークン予算ベースラインは6%でした。また、推論が短い/長いレジームへ移る様子をトークン単位で解釈可能に捉えます。




