バッチ化された文脈的強化：効率的推論のためのタスク・スケーリング則

arXiv cs.LG / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、Batched Contextual Reinforcement（BCR）と呼ばれる最小限のシンプルな単段階トレーニング手法を提案する。LLMが共有されたコンテキストウィンドウ内でN個の問題を同時に解くようにし、推論の効率を高めるために、インスタンスごとの正確性のみを最適化する。
BCRは「タスク・スケーリング則」をもたらし、推論時に同時実行数Nを増やすことで、問題あたりのトークン使用量が単調に減少する一方、精度の低下は既存のベースラインよりも緩やかである。
1.5Bおよび4B規模のモデルファミリに関する実験では、5つの主要な数学ベンチマークにわたって精度を維持、または向上させつつ、大幅なトークン削減（約15.8%〜62.6%）が示されており、通常の「精度と効率のトレードオフ」に対して「フリーミール（無料の昼食）」に近いことを示唆する。
著者らは、モデルが明示的な長さ（length）の監督なしに、冗長なメタ認知ループを自律的に取り除く「創発的な自己調整による効率化」を報告している。
本研究では、暗黙的なトークン予算の制約が、明示的な長さペナルティ（例：敵対的勾配や最適化の崩壊）で見られる不安定性を回避するため、長さ制御がより安定的で実用的になると主張する。