広告

バッチ化された文脈的強化:効率的推論のためのタスク・スケーリング則

arXiv cs.LG / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Batched Contextual Reinforcement(BCR)と呼ばれる最小限のシンプルな単段階トレーニング手法を提案する。LLMが共有されたコンテキストウィンドウ内でN個の問題を同時に解くようにし、推論の効率を高めるために、インスタンスごとの正確性のみを最適化する。
  • BCRは「タスク・スケーリング則」をもたらし、推論時に同時実行数Nを増やすことで、問題あたりのトークン使用量が単調に減少する一方、精度の低下は既存のベースラインよりも緩やかである。
  • 1.5Bおよび4B規模のモデルファミリに関する実験では、5つの主要な数学ベンチマークにわたって精度を維持、または向上させつつ、大幅なトークン削減(約15.8%〜62.6%)が示されており、通常の「精度と効率のトレードオフ」に対して「フリーミール(無料の昼食)」に近いことを示唆する。
  • 著者らは、モデルが明示的な長さ(length)の監督なしに、冗長なメタ認知ループを自律的に取り除く「創発的な自己調整による効率化」を報告している。
  • 本研究では、暗黙的なトークン予算の制約が、明示的な長さペナルティ(例:敵対的勾配や最適化の崩壊)で見られる不安定性を回避するため、長さ制御がより安定的で実用的になると主張する。

広告