損失を減らせ!効率的な並列推論のために早期にパスをプルーニングする学習

arXiv cs.CL / 2026/4/20

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文は、大規模推論モデルでの並列推論が、初期の誤りによって多くの無駄な推論パスが生まれるために過剰なコストになりがちだと指摘しています。
  • 研究では、プレフィックス(接頭辞)レベルでのパス・プルーニングを初めて体系化し、信号源(内部 vs 外部)と学習可能性(学習可能 vs 非学習)の観点で手法を分類しています。
  • この分類に基づき、主に未開拓の「学習可能な内部」プルーニングの可能性を重視して、STOP(Super TOken for Pruning)を提案します。
  • 1.5B〜20BパラメータのLRMに対する実験の結果、STOPは既存ベースラインよりも有効性と効率の両面で優れていることが示されます。
  • また、計算予算を変えた場合でもSTOPがスケールすることを検証し(例:GPT-OSS-20BのAIME25で84%からほぼ90%へ改善)、実運用のための経験則も提示しています。コード、データ、モデルは公開されています。

概要: 並列推論は大規模推論モデル(LRM)を強化しますが、初期の誤りによって生じる無駄な経路のために、法外なコストがかかります。これを軽減するには、接頭辞レベルでの経路刈り込み(path pruning)が不可欠ですが、既存研究は標準化された枠組みを欠いており、断片的なままです。本研究では、経路刈り込みの初の体系的な分類法を提案し、手法を信号源(内部 vs. 外部)と学習可能性(学習可能 vs. 非学習)によって分類します。この分類により、学習可能な内部手法の未踏の可能性が明らかになり、我々はSTOP(Super TOken for Pruning)を提案します。パラメータ1.5Bから20Bの範囲のLRMに対する広範な評価により、STOPは既存のベースラインと比べて、より高い有効性と効率を達成することを示します。さらに、計算予算が変動する状況でのSTOPのスケーラビリティを厳密に検証します。例えば、固定された計算予算のもとで、AIME25におけるGPT-OSS-20Bの精度を84%から90%弱へと引き上げます。最後に、我々の知見を形式化された経験則(empirical guidelines)に蒸留し、最適な実環境での導入を促進します。コード、データ、モデルはhttps://bijiaxihh.github.io/STOPで利用可能です