要旨: 大規模推論モデル(LRM)は、長い推論チェーンを生成することで複雑なタスクを解く能力の高さを示してきましたが、この冗長な生成への依存は、重大なレイテンシと計算オーバーヘッドを招きます。これらの課題に対処するために、私たちは extbf{CoSMo}( extbf{Co}nsistency-Guided extbf{S}plit- extbf{M}erge extbf{O}ptimization)を提案します。これは、トークン量を無差別に制限するのではなく、構造的冗長性を除去することに特化した枠組みです。具体的には、CoSMo は分割・統合アルゴリズムを用いて、冗長なセグメントを統合し、論理的なギャップを分割することで推論チェーンを動的に洗練し、整合性を確保します。次に、学習を通じて効率的な推論構造を維持するようモデルを監督するために、セグメント単位の新しい予算(バジェット)を導入した、構造整合型強化学習を採用します。複数のベンチマークとバックボーンにわたる大規模な実験により、CoSMo が優れた性能を達成することが示されます。推論効率のベースラインと比べて、精度は extbf{3.3} ポイント向上し、セグメント使用量は平均で extbf{28.7
%} 削減しています。
短いチェーン、深い思考:分割・統合最適化による推論効率とセグメント内能力の両立
arXiv cs.CL / 2026/5/4
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模推論モデルが長い推論チェーンを生成して複雑課題を解く一方で、その冗長な生成が大きなレイテンシと計算コストを生むとして、トークン数の単純な制限ではなく冗長構造の削減を目指します。
- CoSMo(Consistency-Guided Split-Merge Optimization)を提案し、分割・統合アルゴリズムにより、冗長な推論セグメントを統合し、論理ギャップがある箇所を分割して、首尾一貫性を保ちながら推論チェーンを動的に整えます。
- さらに、構造に整合した強化学習と新しいセグメント単位の予算(budget)を用いて、学習を通じて効率的な推論構造を維持するようモデルを監督します。
- 複数のベンチマークと複数のバックボーンでの実験結果から、CoSMoは推論効率の基準手法に比べて精度を3.3ポイント向上させつつ、セグメント使用量を平均28.7%削減することを示しています。



