多目的進化的マージによる効率的推論モデルの実現

arXiv cs.CL / 2026/4/9

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、長文から短文への(Long-to-Short; L2S)推論問題に取り組み、高い精度を維持しつつ生成トークン数を減らすことで、長い連鎖的思考(chain-of-thought)推論に伴う推論時のコストを削減することを目指す。
  • Evo-L2Sを提案し、L2Sモデルのマージを多目的最適化問題として再定式化する。パレートフロント上のマージ済みモデル群を用いて、進化的モデルマージにより精度と出力長のトレードオフを明示的に最適化する。
  • 大規模言語モデルに対する進化探索を実行可能にするため、エントロピーに基づく部分集合サンプリングにより、適応度推定のオーバーヘッドを削減する手法を用いる。
  • 1.5B、7B、14Bのモデル規模にまたがる推論ベンチマークでの実験により、Evo-L2Sは元の推論モデルに対して精度を維持または向上させながら、推論トレース長を50%以上削減できることが示される。

Abstract

推論モデルは、長い思考の連鎖を活用することで、複雑な問題を解く際に目覚ましい能力を示してきました。しかし、このようなより慎重な推論には、推論時の計算オーバーヘッドが大きく伴います。Long-to-Short(L2S)推論問題は、より少ないトークン数で高い精度を維持することを目指しますが、現在の学習なしのモデル統合アプローチは、スカラー化された固定ハイパーパラメータによる算術手法に依存しており、非常に脆く、非最適な妥協を強いるものです。このギャップに対処するために、私たちはL2S推論を多目的最適化問題として定式化する新しい枠組みEvo-L2Sを導入します。進化的なモデル統合を活用することで、Evo-L2Sは精度と出力長のトレードオフを明示的に最適化し、統合モデルのロバストなパレートフロントを生成します。大規模言語モデルにとって探索を計算可能な形にするため、私たちはエントロピーに基づくサブセットサンプリング手法を提案し、適応度推定のオーバーヘッドを劇的に削減します。数学的推論ベンチマーク6種類に対して、パラメータ規模1.5B、7B、14Bで行った包括的な実験により、Evo-L2Sが、元の推論モデルの問題解決精度を維持、あるいは向上させたまま、生成される推論トレースの長さを50%以上削減できることを示します。