統合の前に分離を:SFTとRLVRタスクベクトルのテスト時合成による検証

arXiv cs.LG / 2026/5/4

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMのポストトレーニングでSFTとRLVRを直接統合するのが難しい理由を、タスクベクトルにおける大きな大きさの不均衡、符号の干渉、モジュールごとの更新分布の不均一性に基づいて分析する。
  • Decoupled Test-time Synthesis(DoTS)として、SFTとRLVRのチェックポイントを独立に学習し、モデルパラメータを更新せずに推論時だけタスクベクトル演算で合成して能力を組み合わせる手法を提案する。
  • DoTSは、ノルムを保つリスケーリング付きの選択的スパース化で干渉を抑え、少量のラベルなしクエリでベイズ最適化を行い、整合性とパープレキシティのバランスが良い係数をパレート最適なフロンティアから探索する。
  • 実験ではDoTSが複数の数学的推論ベンチマークで学習ベースの統合手法と同等以上の性能を示し、計算コストは約3%にとどまるほか、より強いポストトレーニング済みチェックポイントでSOTAを上回り、再チューニングなしで分野外にも汎化する。