推論モデルを微調整する方法は?生徒モデルに一貫したSFTデータを合成するための教師-生徒協調フレームワーク

arXiv cs.CL / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 強い「教師」モデルが生成した合成データで教師あり微調整(SFT)を行う手法は一般的ですが、推論モデルでは教師と生徒の出力分布がずれると推論性能が悪化することがあります。
  • Qwen3-8Bのような新しい推論モデルでSFTがうまく機能しない主因として、教師生成データと生徒の分布の間に大きなスタイル(文体)上の乖離がある点を論文は特定しています。
  • そこで提案されるのがTESSY(Teacher-Student Cooperation Data Synthesis)で、教師と生徒を交互に用いて「スタイル」と「非スタイル」のトークンを生成し、生徒側のスタイル分布により合わせます。
  • コード生成の実験では、単純に教師データでQwen3-8Bを微調整すると性能が低下する一方、TESSYではLiveCodeBench-Proが11.25%、OJBenchが6.68%改善しました。
  • 合成データ生成時にスタイル/分布の整合を制御することが、SFTで推論能力を確実に移植するうえで重要だという示唆が得られます。

要旨: モデル強化のために広く採用されている戦略は、教師となるより強力なモデルが生成した合成データを用いて教師あり微調整(SFT)を行うことです。しかし、Qwen3-8Bのような新興の推論モデルでは、このアプローチはしばしば推論能力を改善できず、場合によっては性能が大幅に低下することさえあります。本研究では、SFTに影響を与える主要因として、教師が生成したデータと学生の分布との間に顕著なスタイル上の乖離があることを特定します。このギャップを埋めるために、教師・学生協調データ合成フレームワーク(TESSY)を提案します。TESSYは、教師モデルと学生モデルを交互に組み合わせて、スタイル・非スタイルのトークンをそれぞれ生成します。その結果、TESSYは、教師の持つ高度な推論能力を継承しつつ、学生の分布に対してスタイルの一貫性を維持する合成系列を生成します。実験では、教師としてGPT-OSS-120Bを用いたコード生成を行い、教師が生成したデータでQwen3-8Bを微調整すると、LiveCodeBench-Proで3.25%、OJBenchで10.02%の性能低下が生じました。一方で、TESSYはそれぞれ11.25%および6.68%の改善を達成しました。