概要: 視覚と言語のモデル(VLMs)におけるマルチモーダル推論は、通常、監督付きファインチューニング(SFT)と強化学習(RL)の二段階プロセスに依存します。
標準のSFTでは、推論データは本質的にトークンが不均衡であるにもかかわらず、すべてのトークンが損失に等しく寄与します。
長い の痕跡が、短くてもタスク上重要な セグメントを覆い隠し、冗長な推論と不正確な回答をもたらします。
私たちは SCALe(Scheduled Curriculum Adaptive Loss)を提案します。これは、動的で長さに依存しない重み付けを用いて、推論セグメントと回答セグメントに対する監督を明示的に分離します。
従来の vanilla SFT が セグメントを過剰に重み付けするのと対照的に、SCALe-SFT は訓練全体を通じて から へ焦点を徐々に移し、コサイン・スケジューリング方針によって、簡潔で根拠のある推論を促します。
SCALe をさまざまなベンチマークとアーキテクチャで評価します。
結果は、SCALe が一貫して従来の SFT より精度を改善し、完全な二段階の SFT + GRPO パイプラインの性能と同等でありながら、訓練時間を約7分の1程度しか必要としないことを示しています。これにより、軽量でありながら効果的な代替手段となります。
GRPO と組み合わせると、SCALe は全体で最良の性能を達成し、単独の手法としての価値だけでなく、強化の改善の堅固な基盤としての価値を際立たせます。
バランスの取れた思考: 視覚言語モデルにおける Chain of Thought トレーニングの改善
arXiv cs.AI / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- SCALe(Scheduled Curriculum Adaptive Loss)は、推論セグメントと回答セグメントに対する監督を分離し、長さに依存しない動的重み付けを用いて、標準的な SFT におけるトークンの不均衡に対処します。
- SCALe-SFT はコサインスケジューリングポリシーを用いて、訓練の焦点を<think> セグメントから <answer> セグメントへ徐々に移行させ、簡潔で根拠のある推論を促進します。
- 実証的な結果は、SCALe が従来の SFT より精度を向上させ、完全な 2 段階の SFT + GRPO パイプラインの性能に匹敵する一方で、訓練時間は約7分の1程度に抑えられることを示しています。
- GRPO と組み合わせると、SCALe は総合的な性能で最高を達成し、単独の手法としての価値と、強化学習による洗練の基盤としての価値を際立たせます。




