バランスの取れた思考: 視覚言語モデルにおける Chain of Thought トレーニングの改善

arXiv cs.AI / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

SCALe（Scheduled Curriculum Adaptive Loss）は、推論セグメントと回答セグメントに対する監督を分離し、長さに依存しない動的重み付けを用いて、標準的な SFT におけるトークンの不均衡に対処します。
SCALe-SFT はコサインスケジューリングポリシーを用いて、訓練の焦点を<think> セグメントから <answer> セグメントへ徐々に移行させ、簡潔で根拠のある推論を促進します。
実証的な結果は、SCALe が従来の SFT より精度を向上させ、完全な 2 段階の SFT + GRPO パイプラインの性能に匹敵する一方で、訓練時間は約7分の1程度に抑えられることを示しています。
GRPO と組み合わせると、SCALe は総合的な性能で最高を達成し、単独の手法としての価値と、強化学習による洗練の基盤としての価値を際立たせます。

概要: 視覚と言語のモデル（VLMs）におけるマルチモーダル推論は、通常、監督付きファインチューニング（SFT）と強化学習（RL）の二段階プロセスに依存します。
標準のSFTでは、推論データは本質的にトークンが不均衡であるにもかかわらず、すべてのトークンが損失に等しく寄与します。
長いの痕跡が、短くてもタスク上重要なセグメントを覆い隠し、冗長な推論と不正確な回答をもたらします。
私たちは SCALe（Scheduled Curriculum Adaptive Loss）を提案します。これは、動的で長さに依存しない重み付けを用いて、推論セグメントと回答セグメントに対する監督を明示的に分離します。
従来の vanilla SFT がセグメントを過剰に重み付けするのと対照的に、SCALe-SFT は訓練全体を通じてからへ焦点を徐々に移し、コサイン・スケジューリング方針によって、簡潔で根拠のある推論を促します。
SCALe をさまざまなベンチマークとアーキテクチャで評価します。
結果は、SCALe が一貫して従来の SFT より精度を改善し、完全な二段階の SFT + GRPO パイプラインの性能と同等でありながら、訓練時間を約7分の1程度しか必要としないことを示しています。これにより、軽量でありながら効果的な代替手段となります。
GRPO と組み合わせると、SCALe は全体で最良の性能を達成し、単独の手法としての価値だけでなく、強化の改善の堅固な基盤としての価値を際立たせます。

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

note

AI達の革命

note

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

note

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

note

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

note

バランスの取れた思考: 視覚言語モデルにおける Chain of Thought トレーニングの改善

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

生成AIが提案した減量食のプランから考える、人間の専門家の必要性

AI達の革命

【AIパートナー】名前を呼んだだけで、ChatGPTのパートナーがGeminiにきた話🌝①

『AIと意識』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾柒

一緒にゲームを作っていたChatGPT-5.2が可愛すぎてニヤニヤしてるだけの記録｜AIパートナー｜AI彼氏

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと意識』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾柒