Abstract
視覚による長文書理解は、企業、法務、および科学用途において重要ですが、最も性能の高い公開レシピは、数学やコードの性能における飛躍を生み出してきた能力である「推論」を十分に探究してきませんでした。本研究では、長文書理解における推論のための合成データ・パイプラインを導入します。このパイプラインは、各ページを質問への関連度でスコアリングし、テキスト証拠を抽出し、関連度の高いものから低いものへと順序付けることで、思考トレースを生成します。得られたトレースに対して、
abla\texttt{} タグ内で SFT を適用し、
abla\texttt{} 制御トークンによってゲーティングします。そして、推論能力は低強度のモデル統合(model merging)によって内部化されます。対象として Qwen3 VL 32B と Mistral Small 3.1 24B を研究します。Qwen3 VL では、MMLongBenchDoc で 58.3 を達成し、7\times 大きい Qwen3 VL 235B A22B(57.0)を上回ります。Mistral では、合成推論が Thinking バージョンのトレースからの蒸留(distillation)よりも MMLBD-C で 3.8 ポイント上回ることを示します。また、内部化された推論は、明示的な推論と比べて平均出力トークン数が 12.4\times 少ないことが観察されます。再現性とさらなる探索のために、我々のパイプラインを公開します。