長い文書の視覚理解のための内在化された推論

arXiv cs.AI / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ページ単位の「質問の関連性」を生成し、テキスト証拠を抽出して関連性に基づいて並べ替えることで、視覚的な長文書理解に「推論」を付与するための、エンドツーエンドの合成データ生成パイプラインを提案する。
  • <think> タグ内に生成した推論トレースを用い、<cot> トークンで制御しながら生成推論の教師あり微調整でモデルを学習し、その後、低ストレングスのモデル統合(マージ)によって推論挙動を内在化する。
  • Qwen3-VL 32B を用いた実験では、MMLongBenchDoc において性能が向上し、58.3 を達成し、より大規模な Qwen3-VL 235B ベースライン(57.0)をわずかに上回る。
  • Mistral Small 3.1 24B を用いた実験では、合成推論による学習が、明示的な「思考」トレースからの蒸留に対して 3.8 ポイント上回り、かつ明示的な推論と比べて平均出力トークン数を 12.4× 削減する。
  • 著者らは再現性のためにパイプラインを公開し、内在化された推論手法を長い視覚文書へ拡張するためのさらなる研究を可能にする。

Abstract

視覚による長文書理解は、企業、法務、および科学用途において重要ですが、最も性能の高い公開レシピは、数学やコードの性能における飛躍を生み出してきた能力である「推論」を十分に探究してきませんでした。本研究では、長文書理解における推論のための合成データ・パイプラインを導入します。このパイプラインは、各ページを質問への関連度でスコアリングし、テキスト証拠を抽出し、関連度の高いものから低いものへと順序付けることで、思考トレースを生成します。得られたトレースに対して、 abla\texttt{} タグ内で SFT を適用し、 abla\texttt{} 制御トークンによってゲーティングします。そして、推論能力は低強度のモデル統合(model merging)によって内部化されます。対象として Qwen3 VL 32B と Mistral Small 3.1 24B を研究します。Qwen3 VL では、MMLongBenchDoc で 58.3 を達成し、7\times 大きい Qwen3 VL 235B A22B(57.0)を上回ります。Mistral では、合成推論が Thinking バージョンのトレースからの蒸留(distillation)よりも MMLBD-C で 3.8 ポイント上回ることを示します。また、内部化された推論は、明示的な推論と比べて平均出力トークン数が 12.4\times 少ないことが観察されます。再現性とさらなる探索のために、我々のパイプラインを公開します。