AI Navigate

HopChain: 一般化可能な視覚-言語推論のためのマルチホップデータ合成

arXiv cs.CV / 2026/3/19

📰 ニュースModels & Research

要点

  • HopChainは、VLMsのRLVR訓練のためのマルチホップ視覚-言語推論データを作成する、スケーラブルなデータ合成フレームワークを提示します。
  • この手法は、論理的に依存するホップの連鎖を構築し、検証可能な報酬のための正確な数値としての最終回答を生み出します。長いCoT(Chain-of-Thought)推論に伴う誤りや関連問題にも対処します。
  • 実証的には、HopChainデータを追加することで、モデルとタスクを横断する24のベンチマークのうち20件が改善されます(STEM、General VQA、テキスト認識、文書理解、動画理解)。
  • アブレーション実験では、ホップを削除または短縮すると性能が有意に低下する一方、完全なマルチホップデータは大きな利益をもたらします。超長いCoT領域では、50ポイント以上の精度向上を含み、幅広い一般化性を支持します。

概要: VLMは強力なマルチモーダル能力を示しますが、細かな視覚と言語の推論にはまだ苦戦しています。長いCoT推論は、知覚、推論、知識、幻覚のエラーを含む多様な障害モードを露呈させ、中間ステップを跨いで蓄積する可能性があります。しかし、RLVRに用いられる既存の視覚と言語データの多くは、視覚証拠を通じて依存する複雑な推論連鎖を含まないため、これらの弱点はほとんど露出されていません。よって、HopChainを提案します。これは、VLMのRLVRトレーニングのために特にマルチホップの視覚と言語推論データを合成するスケーラブルなフレームワークです。各合成されたマルチホップクエリは、前段のホップが後続のホップに必要なインスタンス、集合、条件を確立する論理的に依存した連鎖を形成し、最終回答は検証可能な報酬に適した、特定かつ曖昧さのない数値である、というものです。HopChainで合成されたマルチホップデータを、Qwen3.5-35B-A3BおよびQwen3.5-397B-A17BのRLVRトレーニングに用いた元のRLVRデータに追加し、STEM分野とPuzzle、General VQA、Text RecognitionおよびDocument Understanding、Video Understandingに跨る24のベンチマークにおいて、元のRLVRデータのみと比較します。このマルチホップデータは特定のベンチマークをターゲットにして合成されたものではありませんが、両モデルの24ベンチマーク中20ベンチマークで性能を改善し、幅広く一般化可能な利得を示しています。完全な連結クエリが重要であることを示すために、半マルチホップまたは単一ホップのバリアントに置換し、24ベンチマークの平均精度をそれぞれ5.3ポイントと7.0ポイント低下させました。マルチホップ学習は長いCoT視覚と言語推論を強化し、超長いCoT領域では精度向上が50ポイントを超えるピークを示します。これらの実験は、一般化可能な視覚と言語推論を改善するマルチホップデータを合成するための、効果的でスケーラブルなフレームワークとしてHopChainを確立します。