SVSR:マルチモーダル推論のための自己検証および自己是正パラダイム

arXiv cs.AI / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、浅い/一貫性のない推論による誤りを減らすために、マルチモーダルモデルの推論パイプラインへ自己検証と自己是正の手順を明示的に組み込む枠組みSVSRを提案する。
  • SVSRは、3段階の学習アプローチを用いる:洗練された推論トレース(順方向/逆方向の推論シグナルを含む)から高品質な嗜好データセットを構築すること、構造化された複数ステップ推論のためのコールドスタートによる教師あり微調整、そしてSemi-online DPOであり、教師がフィルタしたモデル生成トレースによって学習データを定期的に拡張する。
  • 複数のマルチモーダルおよび視覚推論ベンチマークでの実験により、精度、頑健性、未見のタスクや設問タイプへの汎化が向上したと報告されている。
  • 著者らはさらに、明示的な自己反省的推論で学習したモデルはより強い暗黙的推論能力を身につけ、明示的な推論トレースが与えられない場合でも性能が改善すると主張している。

Abstract

現在のマルチモーダルモデルはしばしば浅い推論に悩まされており、不完全または一貫性のない思考プロセスによって引き起こされる誤りが生じます。この制約に対処するために、本研究では自己検証(Self-Verification)と自己矯正(Self-Rectification)を統合した統一フレームワークであるSVSRを提案します。SVSRは、モデルの推論パイプラインに自己検証と自己矯正を明示的に組み込み、複雑な視覚理解およびマルチモーダル推論タスクにおける頑健性と信頼性を大幅に向上させます。SVSRは、独自の3段階の学習パラダイムに基づいて構築されています。第一に、事前学習済みの視覚言語モデルから推論トレースを精錬し、前向き推論と後向き推論の両方を取り入れて自己内省的なシグナルを埋め込むことで、高品質な統一嗜好データセットを構築します。第二に、このデータセットに対してカールドスタートの教師あり微調整を行い、構造化された多段階の推論行動を学習させます。第三に、強力な教師VLMによってフィルタリングされた高品質なモデル生成の推論トレースを用いて学習コーパスを継続的に拡張しながら、セミ・オンライン直接嗜好最適化(Semi-online DPO)プロセスを適用します。このパイプラインにより、モデルは自己検証し自己矯正する能力を学習し、引き出し、洗練することが可能になります。多様なベンチマークにわたる大規模な実験により、SVSRが推論精度を向上させ、未見のタスクおよび設問タイプへのより強い汎化を可能にすることが示されています。特に、明示的な自己内省的推論で訓練した後、モデルは明示的な推論トレースが提供されない場合であっても強力なベースラインを上回り、暗黙的な推論能力も向上したことが観察されます。これらの結果は、より信頼でき、内省的で、認知的に整合したマルチモーダルシステムを構築するためのSVSRの可能性を示しています。