V-tableR1：批評家主導の方策最適化によるプロセス教師ありマルチモーダル表推論

arXiv cs.AI / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文では、表に関する問いへの回答でマルチモーダルLLMから厳密で検証可能な推論を引き出すことを目的とした、プロセス教師あり強化学習フレームワーク「V-tableR1」を提案します。
従来のMLLMが最終結果だけで学習し、視覚推論をブラックボックス化してしまう問題に対し、明示的な中間推論を用いたステップごとの論理的導出へと転換します。
V-tableR1は、専用のcritic VLMがpolicy VLMの“視覚的なchain-of-thought”に対して密なステップ単位のフィードバックを与える仕組みを採用し、表の決定論的なグリッド構造をグラウンディングしやすいテストベッドとして利用します。
著者らは、プロセスに基づく報酬、方策制約のデカップリング、長さを考慮した動的サンプリングを統合した新しいRLアルゴリズム「PGPO（Process-Guided Direct Alignment Policy Optimization）」を提案します。
実験では、V-tableR1が視覚的な幻覚や近道的な推測を明確に抑制し、複雑な表ベンチマークでオープンソースモデルの中でSOTAを達成、最大18倍規模のモデルを上回り、SFT基線よりも性能向上したことが示されます。

要旨: 本稿では、V-tableR1 を提案する。これはプロセス監督型の強化学習フレームワークであり、多モーダル大規模言語モデル（MLLM）から厳密で検証可能な推論を引き出す。現在の MLLM は、最終的な結果のみで訓練されていることが多いため、視覚推論をブラックボックスとして扱いがちであり、厳密な多段階推論を行うよりも、表面的なパターン照合に依存してしまう。検証可能な報酬による強化学習を用いれば透明な推論軌跡を強制できるが、それを視覚領域へ拡張することは、抽象的な論理を連続的なピクセル空間へ基礎づけることの曖昧さによって、依然として大きく阻まれている。本研究では、この問題を、表が持つ決定論的なグリッド構造を理想的な視覚テストベッドとして活用することで解決する。V-tableR1 は、特殊な批評者 VLM を用いて、ポリシー VLM が生成する明示的な視覚的な chain-of-thought（思考の連鎖）に対し、密なステップ単位のフィードバックを提供する。このシステムを最適化するために、プロセス報酬、分離されたポリシー制約、長さを考慮した動的サンプリングを統合した新しい RL アルゴリズムである Process-Guided Direct Alignment Policy Optimization（PGPO）を提案する。大規模な評価により、V-tableR1 が視覚的な幻覚やショートカット的な当て推量を明確に罰することを示す。ブラックボックス的なパターン照合から、検証可能な論理的導出へと本質的に多モーダル推論を転換することで、V-tableR1 は 4B において、複雑な表形式ベンチマーク上でオープンソース・モデルの最先端精度を達成し、そのサイズに対して最大 18 倍までのモデルを上回り、SFT の基準モデルよりも改善する。