効率的なビジュアル推論のための適応的推論パスの学習

arXiv cs.CL / 2026/4/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 視覚と言語を統合するビジュアル推論モデルは、必要のない状況でも長い推論チェーンを生成して過剰に考え込むことがあります。
  • 本論文はこの問題を「推論パスの冗長性」とし、推論を知覚、論理推論、回答適用の3つの認知機能に分解するAVRを提案しています。
  • AVRでは、モデルがFull、Perception-Only、Direct Answerの3つの応答形式をタスクに応じて動的に選択し、不要な推論を避けられるようにします。
  • 学習には、正しさを維持しつつ最も効率的な推論形式の選択を促すFS-GRPO(Group Relative Policy Optimizationの適応版)を用いています。
  • 複数の視覚言語ベンチマークで、全体の精度を維持したままトークン使用量を50〜90%削減できることが示され、特に知覚中心のタスクで効果が大きいです。

Abstract

視覚推論モデル(VRM)は、視覚認識と言語推論を統合することで、最近クロスモーダルな推論能力が強いことが示されています。しかし、しばしば過考察に悩まされ、どのようなタスクでも不必要に長い推論チェーンを生成してしまいます。この問題を、視覚推論における\textbf{Reasoning Path Redundancy(推論経路の冗長性)}に起因すると考えます。すなわち、多くの視覚問題は、推論プロセス全体を必要としません。そこで本研究では、視覚推論を3つの認知機能、すなわち視覚知覚、論理推論、そして回答適用に分解する\textbf{AVR}という適応的な視覚推論フレームワークを提案します。さらに、モデルが3つの応答形式のいずれかを動的に選択できるようにします:Full Format(完全形式)、Perception-Only Format(知覚のみ形式)、およびDirect Answer(直接回答)。AVRはFS-GRPOで訓練されます。これは、正しさを維持しつつ、最も効率的な推論形式を選択するようモデルを促すGroup Relative Policy Optimizationの適応版です。複数の視覚-言語ベンチマークに関する実験により、AVRは全体的な精度を維持したまま、トークン使用量を50--90\%削減することが示されました。特に、知覚集約的なタスクにおいて顕著です。これらの結果は、適応的な視覚推論がVRMにおける過考察を効果的に緩和し得ることを示しています。コードとデータは以下で利用可能です: https://github.com/RunRiotComeOn/AVR。