効率的なビジュアル推論のための適応的推論パスの学習
arXiv cs.CL / 2026/4/17
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 視覚と言語を統合するビジュアル推論モデルは、必要のない状況でも長い推論チェーンを生成して過剰に考え込むことがあります。
- 本論文はこの問題を「推論パスの冗長性」とし、推論を知覚、論理推論、回答適用の3つの認知機能に分解するAVRを提案しています。
- AVRでは、モデルがFull、Perception-Only、Direct Answerの3つの応答形式をタスクに応じて動的に選択し、不要な推論を避けられるようにします。
- 学習には、正しさを維持しつつ最も効率的な推論形式の選択を促すFS-GRPO(Group Relative Policy Optimizationの適応版)を用いています。
- 複数の視覚言語ベンチマークで、全体の精度を維持したままトークン使用量を50〜90%削減できることが示され、特に知覚中心のタスクで効果が大きいです。



