要約:ユーザーがスマートフォンをスーパーマーケットの棚に向け、「どのソーダが砂糖を最も少なく含んでいますか?」と尋ねる場面は、現在の視覚AIアシスタントにとって難題を投げかけます。このような問いには、物体認識だけでなく、フィルタリング、比較、集約といった明示的な集合ベースの推論が必要です。標準的なエンドツーエンドMLLMは、構成的ロジックの明示的な仕組みを欠くため、これらのタスクでしばしば失敗します。我々は、視覚的推論を Visual Program Synthesis(視覚プログラム合成)として扱うことを提案します。モデルはまず、視覚的な場面に基づく別のエンジンによって実行される象徴的なプログラムを生成します。Set-VQA という、集合ベースの視覚推論を評価するために特別に設計された新しいベンチマークも導入します。実験は、我々のアプローチが複雑な推論タスクにおいて最先端のベースラインを大幅に上回り、より体系的で透明性の高い挙動を生み出し、回答の正確さを大幅に改善することを示しています。これらの結果は、プログラム駆動の推論がブラックボックスの視覚と言語推論に対する原理的な代替手段を提供することを示しています。
ビジュアルセット・プログラム合成器
arXiv cs.CL / 2026/3/18
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、多くの視覚的質問応答タスクが、標準的な物体認識を超えた明示的な集合ベースの推論(フィルタリング、比較、集約)が必要であることを指摘する。
- Visual Program Synthesis を提案し、視覚的シーンに基づく別のエンジンによって実行される記号的プログラムを生成する。
- Set-VQA を導入し、集合ベースの視覚推論を評価するために特別に設計されたベンチマークである。
- 実験では、プログラム駆動型アプローチが最先端のベースラインを大幅に上回り、より透明で体系的な推論と高い回答精度を実現する。