UnAC:抽象化と段階的チェックによる複雑なマルチモーダル推論のための適応的ビジュアルプロンプティング
arXiv cs.CV / 2026/5/6
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、画像エビデンスに基づく複雑な多段階推論においてLMMの性能を高めることを目的としたマルチモーダル・プロンプティング手法UnACを提案しています。
- UnACは、重要な領域にモデルが注目できるようにする適応的ビジュアル・プロンプティングと、画像から重要情報を効果的に抽出するための画像抽象化プロンプトを用います。
- さらに、分解した各サブ質問とその回答を段階的に検証する自己チェック機構を導入し、推論ミスの低減を図っています。
- 数学系・評価ベンチマークとしてMathVista、MM-Vet、MMMUの3つで、GPT-4o、Gemini 1.5、GPT-4Vなどのモデルを用いて評価を行っています。
- 本研究は、現在のLMMに共通する課題である「視覚認識は強いが多段階の証拠ベース推論が不安定」という点の改善を狙っています。



