UnAC:抽象化と段階的チェックによる複雑なマルチモーダル推論のための適応的ビジュアルプロンプティング

arXiv cs.CV / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、画像エビデンスに基づく複雑な多段階推論においてLMMの性能を高めることを目的としたマルチモーダル・プロンプティング手法UnACを提案しています。
  • UnACは、重要な領域にモデルが注目できるようにする適応的ビジュアル・プロンプティングと、画像から重要情報を効果的に抽出するための画像抽象化プロンプトを用います。
  • さらに、分解した各サブ質問とその回答を段階的に検証する自己チェック機構を導入し、推論ミスの低減を図っています。
  • 数学系・評価ベンチマークとしてMathVista、MM-Vet、MMMUの3つで、GPT-4o、Gemini 1.5、GPT-4Vなどのモデルを用いて評価を行っています。
  • 本研究は、現在のLMMに共通する課題である「視覚認識は強いが多段階の証拠ベース推論が不安定」という点の改善を狙っています。

Abstract

近年のLMMは視覚認識において大きく性能が向上したものの、視覚的証拠に対する多段階の推論を必要とする問題では依然として信頼性に欠けます。本論文では、LMM(例:GPT-4o、Gemini 1.5、GPT-4V)における複雑なマルチモーダル課題の推論を強化するマルチモーダル・プロンプト手法であるUnAC(Understanding、Abstracting、Checking)を提案します。画像理解を改善し、細かなディテールを捉えるために、注目すべき領域へLMMが焦点を当てられるようにする適応的な視覚プロンプト戦略を提案します。さらに、画像から重要情報を効果的に抽出するための画像抽象化プロンプトも設計します。加えて、分解した各サブ質問とその答えを検証することで推論を改善する、段階的な自己チェック手法を導入します。3つの公開ベンチマーク—MathVista、MM-Vet、MMMU—に対する大規模な実験を行いました。