UnAC：抽象化と段階的チェックによる複雑なマルチモーダル推論のための適応的ビジュアルプロンプティング

arXiv cs.CV / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、画像エビデンスに基づく複雑な多段階推論においてLMMの性能を高めることを目的としたマルチモーダル・プロンプティング手法UnACを提案しています。
UnACは、重要な領域にモデルが注目できるようにする適応的ビジュアル・プロンプティングと、画像から重要情報を効果的に抽出するための画像抽象化プロンプトを用います。
さらに、分解した各サブ質問とその回答を段階的に検証する自己チェック機構を導入し、推論ミスの低減を図っています。
数学系・評価ベンチマークとしてMathVista、MM-Vet、MMMUの3つで、GPT-4o、Gemini 1.5、GPT-4Vなどのモデルを用いて評価を行っています。
本研究は、現在のLMMに共通する課題である「視覚認識は強いが多段階の証拠ベース推論が不安定」という点の改善を狙っています。

Abstract

近年のLMMは視覚認識において大きく性能が向上したものの、視覚的証拠に対する多段階の推論を必要とする問題では依然として信頼性に欠けます。本論文では、LMM（例：GPT-4o、Gemini 1.5、GPT-4V）における複雑なマルチモーダル課題の推論を強化するマルチモーダル・プロンプト手法であるUnAC（Understanding、Abstracting、Checking）を提案します。画像理解を改善し、細かなディテールを捉えるために、注目すべき領域へLMMが焦点を当てられるようにする適応的な視覚プロンプト戦略を提案します。さらに、画像から重要情報を効果的に抽出するための画像抽象化プロンプトも設計します。加えて、分解した各サブ質問とその答えを検証することで推論を改善する、段階的な自己チェック手法を導入します。3つの公開ベンチマーク—MathVista、MM-Vet、MMMU—に対する大規模な実験を行いました。

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

日経XTECH

2026年版：学生のための無料AIツールトップ10—究極の学習ガイド

Dev.to

AIを“保険の相棒”に：結婚式当日の「もしも」を自動化する

Dev.to

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

MarkTechPost

Claudeが法廷でハルシネーションを起こすとどうなるか：Latham＆Watkinsの事案と弁護士の責任の意味

MarkTechPost

UnAC：抽象化と段階的チェックによる複雑なマルチモーダル推論のための適応的ビジュアルプロンプティング

要点

Abstract

関連記事

DXは継続、AI活用の新需要を ITサービス（SIer）の業界地図

2026年版：学生のための無料AIツールトップ10—究極の学習ガイド

AIを“保険の相棒”に：結婚式当日の「もしも」を自動化する

Google、Gemma 4向け「Multi-Token Prediction（MTP）Drafters」をリリース——品質を落とさず最大3倍高速推論

Claudeが法廷でハルシネーションを起こすとどうなるか：Latham＆Watkinsの事案と弁護士の責任の意味

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer