A-MAR:きめ細かな作品理解のためのエージェントベース・マルチモーダル・アート検索

arXiv cs.AI / 2026/4/22

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • A-MARは、暗黙的な内部知識に頼るのではなく、構造化された推論プランを明示的に用いることで、作品理解を高めるエージェントベースのマルチモーダル・アート検索フレームワークです。
  • A-MARは、作品とユーザのクエリを入力としてタスクを手順ごとの目的とエビデンス要件に分解し、そのプランに基づいて検索を条件付けることで、より的確な根拠付きの説明を可能にします。
  • 論文ではArtCoT-QAという診断用ベンチマークを新たに導入し、最終回答の正確さだけでなく、多段の推論チェーンをきめ細かく評価できるようにしています。
  • SemArtやArtpediaなどでの実験により、A-MARは静的で計画のない検索や強力なMLLMベースラインよりも、説明の質で一貫して優れていることが示されます。
  • コードとデータはGitHubで公開され、A-MARは知識集約型の文化領域に向けた、より解釈可能で目的志向のAIへの一歩として位置付けられています。

要旨: 作品を理解するには、視覚コンテンツに対して、文化的・歴史的・様式的文脈を踏まえた多段階の推論が必要である。近年のマルチモーダル大規模言語モデルは作品の説明に有望性を示しているが、それらは暗黙的な推論や内部化された知識に依存しており、解釈可能性や明示的な根拠(エビデンス)の提示が制限される。そこで本研究では、構造化された推論プランに基づいて検索を明示的に条件付けする、エージェントベースのマルチモーダル・アート検索フレームワークであるA-MARを提案する。ある作品とユーザークエリが与えられると、A-MARはまずタスクを、各ステップにおける目標とエビデンス要件を指定する構造化された推論プランへと分解する。その後、このプランに条件付けられて検索が行われ、狙いを定めた根拠の選択が可能となり、ステップごとの、根拠に基づく説明を支援できる。芸術領域におけるエージェントベースのマルチモーダル推論を評価するために、ArtCoT-QAを導入する。この診断用ベンチマークは、多様な芸術関連クエリに対する多段階の推論チェーンを特徴とし、単なる最終回答の正確さを超えてきめ細かな分析を可能にする。SemArtおよびArtpediaに関する実験では、A-MARが最終的な説明の品質において、固定的で非プランドな検索や強力なMLLMベースラインを一貫して上回ることが示される。さらにArtCoT-QAでの評価では、証拠に基づく根拠付けと多段階推論能力においても、その利点が一層明確に示される。これらの結果は、知識集約的なマルチモーダル理解における、推論に条件付けられた検索の重要性を浮き彫りにし、A-MARを、とりわけ文化産業にとって特に関連の深い、解釈可能で目標指向のAIシステムへ向けた一歩として位置付けるものである。コードとデータは以下で利用可能: https://github.com/ShuaiWang97/A-MAR。