MM-StanceDet:検索拡張型マルチモーダル・マルチエージェントによる態度(スタンス)検出

arXiv cs.AI / 2026/5/1

📰 ニュースModels & Research

要点

  • 本論文は、対立する信号がある場合にテキストと画像をどのように確実に融合して態度(スタンス)を検出するかという、マルチモーダル・スタンス検出の難題に取り組みます。
  • MM-StanceDetとして、文脈グラウンディングとクロスモーダル解釈を改善するための、検索拡張型マルチエージェントの枠組みを提案しています。
  • 専門のマルチモーダル解析エージェントに加えて、複数の視点を検討してから判断する「推論強化ディベート」段階を組み合わせます。
  • さらに、単一パス推論の脆さによる誤りに対抗するための「自己反省(セルフリフレクション)」で最終的な判定を頑健にしています。
  • 5つのデータセットでの実験により、MM-StanceDetが既存の最先端ベースラインを大きく上回り、この構造化されたマルチエージェント設計の有効性が示されています。

Abstract

マルチモーダル立場検出(MSD)は公共の言説を理解するうえで重要ですが、特に互いに矛盾する信号がある場合に、テキストと画像を効果的に融合することは依然として困難です。既存手法は、文脈に基づく根拠づけ、クロスモーダル解釈の曖昧さ、単一パス推論の脆さといった点でしばしば課題に直面します。これに対処するために、我々は、文脈に基づく根拠づけのためのRetrieval Augmentation(検索拡張)、きめ細かな解釈のための特化したマルチモーダル分析エージェント、視点を探るための推論強化ディベート段階、そして頑健な判断のための自己反省を統合した、新しいマルチエージェント枠組みであるRetrieval-Augmented Multi-modal Multi-agent Stance Detection(MM-StanceDet)を提案します。5つのデータセットに対する大規模な実験の結果、MM-StanceDetは最先端のベースラインを大幅に上回り、複雑なマルチモーダル立場課題に対処するうえでの、マルチエージェント型アーキテクチャと構造化された推論段階の有効性が検証されました。