MM-StanceDet：検索拡張型マルチモーダル・マルチエージェントによる態度（スタンス）検出

arXiv cs.AI / 2026/5/1

📰 ニュースModels & Research

共有:

要点

本論文は、対立する信号がある場合にテキストと画像をどのように確実に融合して態度（スタンス）を検出するかという、マルチモーダル・スタンス検出の難題に取り組みます。
MM-StanceDetとして、文脈グラウンディングとクロスモーダル解釈を改善するための、検索拡張型マルチエージェントの枠組みを提案しています。
専門のマルチモーダル解析エージェントに加えて、複数の視点を検討してから判断する「推論強化ディベート」段階を組み合わせます。
さらに、単一パス推論の脆さによる誤りに対抗するための「自己反省（セルフリフレクション）」で最終的な判定を頑健にしています。
5つのデータセットでの実験により、MM-StanceDetが既存の最先端ベースラインを大きく上回り、この構造化されたマルチエージェント設計の有効性が示されています。

Abstract

マルチモーダル立場検出（MSD）は公共の言説を理解するうえで重要ですが、特に互いに矛盾する信号がある場合に、テキストと画像を効果的に融合することは依然として困難です。既存手法は、文脈に基づく根拠づけ、クロスモーダル解釈の曖昧さ、単一パス推論の脆さといった点でしばしば課題に直面します。これに対処するために、我々は、文脈に基づく根拠づけのためのRetrieval Augmentation（検索拡張）、きめ細かな解釈のための特化したマルチモーダル分析エージェント、視点を探るための推論強化ディベート段階、そして頑健な判断のための自己反省を統合した、新しいマルチエージェント枠組みであるRetrieval-Augmented Multi-modal Multi-agent Stance Detection（MM-StanceDet）を提案します。5つのデータセットに対する大規模な実験の結果、MM-StanceDetは最先端のベースラインを大幅に上回り、複雑なマルチモーダル立場課題に対処するうえでの、マルチエージェント型アーキテクチャと構造化された推論段階の有効性が検証されました。

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価

ITmedia AI+

ミストラルが新フラッグシップ「Medium 3.5」でチャット・推論・コードを1つのモデルに統合

THE DECODER

なぜ Word2Vec で「hot」と「cold」が近くなるのか？ ― 連想の3分類で読み解く

Qiita

MM-StanceDet：検索拡張型マルチモーダル・マルチエージェントによる態度（スタンス）検出

要点

Abstract

関連記事

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価

ミストラルが新フラッグシップ「Medium 3.5」でチャット・推論・コードを1つのモデルに統合

なぜ Word2Vec で「hot」と「cold」が近くなるのか？ ― 連想の3分類で読み解く

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」 英政府機関が評価

ミストラルが新フラッグシップ「Medium 3.5」でチャット・推論・コードを1つのモデルに統合

なぜ Word2Vec で「hot」と「cold」が近くなるのか？ ― 連想の3分類で読み解く

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価