要旨: マルチモーダルなニュースコンテンツの普及が進むにつれ、効果的なニューストピック分類には、テキストや画像のような異種データを共同で理解し推論できるモデルが求められます。既存手法では、モダリティをそれぞれ独立に処理することが多い、または単純な融合戦略を用いることが多く、その結果として、複雑なクロスモーダル相互作用を捉えたり、外部知識を活用したりする能力が制限されます。これらの制約を克服するために、本研究ではマルチモーダルニュース分類のための新しい3段階のマルチエージェント枠組みであるMultiPressを提案します。MultiPressは、マルチモーダル知覚、検索拡張型の推論、ゲート付き融合によるスコアリングに特化したエージェントを統合し、その後に報酬駆動の反復最適化メカニズムを行います。新たに構築した大規模マルチモーダルニュースデータセットにおいてMultiPressを検証し、強力なベースラインに対して大幅な改善を示すとともに、モジュール化されたマルチエージェントによる協調と、検索拡張型の推論が分類精度および解釈可能性を高めるうえで有効であることを明らかにします。
MultiPress:解釈可能なマルチモーダルニュース分類のためのマルチエージェントフレームワーク
arXiv cs.CL / 2026/4/7
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- MultiPressは、モダリティを別々に扱うのではなく、テキストと画像を共同で推論するマルチモーダルニュース分類のための新しい三段階のマルチエージェントフレームワークとして提示されます。
- 本手法では、マルチモーダル知覚、リトリーバル拡張による推論、ゲート付きフュージョンスコアリングのための専門エージェントを用い、クロスモーダル相互作用をより適切に捉え、解釈可能性を高めることを目指します。
- 分類プロセスを反復ごとに洗練するための、報酬駆動型の反復的最適化メカニズムが含まれています。
- フレームワークは新たに構築された大規模マルチモーダルニュースデータセットで検証されており、強力なベースラインに対して大幅な向上を達成します。
- 著者らは、性能向上の主な要因として、モジュール化されたマルチエージェントの協調と、リトリーバル拡張による推論を挙げており、より高い精度とより解釈可能な出力につながっているとしています。