PC-MNet:極性モジュレート注意によるマルチモーダル皮肉検出のためのデュアルレベル整合性モデリング

arXiv cs.CL / 2026/5/5

📰 ニュースModels & Research

要点

  • PC-MNetは、発話の文字通りの内容と非言語的な手がかりの間にある実用的(プラグマティック)な不一致を捉えることを目的とした、新しいマルチモーダル皮肉検出モデルを提案しています。
  • 類似度ベースの注意機構や一様な後期融合の代わりに、スカラー整合性ルーティング機構と事前ガイド付きの文脈グラフを導入し、機能的な絡み合いに対処します。
  • 不一致に着目した対照学習を用いた2段階の非対称最適化により、一般化された不整合マニフォールドを形成し、多粒度の中でも弁別力の高い証拠のみを選択的に融合します。
  • MUStARDベンチマークおよびスプリアス相関を緩和したバランスドデータセットでの実験により、新たなSOTAが示され、最強の既存マルチモーダル基準モデルに対してMacro-F1が3.14%改善しています。
  • 原子レベル、構成(コンポジション)レベル、文脈レベルの「対立」をアーキテクチャ的に切り分け、微妙な実用的ミスマッチをより頑健に捉えることを狙っています。

要約: マルチモーダル風刺(サーカズム)検出は、文字通りのテキストと非言語的手がかりの間に存在する実用的な不整合(プラグマティックな不一致)を正確に特定することを目的としており、マルチモーダル理解分野で大きな注目を集めている。近年の進歩は、主として素朴な類似度ベースの注意機構と、均一な後期融合戦略に依存してきた。さらに、機能的な絡み合い(functional entanglement)が従来の後期融合を制約することを踏まえ、スカラー整合性ルーティング機構と、事前知識に導かれた文脈グラフを導入する。これにより、不一致に配慮したコントラースティブ学習によって駆動される2段階の非対称最適化を通じて、一般化された不整合マニフォールド(多様体)をアンカーし、最も弁別的なマルチグラニュラリティ(多粒度)の証拠のみを選択的に融合する。
exttt{MUStARD} ベンチマークおよび、スプリアス相関を緩和したバランスド・データセットに対する大規模な実験により、本アプローチが新たな最先端(state-of-the-art)の性能を達成し、最も強力なマルチモーダル基準モデルを大幅に上回ることが示される。具体的には、Macro-F1において3.14 exttt{
exttt{MUStARD} }% の改善である。原子的、合成(composition)、および文脈上の衝突を、アーキテクチャ上で切り分けることで。本研究は、人間のコミュニケーションにおける微細な実用的な不整合をモデリングするための、堅牢でデカップルされた(疎結合な)パラダイムを提供する。