要約: マルチモーダル感情認識は、テキスト、動画、音声などの手掛かりを統合して個々の感情状態を理解します。従来の手法には2つの主な制約があります。1つは独立したユニモーダリティの性能に機械的に依存してしまい、真の補完的寄与を見逃すこと、もう1つは感情タスクで要求される細粒度の表現と衝突する粗粒度の融合です。異種モダリティ間で情報密度が一様でないことがモダリティ間特徴の探索を妨げるため、Complementarity-Supervised Multi-Band Expert Network(Atsuko)を提案します。具体的には、各モダリティの特徴を直交分解して高周波成分・中周波成分・低周波成分に分解します。このバンドレベルのルーティングを基盤として、細粒度のクロスバンド選択とクロスモーダル融合を実現するデュアルパス機構を備えたモダリティレベルのルータを設計します。支配的なモダリティから生じるショートカット学習を緩和するため、双模態比較を用いて各モダリティを除去した場合の性能低下を定量化する Marginal Complementarity Module(MCM)を提案します。得られた補完性の分布はソフトな監督を提供し、ルータが独自の情報利得をもたらすモダリティに焦点を合わせるよう導きます。大規模な実験により、提案手法がCMU-MOSI、CMU-MOSEI、CH-SIMS、CH-SIMSv2、MIntRecのベンチマークで優れた性能を達成することを示しました。
補完性監督付きスペクトル帯域ルーティングによる多モーダル感情認識
arXiv cs.CV / 2026/3/17
💬 オピニオンModels & Research
要点
- 本論文は、先行する多モーダル感情認識手法は独立したユニモーダルの性能に依存し、粗粒度の融合を用いるため、モダリティ間のシナジーを妨げていると主張する。
- 本研究は、Atsuko(補完性監督付きマルチバンド・エキスパート・ネットワーク)を提案し、各モダリティを高周波・中周波・低周波成分に分解して、細粒度な特徴モデリングを行う。
- Atsuko はモダリティレベルのルーターを導入し、デュアルパス機構を用いて、帯域間の細粒度選択とモダリティ間の融合を可能にする。
- 限界補完性モジュールは、二モーダル比較を介して各モダリティを除去した場合の性能低下を定量化し、ルーターを固有の情報利得へ導くソフトな監督信号を提供する。
- CMU-MOSI、CMU-MOSEI、CH-SIMS、CH-SIMSv2、および MIntRec における実験で優れた性能を示し、提案手法の有効性を裏付けている。


![[ニューラルネットワーク] 今こそ起源を見つめる時 Ep.5 (最終話) 〜情熱の連鎖が明日を照らす〜](/_next/image?url=https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F260885500%2Frectangle_large_type_2_f8df7c72d21f86c39d4096dd995f50d1.png%3Fwidth%3D219%26dpr%3D2%26frame%3D1%26format%3Djpg&w=3840&q=75)
