要旨: 従来のマルチモーダル手法は、多くの場合静的なモダリティ品質を仮定しており、これが動的な実世界のシナリオへの適応性を制限します。したがって、動的マルチモーダル手法はモダリティ品質を評価し、それに応じて寄与度を調整することが提案されています。しかし、通常は経験的指標に依存しており、ノイズレベルが極端に低い場合や高い場合にモダリティ品質を測定できません。さらに、既存の手法は通常、各モダリティの初期寄与が同じであると仮定し、内在的なモダリティ依存性バイアスを無視します。その結果、学習が難しいモダリティは二重にペナルティを受け、動的フュージョンの性能は静的フュージョンより劣る可能性があります。これらの課題に対処するため、Unbiased Dynamic Multimodal Learning(UDML)フレームワークを提案します。具体的には、モダリティデータに制御されたノイズを追加し、モダリティ特徴からその強度を予測するノイズを意識した不確実性推定器を導入します。これにより、特徴の破損とノイズレベルの明確な対応関係をモデルに学習させ、低ノイズ条件と高ノイズ条件の双方で正確な不確実性の測定を可能にします。さらに、モダリティドロップアウトを通じてマルチモーダルネットワーク内の固有のモダリティ依存バイアスを定量化し、それを重み付け機構に組み込みます。これにより、学習が難しいモダリティに対する二重抑制効果が排除されます。多様なマルチモーダルベンチマークタスクにわたる広範な実験は、提案されたUDMLの有効性、汎用性、および一般化可能性を検証しています。コードはhttps://github.com/shicaiwei123/UDMLで利用できます。
偏りのない動的マルチモーダル融合
arXiv cs.CV / 2026/3/23
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- UDMLは、制御されたノイズを加えてモダリティデータを劣化させ、その強度をモダリティ特徴から学習して、低ノイズ条件と高ノイズ条件の両方における不確実性を測定するノイズ対応の不確実性推定器を導入する。
- モダリティドロップアウトを用いて固有のモダリティ依存バイアスを定量化し、このバイアスを重み付け機構に組み込み、学習が難しいモダリティを不当に罰することを防ぐ。
- 本フレームワークは、静的なモダリティ品質の仮定と初期寄与の等分配という前提を取り除くことで、従来の動的融合手法の欠点に対処し、より頑健な融合性能を目指す。
- 著者らは、多様なマルチモーダルベンチマークで広範な実験を通じてUDMLを検証し、コードを https://github.com/shicaiwei123/UDML に公開している。