偏りのない動的マルチモーダル融合

arXiv cs.CV / 2026/3/23

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

UDMLは、制御されたノイズを加えてモダリティデータを劣化させ、その強度をモダリティ特徴から学習して、低ノイズ条件と高ノイズ条件の両方における不確実性を測定するノイズ対応の不確実性推定器を導入する。
モダリティドロップアウトを用いて固有のモダリティ依存バイアスを定量化し、このバイアスを重み付け機構に組み込み、学習が難しいモダリティを不当に罰することを防ぐ。
本フレームワークは、静的なモダリティ品質の仮定と初期寄与の等分配という前提を取り除くことで、従来の動的融合手法の欠点に対処し、より頑健な融合性能を目指す。
著者らは、多様なマルチモーダルベンチマークで広範な実験を通じてUDMLを検証し、コードを https://github.com/shicaiwei123/UDML に公開している。

要旨: 従来のマルチモーダル手法は、多くの場合静的なモダリティ品質を仮定しており、これが動的な実世界のシナリオへの適応性を制限します。したがって、動的マルチモーダル手法はモダリティ品質を評価し、それに応じて寄与度を調整することが提案されています。しかし、通常は経験的指標に依存しており、ノイズレベルが極端に低い場合や高い場合にモダリティ品質を測定できません。さらに、既存の手法は通常、各モダリティの初期寄与が同じであると仮定し、内在的なモダリティ依存性バイアスを無視します。その結果、学習が難しいモダリティは二重にペナルティを受け、動的フュージョンの性能は静的フュージョンより劣る可能性があります。これらの課題に対処するため、Unbiased Dynamic Multimodal Learning（UDML）フレームワークを提案します。具体的には、モダリティデータに制御されたノイズを追加し、モダリティ特徴からその強度を予測するノイズを意識した不確実性推定器を導入します。これにより、特徴の破損とノイズレベルの明確な対応関係をモデルに学習させ、低ノイズ条件と高ノイズ条件の双方で正確な不確実性の測定を可能にします。さらに、モダリティドロップアウトを通じてマルチモーダルネットワーク内の固有のモダリティ依存バイアスを定量化し、それを重み付け機構に組み込みます。これにより、学習が難しいモダリティに対する二重抑制効果が排除されます。多様なマルチモーダルベンチマークタスクにわたる広範な実験は、提案されたUDMLの有効性、汎用性、および一般化可能性を検証しています。コードはhttps://github.com/shicaiwei123/UDMLで利用できます。

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

偏りのない動的マルチモーダル融合

要点

関連記事

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

「ハード回帰にあらず、デバイスはAIの五感と身体」オムロン技術トップ

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer