要旨: 実世界のマルチモーダル学習は、多くの場合、不完全なモダリティによって妨げられます。不完全マルチモーダル学習(IML)は注目を集めているものの、既存の手法は通常、再構成のための教師信号やクロスモーダルの事前知識を与えるために、訓練時に完全なモダリティが利用可能であるという非現実的な仮定に依存しています。本論文は、訓練時に観測が不完全であるというより難しいIMLの設定に取り組みます。これにより、完全データの「神の目(God's eye view)」に依存することができません。私たちは、LIMSSR(LLM駆動の不完全マルチモーダル系列からスコアへの推論)を提案します。この枠組みは、この課題を条件付きの系列推論タスクとして再定式化します。LIMSSRは、プロンプトに導かれた文脈に応じたモダリティ補完と、多次元表現の融合を通じて、大規模言語モデルの意味的推論能力を活用し、直接的な再構成を行うことなく、利用可能な文脈から潜在的な意味を推定します。幻覚を抑制するために、推論の不確実性を動的に調整するマスク対応のデュアルパス集約(Mask-Aware Dual-Path Aggregation)を導入します。3つのアクション品質評価データセットに対する大規模な実験により、LIMSSRは、完全な訓練データに依存せずに、最先端のベースラインを大幅に上回ることが示されました。これは、データ効率の高いマルチモーダル学習の新しいパラダイムを確立します。コードは https://github.com/XuHuangbiao/LIMSSR で公開されています。
LIMSSR:訓練時に不完全なマルチモーダル観測の下で行う、LLM駆動のシーケンス対スコア推論
arXiv cs.CV / 2026/5/4
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、不完全なマルチモーダル学習(IML)を、訓練時点で一部のモダリティが欠落しているより現実的な設定として扱い、従来の「完全モダリティを前提にした再構成の監督」仮定を排除しています。
- 提案手法LIMSSRは、この課題を条件付きシーケンス対スコアの推論問題として組み替え、LLMによるプロンプト誘導・文脈対応のモダリティ補完で潜在的な意味を推定します。
- 復元(再構成)そのものに頼らず、利用可能なモダリティと文脈から学習するために多次元表現の融合を行います。
- ハルシネーションを抑えるために、マスクに対応したデュアルパス集約により、推論の不確実性を動的に較正します。
- 3つのAction Quality Assessmentデータセットで、LIMSSRは完全な訓練データに依存せずに既存ベースラインを大きく上回り、新しいデータ効率の高いマルチモーダル学習のパラダイムを示しています。
