概要: 堅牢なマルチモーダルの人間センシングは、「モダリティの欠落」という重要な課題を克服しなければなりません。主要な障壁は、異種データ間の表現ギャップと、低品質モダリティによる汚染効果の2つです。これらの障壁は因果的に結びついており、汚染によって導入される破損が、表現の不一致(ギャップ)を縮小することを根本的に妨げるためです。本論文では、この因果的依存を、メタラーニングと知識拡散の相乗的統合によって解決する新しい「Purify-then-Align(浄化してから整合)」フレームワークであるPTAを提案します。知識源を浄化するために、PTAはまずメタラーニングに基づく重み付け機構を用い、ノイズがあり寄与が低いモダリティの影響を動的に下げることを学習します。つづいて、異なるモダリティを整合させるために、PTAは拡散ベースの知識蒸留パラダイムを導入します。そこでは、この浄化された合意から形成された情報量の多いクリーンな教師が、各学生モダリティの特徴を洗練(リファイン)します。「Purify-then-Align」という戦略の最終的な利得は、クロスモーダル知識を注入した非常に強力な単一モダリティエンコーダの創出です。大規模データセットであるMM-FiおよびXRF55に対する、顕著な表現ギャップと汚染効果の下での包括的な実験により、PTAが最先端の性能を達成し、さまざまな欠落モダリティの状況において単一モダリティモデルの頑健性を大幅に向上させることが示されます。
Purify-then-Align:ノイズの多いマルチモーダル・ティーチャーからの知識蒸留による、モダリティ欠損下での頑健な人間センシングへ
arXiv cs.CV / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、欠損モダリティ下での頑健なマルチモーダル人体センシングについて、異種入力間の表現ギャップという2つの連動した原因と、低品質モダリティによる汚染を特定することで取り組む。
- 表現ギャップが生じにくくなるよう、PTA(Purify-then-Align)フレームワークを提案する。PTAはまずメタラーニングによりモダリティ信号を浄化し、ノイズが多く寄与の小さいモダリティを動的にダウンウェイトする。
- 続いてPTAは、拡散ベースの知識蒸留によってモダリティ間の整合(アライン)を行う。浄化されたコンセンサスから導出したクリーンで情報量の多いティーチャーを用いて、学生側のモダリティ特徴を洗練する。
- 強い表現ギャップおよび汚染条件下でのMM-FiおよびXRF55に関する実験では、最先端の結果を示し、欠損モダリティのシナリオにおける単一モダリティ・エンコーダの頑健性が向上することが確認された。



