モダリティ対応の新奇検出による継続的多模態エゴセントリック活動認識

arXiv cs.CV / 2026/3/19

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 著者らは、非定常なストリームから学習しつつ新奇な活動を検出するための、モダリティ対応の多模態エゴセントリックオープンワールド継続学習フレームワークMANDを提案する。
  • 本手法は、サンプルごとのモダリティ信頼性をエネルギー値から推定し、モダリティロジットを適応的に融合して、複数モダリティ、特にIMUからの手がかりをより効果的に活用できるようにする、Modality-aware Adaptive Scoring (MoAS) を導入する。
  • 訓練時には、MoRST(Modality-wise Representation Stabilization Training)を用い、補助ヘッドとモダリティ別ロジット蒸留により、タスクを跨いだモダリティ特有の識別性を維持する。
  • 本手法はRGB優位のロジットと、過小利用されていたIMUの手がかりへ対処し、オープンワールド設定における壊滅的忘却を緩和する。
  • 公開されている多模態エゴセントリックベンチマークでの実験は、最先端ベースラインに対して、新奇活動検出のAUCを最大で10%向上させ、既知クラスの精度を最大で2.8%向上させることを示した。

要約: マルチモーダルなエゴセントリック(自己視点)アクティビティ認識は、視覚情報と慣性情報を統合して、堅牢な一人称の行動理解を可能にします。 しかし、そのようなシステムをオープンワールド環境で展開するには、非定常なデータストリームから継続的に学習しつつ、新規の活動を検出する必要があります。 既存の手法は、新規性スコアリングのために主ロジットに依存しており、個々のモダリティが提供する補完的な証拠を十分に活用していません。 これらのロジットはしばしばRGBに支配されるため、他のモダリティ、特にIMUからの手がかりは十分に活用されず、この不均衡は壊滅的忘却の下で時間とともに悪化します。 この問題を解決するため、マルチモーダルなエゴセントリック・オープンワールド継続学習のためのモダリティ認識フレームワークであるMANDを提案します。 推論時には、モダリティ認識適応スコアリング(MoAS)がエネルギー・スコアからサンプルごとのモダリティ信頼性を推定し、モダリティ・ロジットを適応的に統合して、新規性検出のために補完的なモダリティ手がかりをより効果的に活用します。 学習時には、モダリティ別表現安定化トレーニング(MoRST)は、補助ヘッドとモダリティ別ロジット蒸留を通じて、タスク間でモダリティ特有の識別能力を保持します。 公開されたマルチモーダルエゴセントリックベンチマークでの実験は、MANDが新規活動検出のAUCを最大で10%向上させ、既知クラス分類の精度を最大で2.8%向上させ、最先端のベースライン手法を上回ったことを示しています。