概要: 異種のモダリティが、意思決定のための証拠として補完的である一方で入力依存の特性を持つ場合に、堅牢なマルチモーダル視覚解析を実現することは依然として困難です。既存のマルチモーダル学習手法は主に固定された融合モジュール、または事前に定義されたクロスモーダル相互作用に依存しており、変化するモダリティの信頼性に適応する能力や、きめ細かな行動の手掛かりを捉えることがしばしば不十分です。この問題に対処するために、本研究では Holistic Token Learning (HTL) 戦略を伴う Mixture-of-Modality-Experts (MoME) フレームワークを提案します。MoME はモダリティ固有のエキスパート間の適応的な協調を可能にし、HTL はクラス・トークンおよび時空間トークンを通じて、エキスパート内の洗練とエキスパート間の知識転移の両方を改善します。このようにして本手法は、知識中心のマルチモーダル学習フレームワークを形成し、エキスパートの専門性を向上させると同時に、マルチモーダル融合における曖昧さを低減します。提案フレームワークを、代表的なマルチモーダル理解タスクであるドライバの行動認識で検証します。
公開ベンチマークにおける実験結果は、提案する MoME フレームワークと HTL 戦略が、代表的な単一モダリティおよびマルチモーダルのベースラインを総合的に上回ることを示しています。さらに追加のアブレーション、検証、および可視化の結果により、提案する HTL 戦略が微細なマルチモーダル理解を改善し、より良い解釈可能性を提供することが裏付けられます。
ドライバの行動認識におけるきめ細かなマルチモーダル視覚分析のための、ホリスティック・トークン学習を伴うミクスチャ・オブ・モダリティ・エキスパート
arXiv cs.CV / 2026/4/8
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、入力によってモダリティの信頼性が変動し、固定の融合や相互作用だけでは不十分であるというマルチモーダル学習の課題に対処するため、ミクスチャ・オブ・モダリティ・エキスパート(MoME)フレームワークを提案する。
- クラス・トークンと時空間トークンを用いたホリスティック・トークン学習(HTL)戦略を追加し、各モダリティのエキスパートを洗練するとともに、エキスパート間で知識を転移して、よりきめ細かな理解を可能にする。
- このアプローチは、知識中心のマルチモーダル学習法として位置づけられており、エキスパートの専門性を高めつつ、マルチモーダル融合時の曖昧さを低減する。
- ドライバの行動認識ベンチマークでの実験により、HTLを組み合わせたMoMEが、単一モダリティおよびマルチモーダルのベースラインの両方を上回ることが示される。
- アブレーション、検証、可視化の結果を報告し、HTLが微妙なマルチモーダルの手がかりを強化し、解釈可能性を改善することを確認する。



