PDMP:性能支配的モダリティ優先によるバランス型マルチモーダル学習の再考

arXiv cs.CV / 2026/4/8

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダル学習における一般的な問題—十分な最適化が訓練中に行われないために、マルチモーダルモデルが単一モダリティの対応モデルに劣ることがある—を扱う。
  • 「バランスの取れた」モダリティ学習が最適であるという従来の前提に異議を唱え、代わりに、性能がより優れた単一モダリティ性能を持つモダリティに支配されるべきだと主張する。
  • 提案手法のPDMPは、独立に訓練した単一モダリティモデルのランキングから性能支配的モダリティを特定し、多モーダルモデルの構造や融合アプローチについての知識を必要としない。
  • その後PDMPは、支配的モダリティが最適化を主導するように非対称な勾配モデュレーション係数を適用し、「アンダー最適化」はこのモダリティの学習が不十分であることに起因するとする。
  • 複数のデータセットにまたがる実験により、PDMPがマルチモーダル性能を改善することが検証されたと報告されている。

Abstract

マルチモーダル学習は、その実用性ゆえにますます注目を集めています。しかし、この分野ではしばしば最適化が不十分であるという問題が起きており、マルチモーダルモデルが単一モーダルの対比相手よりも性能が劣ることさえあります。既存の手法は、この問題をモダリティ間の学習の不均衡に起因するとし、勾配調調整(gradient modulation)によって解決します。本論文では、マルチモーダル学習において「バランスの取れた学習」は最適な設定ではないと主張します。むしろ、単一モーダルとして優れた性能を持つ「性能支配的なモダリティ」によって駆動される不均衡な学習は、より良いマルチモーダル性能につながり得ます。そして、アンダー最適化(under-optimization)の問題は、性能支配的なモダリティの学習が不十分であることにより引き起こされます。そこで本論文では、マルチモーダル学習を支援するためのPerformance-Dominant Modality Prioritization(PDMP)戦略を提案します。具体的には、PDMPはまず、独立に学習した単一モーダルモデルの性能ランキングを通じて、性能支配的なモダリティをマイニングします。次にPDMPは、各モダリティの勾配を調調整するために非対称な係数を導入し、性能支配的なモダリティが最適化を支配できるようにします。PDMPは単一モーダルの性能ランキングのみに依存するため、マルチモーダルモデルの構造や融合手法に依存せず、実運用のシナリオにおいて大きな可能性を持ちます。最後に、さまざまなデータセットに対する大規模な実験により、PDMPの優位性が検証されます。