CoLA:マルチモーダル下流タスクのためのクロスモーダル・ロースランク適応

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LoRAを拡張してマルチモーダルのデュアルストリーム・アーキテクチャにおける相互作用をより的確に捉える、パラメータ効率の高い微調整フレームワーク「CoLA(Cross-Modal Low-rank Adaptation)」を提案する。
  • CoLAは、通常のイントラモーダルLoRAに加えて並列に、専用のモーダル間適応のための経路を追加し、モーダル固有の適応と干渉することなくクロスモーダル学習を改善することを目指す。
  • 視覚言語ベンチマーク(RefCOCO、RefCOCO+、RefCOCOg)および音響・映像ベンチマーク(AVE、AVS)での実験では、標準的なLoRAに比べて一貫した改善が示され、報告された相対的な向上は約3%および2%である。
  • 著者らは、CoLAが視覚グラウンディングに対する「初の」マルチタスクPEFTアプローチを可能にすると主張し、マルチモーダル下流タスクにおける効率的適応のギャップに取り組んでいる。
  • 本手法はパラメータ効率を維持しながらマルチモーダル課題の性能を向上させ、大規模基盤モデルをマルチモーダル応用に適応するための実用的な研究方向性となっている。

要旨: 基盤モデルはAIに革命をもたらしましたが、マルチモーダル課題、特にDINOやBERTのような単一モーダルエンコーダから構成されるデュアルストリーム構造に対して、効率的に適応させることは依然として大きな課題です。Low-Rank Adaptation(LoRA)に代表されるParameter-Efficient Fine-Tuning(PEFT)手法は軽量な適応を可能にしますが、各モダリティ内で独立に動作するため、モダリティ間の相互作用を捉える能力が制限されます。本論文では、このギャップを埋めるために一歩踏み出し、Cross-Modal Low-Rank Adaptation(CoLA)を提案します。これは新しいPEFTの枠組みであり、LoRAを拡張して標準的なモダリティ内適応に加えて、専用のモダリティ間適応経路を導入します。このデュアルパス設計により、CoLAはモダリティ固有の学習とモダリティ間の学習の間で干渉することなく、単一モーダルの基盤モデルをマルチモーダル課題に効果的に適応させることができます。CoLAを、視覚-言語(RefCOCO、RefCOCO+、RefCOCOg)および音声-視覚(AVE、AVS)のさまざまなベンチマークで評価したところ、LORAを一貫して上回り、相対的な改善がそれぞれ約3\%および2\%を達成しました。同時に、パラメータ効率も維持しています。特にCoLAは、視覚的グラウンディングにおける初のマルチタスクPEFTフレームワークを実現し、効率的なマルチモーダル適応における重要なギャップを埋めます。