CoLA：マルチモーダル下流タスクのためのクロスモーダル・ロースランク適応

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、LoRAを拡張してマルチモーダルのデュアルストリーム・アーキテクチャにおける相互作用をより的確に捉える、パラメータ効率の高い微調整フレームワーク「CoLA（Cross-Modal Low-rank Adaptation）」を提案する。
CoLAは、通常のイントラモーダルLoRAに加えて並列に、専用のモーダル間適応のための経路を追加し、モーダル固有の適応と干渉することなくクロスモーダル学習を改善することを目指す。
視覚言語ベンチマーク（RefCOCO、RefCOCO+、RefCOCOg）および音響・映像ベンチマーク（AVE、AVS）での実験では、標準的なLoRAに比べて一貫した改善が示され、報告された相対的な向上は約3%および2%である。
著者らは、CoLAが視覚グラウンディングに対する「初の」マルチタスクPEFTアプローチを可能にすると主張し、マルチモーダル下流タスクにおける効率的適応のギャップに取り組んでいる。
本手法はパラメータ効率を維持しながらマルチモーダル課題の性能を向上させ、大規模基盤モデルをマルチモーダル応用に適応するための実用的な研究方向性となっている。

要旨: 基盤モデルはAIに革命をもたらしましたが、マルチモーダル課題、特にDINOやBERTのような単一モーダルエンコーダから構成されるデュアルストリーム構造に対して、効率的に適応させることは依然として大きな課題です。Low-Rank Adaptation（LoRA）に代表されるParameter-Efficient Fine-Tuning（PEFT）手法は軽量な適応を可能にしますが、各モダリティ内で独立に動作するため、モダリティ間の相互作用を捉える能力が制限されます。本論文では、このギャップを埋めるために一歩踏み出し、Cross-Modal Low-Rank Adaptation（CoLA）を提案します。これは新しいPEFTの枠組みであり、LoRAを拡張して標準的なモダリティ内適応に加えて、専用のモダリティ間適応経路を導入します。このデュアルパス設計により、CoLAはモダリティ固有の学習とモダリティ間の学習の間で干渉することなく、単一モーダルの基盤モデルをマルチモーダル課題に効果的に適応させることができます。CoLAを、視覚-言語（RefCOCO、RefCOCO+、RefCOCOg）および音声-視覚（AVE、AVS）のさまざまなベンチマークで評価したところ、LORAを一貫して上回り、相対的な改善がそれぞれ約3\%および2\%を達成しました。同時に、パラメータ効率も維持しています。特にCoLAは、視覚的グラウンディングにおける初のマルチタスクPEFTフレームワークを実現し、効率的なマルチモーダル適応における重要なギャップを埋めます。

Black Hat Asia

AI Business

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

日経XTECH

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

日経XTECH

[R] ECIH：モデルモデリングによるエージェンティック・アイデンティティを創発的な関係状態として捉える [R]

Reddit r/MachineLearning

CoLA：マルチモーダル下流タスクのためのクロスモーダル・ロースランク適応

要点

関連記事

Black Hat Asia

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

[R] ECIH：モデルモデリングによるエージェンティック・アイデンティティを創発的な関係状態として捉える [R]

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

日立やNEC、フィジカルAIで脱「人月商売」 リアルな現場も効率化

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

三井住友カードが「AIオペレーター」 電話で円滑に対話、回答内容は顧客別

[R] ECIH：モデルモデリングによるエージェンティック・アイデンティティを創発的な関係状態として捉える [R]

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

日立やNEC、フィジカルAIで脱「人月商売」リアルな現場も効率化

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別