要旨: マルチモーダル連続インストラクション・チューニング(MCIT)は、マルチモーダル大規模言語モデル(MLLMs)が逐次的なタスク適応を行うために不可欠である一方で、壊滅的忘却によって厳しく制限されています。既存の文献では推論言語のバックボーンに焦点が当てられていますが、本研究では、クロスモーダル投影空間における知覚ドリフトと、低ランク・パラメータ空間における推論崩壊の両方にまたがる、重要であるにもかかわらず看過されてきた二重の忘却現象を明らかにします。これを解決するために、
\textbf{MAny}(\textbf{M}erge \textbf{A}nything)という枠組みを提案します。これは、\textbf{C}ross-modal \textbf{P}rojection \textbf{M}erging(\textbf{CPM})と\textbf{L}ow-rank \textbf{P}arameter \textbf{M}erging(\textbf{LPM})により、\textbf{C}ross-modal \textbf{P}rojection \textbf{M}erging(\textbf{CPM})と\textbf{L}ow-rank \textbf{P}arameter \textbf{M}erging(\textbf{LPM})を通じてタスク固有の知識を統合します。具体的には、CPMは、視覚プロトタイプによるガイダンスを介してクロスモーダルの視覚表現を適応的にマージすることで、知覚アラインメントを回復し、推論時に正確な特徴回復を保証します。同時に、LPMは、低ランク重み行列を再帰的にマージすることで、タスク固有の低ランク・モジュール間の相互干渉を除去します。再帰的最小二乗法を活用することで、LPMは閉形式の解を与え、推論の安定性のための最適な融合軌道を数学的に保証します。特筆すべき点として、MAnyは学習不要のパラダイムとして機能し、初期のチューニング以外に追加の勾配ベース最適化を行わず、効率的なCPUベースの代数演算によって知識統合を達成します。広範な評価により、複数のMLLMおよびベンチマークにおいてMAnyが優れた性能と頑健性を示すことを確認しています。具体的には、UCITベンチマークでは、MAnyは、異なる2種類のMLLMに対してそれぞれ最先端手法に比べ、最終平均精度で最大8.57\%および2.85\%という大幅なリードを達成しています。
MAny: マルチモーダル継続的インストラクション調整のための何でもマージ(Merge Anything)
arXiv cs.LG / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- マルチモーダルLLMに対するマルチモーダル継続的インストラクション調整(MCIT)は、壊滅的忘却によって制限されており、本論文ではそれが2つの二重のメカニズムにより生じると主張している:クロスモーダル投影空間における知覚ドリフト、ならびに低ランクのパラメータ空間における推論の崩壊。
- 提案するMAny(Merge Anything)フレームワークは、推論時に視覚プロトタイプのガイダンスと知覚整合を維持するためのCross-modal Projection Merging(CPM)によって、両方の課題に対処する。
- さらにLow-rank Parameter Merging(LPM)を用いて、タスク固有の低ランク・モジュール間の干渉を、低ランク重み行列を再帰的にマージすることで低減し、安定した推論のために再帰的最小二乗法(recursive least squares)から導出した閉形式解を活用する。
- MAnyは、マージ手順を学習不要(training-free)として提示されており、初期の調整以外に追加の勾配ベース最適化に頼らず、効率的なCPUベースの代数演算を用いる。
- 複数のMLLMおよびベンチマークでの実験では、最終的な平均精度の改善が報告されており、UCITベンチマークでは最先端手法に対して最大8.57%および2.85%の向上が得られている。
