CoVFT:マルチモーダル大規模言語モデルのための文脈対応型ビジュアル・ファインチューニング
arXiv cs.CV / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルLLMの視覚エンコーダをファインチューニングすべきか、凍結すべきかを検討し、従来の視覚ファインチューニング(VFT)手法が、異種の学習設定にまたがって一貫した結論を欠いている点を指摘している。
- 著者らは、構成を揃えたベンチマークを用いて、既存のVFT手法が多様なマルチモーダル課題において凍結した視覚ベースラインを確実に上回れないことが多いと示し、その不安定性を、文脈に非依存な視覚エンコーダによって生じる「視覚的嗜好の競合(visual preference conflicts)」に起因するとしている。
- 文脈対応型ビジュアル・ファインチューニング(CoVFT)という枠組みを提案し、Context Vector Extraction(CVE)モジュールとContextual Mixture-of-Experts(CoMoE)モジュールを通じて、マルチモーダル文脈に基づいて視覚の適応を条件付けする。
- 12のマルチモーダルベンチマークにわたる実験の結果、CoVFTは既存のVFT手法と比べて学習安定性を向上させつつ、最先端の結果を達成する。
- 重要な発見として、CoVFTによって7BのMLLMをファインチューニングすると、対応する13Bの平均性能を上回り得ることが示され、より良い視覚エンコーダ最適化によって大きな改善の余地があることを示唆している。




