CoVFT：マルチモーダル大規模言語モデルのための文脈対応型ビジュアル・ファインチューニング

arXiv cs.CV / 2026/3/24

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、マルチモーダルLLMの視覚エンコーダをファインチューニングすべきか、凍結すべきかを検討し、従来の視覚ファインチューニング（VFT）手法が、異種の学習設定にまたがって一貫した結論を欠いている点を指摘している。
著者らは、構成を揃えたベンチマークを用いて、既存のVFT手法が多様なマルチモーダル課題において凍結した視覚ベースラインを確実に上回れないことが多いと示し、その不安定性を、文脈に非依存な視覚エンコーダによって生じる「視覚的嗜好の競合（visual preference conflicts）」に起因するとしている。
文脈対応型ビジュアル・ファインチューニング（CoVFT）という枠組みを提案し、Context Vector Extraction（CVE）モジュールとContextual Mixture-of-Experts（CoMoE）モジュールを通じて、マルチモーダル文脈に基づいて視覚の適応を条件付けする。
12のマルチモーダルベンチマークにわたる実験の結果、CoVFTは既存のVFT手法と比べて学習安定性を向上させつつ、最先端の結果を達成する。
重要な発見として、CoVFTによって7BのMLLMをファインチューニングすると、対応する13Bの平均性能を上回り得ることが示され、より良い視覚エンコーダ最適化によって大きな改善の余地があることを示唆している。

Black Hat Asia

AI Business

AIの知能の爆発で、人間の薬剤師はどうなる？

note

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査

note

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

note

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

note

CoVFT：マルチモーダル大規模言語モデルのための文脈対応型ビジュアル・ファインチューニング

要点

関連記事

Black Hat Asia

AIの知能の爆発で、人間の薬剤師はどうなる？

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

AIの知能の爆発で、人間の薬剤師はどうなる？

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む 都高齢協が調査

AIで絵本をKindleに出版したら驚きの結果！？副業初心者はコレを実践しろ！

🎬AIと子供の感性がハネた！親子で作る『へんがおラップ』製作記

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

特別養護老人ホームでChatGPTなどの生成ＡＩ（人工知能）を含む文書作成ツールの活用進む都高齢協が調査