要約: 視覚と言語のモデル(VLMs)の数と多様性が高まる中、多くの研究が複数のVLMにまたがる言語ベースのアンサンブル、協調、ルーティング手法を用いてマルチモデル推論を改善することを探求しています。これに対し、我々は視覚と言語のモダリティの両方を用いた多様なモデル選択に取り組みます。私たちはVLM間の補完的な推論を捉えるためのフォーカル誤差多様性を導入し、視覚的埋め込みの不一致を測定するCKAベースのフォーカル多様性指標(CKA-focal)を提案します。候補VLMのプールから構築したアンサンブル空間上で、遺伝アルゴリズムを適用し、融合パフォーマンスに付加価値を生まない構成VLMを効果的に剪定しました。私たちは、各タスクにとって最適な組み合わせを特定するとともに、モデルプール内の各VLMの出力を融合し、異種モデルがエピステミック不確実性を動的に捉え、幻覚を緩和できることを示します。V3Fusionアプローチは、視覚と言語の推論に対して高い性能を持つ二重フォーカル多様性を組み込んだ融合予測を生成することができ、多数派の合意がない場合や多数のVLMが誤った予測をする場合にも適用可能です。広範な実験により、V3Fusionを4つの人気VLMベンチマーク(A-OKVQA、MMMU、MMMU-Pro、OCR-VQA)で検証しました。結果は、V3FusionがMMMUで最高性能を示すVLMを8.09%の精度向上、MMMU-Proでは4.87%の精度向上で上回ることを示しています。生成タスクでは、A-OKVQAとOCR-VQAの両方で上位2位のVLMであるIntern-VL2-8bおよびQwen2.5-VL-7bを上回ります。私たちのコードとデータセットは https://github.com/sftekin/v3fusion で公開されています。
効率的な視覚推論のための Vision Verification を強化した VLM の融合
arXiv cs.CV / 2026/3/16
📰 ニュースModels & Research
要点
- 本論文は V3Fusion を提案する。フォーカルエラー多様性と CKA に基づくフォーカル多様性指標を用いて、異種の VLM プールからの出力を選択・融合し、視覚言語推論を行うフュージョンフレームワークである。
- 本手法は遺伝的アルゴリズムを用いて寄与しない VLM を剪定し、タスクごとに最適なモデル組み合わせを特定する。これにより動的エピステミック不確実性を捉え、幻覚を減らす。
- 4つのベンチマーク(A-OKVQA、MMMU、MMMU-Pro、OCR-VQA)において、V3Fusion は最強の単一 VLM を上回り、MMMU で 8.09%、MMMU-Pro で 4.87% の改善を達成し、A-OKVQA および OCR-VQA では Intern-VL2-8b および Qwen2.5-VL-7b といったトップの生成型 VLM を凌いでいる。
- 著者らは GitHub にコードとデータセットを公開しており、再現性を確保できる。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning