概要: Vision-Language Models (VLMs) を異なる提供者からアンサンブルするとベンチマークの精度が最大化されますが、同じアーキテクチャファミリーのモデルは相関した誤りを共有し、標準的な投票ではそれを見落とします。私たちはこの構造を、VQAv2、TextVQA、GQA 上の 8 ファミリー、17 の VLM(Vision-Language Models, VLMs)で調査します。ファミリー間の相関誤りは、実質的なアンサンブルの次元を 2.5–3.6 の独立した投票者へと低減させ、誤導的層を生み出します(質問の 1.5–6.5%)。ここでは相関した多数派の誤りが、最良のモデルが正しくても精度を 0% まで破壊します。
私たちは 3 つのファミリー対応手法を提案します。Hierarchical Family Voting (HFV) はファミリー内で集約してから横断して投票し、誤導的層で +18–26 ポイントを回復します。QualRCCV はトレーニング不要の手法で、キャリブレーション、ファミリー品質、逆ファミリーサイズに基づいてモデルを重み付けします。これは 3 つのベンチマークすべてでキャリブレーション投票を上回る初めての方法です(p<0.05)。
Learned Candidate Scoring (LCS) は、候補回答を再ランク付けするためのクロス検証済み分類器を訓練し、サポート幅、ファミリー多様性、モデル品質を用いて再ランク付けします。最大の利得を達成し、+0.68% VQAv2、+0.61% TextVQA、+2.45% GQA — すべて有意 — かつ、どのベンチマークも決して低下させない唯一の学習手法です。VQAv2 テスト標準(EvalAI)では、12 モデルで 87.83% に到達し、汎化を確認します。
Hidden Clones: Vision-Languageモデルのアンサンブルにおけるファミリバイアスを暴露し是正する
arXiv cs.CV / 2026/3/19
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、同じアーキテクチャ系統の Vision-Language Models をアンサンブルすると相関した誤りが生じ、アンサンブルの多様性を低下させ、誤導的な階層が生じ、多数の誤りが最良モデルが正しくても回答を0%の精度へと導くことを示している。
- ファミリーを意識した3つの手法を提案する: Hierarchical Family Voting (HFV) はファミリ内で集約した後、ファミリ間の投票を行う。QualRCCV は較正、ファミリ品質、逆ファミリサイズでモデルに重みを付ける。Learned Candidate Scoring (LCS) は交差検証済みの分類器を学習させ、サポートの広がり、ファミリの多様性、モデル品質といった特徴を用いて候補回答を再ランク付けする。
- HFV は誤導的階層で18〜26ポイントの回復を達成し、QualRCCV は3つのベンチマークすべてで calibration 投票を上回り(p<0.05)、LCS は最も大きな改善をもたらし、絶対値としては控えめながら (+0.68% VQAv2, +0.61% TextVQA, +2.45% GQA) の改善を達成し、いずれのベンチマークも悪化させない。
- 12モデルを用いた VQAv2 テスト標準 EvalAI において、LCS は 87.83% に到達し、未知データへの強い一般化を示している。