要旨: 報酬モデルなどの自動評価器は、大規模な視覚言語モデル(LVLMs)のアラインメントと評価において中核的な役割を果たします。重要性が高まっているにもかかわらず、これらの評価器はほとんど例外なく英語中心のベンチマークでのみ評価されており、言語をまたいだ汎化がどれほど良好かという問題が未解決のまま残されています。この問題に答えるために、私たちは、複数言語かつマルチモーダルなジャッジモデル評価のための初の大規模ベンチマークであるMM-JudgeBenchを導入します。これには、類型論的に多様な25言語にまたがる60K超のペアワイズな選好(preference)インスタンスが含まれています。MM-JudgeBenchは、2つの相補的なサブセットを統合しています。すなわち、VL-RewardBenchを拡張した一般的な視覚言語の選好評価サブセットと、OpenCQAから派生した、チャート中心の視覚テキスト推論サブセットです。これにより、多様な設定にわたって報酬モデル(すなわちLVLMジャッジ)を体系的に分析できるようになります。さらに、ドメイン適応を支援するために、評価データとは非重複のMM-RewardBench由来の多言語トレーニングセットも公開します。22のLVLM(15のオープンソース、7のプロプライエタリ)を評価することで、提案するベンチマークにおいて大きな言語間パフォーマンスのばらつきを明らかにします。加えて分析から、モデルのサイズやアーキテクチャは多言語の頑健性の乏しい予測因子であり、最先端のLVLMジャッジでさえ言語間で一貫しない振る舞いを示すことがわかります。これらの知見は、現在の報酬モデリングの本質的な限界を露呈するとともに、信頼できる自動評価器を開発するために多言語かつマルチモーダルなベンチマークが必要であることを強調しています。
翻訳の迷子:LVLMのジャッジは言語を越えて汎化できるのか?
arXiv cs.CL / 2026/4/22
📰 ニュースSignals & Early TrendsModels & Research
要点
- 本論文は、視覚と言語を扱う大規模モデル(LVLM)向けの自動評価器(報酬モデル)が英語中心のベンチマークでほぼ検証されており、言語を越えた汎化性能は十分に分かっていない点を指摘している。
- 60K件超のペアワイズ選好データを25の類型論的に多様な言語にまたがって収録した「MM-JudgeBench」を提案し、一般的なLVの選好評価と、図表中心の視覚-テキスト推論の2つのサブセットを含めている。
- MM-RewardBench由来の多言語トレーニングセットも公開しており、評価データとは非重複に保たれているため、ドメイン適応に利用できる。
- 22のLVLMジャッジ(オープンソース15、プロプライエタリ7)を評価した結果、多言語間で大きな性能ばらつきが観測され、モデル規模やアーキテクチャは多言語ロバスト性の予測としては不十分であることが示されている。
- 最先端のLVLMジャッジでさえ言語によって一貫しない振る舞いをするため、現行の報酬モデリングの限界が露呈しており、信頼できる自動評価器開発には多言語・マルチモーダルなベンチマークが必要だと結論づけている。



