JAMMEval: 信頼性の高いVLM評価のための洗練された日本語ベンチマーク集
arXiv cs.CV / 2026/4/2
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚言語モデル(VLM)のより信頼性の高い評価を目的とした、日本語VQAベンチマークの洗練されたセットであるJAMMEvalを紹介する。
- あいまいな設問、誤った解答、さらに視覚的な根拠付け(visual grounding)なしで解けてしまう例といった、既知のベンチマーク品質の問題に対処するため、既存の日本語データセット7つを体系的に改良する。
- 改良は人手による2ラウンドのアノテーションによって行われ、データ品質と評価の信頼性の両方が向上する。
- 実験では、JAMMEvalに対してオープンウェイトおよびプロプライエタリ(商用)両方のVLMを評価し、実際のモデル能力をよりよく反映するスコア、実行間のばらつき(run-to-run variance)の低減、異なる能力ティア間の分離性の改善を示す。
- 著者らは、今後の日本語VLM評価をより信頼できるものにするために、データセットとコードを公開する。




