JAMMEval: 信頼性の高いVLM評価のための洗練された日本語ベンチマーク集

arXiv cs.CV / 2026/4/2

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、視覚言語モデル（VLM）のより信頼性の高い評価を目的とした、日本語VQAベンチマークの洗練されたセットであるJAMMEvalを紹介する。
あいまいな設問、誤った解答、さらに視覚的な根拠付け（visual grounding）なしで解けてしまう例といった、既知のベンチマーク品質の問題に対処するため、既存の日本語データセット7つを体系的に改良する。
改良は人手による2ラウンドのアノテーションによって行われ、データ品質と評価の信頼性の両方が向上する。
実験では、JAMMEvalに対してオープンウェイトおよびプロプライエタリ（商用）両方のVLMを評価し、実際のモデル能力をよりよく反映するスコア、実行間のばらつき（run-to-run variance）の低減、異なる能力ティア間の分離性の改善を示す。
著者らは、今後の日本語VLM評価をより信頼できるものにするために、データセットとコードを公開する。

Abstract

信頼性の高い評価は、視覚言語モデル（VLMs）の開発に不可欠です。しかし、日本のVQAベンチマークは、英語圏の対応ベンチマークに比べてはるかに反復的な改善が行われていません。その結果、多くの既存ベンチマークには、曖昧な質問、誤った解答、また視覚的根拠づけなしで解けてしまう事例などの問題が含まれており、評価の信頼性を損ない、モデル比較において誤解を招く結論につながっています。これらの制約に対処するために、信頼性の高いVLM評価のための改良済み日本語ベンチマーク集であるJAMMEvalを提案します。JAMMEvalは、既存の日本語ベンチマークデータセット7つを、2ラウンドの人手によるアノテーションを通じて体系的に改良することで構築され、データの質と評価の信頼性の両方を向上させます。実験では、JAMMEvalに対してオープンウェイトおよびプロプライエタリのVLMを評価し、日本語VQAにおける近年のモデルの能力を分析します。さらに、得られたベンチマークが、モデルの能力をより適切に反映する評価スコアを生み出すこと、実行間のばらつきが小さいこと、能力レベルの異なるモデル同士をより効果的に区別できることを示すことで、改良の有効性を実証します。私たちは、VLMの信頼性の高い評価を前進させるために、データセットとコードを公開します。