ValueGround:MLLMにおける文化条件づけされた視覚価値グラウンディングの評価

arXiv cs.CL / 2026/4/9

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、WVS(World Values Survey)を基に「文化価値を視覚シーンから条件づけて判断できるか」を評価する新ベンチマークValueGroundを提案している。
  • ValueGroundでは、元の選択肢テキストを与えず、最小限の差分で対立する画像ペアを用いて、国・質問・画像ペアから最も適合する画像を選ばせる設計になっている。
  • 6つのMLLMと13か国で検証した結果、テキストのみの場合の平均精度72.8%が、選択肢を視覚化した場合は65.8%へ低下し、視覚化による難化が示された。
  • 画像同士の整合(option-image alignment)精度は92.8%と高い一方で、より強いモデルほど頑健だが、全モデルに「予測反転(prediction reversals)」の傾向が残ることが報告されている。
  • これにより、文化条件づけされた価値判断のクロスモーダルな転移を、制御された形で研究するためのテストベッドが提供される。