ValueGround：MLLMにおける文化条件づけされた視覚価値グラウンディングの評価

arXiv cs.CL / 2026/4/9

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、WVS（World Values Survey）を基に「文化価値を視覚シーンから条件づけて判断できるか」を評価する新ベンチマークValueGroundを提案している。
ValueGroundでは、元の選択肢テキストを与えず、最小限の差分で対立する画像ペアを用いて、国・質問・画像ペアから最も適合する画像を選ばせる設計になっている。
6つのMLLMと13か国で検証した結果、テキストのみの場合の平均精度72.8%が、選択肢を視覚化した場合は65.8%へ低下し、視覚化による難化が示された。
画像同士の整合（option-image alignment）精度は92.8%と高い一方で、より強いモデルほど頑健だが、全モデルに「予測反転（prediction reversals）」の傾向が残ることが報告されている。
これにより、文化条件づけされた価値判断のクロスモーダルな転移を、制御された形で研究するためのテストベッドが提供される。

日経XTECH

日経XTECH

Dev.to

Reddit r/LocalLLaMA

Dev.to