Cross-Cultural Value Awareness in Large Vision-Language Models

arXiv cs.CV / 4/14/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • 複数の大規模ビジョン言語モデル(LVLM)が、画像に描かれた文化的文脈(宗教・国籍・社会経済状況など)に応じて人物の道徳・倫理・政治的価値観をどのように判断するかを調査している。
  • 従来のソーシャルバイアス中心の公平性研究に対し、文化的ステレオタイプがLVLMの「価値判断」に現れる可能性を新たに掘り下げることが目的とされている。
  • 同一人物を異なる文化文脈で描いたカウンターファクチュアル画像セットを用い、5つの人気LVLMに対して多次元の分析を実施した。
  • 評価は、Moral Foundations Theory、語彙分析、生成される価値の結果が描かれた文化文脈にどれだけ敏感かといった観点でモデルの「文化的価値の認識度」を診断している。

Abstract

The rapid adoption of large vision-language models (LVLMs) in recent years has been accompanied by growing fairness concerns due to their propensity to reinforce harmful societal stereotypes. While significant attention has been paid to such fairness concerns in the context of social biases, relatively little prior work has examined the presence of stereotypes in LVLMs related to cultural contexts such as religion, nationality, and socioeconomic status. In this work, we aim to narrow this gap by investigating how cultural contexts depicted in images influence the judgments LVLMs make about a person's moral, ethical, and political values. We conduct a multi-dimensional analysis of such value judgments in five popular LVLMs using counterfactual image sets, which depict the same person across different cultural contexts. Our evaluation framework diagnoses LVLM awareness of cultural value differences through the use of Moral Foundations Theory, lexical analyses, and the sensitivity of generated values to depicted cultural contexts.