大規模ビジョン言語モデルにおける異文化の価値認識

arXiv cs.CV / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

複数の大規模ビジョン言語モデル（LVLM）が、画像に描かれた文化的文脈（宗教・国籍・社会経済状況など）に応じて人物の道徳・倫理・政治的価値観をどのように判断するかを調査している。
従来のソーシャルバイアス中心の公平性研究に対し、文化的ステレオタイプがLVLMの「価値判断」に現れる可能性を新たに掘り下げることが目的とされている。
同一人物を異なる文化文脈で描いたカウンターファクチュアル画像セットを用い、5つの人気LVLMに対して多次元の分析を実施した。
評価は、Moral Foundations Theory、語彙分析、生成される価値の結果が描かれた文化文脈にどれだけ敏感かといった観点でモデルの「文化的価値の認識度」を診断している。

要旨: 近年、大規模なビジョン・言語モデル（LVLM）の急速な普及が進む一方で、それらが有害な社会的ステレオタイプを強化しがちであることにより、公平性に関する懸念が高まってきました。こうした公平性の懸念は社会的バイアスの文脈で多くの注目を集めているものの、宗教、国籍、社会経済的地位といった文化的文脈に関連するLVLM内でのステレオタイプの存在については、これまでの研究では比較的ほとんど検討されていません。本研究では、画像内に描かれた文化的文脈が、その人物の道徳的・倫理的・政治的価値観についてLVLMが下す判断にどのように影響するかを調べることで、このギャップを埋めることを目指します。同一人物が異なる文化的文脈のもとで描かれた、反事実的な画像セットを用い、5つの代表的なLVLMに対して、こうした価値判断の多次元的分析を行います。評価の枠組みでは、道徳的基礎理論（Moral Foundations Theory）、語彙分析、生成される価値観の描かれた文化的文脈への感度の利用によって、LVLMが文化における価値の相違をどの程度認識しているかを診断します。