大規模言語モデルを用いた道徳判断における文化的な多様性の探究

arXiv cs.AI / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本研究では、大規模言語モデルが世界価値観調査（WVS）およびピュー・グローバル・アティチュード調査（PEW）で報告されている文化的に多様な道徳判断を反映しているかどうかを検証する。
研究者らは、ログ確率ベースの「道徳的正当化（moral justifiability）」スコアを算出し、多数の倫理トピックにわたってモデルの出力と調査結果を相関分析する。あわせて、より小規模な単言語／多言語モデルと、新しい指示チューニング済みモデルの両方を比較する。
先行世代の、あるいは小規模なモデルでは、人間の道徳判断との相関がほぼゼロ、または負になる傾向がある一方で、高度な指示チューニング済みモデルでは、相関が大幅に高い正の値を示す。
分析により、他の地域よりもW.E.I.R.D.（Western、Educated、Industrialized、Rich、Democratic：西洋・教育を受けた・工業化された・豊かな・民主的な国々）との整合性が強いことが明らかになり、文化間の感度が一様ではないことが示唆される。
本論文は、特定のトピックや地域における残された課題を議論するとともに、バイアスや学習データの多様性、情報検索への影響、そして文化的感度を高めるための示唆について、今回の知見を関連づけている。

Abstract

大規模言語モデル（LLM）は多くのタスクにおいて強力な性能を示している一方で、文化的に多様な道徳的価値を捉える能力があるのかどうかは明確ではありません。本論文では、LLMが世界価値観調査（World Values Survey: WVS）およびPew Research Centerのグローバル態度調査（Pew Global Attitudes Survey: PEW）で報告されている道徳的態度の違いをどの程度反映するのかを検討します。私たちは、より小規模な単一言語モデルおよび多言語モデル（GPT-2、OPT、BLOOMZ、Qwen）と、近年の指示チューニング済みモデル（GPT-4o、GPT-4o-mini、Gemma-2-9b-it、Llama-3.3-70B-Instruct）を比較します。対数尤度に基づく emph{道徳的な正当化可能性}スコアを用いて、倫理に関する幅広いトピックをカバーする調査データと各モデルの出力との相関を計算します。その結果、多くの先行する、または小規模なモデルでは、人間の判断に対してほぼゼロ、もしくは負の相関が見られることが多いことが示されました。これに対し、高度な指示チューニング済みモデルは、はるかに高い正の相関を達成しており、現実の道徳的態度をよりよく反映していることを示唆します。さらに詳細な地域別分析により、モデルは他の地域よりも、西欧（Western）、教育水準が高い（Educated）、工業化が進んだ（Industrialized）、豊か（Rich）、民主的（Democratic）（W.E.I.R.D.）な国々との整合性がより高いことが明らかになりました。モデル規模の拡大や指示チューニングの適用は、異文化間の道徳規範との整合性を改善しますが、特定のトピックや地域に対しては課題が残っています。私たちは、これらの知見を、バイアス分析、訓練データの多様性、情報検索に関する含意、そしてLLMの文化的感受性を高めるための戦略との関連で議論します。