国境のない学び? 言語間・文化間でLLMの文化的整合性を評価するための多言語ストーリー道徳生成の検討

arXiv cs.AI / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、「多言語ストーリー道徳生成」という新しい評価タスクを提案し、言語・文化の組ごとに、ストーリーの道徳に関する人間の文化的に根ざした解釈と、LLMがどの程度整合しているかを測定する。
  • 新たに作成した、人間が書いたストーリー道徳のデータセット(14の言語・文化ペアを含む)を用いて、著者らはモデル出力を、人間の回答に対する意味的類似度、嗜好(選好)調査、価値のカテゴリ化によって評価する。
  • 結果として、GPT-4oやGeminiのような最先端モデルは、人間の回答に意味的に近い道徳を生成し、評価者により概ね選好されることが示される。
  • ただし、モデルは言語間での変動が小さく、より広範な人間の物語理解に見られる多様な価値ではなく、広く共有された価値の限られた集合の周辺に道徳がまとまる傾向がある。
  • 本研究は、文化的整合性を、評価と物語解釈の問題として位置づけ、静的なベンチマークや純粋に知識ベースのテストに代わるアプローチを提示する。

要旨: 物語は文化をまたいで価値観を伝達するための鍵である一方、その解釈は言語的・文化的文脈によって異なります。そこで本稿では、文化に根ざした新しい評価タスクとして、多言語の物語モラル生成を導入します。14の言語-文化ペアにまたがって収集した、人間が執筆した物語のモラルからなる新しいデータセットを用いて、モデルの出力を人間の解釈と、意味的類似度、人間による嗜好調査、価値の分類によって比較します。GPT-4o や Gemini といった最先端モデルは、人間の応答に意味的に類似した物語モラルを生成し、人間の評価者にも好まれることを示します。しかしそれらの出力は、言語をまたいだ多様性が大幅に小さく、広く共有された価値観の限られた集合に集中することも分かりました。これらの結果は、現代のモデルが人間の道徳的解釈における中心的傾向を近似できる一方で、人間の物語理解を特徴づける多様性を再現することが難しいことを示唆しています。本研究は、物語解釈を評価タスクとして枠付けることで、静的ベンチマークや知識ベースのテストを超えて言語モデルにおける文化的整合性を調べる新しいアプローチを提案します。