要旨: 大規模言語モデル(LLM)は、多言語対応であるとしばしば説明されます。すなわち、複数の言語を理解し、多くの言語で応答できるからです。しかし、言語を話せることは、文化の中で推論することと同じではありません。この違いは、重要な問いを動機づけます。すなわち、LLMは本当に文化を意識した推論を行うのでしょうか。本論文では、創作執筆タスクにおける文化的包摂性について、予備的な計算監査を提示します。LLMが、文化的に多様な創作パートナーとして振る舞うのか、それとも支配的な概念フレームワークを活用し、局所的な表現で置き換えるだけの文化翻訳者として振る舞うのかを、実験的に検証します。ケーススタディとして、5つの文化的設定といくつかの抽象概念にまたがるメタファー(比喩)生成タスクを用いると、特定の設定に対してモデルが固定観念的な比喩の用法を示し、さらに西洋中心のデフォルト(defaultism)も見られることが分かります。これらの知見は、単にLLMに文化的アイデンティティを与えるだけでは、文化的に根づいた推論が保証されないことを示唆しています。
私たちは何を計算して比喩を生み出すのか:文化的翻訳とLLMにおける思考の計算監査
arXiv cs.CL / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMが多言語テキストを生成できることは、文化に配慮した推論ができることを意味しない、特に文化的な概念枠組みに結び付いた創造的タスクではその点が当てはまると主張している。
- 5つの文化的状況と複数の抽象概念にまたがる比喩生成ベンチマークを用いた計算監査を提示し、LLMが文化的に多様な「対話パートナー」として振る舞うのか、それとも優位な(特定の文化に根ざしたわけではない)枠組みに固定された「翻訳者」として振る舞うのかを検証する。
- 実験結果は、特定の文化的状況に対して固定化された(ステレオタイプ的な)比喩パターンが見られること、ならびに「西洋デフォルト主義(Western defaultism)」の証拠を示している。
- 著者らは、プロンプトに文化的アイデンティティを追加するだけでは、文化に根ざした推論を保証するには不十分だと結論づけており、より頑健な評価と文化的バイアスの軽減の必要性を示している。




