ロケーションが見つかりません:多言語LLMにおける暗黙のローカル/グローバルバイアスの露呈

arXiv cs.CL / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この論文は、多言語LLMが言語間の流暢さを改善する一方で、知識や規範が言語をまたいで伝播することで偏った振る舞いを示すリスクがあると指摘しています。
  • 著者らはLocQAというベンチマークを提案し、12言語にまたがる2,156問の「ロケーションが曖昧な」質問を用意しました。質問文には、関連するロケールの手がかりがクエリ言語以外含まれていません。
  • LocQAを用いて32モデルを評価した結果、「構造的なバイアス」が2種類見つかりました。1つは言語を問わずUSロケールに寄ったグローバルバイアスで、もう1つは同バイアスがインストラクション・チューニング後のモデルでより強まることです。
  • さらに、同一言語内でもバイアスが観測され、複数のロケールが成り立つ場合にモデルが「人口規模が大きいロケール」を優先する“人口確率エンジン”のような挙動を示します。
  • これらの結果から、LocQAは暗黙の事前知識(implicit priors)を測定し、多言語LLMにおいて学習フェーズの違いがバイアスに与える影響を評価するのに役立つ可能性があります。

概要: 多言語の大規模言語モデル(LLM)は、言語間の流暢性のギャップを最小化してきました。しかしながら、この進歩は、知識や規範が言語をまたいで伝播し得るため、モデルが偏った振る舞いのリスクにさらされるという問題を浮き彫りにします。本研究では、ロケールが曖昧な質問に答える能力を通じて、モデルの言語間および言語内の偏りを定量化することを目指します。そこで本稿では、12言語にまたがる2,156問からなるテストセットLocQAを提示します。LocQAは、法律、日付、計測値といった、さまざまなロケール依存の事実を参照します。質問には、参照対象となるロケールを示す情報は含まれていません。参照対象のロケールを示しているのは、クエリ言語自体以外にはありません。そのため、LocQAにおけるロケールが曖昧な質問へのLLMの応答は、モデルの暗黙の事前分布(implicit priors)を明らかにします。私たちはLocQAを用いて32のモデルを評価し、2種類の構造的バイアスを検出しました。言語間では、英語以外の言語でモデルに尋ねた場合でも、USロケールに関連する回答へと向かうグローバルなバイアスが存在することを示します。さらに、このグローバルなバイアスは、ベースモデルと比べてインストラクション・チューニングを受けたモデルで増幅されることを見出しました。言語内では、同じ言語に対して複数のロケールが関係する場合、モデルは人口の多いロケールを優先することで、人口(デモグラフィック)の確率エンジンとして振る舞うことを示します。以上を踏まえると、LocQAから得られる洞察は、LLMに望まれるローカルな振る舞いの設計に役立つ可能性があり、またさまざまな学習フェーズが異なる種類のバイアスへ与える影響を定量化するのにもつながります。