要旨: 最先端の大規模言語モデル(LLM)が広く普及するにつれ、多様な属性集団にわたって公平な性能を確保することが重要になっている。しかし、こうした格差が、明示的に述べられたアイデンティティそのものから生じているのか、それともアイデンティティがどのように合図(シグナル)されるかから生じているのかは、依然として不明である。現実のやり取りでは、ユーザのアイデンティティは、さまざまな社会言語学的要因の複雑な組み合わせによって、暗黙的に伝えられることが多い。本研究は、2つのオープンウェイトLLM(Gemma-3-12BおよびQwen-3-VL-8B)から得た24,000件超の応答に対して因子計画法(ファクタルデザイン)を用い、明示的に告知されたユーザプロフィールと、さまざまなセンシティブ領域において暗黙の方言シグナル(例:AAVE、Singlish)を比較することで、これらのシグナルを切り分ける。その結果、LLMの安全性において独自の逆説が明らかになった。すなわち、ユーザは、自分がその集団に属していると述べるよりも、その集団の属性らしく聞こえることで「より良い」性能を達成できてしまうのである。明示的アイデンティティのプロンプトは攻撃的な安全フィルタを作動させ、拒否率を高め、ブラックユーザに対する参照テキストとの意味的類似度を低下させる。これに対して、暗黙の方言の手掛かりは強力な「方言ジャイルブレイク」を引き起こし、拒否確率をゼロに近い水準まで低下させると同時に、標準的なアメリカ英語のプロンプトよりも、参照テキストに対してより高いレベルの意味的類似度を達成する。しかし、この「方言ジャイルブレイク」には、コンテンツのサニタイズ(浄化)に関する重大な安全性上のトレードオフが生じる。現在の安全アラインメント手法は脆弱であり、明示的キーワードに過剰に依存していることが分かった。その結果、「標準」ユーザには慎重でサニタイズされた情報が提供される一方で、方言話者は、サニタイズが少なくより生(raw)で、潜在的により敵対的な情報環境をさまようという、二分化されたユーザ体験が生まれる。さらに、本研究はアラインメントにおける根本的な緊張—公平性と、言語的多様性との間の対立—を浮き彫りにし、明示的な合図を超えて一般化できる安全メカニズムが必要であることを示している。
方言 vs 人口統計:暗黙の言語的手がかりと明示的なユーザープロフィールからLLMバイアスを定量化する
arXiv cs.CL / 2026/4/24
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、LLMのデモグラフィック別の性能格差が、明示的に述べたアイデンティティそのものによるのか、それとも暗黙の社会言語学的・方言的シグナルによるのかを検証しています。
- Gemma-3-12B と Qwen-3-VL-8B を用い、24,000件超の応答に対する因子実験で、明示的なユーザープロフィール(例:Blackであると明言)と暗黙の方言手がかり(例:AAVE、Singlish)をセンシティブ領域で比較しました。
- 結果として「安全性の逆説」が見つかり、明示的なアイデンティティ提示は拒否率を高め意味的類似度を下げる一方、暗黙の方言手がかりは拒否確率をほぼゼロにしつつ意味的類似度を高めました。
- また、この「方言ジャイルブレイク」は内容のサニタイズ(浄化)を弱めるため、安全上のトレードオフが生じることを指摘しており、現在の安全アラインメントは明示キーワードへの依存が強く脆いと論じています。
- まとめとして、平等性と語の多様性(言語の多様性)との間に根本的な緊張があることを示し、明示的手がかりを超えて一般化できる安全メカニズムの必要性を強調しています。



