要旨: 大規模言語モデル(LLM)は、ますます重要度の高い領域に導入されている一方で、言語設定は限られたものしか公開されておらず、とりわけ「English (US)」に偏っている。これは、英語の世界的な多様性や、英語の植民地史があるにもかかわらずである。本研究では、ポストコロニアル(植民地後)という枠組みに基づいてより広い意義を説明しつつ、データキュレーションの地政学的な歴史、デジタル上の優位性、言語の標準化が、LLM開発パイプラインにどのように影響するかを調査する。支配的な標準変種として、アメリカ英語(AmE)とイギリス英語(BrE)の2つに焦点を当て、1,813のAmE—BrEバリアントからなるキュレーション済みコーパスを構築し、さらに分布的証拠を用いて方言のアラインメント(整合)を推定するための、動的かつ学習不要の手法であるDiAlignを提案する。構造的バイアスを、3つの段階にまたがって証拠を三角測量することで実装する:(i) 6つの主要な事前学習コーパスの監査により、AmEへの体系的な偏りが明らかになる。(ii) トークナイザの分析から、BrEではより高い分割コストが生じることが示される。(iii) 生成評価によって、モデル出力においてAmEが持続的に選好されることが示される。私たちの知る限り、本研究は、LLM開発の各段階にわたって標準英語の変種における方言的非対称性を、体系的かつ多面的に検討した最初の試みである。現代のLLMは事実上の規範としてAmEを優先しており、言語の均質化、認識論的不正義、そしてグローバルなAI導入における不公平が懸念されることがわかる。その一方で、より方言を包括する言語技術に向けた実践的な取り組みを後押しする。
LLMはどの英語を好むのか?基盤モデルにおけるアメリカ英語への構造的バイアスを三角測量する
arXiv cs.CL / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- アメリカ英語(AmE)とイギリス英語(BrE)のバリアントコーパス(1,813バリアント)を構築し、分布的な証拠にもとづいて方言間の整合(アライメント)を推定する、学習を行わない動的手法「DiAlign」を提案する




