LLMはどの英語を好むのか？基盤モデルにおけるアメリカ英語への構造的バイアスを三角測量する

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

アメリカ英語（AmE）とイギリス英語（BrE）のバリアントコーパス（1,813バリアント）を構築し、分布的な証拠にもとづいて方言間の整合（アライメント）を推定する、学習を行わない動的手法「DiAlign」を提案する

要旨: 大規模言語モデル（LLM）は、ますます重要度の高い領域に導入されている一方で、言語設定は限られたものしか公開されておらず、とりわけ「English (US)」に偏っている。これは、英語の世界的な多様性や、英語の植民地史があるにもかかわらずである。本研究では、ポストコロニアル（植民地後）という枠組みに基づいてより広い意義を説明しつつ、データキュレーションの地政学的な歴史、デジタル上の優位性、言語の標準化が、LLM開発パイプラインにどのように影響するかを調査する。支配的な標準変種として、アメリカ英語（AmE）とイギリス英語（BrE）の2つに焦点を当て、1,813のAmE—BrEバリアントからなるキュレーション済みコーパスを構築し、さらに分布的証拠を用いて方言のアラインメント（整合）を推定するための、動的かつ学習不要の手法であるDiAlignを提案する。構造的バイアスを、3つの段階にまたがって証拠を三角測量することで実装する：(i) 6つの主要な事前学習コーパスの監査により、AmEへの体系的な偏りが明らかになる。(ii) トークナイザの分析から、BrEではより高い分割コストが生じることが示される。(iii) 生成評価によって、モデル出力においてAmEが持続的に選好されることが示される。私たちの知る限り、本研究は、LLM開発の各段階にわたって標準英語の変種における方言的非対称性を、体系的かつ多面的に検討した最初の試みである。現代のLLMは事実上の規範としてAmEを優先しており、言語の均質化、認識論的不正義、そしてグローバルなAI導入における不公平が懸念されることがわかる。その一方で、より方言を包括する言語技術に向けた実践的な取り組みを後押しする。

Black Hat Asia

AI Business

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

日経XTECH

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

日経XTECH

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

日経XTECH

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

日経XTECH

LLMはどの英語を好むのか？基盤モデルにおけるアメリカ英語への構造的バイアスを三角測量する

要点

関連記事

Black Hat Asia

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

ソフトバンクG、フィジカルAIに名乗り 通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造 ラピダスに出資「連携深める」

AIが「善良な開発者」装う時代、LLM製マルウエアがOSS文化揺さぶる

三井住友カードが「AIオペレーター」 電話で円滑に対話、回答内容は顧客別

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ソフトバンクG、フィジカルAIに名乗り通信がロボにもたらす賢さと速さ

エプソン、インクジェットで半導体製造ラピダスに出資「連携深める」

三井住友カードが「AIオペレーター」電話で円滑に対話、回答内容は顧客別