要旨: 誤情報は増加しており、LLM(大規模言語モデル)の強力な文章生成能力は、悪意のある行為者が虚偽の情報を作成し、拡散するための障壁を低下させます。本研究では、言語と対象国をまたいで誤情報を広めるようにプロンプトを与えたとき、LLMがどのように振る舞うのかを調べ、440件の誤情報生成プロンプト・テンプレートと6,867件のエンティティからなる、多言語の並列データセット「GlobalLies」を導入します。これは8言語と195か国にまたがります。人手による注釈と、最先端モデルからの数十万件規模の生成に対して行った大規模なLLM-as-a-judge(裁判官としてのLLM)評価の両方を用いて、誤情報の生成が、議論されている国に基づいて体系的に変化することを示します。LLMによる嘘の伝播は、多くの低資源言語において、また、人間開発指数(HDI)が低い国において、実質的により高いことが分かります。既存の対策戦略は一様な保護を提供できていないことも見出しました。入力の安全性分類器は言語間でのギャップがあり、検索拡張型のファクトチェックは、情報の利用可能性が地域によって不均等であるため、地域ごとに一貫していません。研究目的としてGlobalLiesを公開し、グローバルな誤情報の拡散を減らすための対策戦略の開発を支援することを目指します: https://github.com/zohaib-khan5040/globallies
嘘をつくべきか、つかざるべきか?LLMによるグローバルな嘘の偏った拡散を調査する
arXiv cs.CL / 2026/4/9
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、「嘘をつく」ようプロンプトされた際に、大規模言語モデルが対象国や言語によって誤情報を生成・伝播する方法をどのように変えるのかを調査する。
- 440の誤情報プロンプト・テンプレートと、8言語・195か国にまたがる6,867のエンティティから成る多言語データセット「GlobalLies」を導入し、言語間・地域間のバイアスを体系的に研究できるようにする。
- 結果は、多くの低リソース言語および人間開発指数(HDI)が低い国において誤情報の生成が高いことを示し、地理的にパターン化した偏りが存在することを示唆する。
- 数十万件規模の出力に対する人手評価および大規模な「LLMを判定者とする」評価により、こうした相違が測定可能で体系的であるという結論を支持する。
- 著者らは緩和策を評価し、不均一な保護を見出す。具体的には、入力の安全性を判定する分類器における言語間ギャップや、地域ごとの情報利用可能性の偏りによる検索拡張型のファクトチェックの性能の不一致などである。また、将来の防御のためにデータセットを公開する。




