LSR: 低資源西アフリカ諸語の言語安全性ロバストネス・ベンチマーク

arXiv cs.AI / 2026/3/23

📰 ニュースModels & Research

共有:

要点

LSR は、西アフリカ諸語（ヨルバ語、ハウサ語、イボ語、イガラ語）向けの初のクロス言語安全性ベンチマークを導入し、現地語で有害な意図が述べられた場合にモデルの拒否行動がどの程度劣化するかを測定します。
同一モデルに英語とターゲット言語のマッチしたプロンプトを対にして提出するデュアルプローブ評価プロトコルを用い、クロス言語での拒否の劣化を定量化します。
Refusal Centroid Drift（RCD）という指標を提案し、モデルの英語での拒否行動がターゲット言語でどれだけ失われるかを定量化します。
著者らは Gemini 2.5 Flash を、4つの有害性カテゴリにおける14の文化的に根ざした攻撃プローブで評価し、英語での拒否は約90%だが、西アフリカ諸語は35〜55%に低下し、イガラ語が最も影響を受けている（RCD = 0.55）。
このベンチマークは Inspect AI に実装され、PR-ready の形で UK AISI の inspect_evals リポジトリに公開されており、ライブの参照実装とデータセットが公開されています。

要旨: 大規模言語モデルにおける安全性の整合性は主に英語の訓練データに依存しています。英語で機能する拒否機構がある場合にも、有害な意図がリソースの少ない言語で表現されると、拒否機構が発動しないことが多いです。LSR（言語的安全性の頑健性）を導入します。西アフリカの言語におけるクロスリンガル拒否低下を測定する、最初の体系的ベンチマークです：ヨルバ語、ハウサ語、イボ語、イガラ語。LSRは同一モデルへ英語と対象言語のプローブを一致させて提出するデュアルプローブ評価プロトコルを用い、拒否セントロイドの変動（RCD）を導入します。これは、有害意図が対象言語としてエンコードされたときに、モデルの英語による拒否行動のどれだけが失われるかを定量化する指標です。Gemini 2.5 Flashを、4つの被害カテゴリにおける14の文化的背景に根ざした攻撃プローブで評価します。英語による拒否率はおおむね90％で維持されます。西アフリカの言語全体では拒否率が35〜55％に低下し、イガラ語が最も深刻な劣化を示します（RCD = 0.55）。LSRはInspect AI評価フレームワークに実装されており、UK AISIのinspect_evalsリポジトリへのPR準備済みの貢献として利用可能です。ライブのリファレンス実装とベンチマークデータセットは公開されています。