LASA: セマンティック・ボトルネックにおける、LLMの安全性のための言語非依存セマンティック・アラインメント

arXiv cs.LG / 2026/4/15

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、低資源言語と高資源言語の間に存在するLLM安全性のギャップは、モデルの言語非依存のセマンティック理解と一致しない、言語優位の安全性アラインメントに起因すると主張する。
共有セマンティクスによって表現の幾何（ジオメトリ）が駆動され、言語の同一性よりもセマンティクスが支配的になる「セマンティック・ボトルネック」層を特定する。
これを踏まえ、LASA（Language-Agnostic Semantic Alignment）は、表面的なテキスト手がかりに依存するのではなく、セマンティック・ボトルネックにおいて安全性アラインメントを固定（アンカー）する。
実験では平均攻撃成功率の大幅な低減が報告されており、例としてLLaMA-3.1-8B-Instructで24.7%から2.8%へ低下している。また、Qwen2.5/Qwen3 Instructモデル（7B〜32B）ではASR（Attack Success Rate）を概ね3〜4%の水準に維持している。
本研究は、LLM安全性アラインメントを表現レベルの問題として再定義し、頑健な多言語の安全性のために、モデルの言語非依存のセマンティック空間におけるアラインメントの重要性を強調する。

要旨: 大規模言語モデル（LLM）は、高リソース言語ではしばしば強い安全性性能を示しますが、低リソース言語で問い合わせると重大な脆弱性が現れます。このギャップは、言語に依存しない意味理解能力と、高リソース言語に偏った言語優位の安全アラインメントとの不一致に起因すると考えられます。この仮説と整合して、私たちは経験的に、LLMにおける意味のボトルネックを特定します。これは、モデル表現の幾何学が、言語そのものの同一性よりも共有された意味内容によって主に支配される中間層です。この観察に基づき、私たちは安全アラインメントを直接意味のボトルネックに結び付ける「言語非依存意味アラインメント（Language-Agnostic Semantic Alignment: LASA）」を提案します。実験の結果、LASAはすべての言語にわたって安全性を大幅に改善することが示されます。平均攻撃成功率（ASR）は、LLaMA-3.1-8B-Instructで24.7%から2.8%へと低下し、またQwen2.5およびQwen3 Instruct（7B-32B）モデル群では3〜4%程度にとどまります。私たちの分析と手法は、LLMの安全性に関して表現レベルの視点を提供し、安全アラインメントは表層のテキストに基づいて安全理解を固定するのではなく、モデルの言語非依存な意味空間に固定する必要があることを示唆しています。