低リソース言語における安全アラインメントを実現する多言語セルフ蒸留

arXiv cs.LG / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMの安全アラインメントにおける重要な課題、すなわち高リソース言語では強固な防護がある一方で低リソース言語ではジェイルブレイクに脆弱になる点を扱っています。
  • その解決として、Multilingual Self-Distillation(MSD)というクロスリンガルなセーフガード移植フレームワークを提案し、高リソース言語(例:英語)から低リソース言語(例:ジャワ語)へ安全能力を移すのに、言語ごとの高品質な応答データを必要としないことを目指しています。
  • 実装として、on-policy MSD と off-policy MSD の2つの方法を提示し、どちらも多言語クエリのみでクロスリンガルな安全移植を行えるとしています。
  • さらに、Dual-Perspective Safety Weighting(DPSW)を導入し、発散度(divergence)に基づいて学習目的のペナルティ重みを調整することで、安全に重要なトークンにはペナルティを強め、重要でないトークンの重みを下げる仕組みを提案します。
  • 複数のLLMと多言語のジェイルブレイク/ユーティリティベンチマークでの実験により、MSDが一貫して優れた多言語安全性を達成し、より難しいデータセットや未見の言語にも汎化できること、かつモデルの一般的能力を概ね維持することが示されています。