ML-Bench&Guard:ポリシーに基づく多言語安全ベンチマークと、LLM向けガードレール

arXiv cs.CL / 2026/5/4

📰 ニュースModels & Research

要点

  • 本論文は、汎用のリスク分類や機械翻訳に依存せず、各地域の規制に直接基づいて構築した14言語対応のポリシーに基づく多言語安全ベンチマーク「ML-Bench」を提案している。
  • ML-Benchは、管轄ごとの法的文書からリスクカテゴリと細かなルールを導出し、地域固有の文化的・法的要請をより反映した評価データを生成する。
  • ML-Benchに基づき、拡散LLM(dLLM)ベースのガードレールモデル「ML-Guard」を開発し、多言語の安全性判断とポリシー条件付きのコンプライアンス評価を行う。
  • ML-Guardは2つのバリアントを備え、1.5Bの軽量モデルで高速なsafe/unsafe判定を行い、7Bのより高能力モデルで詳細な説明付きのカスタム・コンプライアンス検査を可能にする。
  • 11の既存ガードレール手法と複数の多言語安全ベンチマークに対する実験で、ML-Guardは従来手法より一貫して優れた性能を示し、規制と文化に配慮したガードレールの発展を目指す。

概要: 大規模言語モデル(LLM)が、言語をまたいだ文脈でますます導入されるにつれて、多様な規制環境や文化環境における安全性を確保することが、重要な課題になっています。しかし、既存の多言語ベンチマークの多くは、一般的なリスク分類と機械翻訳に大きく依存しており、その結果、ガードレールモデルはこれらの事前定義されたカテゴリのみに閉じ込められ、地域固有の規制や文化的ニュアンスに整合する能力が妨げられています。これらのギャップを埋めるために、14言語を対象とした、ポリシーに基づく多言語安全性ベンチマークであるML-Benchを導入します。ML-Benchは地域の規制そのものから直接構築されており、リスクカテゴリや、管轄ごとの法的テキストから導出されたきめ細かなルールが、多言語の安全性データ生成を導くためにそのまま用いられています。これにより、言語をまたいだ、文化的かつ法的に整合した評価を可能にします。ML-Benchに基づいて、拡散型大規模言語モデル(dLLM)をベースとしたガードレールモデルであるML-Guardを開発し、多言語の安全性判断と、ポリシーに条件付けされたコンプライアンス(順守)評価をサポートします。ML-Guardには2つのバリアントがあります。1つは高速な `safe/unsafe' 判定のための軽量な1.5Bモデル、もう1つは、詳細な説明付きでカスタマイズされたコンプライアンス確認を行うための、より高能力な7Bモデルです。6つの既存の多言語安全性ベンチマークと、私たちのML-Benchに対して、11の強力なガードレールのベースラインを用いた大規模な実験を行い、ML-Guardが一貫して従来手法を上回ることを示します。ML-BenchとML-Guardが、規制を意識した、文化的に整合した多言語ガードレール・システムの開発を前進させるのに役立つことを期待しています。