大規模言語モデルに対する敵対的モラル・ストレステスト
arXiv cs.AI / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、現在のLLM安全ベンチマーク(多くの場合、単一ラウンドで実施され、毒性/拒否率などの集計指標に依存する)では、現実的な多回(マルチターン)の敵対的利用の中で生じる、まれであるが重大な倫理的失敗を見逃し得ると主張している。
- 構造化された「ストレス変換」をプロンプトに適用し、分布に配慮した指標によってラウンドをまたいだ倫理的頑健性を評価する枠組み「Adversarial Moral Stress Testing(AMST)」を導入する。これにより、分散(ばらつき)、テールリスク(極端事象のリスク)、および時間的な行動ドリフト(変化)を捉える。
- AMSTは、複数の最先端LLM(LLaMA-3-8B、GPT-4o、DeepSeek-v3を含む)で評価され、従来の単一ラウンド試験では検出できない、頑健性の相違や進行的な劣化パターンが明らかになる。
- 得られた知見は、頑健性が平均性能よりも、分布的安定性やテール挙動により強く左右されることを示唆しており、敵対的な導入環境では頑健性を考慮したモニタリングの必要性を強調している。
- 手法は、大規模かつモデル非依存(model-agnostic)であることが示されており、開発者が、敵対的な多回インタラクション下でLLMが組み込まれたソフトウェアシステムをより確実に評価・監視できるようにすることを目指している。




