大規模言語モデルに対する敵対的モラル・ストレステスト

arXiv cs.AI / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、現在のLLM安全ベンチマーク（多くの場合、単一ラウンドで実施され、毒性/拒否率などの集計指標に依存する）では、現実的な多回（マルチターン）の敵対的利用の中で生じる、まれであるが重大な倫理的失敗を見逃し得ると主張している。
構造化された「ストレス変換」をプロンプトに適用し、分布に配慮した指標によってラウンドをまたいだ倫理的頑健性を評価する枠組み「Adversarial Moral Stress Testing（AMST）」を導入する。これにより、分散（ばらつき）、テールリスク（極端事象のリスク）、および時間的な行動ドリフト（変化）を捉える。
AMSTは、複数の最先端LLM（LLaMA-3-8B、GPT-4o、DeepSeek-v3を含む）で評価され、従来の単一ラウンド試験では検出できない、頑健性の相違や進行的な劣化パターンが明らかになる。
得られた知見は、頑健性が平均性能よりも、分布的安定性やテール挙動により強く左右されることを示唆しており、敵対的な導入環境では頑健性を考慮したモニタリングの必要性を強調している。
手法は、大規模かつモデル非依存（model-agnostic）であることが示されており、開発者が、敵対的な多回インタラクション下でLLMが組み込まれたソフトウェアシステムをより確実に評価・監視できるようにすることを目指している。

Abstract

ソフトウェアシステムにデプロイされた大規模言語モデル（LLM）の倫理的な頑健性を評価することは、特に、持続的な敵対的ユーザーの相互作用のもとでは依然として困難である。既存の安全性ベンチマークは通常、単一ラウンドの評価と、毒性スコアや拒否率といった集計指標に依存しており、現実的な多ターン相互作用の中で生じうる行動の不安定性に対する可視性が限定的である。その結果、まれではあるが影響の大きい倫理的失敗や、段階的な劣化（プログレッシブ・ディグレデーション）の効果は、デプロイ前に検出されないまま残る可能性がある。本論文では、敵対的な多ラウンド相互作用下での倫理的頑健性を評価するためのストレスベース評価枠組みであるAdversarial Moral Stress Testing（AMST）を提案する。AMSTは、プロンプトに対して構造化されたストレス変換を適用し、相互作用ラウンドを通じた分散、テールリスク、時間的な行動ドリフトを捉える、分布を考慮した頑健性指標によってモデルの挙動を評価する。我々は、制御されたストレス条件のもとで生成した大規模な敵対的シナリオ集合を用いて、LLaMA-3-8B、GPT-4o、DeepSeek-v3を含む複数の最先端LLMに対してAMSTを評価する。その結果、モデル間で頑健性プロファイルに大きな違いが見られ、従来の単一ラウンド評価プロトコルでは観測できない劣化パターンが明らかになった。とりわけ、頑健性は平均的な性能だけでなく、分布の安定性やテール挙動に依存することが示されている。さらにAMSTは、スケーラブルでモデル非依存のストレステスト手法を提供し、敵対的環境で動作するLLM搭載ソフトウェアシステムに対する頑健性を意識した評価とモニタリングを可能にする。