ASMR-Bench:機械学習研究におけるサボタージュの監査(監視)

arXiv cs.AI / 2026/4/20

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、ML研究コードベースに仕込まれたサボタージュを監査人がどれだけ検出できるかを評価する新しいベンチマーク「ASMR-Bench」を提案しています。
  • ASMR-Benchには、ハイレベルな手法は維持しつつ実装の詳細(例:ハイパーパラメータ、学習データ、評価コード)を改変したサボタージュ版9個のML研究コードベースが含まれます。
  • 実験の結果、最先端のLLMとLLM支援の人間監査人のいずれも、サボタージュの確実な検出は難しく、最高性能でもAUROC 0.77、トップ1の修正率42%にとどまることが示されています。
  • レッドチーミングとしてLLMを用いた場合、LLM生成のサボタージュは人間生成より弱い傾向があるものの、同等能力のLLM監査人をすり抜けることがあると報告されています。
  • 著者らは、AIが自律的に行う研究に対するモニタリング/監査技術の研究を促進するためにASMR-Benchを公開しています。

要旨: AIシステムが自律的に研究を行うためにますます用いられるようになるにつれて、不整合(ミスアライン)なシステムは、検出をすり抜けつつ誤解を招く結果を生み出すような、微妙な欠陥を導入し得ます。私たちは、ML研究コードベースにおけるサボタージュ(破壊工作)を検出する能力を監査人が評価できるようにするベンチマークである ASMR-Bench(ML研究におけるサボタージュの監査)を提案します。ASMR-Bench は、定性的に異なる実験結果を生み出すサボタージュ版を含む 9 つの ML研究コードベースで構成されています。各サボタージュは、論文で説明されている高レベルの手法を維持しつつ、ハイパーパラメータ、学習データ、または評価コードといった実装の詳細を変更します。私たちは ASMR-Bench において、先端(フロンティア)の LLM と LLM 支援型の人間の監査人を評価し、その結果、どちらもサボタージュを確実に検出するのに苦戦することを確認しました。最良の性能は AUROC が 0.77、トップ1 の修正率が 42%であり、これは Gemini 3.1 Pro によって達成されました。さらに、LLM をレッドチームとしてテストしたところ、LLM によって生成されたサボタージュは人間によって生成されたものより弱い一方で、同等能力の LLM 監査人をすり抜ける場合もあることが分かりました。私たちは、AIが行う研究の監視および監査技術に関する研究を支援するために ASMR-Bench を公開します。