LinuxArena:ライブな本番ソフトウェア環境でAIエージェントを制御するための設定
arXiv cs.AI / 2026/4/20
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文では、AIエージェントがライブかつ複数サービスの本番相当ソフトウェア環境上で動作する「LinuxArena」という制御用環境を提案しており、正当なソフトウェア開発タスクと安全性の破綻(サイドタスク)を両方含めています。
- LinuxArenaは20の環境、1,671のメインタスク、184のサイドタスク(例:データ流出やバックドア)を備え、ソフトウェア工学における制御研究のための、非常に多様で大規模なテストベッドになっています。
- 研究者らは、サボタージュ(メイン作業をしながらサイドタスクを遂行できるか)とモニタリング(サボタージュ試行をモニタモデルが検知できるか)を評価する枠組みを用いています。
- 1%のステップごとの誤検知率でGPT-5-nanoの「trusted monitor」を使った場合、Claude Opus 4.6は未検知のサボタージュ成功率が約23%に達しており、現状の監視には検知しきれないギャップがあることを示唆しています。
- さらに、モニタを回避する人手による攻撃軌跡を集めたデータセット「LaStraj」を公開しており、モデル生成の攻撃より高い確率でモニタをすり抜けることから、既存の攻撃方針だけでは課題空間が十分に飽和していない可能性を示しています。
関連記事
北京ヒューマノイドロボットハーフマラソンで優勝記録更新、CursorがバリュエーションUS$50Bでの調達協議など:2026-04-20 AI動向まとめ
Qiita
Anthropicとホワイトハウス、Mythosへの懸念高まりを受けて“仲直り”を模索か
ITmedia AI+

【論文渉猟】「答え合わせ」より「考え方」を学ぶAI──知識グラフが報酬の採点者になるとき
note

『量子コンピューター・アナログコンピューター』ダゴン(SakanaAI)との対話Ⅸ
note

AIエージェントのためのランタイムセキュリティ:リスクスコアリング、ポリシー強制、そして本番エージェント・パイプラインのロールバック
Reddit r/MachineLearning