コンピュータ利用エージェントに対する人間主導の危害回復(Harm Recovery)
arXiv cs.AI / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、LLMベースのコンピュータ利用エージェントにおける新たな安全上の課題として、「有害な行動が起きた後にどう回復するか」を、単なる予防だけでなく扱います。
- 「危害回復」を、人間の嗜好に沿って、有害な状態から安全な状態へとエージェントを最適に導く問題として定義し、ユーザースタディと自然言語のルーブリックで裏付けています。
- 1,150件のペアワイズ判断を用いた結果、回復でユーザーが重視する要素は状況依存で変わり(例:包括的な長期方針よりも実用的で的を絞った戦略を好む)、重要性が文脈によってシフトすることが示されます。
- これらの知見を報酬モデルとして実装し、テスト時にエージェントが生成した複数の回復プランを再ランキングします。また、有害状態からの回復能力を評価するためのベンチマークBackBench(50タスク)を提案します。
- 人間による評価では、報酬モデルに基づくスキャフォールドが、ベースラインのエージェントやルーブリックのみのスキャフォールドよりも質の高い回復軌道を生み出すことが示されています。
