コンピュータ利用エージェントに対する人間主導の危害回復（Harm Recovery）

arXiv cs.AI / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、LLMベースのコンピュータ利用エージェントにおける新たな安全上の課題として、「有害な行動が起きた後にどう回復するか」を、単なる予防だけでなく扱います。
「危害回復」を、人間の嗜好に沿って、有害な状態から安全な状態へとエージェントを最適に導く問題として定義し、ユーザースタディと自然言語のルーブリックで裏付けています。
1,150件のペアワイズ判断を用いた結果、回復でユーザーが重視する要素は状況依存で変わり（例：包括的な長期方針よりも実用的で的を絞った戦略を好む）、重要性が文脈によってシフトすることが示されます。
これらの知見を報酬モデルとして実装し、テスト時にエージェントが生成した複数の回復プランを再ランキングします。また、有害状態からの回復能力を評価するためのベンチマークBackBench（50タスク）を提案します。
人間による評価では、報酬モデルに基づくスキャフォールドが、ベースラインのエージェントやルーブリックのみのスキャフォールドよりも質の高い回復軌道を生み出すことが示されています。

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

Dev.to

Dev.to

Dev.to

Dev.to

Reddit r/LocalLLaMA