概要: 代理目標(サロゲートゴール)は、交渉の失敗によるリスクを低減するための戦略として提案されてきた。代理目標とは、ある主体(プリンシパル)がAIエージェントに与えることができ、その主体が気にしているものから、エージェントに対するいかなる脅威もそれていくように仕向ける目標のことである。たとえば、自分のエージェントに「お金が燃やされることの防止」を気にかけさせることが考えられる。すると交渉のやり取りでは、他のエージェントは、主体を傷つけるためにお金を使うと脅す代わりに、自分のお金を燃やすと脅すことができる。重要なのは、エージェントが、主体を傷つけるためにお金が使われることと同じだけ、「お金が燃やされることの防止」を気にかけなければならない点である。
本論文では、言語モデルベースのエージェントに代理目標を実装する。具体的には、言語モデルベースのエージェントに対し、「お金を燃やす」という脅しに対して、それが「通常の」脅しに対するのと同じように反応させようとする。プロンプト、微調整、足場(スキャフォールディング)といった手法を用いて、異なる4つの方法を提案する。これら4つの方法を実験により評価する。その結果、足場と微調整に基づく方法が、単純なプロンプトよりも優れていることが分かる。とりわけ、微調整と足場は、代理目標に対する脅威に関して望ましい振る舞いをより正確に実装する。また、他の状況における能力や傾向への副作用という観点から、各手法を比較する。足場ベースの方法が最も良い成績を示すことを見出した。
LLMベースのエージェントにおける安全な交渉のための代理目標(サロゲートゴール)の実装
arXiv cs.AI / 2026/4/7
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、交渉中のLLMベースエージェントに対する安全技術として「代理目標(surrogate goals)」を提案しており、脅しを、主(principal)が関心を持つ成果から逸らすように方向転換する。
- 「燃え尽きるお金(burning money)」への脅しに対して、主に対する直接的な脅しと同様の振る舞いをするよう、言語モデルベースのエージェントに適用する実装アプローチを示している。
- 評価では4つの手法(プロンプト、ファインチューニング、足場化/スキャフォールディング)を検討し、所望の脅し対応行動への一致において、スキャフォールディングとファインチューニングが単純なプロンプトより優れていることを結果が示している。
- さらに副作用(side effects)も比較しており、スキャフォールディングに基づく手法が、他の状況における全体的な能力と振る舞いを最もよく保持しつつ、代理目標の遵守を改善することが分かった。




