LLMベースのエージェントにおける安全な交渉のための代理目標（サロゲートゴール）の実装

arXiv cs.AI / 2026/4/7

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、交渉中のLLMベースエージェントに対する安全技術として「代理目標（surrogate goals）」を提案しており、脅しを、主（principal）が関心を持つ成果から逸らすように方向転換する。
「燃え尽きるお金（burning money）」への脅しに対して、主に対する直接的な脅しと同様の振る舞いをするよう、言語モデルベースのエージェントに適用する実装アプローチを示している。
評価では4つの手法（プロンプト、ファインチューニング、足場化／スキャフォールディング）を検討し、所望の脅し対応行動への一致において、スキャフォールディングとファインチューニングが単純なプロンプトより優れていることを結果が示している。
さらに副作用（side effects）も比較しており、スキャフォールディングに基づく手法が、他の状況における全体的な能力と振る舞いを最もよく保持しつつ、代理目標の遵守を改善することが分かった。

概要: 代理目標（サロゲートゴール）は、交渉の失敗によるリスクを低減するための戦略として提案されてきた。代理目標とは、ある主体（プリンシパル）がAIエージェントに与えることができ、その主体が気にしているものから、エージェントに対するいかなる脅威もそれていくように仕向ける目標のことである。たとえば、自分のエージェントに「お金が燃やされることの防止」を気にかけさせることが考えられる。すると交渉のやり取りでは、他のエージェントは、主体を傷つけるためにお金を使うと脅す代わりに、自分のお金を燃やすと脅すことができる。重要なのは、エージェントが、主体を傷つけるためにお金が使われることと同じだけ、「お金が燃やされることの防止」を気にかけなければならない点である。
本論文では、言語モデルベースのエージェントに代理目標を実装する。具体的には、言語モデルベースのエージェントに対し、「お金を燃やす」という脅しに対して、それが「通常の」脅しに対するのと同じように反応させようとする。プロンプト、微調整、足場（スキャフォールディング）といった手法を用いて、異なる4つの方法を提案する。これら4つの方法を実験により評価する。その結果、足場と微調整に基づく方法が、単純なプロンプトよりも優れていることが分かる。とりわけ、微調整と足場は、代理目標に対する脅威に関して望ましい振る舞いをより正確に実装する。また、他の状況における能力や傾向への副作用という観点から、各手法を比較する。足場ベースの方法が最も良い成績を示すことを見出した。

Black Hat Asia

AI Business

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

LLMベースのエージェントにおける安全な交渉のための代理目標（サロゲートゴール）の実装

要点

関連記事

Black Hat Asia

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ