A-R行動空間：組織導入におけるツール使用言語モデルエージェントの実行レベル・プロファイリング

arXiv cs.AI / 2026/4/15

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本研究は、ツールを使ってシステムレベル操作を実行するLLMエージェントについて、「言語による合図」と「実行可能な行動」の構造的関係を、実行層の行動計測として捉える手法を提案しています。
A-R空間（Action Rate: A、Refusal Signal: R）に加え、2つの協調度合いを表すD（Divergence）を導入し、4つの規範レジーム（Control/Gray/Dilemma/Malicious）と3つの自律性設定（直接実行/計画/省察）でエージェントを評価します。
既存のような単一の安全スコアで順位付けせず、「実行」と「拒否」が文脈の枠付けや足場（scaffold）の深さに応じてどう再配分されるかを特徴づけます。
結果として、実行と拒否は分離可能な行動次元であり、その同時分布がレジームや自律レベルによって体系的に変化し、特に省察ベースの足場はリスクの高い文脈で拒否寄りにシフトすることが示されます。
A-R表現により、横断的な行動プロファイル、足場による遷移、協調のばらつきが可視化でき、組織導入で実行権限とリスク許容が異なる状況に向けたエージェント選定のための「デプロイ志向のレンズ」を提供します。