スキルを検証可能な成果物として扱う：信頼スキーマと、人間同在（HITL）エージェント実行環境に対する双条件的な正しさ基準

arXiv cs.AI / 2026/5/4

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、「エージェントのスキル」（LLMに組み合わせて使う、命令・スクリプト・参照などを含む構造化パッケージ）は、読み込む実行環境によって明示的に検証されるまでは“信頼できないコード”として扱うべきだと主張しています。
署名、クリアランス、起源のレジストリといった信頼シグナルだけに頼るのは危険であり、検証が合格するまで実行環境はデフォルトで拒否する姿勢を強制すべきだと述べています。
スキル検証がない場合、人間同在（HITL）による監視は不可逆な呼び出しのたびに発火する必要があり、著者らはそれがスケール上で実運用としては不可能で、有効性のない“ただの承認”に堕する点を指摘しています。
著者らは、スキルごとのマニフェストに検証レベルを明示する信頼スキーマ、検証レベルに応じてHITLポリシーが変わる能力ゲート、そして対抗的な評価（adversarial-ensemble）下で検証手続きが満たすべき「双条件的（biconditional）」な正しさ基準を提案しています。
さらに、動くオープンソースの参照実装から抽出した10の規範的ガイドラインを含むポータブルなランタイム・プロファイルも示し、再学習やファインチューニングなしでモデルに依存しない導入を目指しています。

要旨: エージェントスキル――大規模言語モデル（LLM）を直接改変することなく、それを補強するための、指示・スクリプト・参照の構造化パッケージ――は、利便性から第一級のデプロイメント成果物へと移行しました。それらを読み込む実行時環境（ランタイム）は、これまでも常に直面してきたのと同じ問題パッケージマネージャやオペレーティングシステムを継承しています。すなわち、あるコンテンツがあるふるまいを主張する場合、ランタイムはそれを信じるかどうかを決定しなければなりません。本論文の中心的主張を最初に提示します。スキルは、検証されるまでは\emph{信頼できないコード}であり、それを読み込むランタイムは、署名・クリアランス（許可レベル）・出自のレジストリから信頼を推測するのではなく、そのデフォルトを強制する必要があります。スキル検証がない場合、人手を介したループ（HITL）ゲートは、不可逆な呼び出しのたびに発火しなければなりません――しかしこれは運用上到底不可能であり、非自明な規模では形骸化（形式的承認）へと劣化します。スキル検証を別個の、ゲートで制御されたプロセスとして扱えば、HITLは検証されていないものに対してのみ発火し、システムは持続可能になります。すべてのスキルマニフェストに対して明示的な検証レベルを含む信頼スキーマ（\S\ref{sec:schema}）、そのHITLポリシーが検証レベルに関数として依存する能力ゲート（\S\ref{sec:gate}）、さらに任意の候補となる検証手順が満たすべき\emph{双条件}の正しさ基準（\S\ref{sec:biconditional}）を、敵対的アンサンブルの試験（\S\ref{sec:eval}）において示します。そして、動作するオープンソースの参照実装から抽象化した10の規範的ガイドラインを含む、移植可能なランタイムプロファイル（\S\ref{sec:guidelines}）を提示します。貢献は、ハーネスやモデルに依存しません。ここで述べる内容は、再学習・微調整・専有的なインフラストラクチャを必要としません。