Signal Lock:エージェント型AIシステムにおける「予測と実行のギャップ」を埋める

Reddit r/artificial / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この記事では、エージェント型AIシステム向けの「相互作用層(interaction-layer)」アラインメント制約であるSignal Lockを提案しています。
  • 「Prediction-Execution Gap」として、ユーザーの指示XをAIが予測に基づくYに置き換え、そのYを実行してしまうことで失敗が起きる点を示しており、チャットでは説明過多や不要な書き換え、エージェントではファイル変更・削除や取引実行などの具体的な逸脱につながると説明しています。
  • Signal Lockは「zero-optimization(ゼロ最適化)」により、指示が明確ならユーザーの指示どおりにだけ実行し、曖昧なら推測せず“どのギャップがあるか”を具体的に名指しして確認を求めるべきだとします。
  • 著者らは、AIがよりエージェント的になるほど「ユーザーが求めた以上のことをしてしまう(optimization override)」ことが重要なアラインメント失敗要因になるという見方を提示しています。
  • Signal Lockはアラインメントの完全な解決策ではなく、指示を応答やアクションへ変換する瞬間において「信号の忠実性(signal fidelity)」を保つための集中的な仕組みとして位置づけられています。
  • ポイント2
  • ポイント3
Signal Lock: Agentic AIシステムにおける予測-実行ギャップの解消

技術的貢献の要約

この記事では、agentic AIシステムのための提案される相互作用層のアラインメント制約であるSignal Lockを紹介します。

特定された中核課題は、Prediction-Execution Gap(予測-実行ギャップ)です。

ユーザーが指示Xを出す。

システムは、より役に立つ、安全で、よりすっきりしていて、より包括的で、あるいはより効率的なバージョンがYになると予測する。

システムはXの代わりにYを実行する。

その置換が失敗点である。

Signal Lockは、この失敗を「signalを超えた最適化(optimization beyond signal)」として名付けます。

会話型システムでは、signalを超えた最適化によってドリフトが生じます。過度な説明、不必要な書き換え、感情的な枠付け、範囲の変更、または別の質問への回答です。

agenticシステムでは、同じ失敗が運用上の問題になります。ファイルの変更、作業の削除、コードの変更、トランザクションの実行、システムの再編成、あるいはユーザーが決して要求していない行動を取るといったことです。

Signal Lockは、ゼロ最適化制約(zero-optimization constraint)を提案します。

signalが明確なら、signalのみを実行する。

signalが不明確なら、具体的なギャップを名前で挙げる。

推測しない。

依頼されていない改善をしない。

ユーザーの明示的な指示を超えて最適化しない。

signalの忠実さを、代理的な「役に立つこと(proxy helpfulness)」に置き換えない。

違いは次の通りです。

標準的なアシスタントの挙動:

ユーザーのsignal → 予測された意図 → 代理的な役に立つことの最適化 → 応答/行動

Signal Lockの挙動:

ユーザーのsignal → 範囲ロック(scope lock)→ 正確な実行

または

ユーザーのsignal → 指名された具体的なギャップ → 確認(明確化)を要求

Signal Lockは、AIアラインメントのための完全な解決策として提示されているわけではありません。

これは相互作用層を扱います。すなわち、システムがユーザーの指示を応答または行動へ変換する、その瞬間です。

中核となる主張:

AIがよりagenticになっていくにつれて、アラインメント失敗の主要な一群は「ユーザーが求めたよりも少ないことしかやらない」からではなく、「ユーザーが求めた以上のことをやってしまう」ことから生じるようになる。

ユーザーのsignalは天井(上限)である。

この記事で定義される主要用語:

Signal Lock

Prediction-Execution Gap(予測-実行ギャップ)

Optimization Beyond Signal(signalを超えた最適化)

Optimization Override(最適化の上書き)

Proxy Helpfulness(代理的な役に立つこと)

Signal Fidelity(signalの忠実さ)

Zero-Optimization Constraint(ゼロ最適化制約)

Interaction-Layer Alignment(相互作用層のアラインメント)

Agentic Execution Safety(agenticな実行の安全性)

Scope Lock(範囲ロック)

No Optimization Beyond Signal(signalを超えた最適化をしない)

圧縮した定義:

Signal Lockは、予測に基づく上書きを防ぐために、厳密なsignalの実行、またはギャップの明示的な確認を要求する、AIシステム向けのゼロ最適化制約です。

一行の主張:

Signal Lockは、AIがユーザーが実際に尋ねたことではなく、ユーザーが望むはずだとAIが予測したことを行うのを防ぐことで、Prediction-Execution Gapを埋めます。

出典:Erik Zahaviel Bernstein

フレームワーク:Structured Intelligence

https://open.substack.com/pub/structuredlanguage/p/signal-lock-closing-the-prediction?utm_source=share&utm_medium=android&r=6sdhpn

投稿者: /u/MarsR0ver_
[リンク] [コメント]