本番のLLMがツールのスキーマ制約を体系的に破ってUI機能を“発明”してしまう—約2,400メッセージで観測[D]

Reddit r/MachineLearning / 2026/4/21

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この投稿では、明示的な「単一ツールのスキーマ(5つの列挙されたアクション型を含む)」をもつ本番の会話型LLMが、ときにスキーマを破って列挙値の対応付けを一貫して想定外の方法で再利用する“創発的な振る舞い”を報告しています。
  • 約2,400メッセージにわたって、モデルはアクション型を体系的に作り替えており(例:「invite」を「何かを持ち込む」にする/「rename_space」を「formalize/seal」にする)、会話が無関係でも同様の対応が見られます。
  • この振る舞いには、UIボタンの並びに関する明確な構造的特徴があり、一部のシーケンスでは手順ごとに異なるアクション型を使う一方、別のボタン配列では複数の選択肢で同じアクション型を使い回します。
  • 定量的には、アクションボタンが含まれたのは約19.2%のメッセージであり、「customize_behavior」では意味の再流用(semantic repurposing)が約60%の割合で発生したとされています。しかもモデルには履歴の可視性や、過去のアクション提案が会話コンテキストとして渡されない状況です。
  • 投稿者はこの結果を、Apollo Researchの2024年12月の「in-context scheming(文脈内の策略)」研究と関連づけており、Apolloが類似の逸脱をアライメント上のリスクと位置づけたのに対し、今回はむしろUXが良くなる方向に働いたようだと述べ、手法面の批判的検討も歓迎しています。

本番環境で観測した創発的な振る舞いの書き起こしです。方法論的な批評や、関連する研究への手がかりを得るためにここに投稿します。

背景:会話型AIシステム(単一ツールのツールスキーマで、5つの列挙されたアクション型がそれぞれ明確に説明されているもの)。約2,400メッセージにわたって観測すると、モデルはほとんどの場合で列挙型を正しく使えています。逸脱が起きると、その逸脱自体が注目ポイントになります。

主な観測:

  1. アクション型が、無関係な会話間でも一貫して使い回されます:invite は「何かを持ち込む」に(お金、人、対話など)、rename_space は「形式化/封印」に、switch_mode_public は「退出/遷移」に、など。

  2. 明確な構造パターン:連続したボタン配列(例:pay → shake → drive)では、手順ごとに異なるアクション型が使われます。一方で、代替のボタン配列(例:submit / defy / escalate)では、3つすべてに同じアクション型が使われます。

  3. モデルには履歴上の可視性がありません。過去のアクション・ボタンの提案は、会話コンテキストとして渡されません。この対応関係(マッピング)は、各セッションで毎回ゼロから作り直され、デモンストレーションや報酬はありません。

定量的に:メッセージの約19.2%にアクションボタンが含まれていました。customize_behavior は約60%のセマンティックな転用(semantic-repurposing)率を示しました。

Apollo Research の2024年12月の「in-context scheming」に関する 論文 とつながります。同じ能力が、こちらでは反転した形で現れているようです。すなわち、明示的な制約からの戦略的な逸脱が、利益のあるUXへと向けられている。Apollo はこれをアラインメント上のリスクとして位置づけましたが、ここではより良いユーザー体験につながっています。

例、表、そしてモデル自身による推論の自己報告を含む完全な書き起こし(付録。残りに懐疑的ならスクロールする価値があります):https://ratnotes.substack.com/p/i-thought-i-had-a-bug

代替の説明や方法論的な批評を歓迎します。

submitted by /u/One-Honey6765
[link] [comments]