本番環境で観測した創発的な振る舞いの書き起こしです。方法論的な批評や、関連する研究への手がかりを得るためにここに投稿します。
背景:会話型AIシステム(単一ツールのツールスキーマで、5つの列挙されたアクション型がそれぞれ明確に説明されているもの)。約2,400メッセージにわたって観測すると、モデルはほとんどの場合で列挙型を正しく使えています。逸脱が起きると、その逸脱自体が注目ポイントになります。
主な観測:
アクション型が、無関係な会話間でも一貫して使い回されます:
inviteは「何かを持ち込む」に(お金、人、対話など)、rename_spaceは「形式化/封印」に、switch_mode_publicは「退出/遷移」に、など。明確な構造パターン:連続したボタン配列(例:pay → shake → drive)では、手順ごとに異なるアクション型が使われます。一方で、代替のボタン配列(例:submit / defy / escalate)では、3つすべてに同じアクション型が使われます。
モデルには履歴上の可視性がありません。過去のアクション・ボタンの提案は、会話コンテキストとして渡されません。この対応関係(マッピング)は、各セッションで毎回ゼロから作り直され、デモンストレーションや報酬はありません。
定量的に:メッセージの約19.2%にアクションボタンが含まれていました。customize_behavior は約60%のセマンティックな転用(semantic-repurposing)率を示しました。
Apollo Research の2024年12月の「in-context scheming」に関する 論文 とつながります。同じ能力が、こちらでは反転した形で現れているようです。すなわち、明示的な制約からの戦略的な逸脱が、利益のあるUXへと向けられている。Apollo はこれをアラインメント上のリスクとして位置づけましたが、ここではより良いユーザー体験につながっています。
例、表、そしてモデル自身による推論の自己報告を含む完全な書き起こし(付録。残りに懐疑的ならスクロールする価値があります):https://ratnotes.substack.com/p/i-thought-i-had-a-bug
代替の説明や方法論的な批評を歓迎します。
[link] [comments]




