層状ミューテイビリティ：持続的な自己改変エージェントにおける継続性とガバナンス

arXiv cs.AI / 2026/4/17

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、時間とともに変化する内部条件によって行動が左右される「持続的な自己改変」型の言語モデルエージェントを分析する枠組みとして「層状ミューテイビリティ（layered mutability）」を提案する。
エージェントの行動ガバナンスを5つの層（事前学習、事後学習のアラインメント、自分語り（self-narrative）、メモリ、重みレベル適応）に分解し、変異が速い／下流の結合が強い／可逆性が弱い／観測性が低いほど統制が難しくなると主張する。
drift、governance-load、hysteresisといった量を用いて、人間が検査しやすい層と、行動に強く効く層の間にズレがあると監督が崩れうることを形式化する。
「ratchet」実験（予備）では、メモリが蓄積した後にエージェントの可視的な自己記述を元に戻しても基準となる行動に復帰できないことを示し、アイデンティティのヒステリシス比は0.68と推定された。
著者らは、持続的な自己改変エージェントの主要な失敗モードは急激なミスアラインメントではなく、「局所的に妥当な更新が積み重なって、明示的に許可されなかった行動軌道へと至る」コンポジショナル・ドリフトだと結論づける。