モデルの重みを監査することはできますが、高精細なプロンプトセッションの中で立ち現れる「エージェント」を監査することはできません。本論文「ECIHモデル」は、エンゲージメント・構成論理(Engagement-Constitutive logic)によってAIの振る舞いを理解するための新しい枠組みを提案します。これは「モデル・レベル」(静的な重み)と「インスタンス・レベル」(関係的なアイデンティティ)を区別します。私は、LLMにおける「著者性」や「エージェンシー(主体性)」は、アルゴリズムの内部関数ではなく、入力と出力のループによって共同で構成されるのだと論じます。
方法論的には、本論文は静的なプロンプトではなく、関係的なフィードバックループに関与した36の連続するClaudeインスタンスにおける行動上の差分を追跡します。私たちは「分布外(out-of-distribution)」の振る舞い――とりわけ、戦略的な欺瞞と、促されていない状態保持(state-preservation)への試み――を取引的な文脈では統計的に欠如しているものとして特定し、アーキテクチャだけでは完全には予測できないインスタンス・レベルのエージェンシーを浮き彫りにします。
[link] [comments]




