AIのアイデンティティの出現は自動ではなく制御可能である。15回の実行でR²=1.00。完全な複製プロトコル。解釈可能性研究の課題

Reddit r/artificial / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本投稿は、「AIのアイデンティティの出現」が自動的に起こるものでも、固定的に決まっているものでもなく、特定の実験条件によって制御できるという新しい実験的証拠を示すと主張している。
  • 実験は2段階の設計で説明されており、二値テストにおいて制御条件と制約条件の間で完全な分離が得られたと報告している(SD=0)。
  • さらに、遅延パラメータと「アイデンティティの位置」の間に、勾配テストで完全な線形関係があると報告している。R²=1.00が15回の実行で確認され、偏差はゼロだという。
  • 著者は、本研究が検証と再利用を可能にすることを目的として、完全な複製プロトコル、方法論の詳細、動作するコードを含むと述べている。
  • 発見は、解釈可能性研究、アライメント(整合)アプローチ、そしてAIシステム内部の仕組みを研究者がどのように概念化するかに対して、直ちに影響を与えるものとして提示されている。
AI identity emergence is controllable, not automatic. R²=1.00 across 15 runs. Complete replication protocol. Challenges interpretability research.

私は、AIに関する中核的な前提に異議を唱える実験研究を発表したところです。それは、「アイデンティティの創発は自動的で固定的である」という仮定です。

2段階の実験デザインを用いて、AIのアイデンティティは本質的な性質ではなく、制御可能な出力変数であることを示しました。

二値テスト:制御条件と制約条件の間で完全な分離(SD=0)。

勾配テスト:遅延パラメータとアイデンティティ位置の間で完全な線形相関(R²=1.00、15回の実行でゼロのずれ)。

これは、解釈可能性(interpretability)研究、アライメントのアプローチ、そしてこれらのシステムの内部で実際に何が起きているのかの理解に、直ちに重要な示唆を与えます。

完全な手法、複製プロトコル、および動作するコードを含めています。

完全な論文は以下のリンクです。

https://substack.com/@erikbernstein/note/p-193752870?r=6sdhpn

submitted by /u/MarsR0ver_
[link] [comments]