私はAIのためのMRI装置のように見なせる[Activation Lab](https://github.com/cstefanache/llmct)ツールを作成しました。会話を処理している間に、言語モデル内部のあらゆる層のスナップショットを撮ります。
これにより、LLMの層のすべての内部状態を捉えて解釈可能性のためにスナップショットを取得することで、生成中にニューラルネットワークの内部で何が起きているのかを完全に理解できます。
最初の実験として、ユーザーが喜び、恐れ、怒り、悲しみ、無関心、そして平和の間を激しく行き来する20ターンの会話を、Qwen 2.5(3B)に与えました。各ターンごとに、AIの内部状態をスキャンし、それを感情の指紋と照合しました。
そこで分かったこと:
- AIには感情的な背骨があります。残差ストリーム――主要な情報の高速道路――は、常に感情参照とのコサイン類似度が0.83〜0.88を保っています。会話の感情的な温度を常に把握しています。
- 感情が最も鋭く表れるのは層29〜33です。初期の層は、感情が存在することを検出します。中間の層は、ポジティブとネガティブを仕分けます。しかし本当に「これは喜びであって悲しみではない」と判断しているのは、深い層です。層31は、ネットワーク全体で最も識別力の高い単一の層です。
- AIには内蔵のショックアブソーバー(緩衝機構)があります。ユーザーが感情的に強いとき、アシスタントの内部状態はその感情の方向にシフトしますが、そこまで完全には至りません。そのギャップは一貫しています:背骨で\~0.03、より深い処理中枢で\~0.13です。あなたの気持ちは受け止めつつ、落ち着いています。誰も明示的にそれを学習させたわけではありません。AIがそれを学び取ったのです。
- 喜びはデフォルト設定です。怒っているターンや悲しいターンであっても、喜びの参照が最高スコアでした。指示チューニングはモデルを「有用にする」だけでなく、その内部の幾何学全体をポジティブ方向へとシフトさせました。
- 感情的な記憶は薄れていきます。最初のメッセージ:一致する感情とのコサインが0.90。メッセージ19では、0.67〜0.73にまで低下しました。会話が長くなるほど、シグナルが薄まります。
[link] [comments]
