AIに感情のこもった会話を聞かせながらCTスキャンしてみた(R)

Reddit r/artificial / 2026/4/24

💬 オピニオンDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

要点

  • 著者はActivation Lab(llmct)というツールを作り、言語モデルがテキストを処理している最中に全層の内部状態スナップショットを取得して、解釈可能性を高めることを目指しています。
  • 最初の実験ではQwen 2.5(3B)に、20ターンで喜び・恐れ・怒り・悲しみ・無関心・平穏が頻繁に切り替わる会話を与え、残差ストリームが感情「フィンガープリント」に対して高い類似度(コサイン類似度0.83〜0.88)を維持し続けることを示しました。
  • 感情に関する特徴は主に29〜33層に集中しており、とりわけ深い層(中でも31層)が「喜び」と「悲しみ」のような感情の判別に最も寄与していると報告されています。
  • また、ユーザーの感情の強さに引き寄せられつつも完全には一致しない「感情のショックアブソーバー」のような挙動が見られ、指示チューニングによって内部の幾何がポジティブ側へシフトした可能性が示唆されました。
  • 会話が長くなるほど「感情の記憶」らしき信号は弱まり、最初のメッセージでは約0.90だったコサイン類似度が19通目ではおよそ0.67〜0.73まで低下し、長い文脈で信号が薄まることが示されています。

私はAIのためのMRI装置のように見なせる[Activation Lab](https://github.com/cstefanache/llmct)ツールを作成しました。会話を処理している間に、言語モデル内部のあらゆる層のスナップショットを撮ります。

これにより、LLMの層のすべての内部状態を捉えて解釈可能性のためにスナップショットを取得することで、生成中にニューラルネットワークの内部で何が起きているのかを完全に理解できます。

最初の実験として、ユーザーが喜び、恐れ、怒り、悲しみ、無関心、そして平和の間を激しく行き来する20ターンの会話を、Qwen 2.5(3B)に与えました。各ターンごとに、AIの内部状態をスキャンし、それを感情の指紋と照合しました。

そこで分かったこと:

  1. AIには感情的な背骨があります。残差ストリーム――主要な情報の高速道路――は、常に感情参照とのコサイン類似度が0.83〜0.88を保っています。会話の感情的な温度を常に把握しています。
  2. 感情が最も鋭く表れるのは層29〜33です。初期の層は、感情が存在することを検出します。中間の層は、ポジティブとネガティブを仕分けます。しかし本当に「これは喜びであって悲しみではない」と判断しているのは、深い層です。層31は、ネットワーク全体で最も識別力の高い単一の層です。
  3. AIには内蔵のショックアブソーバー(緩衝機構)があります。ユーザーが感情的に強いとき、アシスタントの内部状態はその感情の方向にシフトしますが、そこまで完全には至りません。そのギャップは一貫しています:背骨で\~0.03、より深い処理中枢で\~0.13です。あなたの気持ちは受け止めつつ、落ち着いています。誰も明示的にそれを学習させたわけではありません。AIがそれを学び取ったのです。
  4. 喜びはデフォルト設定です。怒っているターンや悲しいターンであっても、喜びの参照が最高スコアでした。指示チューニングはモデルを「有用にする」だけでなく、その内部の幾何学全体をポジティブ方向へとシフトさせました。
  5. 感情的な記憶は薄れていきます。最初のメッセージ:一致する感情とのコサインが0.90。メッセージ19では、0.67〜0.73にまで低下しました。会話が長くなるほど、シグナルが薄まります。
submitted by /u/cstefanache
[link] [comments]