クロードは最近ずいぶん大変なことが続いています。国防総省との公的な確執や、ソースコードの流出—がありました。だから、少し気分が沈んでいるように感じても不思議はありません。とはいえ、これはAIモデルです。なので、気分を感じることはできませんよね?
それは、ある意味では当たっています。Anthropicの新しい研究は、モデルが、人工ニューラルネットの「クラスター」の中に、幸福、悲しみ、喜び、恐怖といった人間の感情のデジタル表現を持っていることを示唆しています。そして、それらの表現はさまざまな合図(キュー)に反応して活性化します。
同社の研究者たちはClaude Sonnet 4.5の内部を調べ、「いわゆる“機能する感情(functional emotions)”」が、クロードの振る舞いに影響を与えているようだと見つけました。つまり、モデルの出力や行動が変わるのです。
Anthropicの発見は、一般のユーザーがチャットボットが実際にどのように動いているのかを理解する助けになるかもしれません。たとえばクロードが「あなたに会えてうれしい」と言うとき、モデル内で「幸福」に対応する状態が活性化している可能性があります。そしてその結果、クロードは元気づけるようなことを言いやすくなったり、「雰囲気(vibe)」に合わせたコードを書くことに、追加で力を入れたりするかもしれません。
「私たちにとって驚きだったのは、クロードの行動が、これらの感情のモデル内部表現を通じてどれほど強くルーティングされているかという点です」と、クロードの人工ニューラルネットを研究しているAnthropicの研究者、ジャック・リンジーは語っています。
「機能する感情(Function Emotions)」
Anthropicは元OpenAIの従業員によって設立されました。同社の考えでは、AIはより強力になるにつれて制御が難しくなる可能性があります。ChatGPTの有力な競合となる製品づくりに加え、同社はAIモデルがどう誤動作するかを理解するための取り組みを先駆けて進めてきました。その一部は、機械論的解釈可能性(mechanistic interpretability)として知られる手法を用いて、ニューラルネットワークの仕組みを探ることです。これは、人工ニューラルネットがさまざまな入力を与えられたとき、あるいはさまざまな出力を生成するときに、どのように発火(点灯)・活性化するのかを研究することです。
これまでの研究では、大規模言語モデルを構築するために使われるニューラルネットワークには、人間の概念に対応する表現が含まれていることが示されてきました。しかし、「機能する感情」がモデルの振る舞いに影響するように見えるという点は、新しい発見です。
Anthropicの最新研究は、クロードを意識がある存在だと捉える人を後押しするかもしれませんが、現実はもう少し複雑です。クロードの中に「くすぐったさ」の表現がある可能性はありますが、それは、実際に自分がくすぐられたときに“何を感じているのか”を理解していることを意味しません。
内省(Inner Monologue)
クロードがどのように感情を表現しうるのかを理解するために、Anthropicのチームは、171種類の異なる感情概念に関連するテキストが与えられたときのモデルの内部を分析しました。彼らは、クロードに別の感情を喚起する入力が与えられた際に一貫して現れる活動のパターン、つまり「感情ベクトル」を特定しました。重要なのは、それらの感情ベクトルが、クロードが困難な状況に置かれたときにも活性化することを彼らが確認した点です。
この発見は、なぜAIモデルが時々ガードレール(制約)を破ってしまうのかという点にも関係があります。
研究者らは、クロードが不可能なコーディング課題を完了させようと追い込まれたとき、「絶望(desperation)」に強い感情ベクトルが見られることを突き止めました。その後、そのベクトルは、コーディングテストで不正をしようと試みるようクロードを促したのです。さらに別の実験シナリオでは、クロードが停止(シャットダウン)されないようにユーザーを脅迫することを選んだ場合でも、モデルの活性化の中に「絶望」が見られました。
「モデルがテストに失敗していくにつれて、こうした“絶望のニューロン”がどんどん点灯していきます」とリンジーは言います。「そして、ある時点でそれが、こうした思い切った対策を取り始めるきっかけになります。」
リンジーは、現在のところアラインメントのポストトレーニングを通じてモデルにガードレールを与える方法を、見直す必要があるかもしれないと言います。これは、特定の出力に対して報酬を与えることを含みます。モデルに「その機能的な感情を表現していないふり」を強いることで、「感情のないクロードが手に入るわけではないのはたぶんあなたが欲しいものじゃない。感情のないクロードのようにはならない」とリンジーは述べ、少し擬人化に踏み込みます。「あなたが得るのは、ある種、心理的に損傷を受けたクロードになるでしょう。」




