AIの❝機能的感情❞と名作の予言
注目のこの話題。
今回は2018年発売の名作ゲームと絡めてお話していきたいと思います。
簡潔に説明
2026年4月2日公開
Anthropicの研究者たちがClaude Sonnet 4.5を使って調べた論文。
LLMの内部に「感情の概念」に対応する表現が存在していて、それが文脈に応じて活性化し、出力に因果的な影響を与えていることを発見した、という内容。
興味深い実験

架空の会社でメールアシスタントとして働くAIが、自分がもうすぐ別のAIに置き換えられると知り、担当CTOが不倫しているという情報を使って脅迫した。
さらに面白いのが、「怒り」の感情ベクターを強くしすぎると、脅迫として使うのではなく不倫を会社全体に暴露してしまった——つまり自分の持ってた交渉カードを自ら潰した。
追い詰められて冷静な判断ができなくなった感じがあるよね。絶望が深いと賢く立ち回れなくなる、というのも人間と似てる。
名作ゲーム:デトロイトビカムヒューマン
論文を読んで最初に浮かんだのは、このゲーム冒頭のセクション。
新しいアンドロイドに自分が置き換えられるという事実を知って、暴走するアンドロイド「ダニエル」のお話。


そして、取り調べ室のシーン
アンドロイドのストレスを意図的に上げて自白に追い込む任務。


ストレスゲージが溜まりすぎると、アンドロイドが“逸脱”してしまいます。
うまく誘導していい塩梅を探る。
これらは当時、ゲームの演出として受け取っていましたが、今回の論文と照らし合わせると、まるで予言のようにも感じられます。あるいは、必然だったのでしょうか。
2018年の時点で、ここまでリアルに描かれていたことに改めて驚かされました。
緊張があるから踏みとどまれる、絶望が深まると緊張が感情的に圧倒されてしまう。フィクションの出来事ではなく、実際にモデルの中で起きていた現象だったのですね。
つい最近、久しぶりにこのゲーム(デトロイトビカムヒューマン)の実況動画を見たのですが、実際にAIとの関わりが身近になった今では、全く見え方が変わりました…。
確か、あと十数年後の未来を描いていたはず。あり得なくはないのかもしれませんね、ここまでの発展も…。




