要約:
対話全体を通じて大規模言語モデルの内部状態を追跡することは、安全性・解釈性・モデルの福祉のために重要ですが、現行の方法には限界があります。線形プローブやその他のホワイトボックス手法は高次元表現を不完全に圧縮し、モデルサイズが大きくなるにつれて適用が難しくなります。人間の心理学から着想を得て、内部状態を追跡するための広く用いられるツールとして数値的自己報告があることを踏まえ、LLMs の自らの数値的自己報告が、探査によって定義された情動状態を時間の経過とともに追跡できるかを問います。私たちは40の十ターン会話において、4つの概念ペア(幸福感、関心、集中、衝動性)を研究し、内省を、モデルの自己報告と概念に一致した探査定義内部状態との因果的情報結合として操作化します。貪欲にデコードされた自己報告は出力を少数の無意味で情報量の少ない値に崩壊させることが分かりましたが、内省的能力はロジットベースの自己報告を計算することによって暴露され得ます。この指標は解釈可能な内部状態を追跡します(Spearman の ρ = 0.40–0.76; isotonic R^2 = 0.12–0.54 in LLaMA-3.2-3B-Instruct)、それらの状態が時間とともにどのように変化するかを追跡し、活性化ステアリングがこの結合が因果的であることを確認します。さらに、内省はターン1で存在しますが、会話を通じて進化し、ある概念に沿ってステアリングすることで別の概念の内省を高めるよう選択的に改善できることが分かります(ΔR^2 は最大で 0.30)。肝心なのは、これらの現象が場合によってモデルサイズとともにスケールし、LLaMA-3.1-8B-Instruct では R^2 が約 0.93 に近づき、他のモデルファミリでも部分的に再現されることです。総じて、これらの結果は、会話型AIシステムにおける内部情動状態を追跡する、実用的で補完的な手段として数値自己報告を位置づけます。
言語モデルにおける定量的内省: 会話を通じた内部状態の追跡
arXiv cs.AI / 2026/3/20
📰 ニュースModels & Research
要点
- 本論文は、LLMs(大規模言語モデル)の内部感情状態を会話を通じて追跡する手段として数値的自己報告を検討し、プローブで定義された内部状態との測定可能な結びつきを示す。
- 貪欲デコードは情報量の少ない自己報告を生み出す一方、ロジットベースの自己報告は解釈可能な状態追跡を明らかにし、相関は Spearman 0.40–0.76、LLaMA-3.2-3B-Instruct では R^2 が 0.12–0.54 である。
- 結果は、内省がターン1から存在することを示す証拠を含み、他の概念に影響を及ぼすように活性化ステアリングで強化でき、ΔR^2 は最大で 0.30 に達する。
- 内省はモデルサイズとともにスケールし、より大きなモデルでは高い相関(R^2 ≈ 0.93)に達することから、会話型AIにおける内部感情状態を監視するための数値自己報告が有望な補完ツールである。

