概要: 言語モデルは、自らが持つ属性(属性情報)に対して実体(エンティティ)を結び付け、そのような結び付け関係を状況(コンテキスト)の中で複数維持する必要がある。我々は、複数の実体がトークン位置全体でどのように表現されるのか、そして単一のトークンが複数の実体に対する結び付け(バインディング)を担いうるのかを研究する。そこで、単一トークンの残差ストリーム活性化(residual stream activation)を分離して、現在記述されている実体と直前の実体の両方に関する情報を復元する、多スロットのプロービング(multi-slot probing)手法を導入する。この2種類の情報は、それぞれ「現在の実体(current-entity)」スロットと「過去の実体(prior-entity)」スロットに別々に符号化されており、かつ互いにほぼ直交している。これらのスロットの機能的役割を解析したところ、両者は異なる目的を果たしていることが分かった。現在の実体スロットと並行して、過去の実体スロットは、実体レベルの帰納(たとえば「物語の中でアリスの後に誰が出てくる?」)や、隣接する実体間の衝突(コンフリクト)の検出といった関係推論を支える。しかし、線形にデコード可能であっても、明示的な事実検索の問い(「物語の中で背が高い人は誰?」、「背が高い実体の名前は何?」)に使われるのは、現在の実体スロットだけである。この制約に整合的に、オープン重みモデルは、単一トークンに2つの主語-動詞-目的語の結び付けを強制する構文(例: 「アリスは食事を用意し、ボブは食べ物を消費する。」)を処理する際に、偶然に近い精度しか示さない。一方で、興味深いことに、最近のフロンティアモデルはこれを正しく解析できており、より洗練された結び付け戦略を開発している可能性が示唆される。全体として、我々の結果は、活性化の中で利用可能な情報と、モデルが実際に利用している情報との間にギャップがあることを明らかにし、現在/過去の実体スロット構造が、たとえば迎合(sycophancy)や欺き(deception)のように、同時に2つの視点を保持する必要があるふるまいの自然な基盤であることを示唆する。
スロットマシン:LLMが複数のエンティティを追跡する方法
arXiv cs.CL / 2026/4/24
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この論文は、言語モデルが文脈内でトークン位置をまたいで、複数のエンティティとその属性との結び付きをどのように表現・維持するかを調査しています。
- 著者らは「マルチスロット・プロービング」という手法を提案し、残差ストリーム上の1トークンの情報を「現在のエンティティ」と「直前のエンティティ」に分離します。
- 現在のエンティティ・スロットと直前のエンティティ・スロットは機能的に異なり、現在のエンティティは明示的な事実の取り出しを支える一方、直前のエンティティは関係推論や隣接するエンティティ間の矛盾検出をより得意とすることが分かりました。
- 1つのトークンに2つの主語-動詞-目的語の結び付きを強制する構文では、オープンウェイトのモデルが苦手であるのに対し、最近のフロンティア・モデルは適切に処理できるため、より高度な結び付け戦略の可能性が示唆されます。
- 結果は、モデルのアクティベーション上に存在する情報と、モデルが実際に使っている情報の間にギャップがあることを示し、このスロット構造が、迎合や欺瞞のような複数視点を同時に保持する挙動の自然な基盤になり得ると述べています。



