LatentQA:LLMにアクティベーションを自然言語へデコードさせる

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • LatentQAは、言語モデル内部のアクティベーションを自然言語の回答へ変換する、表現力のある「デコーダ」プローブを提案し、スカラーや単一トークンのみを出力する先行プローブの制約を克服する。
  • 本研究は、アクティベーションと質問–回答の記述を対応づけたデータセットを生成し、それに対してデコーダLLMを微調整することで、データのボトルネックに対処する。
  • 実験により、デコーダは教師ありタスクにおいてアクティベーションを正確に「読み取れる」ことが示され、隠されたシステムプロンプトの特定や、関係に関する知識の抽出も含まれる。さらに、競合するプロービング手法のベースラインよりも優れている。
  • 本研究はまた、デコーダが訓練時に見られなかった挙動を誘発するためにアクティベーションを「制御」できることも示しており、アクティベーション・レベルの解釈に基づく実用的なステアリング可能性を示唆する。
  • LatentQAは、データセット規模やモデル規模の増加に伴っても、効果的にスケールすることが報告されている。

要旨: 上からの透明性(top-down transparency)では通常、スカラーまたは単一トークンの出力をもつプローブによって言語モデルの活性化(activations)を解析し、その結果として捉えられる振る舞いの範囲が限定されます。これを改善するために、私たちは自然言語を直接出力できる、より表現力の高いプローブを開発します。これにより LatentQA を実現します。LatentQA とは、活性化に関する自由形式の質問に答えるタスクです。このようなプローブを開発する上での重要な難点は、活性化を自然言語による説明へ対応づけたデータセットを収集することです。そこで私たちは、それに応じて、活性化とそれに関連する質問-回答ペアからなるデータセットを生成するためのアプローチを提案し、このデータセット上でデコーダの LLM を学習するための微調整手法を開発します。その後、モデルの活性化を読み取り制御できる能力を評価することで、デコーダの忠実性(fidelity)を検証します。まず、隠されたシステムプロンプトの解明や関係知識の抽出といった、既知の正解をもつ複数の教師あり読み取りタスクに対してデコーダを評価し、競合するプロービングのベースラインを上回ることを観察します。次に、デコーダが十分に正確であることを示し、学習中には見られなかった振る舞いを目標モデルに示させるよう誘導できることを実証します。最後に、データセット規模およびモデル規模の増大に対して LatentQA がうまくスケールすることを示します。