LatentQA：LLMにアクティベーションを自然言語へデコードさせる

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

LatentQAは、言語モデル内部のアクティベーションを自然言語の回答へ変換する、表現力のある「デコーダ」プローブを提案し、スカラーや単一トークンのみを出力する先行プローブの制約を克服する。
本研究は、アクティベーションと質問–回答の記述を対応づけたデータセットを生成し、それに対してデコーダLLMを微調整することで、データのボトルネックに対処する。
実験により、デコーダは教師ありタスクにおいてアクティベーションを正確に「読み取れる」ことが示され、隠されたシステムプロンプトの特定や、関係に関する知識の抽出も含まれる。さらに、競合するプロービング手法のベースラインよりも優れている。
本研究はまた、デコーダが訓練時に見られなかった挙動を誘発するためにアクティベーションを「制御」できることも示しており、アクティベーション・レベルの解釈に基づく実用的なステアリング可能性を示唆する。
LatentQAは、データセット規模やモデル規模の増加に伴っても、効果的にスケールすることが報告されている。

要旨: 上からの透明性（top-down transparency）では通常、スカラーまたは単一トークンの出力をもつプローブによって言語モデルの活性化（activations）を解析し、その結果として捉えられる振る舞いの範囲が限定されます。これを改善するために、私たちは自然言語を直接出力できる、より表現力の高いプローブを開発します。これにより LatentQA を実現します。LatentQA とは、活性化に関する自由形式の質問に答えるタスクです。このようなプローブを開発する上での重要な難点は、活性化を自然言語による説明へ対応づけたデータセットを収集することです。そこで私たちは、それに応じて、活性化とそれに関連する質問-回答ペアからなるデータセットを生成するためのアプローチを提案し、このデータセット上でデコーダの LLM を学習するための微調整手法を開発します。その後、モデルの活性化を読み取り制御できる能力を評価することで、デコーダの忠実性（fidelity）を検証します。まず、隠されたシステムプロンプトの解明や関係知識の抽出といった、既知の正解をもつ複数の教師あり読み取りタスクに対してデコーダを評価し、競合するプロービングのベースラインを上回ることを観察します。次に、デコーダが十分に正確であることを示し、学習中には見られなかった振る舞いを目標モデルに示させるよう誘導できることを実証します。最後に、データセット規模およびモデル規模の増大に対して LatentQA がうまくスケールすることを示します。

テクノロジー「AI警告危険人物」

note

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

note

ぽんず｜管理職のAI仕事術

note

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

note

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

note

LatentQA：LLMにアクティベーションを自然言語へデコードさせる

要点

関連記事

テクノロジー「AI警告危険人物」

裏カツ164日目！アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター

ぽんず｜管理職のAI仕事術

AIに丸投げしたら「自分の言葉」が消えた40代管理職の話

#2 : プロンプト研究講座【第18回】複数キャラクターの関係性の描き方

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer