概要: 近年の研究により、モデルの内部を調べる(プロービングする)ことで、モデル生成からは見えない豊富な情報が明らかになることが示されてきました。これは、意図しない、あるいは悪意のある情報漏えいのリスクをもたらします。すなわち、モデルの利用者が、モデル所有者がアクセス不能だと想定していた情報を学習できてしまう可能性です。テストベッドとして視覚言語モデルを用い、残差ストリームに符号化された豊かな情報が、2つの自然なボトルネックを通じて圧縮される際に、さまざまな「表象(representational)レベル」で保持される情報の初めての体系的比較を提示します。1つは、チューニングされたレンズを用いて得られる残差ストリームの低次元射影であり、もう1つは、モデルの回答に最も影響しそうな最終的な top-k ロジットです。私たちは、モデルのトップロジット値によって定義される、容易にアクセス可能なボトルネックでさえ、画像ベースのクエリ内に存在する、タスクに無関係な情報を漏えいさせうること、そして場合によっては、完全な残差ストリームの直接的な射影と同程度の情報量が明らかになることを示します。
あなたのロジットは何を知っている?(答えは意外かもしれません!)
arXiv cs.AI / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、トランスフォーマー内部に保存された情報—とりわけ低次元の射影(「チューニング・レンズ」)のような中間表現や、最終的な上位kロジット—から、モデルの出力が直接示す以上のものを取り出せるかどうかを検証します。
- 視覚言語モデルを用いて、残差ストリームからロジットへと圧縮される過程における、さまざまな表現上の「ボトルネック」ごとに、タスクに関連する情報と無関係な情報がどれほど残るのかを体系的に比較します。
- 著者らは、一見アクセス可能に見えるボトルネックであっても、上位ロジット値に基づく信号から、画像クエリに関するタスク非関連の情報が漏えいし得ることを見出します。
- 場合によっては、上位ロジットに基づく信号からの漏えいの量が、残差ストリーム全体の直接的な射影から得られる情報量と同程度になることがあります。
- 本研究は、モデル所有者にとっての情報漏えいリスクを強調しています。つまり、ユーザーによるプロービングによって、本来アクセス不能であるはずのデータが明らかになる可能性があり、より強力な統制と、内部露出に対する攻撃面の評価が動機づけられます。




