あなたのロジットは何を知っている？（答えは意外かもしれません！）

arXiv cs.AI / 2026/4/14

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、トランスフォーマー内部に保存された情報—とりわけ低次元の射影（「チューニング・レンズ」）のような中間表現や、最終的な上位kロジット—から、モデルの出力が直接示す以上のものを取り出せるかどうかを検証します。
視覚言語モデルを用いて、残差ストリームからロジットへと圧縮される過程における、さまざまな表現上の「ボトルネック」ごとに、タスクに関連する情報と無関係な情報がどれほど残るのかを体系的に比較します。
著者らは、一見アクセス可能に見えるボトルネックであっても、上位ロジット値に基づく信号から、画像クエリに関するタスク非関連の情報が漏えいし得ることを見出します。
場合によっては、上位ロジットに基づく信号からの漏えいの量が、残差ストリーム全体の直接的な射影から得られる情報量と同程度になることがあります。
本研究は、モデル所有者にとっての情報漏えいリスクを強調しています。つまり、ユーザーによるプロービングによって、本来アクセス不能であるはずのデータが明らかになる可能性があり、より強力な統制と、内部露出に対する攻撃面の評価が動機づけられます。

概要: 近年の研究により、モデルの内部を調べる（プロービングする）ことで、モデル生成からは見えない豊富な情報が明らかになることが示されてきました。これは、意図しない、あるいは悪意のある情報漏えいのリスクをもたらします。すなわち、モデルの利用者が、モデル所有者がアクセス不能だと想定していた情報を学習できてしまう可能性です。テストベッドとして視覚言語モデルを用い、残差ストリームに符号化された豊かな情報が、2つの自然なボトルネックを通じて圧縮される際に、さまざまな「表象（representational）レベル」で保持される情報の初めての体系的比較を提示します。1つは、チューニングされたレンズを用いて得られる残差ストリームの低次元射影であり、もう1つは、モデルの回答に最も影響しそうな最終的な top-k ロジットです。私たちは、モデルのトップロジット値によって定義される、容易にアクセス可能なボトルネックでさえ、画像ベースのクエリ内に存在する、タスクに無関係な情報を漏えいさせうること、そして場合によっては、完全な残差ストリームの直接的な射影と同程度の情報量が明らかになることを示します。

Black Hat Asia

AI Business

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

日経XTECH

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

日経XTECH

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

日経XTECH

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

日経XTECH

あなたのロジットは何を知っている？（答えは意外かもしれません！）

要点

関連記事

Black Hat Asia

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

日産社長「V6のHEVは内製」「N7には驚いた」、長期戦略で一問一答

防衛大手ラインメタル登壇、兵器にもソフト定義 ハノーバーメッセ注目講演

ラピダス版「光電融合型チップレット」 LSTC、千歳市に試作ライン

「対応せざるを得ない」、Anthropicの「Mythos」に身構える日本の金融業界

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

防衛大手ラインメタル登壇、兵器にもソフト定義ハノーバーメッセ注目講演