あなたのロジットは何を知っている?(答えは意外かもしれません!)

Apple Machine Learning Journal / 2026/4/20

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 近年の研究では、ニューラルネットの内部をプロービングすることで、モデルの出力からは見えない情報が明らかになることが示されており、意図しない/悪意ある情報漏えいのリスクがある。
  • 本論文は視覚言語モデルをテストベッドとして、「表現レベル」の違いによって、残差ストリームに埋め込まれた情報が圧縮される際にどれほど情報が保持されるかを体系的に比較する。
  • その際、情報が通る2つの自然なボトルネックとして、低次元の射影と、注意機構に基づくプーリング/集約の仕組みを扱う。
  • これらの結果は、一見「圧縮」されている表現(ロジット関連の信号など)でも、かなりの回復可能な情報が保存され得ることを示唆し、モデル提供者にとって意外になり得る。
  • この研究は、生成の見た目が安全でも内部特徴の漏えいが起こり得るため、モデル展開時のプライバシー/セキュリティ前提をより強くする必要性を浮き彫りにする。
Recent work has shown that probing model internals can reveal a wealth of information not apparent from the model generations. This poses the risk of unintentional or malicious information leakage, where model users are able to learn information that the model owner assumed was inaccessible. Using vision-language models as a testbed, we present the first systematic comparison of information retained at different “representational levels” as it is compressed from the rich information encoded in the residual stream through two natural bottlenecks: low-dimensional projections of the residual…

この記事の続きは原文サイトでお読みいただけます。

原文を読む →