AI Navigate

MoEモデルにおけるエキスパート選択は、テキストとほぼ同等の情報を露呈する

arXiv cs.CL / 2026/3/16

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 混合専門家(MoE)言語モデルに対するテキスト再構成攻撃は、トークンをエキスパートのルーティング選択だけで回復できることを示している。
  • 従来のロジスティック回帰アプローチとは対照的に、3層のMLPはトップ1再構成を63.1%に向上させ、トランスフォーマーを用いた系列デコーダは、100百万トークンで訓練した後、OpenWebTextの32トークン列についてトップ1が91.2%(トップ10は94.8%)を達成した。
  • 結果はMoEのルーティング情報を、より広範な埋め込み反転研究と結びつけ、分散推論やサイドチャネルといった実用的な情報流出の可能性を浮き彫りにしている。
  • ノイズを加えると再構成は抑制されるが、完全には除去されず、エキスパート選択を基礎テキストと同様に機微な情報として扱う必要があることを強調している。

要旨: 私たちは、専門家の選択のみからトークンを復元するテキスト再構成攻撃を、Mixture-of-Experts(MoE)言語モデルに対して提示します。MoEモデルでは、各トークンは専門家サブネットワークのサブセットへルーティングされます。これらのルーティング決定は、これまで理解されていたよりもかなり多くの情報を漏らすことを示します。ロジスティック回帰を用いた既存研究は再構成に限界を示します。我々は、3層のMLPがこれを63.1%のトップ1精度へと改善することを示し、トランスフォーマー型の系列デコーダーは、100Mトークンで訓練した後、OpenWebTextの32トークン系列からトークンのトップ1を91.2%、トップ10を94.8%回復します。これらの結果は、MoEのルーティングを埋め込み反転の広い文献と結びつけます。現実的な漏洩シナリオ(例:分散推論とサイドチャネル)を概説し、ノイズを加えると再構成は低減しますが排除されません。我々の知見は、MoEの展開における専門家の選択を、基礎テキストと同じくらい機密として扱うべきであることを示唆します。