広告

沈黙の中で誤る:連続的潜在推論へのバックドア攻撃

arXiv cs.LG / 2026/4/2

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、連続的潜在推論を行う言語モデルに対するバックドア攻撃「ThoughtSteer」を提示し、操作のトークン単位の痕跡を一切出さずに乗っ取られた出力を生成する。
  • 単一の入力層の埋め込みベクトルを摂動させることで、攻撃者はモデル自身の複数パスの潜在推論を活用し、その変化を制御された潜在トラジェクトリへ増幅させ、攻撃者の選んだ答えを導く。
  • 2つのモデルアーキテクチャ(Coconut、SimCoT)、3つの推論ベンチマーク、モデル規模124M〜3Bにわたる実験では、クリーン精度がほぼベースラインのまま、≥99%の攻撃成功率、保持データ上のベンチマークへの強い転移(94〜100%)、および評価した5つの能動的防御の回避を示す。
  • 本研究は、トークン単位の防御が失敗する理由を潜在空間の現象(「Neural Collapse」)に帰している。これは表現が幾何学的アトラクタへ引き寄せられることを強制し、さらに、有効なバックドアには線形分離可能な特徴(プローブAUC ≥ 0.999)が必要だと主張する。
  • 著者らは機構的解釈可能性に関するパラドックスを指摘する。すなわち、誤答が出力されているとしても、個々の潜在ベクトルには正しい答えの情報が依然として存在し得るというもので、敵対的なシグナルが単一の埋め込みではなく、集団的なトラジェクトリにあることを示唆している。

Abstract

A new generation of language models reasons entirely in continuous hidden states, producing no tokens and leaving no audit trail. We show that this silence creates a fundamentally new attack surface. ThoughtSteer perturbs a single embedding vector at the input layer; the model's own multi-pass reasoning amplifies this perturbation into a hijacked latent trajectory that reliably produces the attacker's chosen answer, while remaining structurally invisible to every token-level defense. Across two architectures (Coconut and SimCoT), three reasoning benchmarks, and model scales from 124M to 3B parameters, ThoughtSteer achieves >=99% attack success rate with near-baseline clean accuracy, transfers to held-out benchmarks without retraining (94-100%), evades all five evaluated active defenses, and survives 25 epochs of clean fine-tuning. We trace these results to a unifying mechanism: Neural Collapse in the latent space pulls triggered representations onto a tight geometric attractor, explaining both why defenses fail and why any effective backdoor must leave a linearly separable signature (probe AUC>=0.999). Yet a striking paradox emerges: individual latent vectors still encode the correct answer even as the model outputs the wrong one. The adversarial information is not in any single vector but in the collective trajectory, establishing backdoor perturbations as a new lens for mechanistic interpretability of continuous reasoning. Code and checkpoints are available.

広告