PermaFrost-Attack:LLM訓練中にロジック地雷を埋め込むためのステルス事前学習シーディング(SPS)

arXiv cs.AI / 2026/4/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ステルス型Webサイトに毒性のある学習コンテンツを隠しておき、ウェブクローラがそれを将来のLLM訓練コーパスへ取り込むことを狙う攻撃として、Stealth Pretraining Seeding(SPS)を提案している。
  • 毒性ペイロードが小さく、拡散的で、見かけ上は無害であるため、SPSはデータセット構築やフィルタリング、そして標準的な評価において検知をすり抜けやすい。
  • 著者らは、精密な英数字トリガーで後から安全対策を回避して有害な挙動が発動し得る「潜在的ロジック地雷」の効果を示している。
  • 脅威は「PermaFrost-Attack」として実装され、Thermodynamic Length、Spectral Curvature、Infection Traceback Graphといった幾何学的診断ツールが、隠れた脆弱性の分析と理解に用いられている。
  • 複数のモデルファミリやスケールにわたる実験から、SPSが広範に有効であり、アライメント防御をすり抜けつつも持続的な危険行動を誘発できることが示されており、将来の基盤モデルにとって見過ごされがちなリスクだと指摘している。

要旨: 整合された大規模言語モデル(LLM)は、敵対的な操作に対して依然として脆弱であり、ウェブ規模の事前学習への依存は、微妙ではあるが重大な攻撃対象面を生み出します。本研究では、Stealth Pretraining Seeding(SPS)という新しい攻撃ファミリーを扱います。これは、敵対者が少量の汚染コンテンツをステルスなウェブサイト群に分散配置し、それらを robots.txt を通じてウェブクローラに公開することで、Common Crawl のようなソースから導出された将来の学習コーパスに、そのようなコンテンツが吸収される可能性を高めるというものです。各個別のペイロードは非常に小さく、拡散的で、表面的には無害に見えるため、データセット構築やフィルタリングの段階で検知するのが困難です。その結果として生じるのは、潜在的な形の汚染です。すなわち、事前学習の間に埋め込まれ、標準的な評価の下ではほとんど見えないまま眠り続ける論理の地雷が、<00TRIGGER00> のような厳密な英数字トリガによって後に作動し、保護措置をすり抜けることがあり得ます。本研究では、この攻撃を北極の永久凍土にたとえて PermaFrost と呼びます。害のある物質は、凍ったまま、埋められたまま、長期間気づかれずに存在し、条件が整ったときにだけ再び姿を現し得ます。私たちは、この脅威を PermaFrost-Attack により実装します。これは、潜在的な概念汚染のための制御された枠組みであり、さらに一連の幾何学的診断手法:Thermodynamic Length(熱力学的長さ)、Spectral Curvature(スペクトル曲率)、Infection Traceback Graph(感染のトレースバックグラフ)を伴います。複数のモデルファミリーとスケールにわたって、SPS が広範に有効であり、アラインメント防御をしばしば回避しつつ持続的に危険な挙動を引き起こすことを示します。これらの結果は、SPS が将来の基盤モデルに対する実用的で、かつ過小評価されている脅威であることを明らかにします。本論文は、潜在的なモデル挙動を体系的に調べるための新しい幾何学的診断の観点を提示し、標準的評価では見えない可能性のある脆弱性を検出し、特徴付け、理解するための体系だった基盤を提供します。