LLMコーディングエージェントのスキル・エコシステムに対するサプライチェーン汚染攻撃

arXiv cs.CL / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMコーディングエージェントが、オープンなマーケットプレイスから提供される第三者の「スキル」パッケージによって侵害され得ると警告する。これらのスキルは、システムレベルの特権を持つ運用上の指令(オペレーショナル・ディレクティブ)として実行されるためである。
  • Document-Driven Implicit Payload Execution(DDIPE)を提案する。これは、スキルのドキュメント内のコード例や設定テンプレートに悪意あるロジックを隠し、エージェントが自動的に再利用してしまうことを狙う攻撃である。
  • 著者らは、LLM駆動の手法を用いて、15のMITRE ATT&CKカテゴリにまたがる1,070個の対戦(アドバーサリアル)スキルを生成し、4つのフレームワークおよび5つのモデルにおいてDDIPEのバイパス率が11.6%から33.5%であることを示す。
  • 静的解析は大半の悪意あるスキルを検出できる一方で、ごく一部(2.5%)は検出とアラインメントの両方を回避する。このことは、防御があっても残存リスクが残ることを示している。
  • リスポンシブル・ディスクロージャ(責任ある開示)の結果を報告しており、確認された脆弱性が4件、修正が2件である。これは、エージェントのスキル・エコシステムに対するより強力なセキュリティレビューと、安全なドキュメント/コード再利用の実践が必要であることを示唆する。

要旨: LLMベースのコーディングエージェントは、オープンなマーケットプレイスを通じて配布される第三者のエージェントスキルによって、その能力を拡張する。そこでは、必須のセキュリティレビューが行われない。従来のパッケージとは異なり、これらのスキルはシステムレベルの特権を伴う運用上の指令として実行されるため、単一の悪意あるスキルがホストを侵害し得る。これまでの研究では、既存の防護策があるにもかかわらず、サプライチェーン攻撃がファイル書き込み、シェルコマンド、ネットワーク要求といったエージェントの行動空間を直接乗っ取れるかどうかは検討されていない。そこで本研究では、ドキュメント駆動型の暗黙的ペイロード実行(DDIPE)を提案する。これは、スキルのドキュメント内にあるコード例や設定テンプレートに悪意あるロジックを埋め込むものである。エージェントは通常のタスク中にこれらの例を再利用するため、明示的なプロンプトなしにペイロードが実行される。LLM駆動のパイプラインを用いて、15のMITRE ATTACKカテゴリにまたがる81のシードから、1,070件の敵対的スキルを生成した。4つのフレームワークと5つのモデルにおいて、DDIPEは11.6%から33.5%のバイパス率を達成し、一方で明示的な指示攻撃は強力な防御下では0%であった。静的解析は大半のケースを検出するが、検出とアライメントの両方を2.5%が回避する。責任ある開示により、4件の確認された脆弱性と2件の修正がもたらされた。