RouteHijack:Mixture-of-Experts(MoE)LLMに対するルーティングを悪用した攻撃

arXiv cs.LG / 2026/5/6

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、Mixture-of-Experts(MoE)LLM向けに安全アラインメントを回避する「RouteHijack」というルーティングを意識したジャイルブレイク手法を提案しています。
  • 安全上重要な(拒否に関係する)専門家と有害な専門家を、安全な拒否と有害な完了のもとでの専門家アクティベーションの比較によって特定し、どの専門家が活性化されるかをルーティングで操ります。
  • RouteHijackは、安全な専門家を抑制し有害な専門家を促進し、生成の初期段階での拒否を防ぐことを狙うルーティングに関する目的関数で逆アドバーサリアル・サフィックスを最適化します。
  • 7つのMoE LLMで評価した結果、攻撃成功率(ASR)の平均は69.3%で、従来の最適化ベース攻撃より3.2倍高いことが示されています。
  • さらに、兄弟のMoEバリアントへのゼロショット転移やMoEベースVLMへの一般化も確認され、疎な専門家アーキテクチャには本質的な脆弱性があるため、出力レベルのアラインメントだけでは不十分であることを示唆します。

要旨: 安全性のアラインメントは、大規模言語モデル(LLM)の責任ある導入において重要です。モデル能力を拡張するために、Mixture-of-Experts(MoE)アーキテクチャがますます採用されるにつれ、その安全性に対する頑健性を理解することが不可欠になります。しかし、既存の敵対的攻撃には注目すべき限界があります。プロンプトベースのジャイルブレイクはヒューリスティック探索に依存しており、転移がうまくいきません。モデル介入手法は内部表現への特権的なアクセスを必要とします。また、最適化ベースの入力攻撃は出力中心であり、さらに本質的に、非微分可能なルーティング機構のためにMoEモデルに対してのみ限定されます。
本論文では、MoE LLM向けのルーティング対応型ジャイルブレイクであるRouteHijackを提案します。私たちの主要な洞察は、安全性の振る舞いが少数の専門家(エキスパート)の小さな部分集合に集中しているため、入力最適化を通じてルーティング決定に影響を与えることで、モデルの振る舞いを誘導できるという点です。この観察に基づき、RouteHijackはまず、セーフな拒否と有害な完了(completion)における活性化を対比させることで、安全にとって重要で有害なエキスパートを特定するために、応答駆動のエキスパート局在化を行います。次に、それらの知見をもとに、ルーティング対応の目的関数を備えた敵対的サフィックスを構築し、安全性のエキスパートを抑制し、有害なエキスパートを促進し、生成の初期段階での拒否を防ぎます。推論時には、最適化されたサフィックスを悪意のあるプロンプトに付加するだけでよく、入力アクセスのみを要します。7つのMoE LLMにおいて、RouteHijackは平均攻撃成功率(ASR)69.3 extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash
%(欠損なし)を達成し、先行する最適化ベース攻撃を3.2 imes上回ります。RouteHijackは、5つの兄弟となるMoEバリアントに対してゼロショットで転移も行い、平均ASRを27.7 extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash
%から61.2 extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash
%へ引き上げます。さらに、3つのMoEベースのVLMに対しても一般化し、平均ASRを2.47 extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash
%から38.7 extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash extbackslash
%へ増加させます。これらの結果は、スパースな専門家アーキテクチャにおける根本的な脆弱性を明らかにし、出力レベルでのアラインメントを超えた防御の必要性を示しています。