LLM制御ロボットに対するセマンティックなサービス拒否攻撃

arXiv cs.AI / 2026/4/29

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMベースの安全な命令追従がロボットに可用性の脆弱性を生むことを示し、攻撃者はモデルをジェイルブレイクせずポリシーを上書きせずにロボットの挙動を妨害できると主張している。
  • ロボットの音声チャネルに1〜5トークン程度の短く安全らしいフレーズを注入することで、攻撃者はLLMの安全推論を引き起こし、停止や実行の妨害を誘発できる。
  • 4つの視覚言語モデルと複数の防御・デプロイ形態を通じて、プロンプトのみの防御は一部のモデルでハード停止攻撃の成功を抑えられても、ACKループや誤アラートなど別形態の妨害へ失敗が“形を変えて”現れることが示されており、DSR(Disruption Success Rate)で測定される。
  • 注入するフレーズの多様性が、同一フレーズの繰り返しより一貫して効果的であることも判明しており、モデルが多様な安全キューを“裏付け”として扱う可能性が示唆される。
  • 著者は、対策はプロンプトレベルではなくアーキテクチャ上の問題として進めるべきだと述べており、認証されない音声テキストをLLMへ直接ルーティングする設計が、安全監視と行動選択の間の“回避可能な”セキュリティ依存を生むと警告している。

要旨: 安全志向の指示追従は、LLM制御ロボットを安全に保つはずだと考えられています。本研究では、それが利用可能性(availability)の攻撃対象面も作り出すことを示します。短い安全らしいフレーズ(1〜5トークン)をロボットの音声チャネルに注入することで、攻撃者は、モデルに対してジェイルブレイクやポリシー上書きを行わずに、モデルの安全性推論を働かせて停止または実行を妨害させることができます。身体化された(embodied)環境では、これは意味論的なサービス拒否(semantic denial-of-service)攻撃です。注入された信号が正当な警報に見えるため、エージェントが停止してしまうのです。4つのビジョン・言語モデル、7つのプロンプト・レベル防御、3つの展開モード、および単一・複数注入の設定にわたって調査した結果、プロンプトのみの防御は、攻撃の抑止と、真の危険への応答との間でトレードオフが生じることがわかりました。最も強力な防御は、一部のモデルにおけるハード停止型攻撃の成功を減らしますが、防御は妨害の形を変えるだけで、その事実(実害)を変えません。抑制されたハード停止は、了解ループや誤警報として再び現れます。これを私たちは、妨害成功率(Disruption Success Rate: DSR)で測定します。さらに、注入の多様性は同じフレーズを繰り返すことよりも一貫して効果が高いことを見出しました。これは、モデルが多様な安全キューを、裏付けとなる証拠として扱うためだと示唆されます。実務的な含意は、プロンプト・レベルではなくアーキテクチャにあります。認証されていない音声テキストを直接LLMへルーティングするシステムは、安全監視と行動選択の間に、回避可能なセキュリティ依存関係を生み出してしまうのです。