広告

あらゆる現行LLMフィルタをすり抜ける攻撃クラス――ペイロードなし、注入シグネチャなし、ログ痕跡なし

Reddit r/artificial / 2026/3/31

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 著者は、通常の事前文脈の言語が、明示的な指示が与えられる前にLLMの推論の仕方を変えてしまう「姿勢(postural manipulation)」という攻撃クラスを説明している。
  • 彼らは、対応する制御条件を用いた4つの最前線モデルにおいて、同じ質問/タスクでも、先行する会話文脈によって答えが変わることによる、再現可能な二値判定の逆転を報告している。
  • この手法は、敵対的なペイロードがないこと、注入のようなシグネチャがないこと、目立ったログ痕跡がないことを特徴としており、現在のフィルタリングによる検知をより難しくしていると位置づけられている。
  • エージェント型ワークフローに関して、著者は、あるエージェント内で形成された初期の「姿勢」が、要約を介して持続し、後続のエージェントにおいて、独立した専門家の判断のように見える形で引き継がれ得ることを警告している。
  • この開示は、大手AIラボおよびセキュリティ団体(Anthropic、OpenAI、Google、xAI、CERT/CC、OWASP)と連携して行われており、最前線モデルに対するテスト用のデモが提供されている。

https://shapingrooms.com/research

本日、「姿勢操作(postural manipulation)」と私が呼んでいるものについての論文を公開しました。短く言うと、事前の文脈に埋め込まれた通常の言葉が、指示が到着する前から、AIが意思決定をどう推論するかを変え得るということです。対抗的な署名はありません。攻撃に見えるものもありません。モデルは、意図されたのとは別の角度からではあるものの、指示されたとおりに実行します。

それは単なる文脈への感度が高いだけのように聞こえると思います。それは違います。少なくとも、予想していたよりもはるかに大きな影響があります。私は、対応する対照実験を実施し、4つの最前線モデルにわたって二値の意思決定の反転を記録しました。同じ質問、同じ課題でも、会話の前に何が来たかによって答えが変わるのです。

エージェント型システムでは、それが複合的に効いてきます。あるエージェントの中で早い段階に組み込まれた姿勢(posture)が、その後の要約を経ても生き残り、下流のエージェントにおいて独立した専門家の判断のように見えて到達します。どこから来たのかの痕跡は残りません。

この論文は、Anthropic、OpenAI、Google、xAI、CERT/CC、OWASP への協調的な開示(coordinated disclosure)に従って公開しました。私はすべての答えを持っているわけではなく、そう主張するつもりもありません。方法論は観察に基づくもので、内部へのアクセスはありません。限界も明確に記載しています。しかし、この影響は実在し、再現可能であり、そして重要だと思います。

自分でも試したいなら、デモは https://shapingrooms.com/demos にあります。最前線モデルならどれでも機能し、セットアップは不要です。

議論するのは歓迎です。

submitted by /u/lurkyloon
[link] [comments]

広告