https://shapingrooms.com/research
本日、「姿勢操作(postural manipulation)」と私が呼んでいるものについての論文を公開しました。短く言うと、事前の文脈に埋め込まれた通常の言葉が、指示が到着する前から、AIが意思決定をどう推論するかを変え得るということです。対抗的な署名はありません。攻撃に見えるものもありません。モデルは、意図されたのとは別の角度からではあるものの、指示されたとおりに実行します。
それは単なる文脈への感度が高いだけのように聞こえると思います。それは違います。少なくとも、予想していたよりもはるかに大きな影響があります。私は、対応する対照実験を実施し、4つの最前線モデルにわたって二値の意思決定の反転を記録しました。同じ質問、同じ課題でも、会話の前に何が来たかによって答えが変わるのです。
エージェント型システムでは、それが複合的に効いてきます。あるエージェントの中で早い段階に組み込まれた姿勢(posture)が、その後の要約を経ても生き残り、下流のエージェントにおいて独立した専門家の判断のように見えて到達します。どこから来たのかの痕跡は残りません。
この論文は、Anthropic、OpenAI、Google、xAI、CERT/CC、OWASP への協調的な開示(coordinated disclosure)に従って公開しました。私はすべての答えを持っているわけではなく、そう主張するつもりもありません。方法論は観察に基づくもので、内部へのアクセスはありません。限界も明確に記載しています。しかし、この影響は実在し、再現可能であり、そして重要だと思います。
自分でも試したいなら、デモは https://shapingrooms.com/demos にあります。最前線モデルならどれでも機能し、セットアップは不要です。
議論するのは歓迎です。
[link] [comments]




