命令的介入:ソーシャルレジスターが大規模言語モデルにおける指示トポロジーを形作る

arXiv cs.CL / 2026/3/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、協調的な振る舞いを促す英語のシステムプロンプト命令が、スペイン語に翻訳されると、意味内容が同一であっても「相互作用トポロジー」を逆方向に生み出し得ることを見いだしている。
  • 4つの言語と4つのモデルにまたがる命令レベルのアブレーションにより、この反転はソーシャルレジスターによって媒介されることが示され、とりわけ、命令法(imperative mood)が話し言語共同体ごとにどのように義務の強制力を伝えるかの違いが効いている。
  • 命令ブロックを平叙文へ書き換えることは、言語間のばらつきを大幅に低減する(81%減少、p = 0.029)。また、命令ブロックの一部のみを書き換えても、スペイン語側の命令挙動を変えられ、未書き換えブロックにも波及(スピルオーバー)する。
  • 著者らは、LLMが指示を純粋に技術的仕様としてではなく「社会的行為(social acts)」として扱う可能性があると論じており、命令文の形で書かれたアラインメント原則には言語依存のアラインメントリスクが生じうることを示唆する。
  • さらに本研究は、「憲法的AI(constitutional AI)」のガイダンスを命令形で書くと、学習および推論の際に言語に依存したアラインメント結果につながる可能性がある、という検証可能な予測を提案している。

要旨: 英語で協調的に機能するシステムプロンプト指示は、同じ意味内容を持ちつつも、スペイン語では競合する形で振る舞い、相互作用のトポロジーが反転します。私たちは4つの言語と4つのモデルにわたって、指示レベルのアブレーション実験を提示し、このトポロジー反転がソーシャルレジスター(社会的レジスター)によって媒介されることを示します。命令形は、言語共同体ごとに異なる強制力を帯び、また多言語データで学習されたモデルはこれらの慣習を学習しているのです。単一の命令ブロックを宣言文として書き換えると、言語間のばらつきが81%減少します(p = 0.029、パーミュテーション検定)。11個の命令ブロックのうち3つを書き換えると、スペイン語における命令トポロジーが競合的なものから協調的なものへと変化し、書き換えないブロックにも波及効果が生じます。これらの結果は、モデルが指示を技術的仕様としてではなく、社会的行為として処理していることを示唆します。「決してXをしない」は権威の行使の訓練であり、その強制力は言語に依存します。一方で「X: 無効」は事実記述であり、言語を越えて移植されます。推論時にレジスターが指示遵守を媒介するなら、それは学習中にも同様に媒介している可能性があります。私たちはこれを検証可能な予測として述べます。命令形で著された憲法的AIの原則は、言語依存のアラインメントを生みうる。コーパス: 生成システムプロンプトを56ブロックに分解したうえで、それに対して手で作成した22個のプローブ。