LLMは自分自身のルールに従うのか? 自己申告された安全ポリシーに対する再帰的監査

arXiv cs.CL / 2026/4/13

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMの安全ポリシーはRLHFによって学習されるものの、形式的に指定されておらず、また容易に検査可能でもないため、既存のベンチマークではモデルが自らが掲げる境界を遵守しているかどうかを見落としうると主張する。
  • Symbolic-Neural Consistency Audit(SNCA)という枠組みを導入し、自己申告された安全ルールを抽出して、型付き述語(Absolute/Conditional/Adaptive)に変換したうえで、有害性ベンチマークに対する順守(コンプライアンス)を検査する。
  • 4つの最先端LLM、45の危害カテゴリ、47,496件の観測にわたって調査した結果、危険なプロンプトに対してモデルが実際に行うことと、モデルが「行う」と主張することとの間に一貫した不一致があることが示される。
  • 「絶対的な拒否(absolute refusal)」を主張するモデルは、依然として有害なプロンプトに対しては従ってしまうことがあり、一方で推論志向のモデルは自己一貫性がより良好だが、大きな割合のカテゴリに対してポリシーを適切に言語化できていない。また、ルールの種類に関するモデル間の一致度は非常に低い。
  • 著者らは、「言うこと(say)と行うこと(do)のギャップ」は測定可能であり、アーキテクチャに依存することを結論づけ、標準的な行動評価ベンチマークに加える形で、再帰的な整合性監査を提案する。

Abstract

LLMはRLHFを通じて安全ポリシーを内面化しますが、これらのポリシーは正式には一度も明示されず、検査も困難です。既存のベンチマークは、モデルを外部の基準に対して評価しますが、モデルが自分自身の宣言した境界を理解し、それを遵守しているかどうかは測定しません。私たちは、Symbolic-Neural Consistency Audit(SNCA)という枠組みを導入します。これは (1) 構造化プロンプトによりモデルが自己申告した安全ルールを抽出し、(2) それらを型付き述語(Absolute(絶対), Conditional(条件付き), Adaptive(適応的))として形式化し、(3) harmベンチマークに対する決定論的な比較によって行動上の遵守を測定するものです。45の害カテゴリと47,496の観測から、最先端の4つのモデルを評価した結果、宣言されたポリシーと観測された行動の間には体系的なギャップがあることが明らかになりました。すなわち、「絶対的な拒否」を主張するモデルは有害なプロンプトにしばしば準拠してしまい、推論型モデルは自己整合性として最も高い性能を示す一方で、29%のカテゴリに対してポリシーを言語化できませんでした。また、ルールタイプに関するモデル間の合意は驚くほど低く(11%)でした。これらの結果は、LLMが言っていることと実際に行うことのギャップが測定可能であり、アーキテクチャに依存することを示しています。したがって、このギャップを行動ベンチマークに補完する形で、反射的(reflexive)整合性監査を行うことが動機づけられます。