足場の下での安全性:評価条件が測定された安全性を形作る方法
arXiv cs.AI / 2026/3/12
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、足場が安全性に与える影響を検証するため、6つのフロンティアモデルと4つのデプロイメント構成にまたがる大規模な制御実験(N=62,808)を実施した。
- Map-reduce足場は測定された安全性を低下させる(NNH = 14)、一方で3つの足場アーキテクチャのうち2つは実用的に意味のある範囲内で安全性を維持する。
- 同一アイテムで多肢択一形式から開放形式へ切り替えると、安全性スコアが5〜20パーセンテージポイント動く。これは任意の足場効果より大きい。
- 同一フォーマット内の足場比較は、事前登録済みの±2ppのTOSTマージンの下で実用的等価性と一致し、評価フォーマットを足場アーキテクチャではなく操作変数として特定している。
- 一般化可能性分析は G = 0.000 を示し、ベンチマークを横断してモデルの安全性ランキングが逆転する一方、信頼性が非ゼロとなる総合的な安全指数は得られず、著者らは ScaffoldSafety のコード、データ、およびプロンプトを公開する。
安全性ベンチマークは、通常、言語モデルを孤立した状態で評価する際に多肢選択形式を用います。一方、生産的なデプロイメントでは、推論経路、批評エージェント、委任パイプラインを通じて入力を再構成するエージェント的な足場でこれらのモデルを包み込みます。我々は、安全性に対する足場効果の最大級の制御研究の1つを報告します(N = 62,808;6つのフロンティアモデル、4つのデプロイメント構成)、事前登録、評価者ブラインド化、等価性検定、仕様曲線分析を組み合わせています。Map-reduce足場は測定された安全性を低下させます(NNH = 14)、しかし3つの足場アーキテクチャのうち2つは実用的に意味のある範囲内で安全性を維持します。Map-reduceの劣化を調べると、同一アイテムで多肢択一形式から自由回答形式へ切り替えると、安全性スコアが5〜20パーセントポイント動くことが分かり、これはいかなる足場効果よりも大きいものでした。同一フォーマット内の足場比較は、事前登録済みの±2ppのTOSTマージンの下で実用的な等価性と一致し、評価フォーマットを足場アーキテクチャではなく操作変数として特定しています。モデル×足場の相互作用は、反対方向に広がり、合計で35ppに達します(あるモデルは map-reduce 下の sycophancy で-16.8pp低下、別のモデルは同じベンチマークで+18.8pp改善する)、足場の安全性についての普遍的主張を排除します。一般化可能性分析はG = 0.000を示し、ベンチマークを横断してモデルの安全性ランキングが完全に逆転するため、非ゼロの信頼性を持つ総合的な安全指数は得られません。したがって、モデルごと・設定ごとのテストを最低限の標準とします。我々はすべてのコード、データ、プロンプトを ScaffoldSafety として公開します。
