反復プロンプトサンプリングによる大規模言語モデルの安全性における信頼性ギャップの評価
arXiv cs.AI / 2026/4/14
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、標準的なLLM安全ベンチマーク(例:HELM、AIR-BENCH)では、実運用において同一プロンプトが繰り返し生成される際に現れる「運用上」のリスクを見落とす可能性があると主張している。
- 温度を変化させつつ、制御されたプロンプト摂動を適用しながら同一プロンプトを繰り返しサンプリングする、深さ(depth)志向の枠組みであるAccelerated Prompt Stress Testing(APST)を提案する。これにより、幻覚、拒否の不整合、安全でない完了などの潜在的な失敗モードを掘り起こす。
- 手法では、失敗を反復推論の確率的な結果として扱い、ベルヌーイ/二項分布モデリングによって、推論1回あたりの失敗確率を推定する。これにより、モデルや設定間で定量的な比較が可能になる。
- AIR-BENCH 2024由来の安全性/セキュリティ用プロンプトを用いた複数の指示追従型LLMに関する実験では、浅い評価(N≤3)ではモデルが似て見える一方で、反復サンプリングでは特に温度の違いに応じて大きく分岐することが示される。
- 著者らは、浅いベンチマークスコアに依存すると、持続的な使用における安全性の信頼性の意味のある差が見えにくくなる可能性があると結論づけている。




