言語モデル出力分布におけるテールリスクの推定
arXiv cs.AI / 2026/4/27
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、大規模に言語モデルが利用されることで、アライメントによって全体の有害リスクが下がっていても、集計的には稀な「テール」挙動が起こりうることを指摘している。
- それに対し、指定した任意のクエリに対して有害な出力の確率を、ブルートフォースに近いサンプリングを避けて推定する重要度サンプリング手法を提案している。
- 方法としては、標的モデルの「危険版(unsafe)」を作成し、有害出力の起こりやすさを高めることでサンプル効率を高めている。
- 悪用やミスアラインメントのベンチマークで、提案手法の推定値はブルートフォースのモンテカルロ推定と整合しつつ、必要サンプル数を10–20倍少なくできることが示されている。
- さらに、推定した有害性スコアは入力の微小な摂動に対するモデルの感度を明らかにし、デプロイ時のリスク予測にも役立つ可能性があると報告している。




