言語モデル出力分布におけるテールリスクの推定

arXiv cs.AI / 2026/4/27

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、大規模に言語モデルが利用されることで、アライメントによって全体の有害リスクが下がっていても、集計的には稀な「テール」挙動が起こりうることを指摘している。
それに対し、指定した任意のクエリに対して有害な出力の確率を、ブルートフォースに近いサンプリングを避けて推定する重要度サンプリング手法を提案している。
方法としては、標的モデルの「危険版（unsafe）」を作成し、有害出力の起こりやすさを高めることでサンプル効率を高めている。
悪用やミスアラインメントのベンチマークで、提案手法の推定値はブルートフォースのモンテカルロ推定と整合しつつ、必要サンプル数を10–20倍少なくできることが示されている。
さらに、推定した有害性スコアは入力の微小な摂動に対するモデルの感度を明らかにし、デプロイ時のリスク予測にも役立つ可能性があると報告している。

Abstract

言語モデルはますます高い能力を持つようになり、人口規模で迅速に導入されつつあります。その結果、これらのモデルの安全性はますます重大なリスクを伴うものとなっています。幸いなことに、アラインメントの進歩によって、有害なモデル出力の可能性は大幅に低減されました。しかし、モデルが1日に数十億回もクエリされる状況では、まれな最悪ケースの挙動であっても必ず発生します。現在の安全性評価は、有害な出力を生み出す入力の分布を捉えることに重点を置いています。これらの評価は、モデルの確率的性質および末端（テール）出力の挙動を無視しています。このテールリスクを測定するために、任意の入力クエリに対して有害な出力が起こる確率を効率的に推定する方法を提案します。標的モデルから単純な総当たり（brute-force）でサンプリングするのではなく（有害な出力がまれである可能性があるため）、標的モデルの「危険な（unsafe）」バージョンを作成することで重要度サンプリング（importance sampling）を実運用します。これらの危険なバージョンにより、有害な出力がより起こりやすくなるため、サンプル効率よく推定できます。誤用およびミスアラインメントを測定するベンチマークでは、これらの推定値は、10〜20倍少ないサンプル数を用いた総当たりモンテカルロ推定と一致します。たとえば、わずか500サンプルで、10^-4オーダーの有害な出力の確率を推定できます。さらに、これらの有害性推定は、モデルの入力に対する摂動への感度を明らかにし、デプロイ（配備）リスクを予測できることも見出しました。私たちの研究は、稀な事象の正確な推定が安全性評価において重要であり、かつ実現可能であることを示しています。コードは https://github.com/rangell/LMTailRisk で公開されています