予測せよ、反応するな:LLMストリーミング向けの価値ベース安全性フォーキャスティング
arXiv cs.CL / 2026/4/7
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、LLMの安全性のためのモデル非依存なストリーミング・ガードレールであるStreamGuardを提示し、ストリーミング・モデレーションを「最も早い危険境界の検出」ではなく、部分的な出力プレフィックス上での予測問題として捉え直します。
- StreamGuardは、起こり得る将来の継続に対する期待される有害性を予測し、監督(スーパービジョン)にはモンテカルロ・ロールアウトを用いることで、厳密なトークン単位の境界注釈を必要とせずに早期の安全介入を可能にします。
- 安全性ベンチマークでの評価では、8Bスケールにおいて、先行する厳格なベースラインと比べて入力モデレーションとストリーミング出力モデレーションの両方のF1が向上するなど、モデレーション性能の改善が示されます。
- QWENGUARDTESTのストリーミング・ベンチマークでは、StreamGuardは比較対象のストリーミング・ガードレールよりも高いF1とリコールを達成し、介入のタイミング(オンタイム性)が良好で、見逃し率が低いことが示されます。
- この手法はトークナイザ間およびモデル・ファミリ間で有効な転移を示しており、予測ベースの監督が、小規模でも、また転移されたターゲットを用いた場合でも、低遅延のエンドツーエンド・ストリーミング・モデレーションを支援できる可能性を示唆しています。




