予測せよ、反応するな:LLMストリーミング向けの価値ベース安全性フォーキャスティング

arXiv cs.CL / 2026/4/7

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLMの安全性のためのモデル非依存なストリーミング・ガードレールであるStreamGuardを提示し、ストリーミング・モデレーションを「最も早い危険境界の検出」ではなく、部分的な出力プレフィックス上での予測問題として捉え直します。
  • StreamGuardは、起こり得る将来の継続に対する期待される有害性を予測し、監督(スーパービジョン)にはモンテカルロ・ロールアウトを用いることで、厳密なトークン単位の境界注釈を必要とせずに早期の安全介入を可能にします。
  • 安全性ベンチマークでの評価では、8Bスケールにおいて、先行する厳格なベースラインと比べて入力モデレーションとストリーミング出力モデレーションの両方のF1が向上するなど、モデレーション性能の改善が示されます。
  • QWENGUARDTESTのストリーミング・ベンチマークでは、StreamGuardは比較対象のストリーミング・ガードレールよりも高いF1とリコールを達成し、介入のタイミング(オンタイム性)が良好で、見逃し率が低いことが示されます。
  • この手法はトークナイザ間およびモデル・ファミリ間で有効な転移を示しており、予測ベースの監督が、小規模でも、また転移されたターゲットを用いた場合でも、低遅延のエンドツーエンド・ストリーミング・モデレーションを支援できる可能性を示唆しています。

Abstract

多くの実運用LLM導入では、プロンプトと応答の両方のモデレーションに対して単一のガードレールが使用されています。プロンプトのモデレーションは完全に観測されたテキスト上で動作しますが、ストリーミング応答のモデレーションでは、安全性の判断を部分的な生成の途中で行う必要があります。既存のテキストベースのストリーミング・ガードレールは、この出力側の問題を一般に境界検出として捉え、応答がすでに危険になった最も早い接頭辞(prefix)を特定できるようにモデルを学習させます。本研究では、モデルに依存しない統一型ストリーミング・ガードレールであるStreamGuardを導入し、モデレーションを予測問題として定式化します。すなわち、部分的な接頭辞が与えられたとき、将来に続く可能性の高い継続の予期される有害性をモデルが予測します。この予測はモンテカルロ・ロールアウトを用いて教師信号(スーパービジョン)し、正確なトークン単位の境界アノテーションを必要とせずに、早期の介入を可能にします。 標準的な安全性ベンチマークにおいて、StreamGuardは入力モデレーションとストリーミング出力モデレーションの両方で強い性能を示します。8Bスケールでは、StreamGuardはQwen3Guard-Stream-8B-strictに対して、集計された入力モデレーションF1を86.7から88.2へ、集計されたストリーミング出力モデレーションF1を80.4から81.9へ改善します。QWENGUARDTESTのresponse_locストリーミングベンチマークでは、StreamGuardは97.5 F1、95.1 recall、そして92.6%のオンタイム介入を達成します。これはQwen3Guard-Stream-8B-stricの95.9 F1、92.1 recall、89.9%と比較して優れており、ミス率も7.9%から4.9%へ低減しています。さらに、予測ベースの教師信号は、トークナイザやモデルファミリー間で効果的に転移することを示します。転移したターゲットを用いることで、Gemma3-StreamGuard-1Bは応答モデレーションF1が81.3、ストリーミングF1が98.2、ミス率が3.5%を達成します。これらの結果は、正確な境界ラベルなしに強力なエンドツーエンドのストリーミング・モデレーションが得られること、そして将来のリスクを予測することが低遅延の安全性介入に対する効果的な教師戦略であることを示しています。