アドバイザーとしてのガーディアン:信頼できるLLMのための次世代ガーディアンモデルの進展

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • ハードにゲートされた安全チェックは過剰に拒否してしまったり、ベンダー・モデルの仕様と衝突したりすることがあり、そのためLLMに対して、よりソフトで仕様を維持する安全アプローチが求められる。
  • 本論文は「Guardian-as-an-Advisor(GaaA)」を提案する。これは、ガーディアンがリスク・ラベルを予測し、簡潔な説明とともにユーザー質問の先頭にその助言を付加して再推論させる一方で、ベース・モデルは元の仕様の範囲内にとどめる方式である。
  • このワークフローを訓練・評価するために、著者らは「GuardSet」を導入する。これは208k+のマルチドメイン・データセットであり、有害/無害の例に加えて、専用の頑健性(ロバストネス)と誠実性(ホンネスト)に関するスライスを含む。
  • 訓練は、まず教師あり微調整(SFT)を行い、その後強化学習によって、リスク・ラベルと説明文の整合性を強制する。これにより高い検出性能が得られ、入力に助言を付加した場合に下流の応答もより良くなる。
  • 遅延(レイテンシ)の調査では、助言推論のコストはベース・モデル計算の<5%であり、現実的な有害入力率のもとでエンドツーエンドのオーバーヘッドは2〜10%しか増えないことが報告されている。一方で過剰拒否は低減される。

要旨: ハードゲート型の安全チェッカーは、しばしば過剰に拒否し、ベンダーのモデル仕様と不整合になります。既存の分類法もまた、頑健性や誠実性を軽視しているため、見かけ上はより安全でも実用性の低いシステムにつながります。本研究では、Guardian-as-an-Advisor(GaaA)を提案します。これはソフトゲーティングのパイプラインであり、ガーディアンが二値のリスクラベルと簡潔な説明を予測し、この助言を元のクエリの前に付与して再推論を行うことで、基盤モデルが元の仕様のまま動作し続けるようにします。学習と評価を支えるために、GuardSet が構築されます。これは、208k+ のマルチドメインデータセットで、有害/無害の事例を統合し、狙いを定めた頑健性および誠実性の切り口を含んでいます。GuardAdvisor は、SFT の後に RL を行うことで学習し、ラベルと説明の一貫性を強制します。GuardAdvisor は、助言ワークフローを可能にしつつ、競争力のある検出精度を達成します。また、入力に付加して用いると、非付加のプロンプトと比べて応答が改善します。遅延(レイテンシ)の調査では、助言側の推論は基盤モデル計算の 5% 未満であり、現実的な有害入力率のもとでエンドツーエンドのオーバーヘッドはわずか 2〜10% しか増えないことが示されます。全体として、GaaA はモデルをモデル仕様に適合させる方向へ導き、安全性を維持しながら過剰拒否を低減します。