Stable-GFlowNet:コントラスト的な軌道バランスによる多様で頑健なLLMレッドチーミング

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • この論文では、LLMレッドチーミングにおいてより多様で効果的な敵対的攻撃を生成するための提案手法として、Stable-GFlowNet(S-GFN)を示しています。
  • Z(分配関数)の推定を回避し、ペアワイズ比較を用いることで、GFlowNetにありがちな学習の不安定さやモード崩壊に対処します。
  • レッドチーミング特有のノイジーで不安定な報酬に対応するため、S-GFNは学習への悪影響を抑えるロバストなマスキング手法を導入しています。
  • さらに、低品質な局所最適に陥って破綻した文章(gibberish)を出力しないようにするフルーエンシ安定化子も追加します。
  • 実験では、S-GFNが複数の設定において高い攻撃性能と攻撃の多様性を両立しつつ、従来のGFlowNetと同等の最適ポリシー挙動を維持することが示されています。

要旨: 大規模言語モデル(LLM)のレッドチーミングは、LLMの脆弱性を先回りして特定することで安全性を確保するために不可欠なプロセスである。レッドチーミングにおいて効果的かつ多様な攻撃を見つけることは重要だが、両方を達成するのは難しい。分布整合を行う生成フローネットワーク(Generative Flow Networks: GFN)は有望な手法であるが、学習の不安定性やモード崩壊(mode collapse)で知られている。特にレッドチーミングにおける不安定な報酬がモード崩壊を加速させる。そこで本研究では、GFNにおける分配関数 Z の推定を取り除き、学習の不安定性を低減する Stable-GFN(S-GFN)を提案する。S-GFNは、一対比較によってZ推定を回避し、ノイズのある報酬に対する頑健なマスキング手法を用いる。さらに、モデルが不連続な最適(local optima)において、支離滅裂な出力を生成して行き詰まるのを防ぐための流暢性安定化器も提案する。S-GFNは、GFNの最適方策を維持しつつ、より安定した学習を実現する。さまざまな設定において、S-GFNが圧倒的な攻撃性能と多様性を示すことを実証する。