Stable-GFlowNet：コントラスト的な軌道バランスによる多様で頑健なLLMレッドチーミング

arXiv cs.LG / 2026/5/4

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、LLMレッドチーミングにおいてより多様で効果的な敵対的攻撃を生成するための提案手法として、Stable-GFlowNet（S-GFN）を示しています。
Z（分配関数）の推定を回避し、ペアワイズ比較を用いることで、GFlowNetにありがちな学習の不安定さやモード崩壊に対処します。
レッドチーミング特有のノイジーで不安定な報酬に対応するため、S-GFNは学習への悪影響を抑えるロバストなマスキング手法を導入しています。
さらに、低品質な局所最適に陥って破綻した文章（gibberish）を出力しないようにするフルーエンシ安定化子も追加します。
実験では、S-GFNが複数の設定において高い攻撃性能と攻撃の多様性を両立しつつ、従来のGFlowNetと同等の最適ポリシー挙動を維持することが示されています。

要旨: 大規模言語モデル（LLM）のレッドチーミングは、LLMの脆弱性を先回りして特定することで安全性を確保するために不可欠なプロセスである。レッドチーミングにおいて効果的かつ多様な攻撃を見つけることは重要だが、両方を達成するのは難しい。分布整合を行う生成フローネットワーク（Generative Flow Networks: GFN）は有望な手法であるが、学習の不安定性やモード崩壊（mode collapse）で知られている。特にレッドチーミングにおける不安定な報酬がモード崩壊を加速させる。そこで本研究では、GFNにおける分配関数 $Z$ の推定を取り除き、学習の不安定性を低減する Stable-GFN（S-GFN）を提案する。S-GFNは、一対比較によってZ推定を回避し、ノイズのある報酬に対する頑健なマスキング手法を用いる。さらに、モデルが不連続な最適（local optima）において、支離滅裂な出力を生成して行き詰まるのを防ぐための流暢性安定化器も提案する。S-GFNは、GFNの最適方策を維持しつつ、より安定した学習を実現する。さまざまな設定において、S-GFNが圧倒的な攻撃性能と多様性を示すことを実証する。

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

Anthropic News

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

日経XTECH

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

The Verge

CLMAフレームテスト

Dev.to

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

Dev.to

Stable-GFlowNet：コントラスト的な軌道バランスによる多様で頑健なLLMレッドチーミング

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Blackstone、Hellman & Friedman、Goldman Sachsとともに新たなエンタープライズAIサービス企業を設立

三菱電機も出資するユニコーン予備軍 東大発新興の燈、フィジカルAI 「26年内に」

ウーバーCEOダラ・コホロシ（AIで運転手を——そして自分まで—置き換える件）

CLMAフレームテスト

「CLAUDE.mdは不要」じゃなくて、実は「いらないのは不適切なルール」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

三菱電機も出資するユニコーン予備軍東大発新興の燈、フィジカルAI 「26年内に」