概要: 内部フィードバックからの教師なし強化学習(RLIF)は、外部監督なしで大型言語モデル(LLMs)の潜在能力を引き出す有望なパラダイムとして浮上してきました。しかし、現在の手法はヒューリスティックな内部報酬に依存しており、しばしば定義された理論的最適化目標を欠き、退化的なバイアスに陥りがちです。本研究では、外部監督なしのファインチューニングを分布マッチング問題として再定式化する原理的なフレームワークである PowerFlow を提案します。GFlowNet を未正規化密度のアモルタイズド変分サンプラーとして扱うことにより、長さを考慮した Trajectory-Balance(軌道バランス)目的を提案します。\alpha-power 分布をターゲットとすることで、PowerFlow は 大型言語モデル(LLMs)の二重性を方向性を持って引き出すことを可能にします。分布を鋭くする(\alpha > 1)ことで論理的推論を強化し、分布を平坦化する(\alpha < 1)ことで表現的創造性を解き放ちます。大規模な実験により、PowerFlow は既存の RLIF 手法を一貫して上回り、教師あり GRPO に匹敵する、あるいはそれを上回ることさえあることを示しています。さらに、整合モデルにおける過鋭化を抑制することによって、多様性と品質の同時向上を達成し、創造的タスクにおけるパレート前線を動かします。
PowerFlow: 原理的な分布マッチングを通じてLLMsの二面性を解き放つ
arXiv cs.CL / 2026/3/20
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- PowerFlow は、GFlowNet を未正規化密度の近似サンプラーとして用いることで、LLM の教師なし微調整に対する原理に基づく分布マッチングの視点を導入します。
- 長さを考慮した Trajectory-Balance 目的を追加し、自己回帰生成に内在する構造的長さバイアスを明示的に打ち消します。
- α-パワー分布を標的とすることで、PowerFlow はモデルをシャープ化(α>1)して論理的推論を強化することができ、また平坦化(α<1)して表現的創造性を引き出すことができます。
- 実験の結果、PowerFlow は既存の RLIF 手法を上回り、監督付きベースラインと同等以上を達成し、品質を損なうことなく多様性を向上させ、創造的タスクにおけるパレート前線をシフトします。




