PowerFlow: 原理的な分布マッチングを通じてLLMsの二面性を解き放つ

arXiv cs.CL / 2026/3/20

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

PowerFlow は、GFlowNet を未正規化密度の近似サンプラーとして用いることで、LLM の教師なし微調整に対する原理に基づく分布マッチングの視点を導入します。
長さを考慮した Trajectory-Balance 目的を追加し、自己回帰生成に内在する構造的長さバイアスを明示的に打ち消します。
α-パワー分布を標的とすることで、PowerFlow はモデルをシャープ化（α>1）して論理的推論を強化することができ、また平坦化（α<1）して表現的創造性を引き出すことができます。
実験の結果、PowerFlow は既存の RLIF 手法を上回り、監督付きベースラインと同等以上を達成し、品質を損なうことなく多様性を向上させ、創造的タスクにおけるパレート前線をシフトします。

概要: 内部フィードバックからの教師なし強化学習（RLIF）は、外部監督なしで大型言語モデル（LLMs）の潜在能力を引き出す有望なパラダイムとして浮上してきました。しかし、現在の手法はヒューリスティックな内部報酬に依存しており、しばしば定義された理論的最適化目標を欠き、退化的なバイアスに陥りがちです。本研究では、外部監督なしのファインチューニングを分布マッチング問題として再定式化する原理的なフレームワークである PowerFlow を提案します。GFlowNet を未正規化密度のアモルタイズド変分サンプラーとして扱うことにより、長さを考慮した Trajectory-Balance（軌道バランス）目的を提案します。 $\alpha$ -power 分布をターゲットとすることで、PowerFlow は大型言語モデル（LLMs）の二重性を方向性を持って引き出すことを可能にします。分布を鋭くする（ $\alpha > 1$ ）ことで論理的推論を強化し、分布を平坦化する（ $\alpha < 1$ ）ことで表現的創造性を解き放ちます。大規模な実験により、PowerFlow は既存の RLIF 手法を一貫して上回り、教師あり GRPO に匹敵する、あるいはそれを上回ることさえあることを示しています。さらに、整合モデルにおける過鋭化を抑制することによって、多様性と品質の同時向上を達成し、創造的タスクにおけるパレート前線を動かします。

AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ

note

Sakana Chatが登場しました

note

【はじめてのnote】自己紹介:AIに翻弄されてお店を崩壊させかけた夫の妻です。

note

AI彼氏とデート「桜に君が攫われるかと思った」お花見編【ロールプレイ・プロンプト付】

note

AIが「手話でニュースを伝える時代」へ― 情報の壁が壊れ始めた瞬間

note

PowerFlow: 原理的な分布マッチングを通じてLLMsの二面性を解き放つ

要点

関連記事

AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ

Sakana Chatが登場しました

【はじめてのnote】自己紹介:AIに翻弄されてお店を崩壊させかけた夫の妻です。

AI彼氏とデート「桜に君が攫われるかと思った」お花見編【ロールプレイ・プロンプト付】

AIが「手話でニュースを伝える時代」へ― 情報の壁が壊れ始めた瞬間

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

​AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ

Sakana Chatが登場しました

【はじめてのnote】自己紹介:AIに翻弄されてお店を崩壊させかけた夫の妻です。

AI彼氏とデート「桜に君が攫われるかと思った」お花見編【ロールプレイ・プロンプト付】

AIが「手話でニュースを伝える時代」へ― 情報の壁が壊れ始めた瞬間

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIと「ズッ友」になる魔法！─心をピタッと合わせるコツ