学習時間中の介入により、マッチした検証損失下で盲検ペア比較の人間嗜好が63.4%に改善（1.2Bパラメータ、320件の評価、p=1.98×10⁻5）[R]

Reddit r/MachineLearning / 2026/4/22

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

同一データで学習した2つの1.2BパラメータLMをブラインドな人間嗜好のA/Bテストで比較し、一方は標準のクロスエントロピーではなく、精度重み付きゲインと発散（ダイバージェンス）スケールされた層勾配を学習中に適用した。
検証損失（平滑化）では両者が統計的に区別できない一方で、判定者はゲイン学習モデルを63.4%の決定的比較で選好し（320件; p=1.98×10⁻5）、学習時の介入が集約的な損失指標を変えずに人間の好みを動かせることを示した。
提案手法は最適化手法やアーキテクチャに依存せず、1ステップあたりの計算も軽量で、平均正規化により勾配予算の保存を狙っている。
著者は、一般化の鍵として平均正規化が重要だと主張しており、小規模実験では自信のあるトークンの勾配を抑える、あるいは学習中にゲイン／平均が1.0からずれるような別形式では学習が破綻したという。
限界として、単一シード・単一ペアでの評価、チンチラ最適な計算量を満たしていない点、1.2Bスケールでの2メカニズムの完全なアブレーション不足、モデルが未学習気味のため短文プロンプトしか使えなかった点が挙げられる。

TL;DR. 同一データで学習した2つの1.2BパラメータLM（同じ順序、同じシード、30Kステップ / 3.9Bトークン）の間で、ブラインドA/B選好評価を実施しました。一方は、予測符号化（Predictive-Coding）に触発された精度重み付きゲイン関数に加え、層ごとの発散スケーリング付き勾配を用いたもの、もう一方は標準的なクロスエントロピーです。両者の平滑化された検証損失（val loss）は統計的に区別不能でした（0.004-natの差で、ステップ間のノイズの範囲内）。10人の審査員（人間7人、Anthropic / OpenAI / Googleの基盤モデル3つ）が320件の一対比較を行いました。ゲイン学習モデルは、決定的比較における63.4%で好まれました（p = 1.98 × 10⁻⁵、両側二項検定）。学習時間での介入（RLHFではない）は、集計された損失指標を変えないまま、人間の選好を有意にシフトし得ることを示しています。

手法（簡潔に）。 合成可能な2つのメカニズム：

トークンごとの精度重み付きゲイン： gain_i = 1 + s · (ℓ_i − mean(ℓ)) / var(ℓ) を、バックワード前にトークンごとのCEに適用します。平均で正規化されるように設計されているため、全体の勾配予算は保存されます。ゲイン重みは切り離されている（detached）ので、ゲイン自身が独自の勾配を生み出しません。
層ごとの発散（divergence）スケーリング付き勾配： バックワード後、各トランスフォーマーブロックのパラメータ勾配に、フォワードパス中に測定された ‖x_out − x_in‖ / ‖x_in‖ に比例する因子を掛けます。こちらも平均で正規化されています。

両者とも、オプティマイザ非依存・アーキテクチャ非依存で、ステップあたりのいくつかの要素ごとの演算コストだけが追加され、スループットへの測定可能な影響はありません。

私の特定の手法が一般化しないとしても、一般化すると考えている発見： ゲインの平均正規化は要（load-bearing）です。フェーズ1の実験（50Mパラメータ）では、確信のあるトークンに対する勾配を抑える形状バリアント（focal loss）や、学習中にゲイン／平均を1.0から逸脱させるもの（sigmoid のようなもの）はいずれも学習が破綻しました。作動する精度（precision）に基づく定式化では、バッチ平均でセンタリングすることで、構成上 gain/mean = 1.0 が強制されます。

懐疑的な人のために事前に認めておく制限：

単一シード、単一ペアで1.2B。まだ複数シードの再現は行っていません。
Chinchillaの最適学習の16.4%（約1.2Bパラメータモデルに対して3.9Bトークン、Chinchillaなら約24Bを指示するはず）です。
私は2つのメカニズム（トークンゲイン vs 層ゲイン）を、1.2Bスケールで別々にアブレーションしなかったため、どちらが実際に効いているのかを特定できません。1.5Bでのペア化アブレーション（進行中のフル-Chinchilla実行）は、層ゲインメカニズムの特定の1点――発散正規化における層0の参加――が要であることを確認しています。
A/Bプロンプトは短形式です。両方のモデルが、長文の一貫した出力を行うほど十分に学習されていないためです。
3人の基盤モデルの審査員は3つのラボにまたがっていますが、ウェブコーパスの学習データは共有しています。人間とFMは同じ結論に収束しました（65.3% vs 59.8%の決定的選好）。これは安心材料ですが、決定打（dispositive）ではありません。

リンク

論文（PDF）およびメソッドコード：github.com/troycorbinz/precision-weighted-training
A/B評価のWebアプリおよび生の学習指標（JSON）：同じリポジトリ
学習実行は非公開のW&Bプロジェクトに記録されていますが、論文中の数値に関する主張はすべて、/paper/data 配下のJSONファイルから独立に検証可能です。

最後にお願い。 私は所属機関のない独立研究者で、これをarXiv（cs.LGを主、cs.CLをクロスリスト）に投稿したいです。cs.LGの推薦を1つ必要としています。もし以前にcs.LGへの投稿をしたことがあり、論文を読んだ上で基準を満たしていると思うなら、推薦の承諾をいただけるとありがたいです――推薦コードは用意できています。率直な不承諾でも問題ありません。何も言われないよりは、「できない」のほうが良いです。

質問への回答、主張の防御、または反論の受け入れも喜んで行います。

submitted by /u/ScreamingAmish
[link] [comments]