OPDを解明する：大規模言語モデルにおける長さのインフレと安定化戦略

arXiv cs.CL / 2026/4/10

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

大規模言語モデルに対するオンポリシー蒸留（OPD）では、「切り詰め崩壊（truncation collapse）」という失敗モードが起こり得る。オンポリシーのロールアウトが突然長さをインフレさせ、その結果、切り詰められた軌跡が学習データを支配して学習が不安定化する。
観測された切り詰め崩壊は、反復（レピティション）の飽和と相関しており、偏った勾配信号が生成されることで検証性能が急激に低下する。
本論文では、この問題は「生徒（student）によるデータ収集」と「蒸留目的」との有害な相互作用に起因するとしている。蒸留目的は暗黙的に長く反復的なロールアウトを有利にしてしまう。
解決策として著者らはStableOPDを提案する。これは、参照ベースのダイバージェンス制約と、ロールアウトの混合蒸留を組み合わせることで、反復による長さインフレを抑え、学習を安定化する。
複数の数学推論データセットにわたる実験の結果、StableOPDは切り詰め崩壊を防ぎ、学習ダイナミクスを安定化し、ベースラインOPDに対して平均7.2%の性能向上を達成する。

Abstract

オンポリシー蒸留（OPD）は、より強力な教師からの監督を活用しつつ、学生モデルを自らが誘導する分布の下で学習させます。私たちはOPDの失敗モードを特定しました。すなわち、学習が進むにつれて、オンポリシーのロールアウトが突然の長さインフレーションを起こし、切り詰められた軌跡が学習データを支配するようになります。この切り詰め崩壊は、急激な反復の飽和と同時に起こり、偏った勾配信号を誘発します。その結果、学習は深刻に不安定化し、検証性能が急激に低下します。私たちは、この問題が、学生によって誘導されたデータ収集と蒸留目的との相互作用に起因すると考えています。蒸留目的は暗黙的に長く反復的なロールアウトを有利にするためです。この課題に対処するために、私たちはStableOPDを提案します。StableOPDは、参照ベースの発散（divergence）制約とロールアウト混合蒸留を組み合わせた、安定化されたOPDフレームワークです。これらにより、反復に起因する長さインフレーションが軽減され、さらにOPDの学習が安定化します。複数の数学推論データセットにおいて、私たちの手法は切り詰め崩壊を防ぎ、学習ダイナミクスを安定化させ、平均で7.2%の性能向上を達成します。

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Reddit r/artificial

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

ITmedia AI+

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

Dev.to

GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

Dev.to

OPDを解明する：大規模言語モデルにおける長さのインフレと安定化戦略

要点

Abstract

関連記事

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

CIAが人間のスパイから得た情報の分析を支援するためにAIを信頼し始めている

Claudeを“コスパ良く”利用可能に 性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール

2026年のLLM API料金：主要モデルをすべて1つの表にまとめました

GTX 1660でAI動画を生成してみた。実際に必要なものはこれ。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

Claudeを“コスパ良く”利用可能に　性能の異なるモデルが“適材適所”で稼働、Anthropicの新ツール