要旨: 自己対局の微調整により、大規模言語モデルは追加の人手による注釈なしで、教師あり微調整を超えて改善することができます。これは、注釈付き応答と自己生成された応答を対比することで実現します。既存の多くの手法は、固定された発散(ダイバージェンス)体制に依存しています。SPINはKL(クルバック・ライブラー)に基づく体制と密接に関連しており、SPACEはノイズ対比推定を通じたJensen-Shannon型の目的、SPIFはに正則化を加えた自己対局に対応します。これらの発散は、モデルと目標の分布間ギャップに応じて異なる強みを示すため、学習の各段階全体で好ましい学習ダイナミクスを提供する単一の選択肢は見当たりません。我々は、連続的に調整可能な目的を備えたR\'enyiベースの自己対局微調整フレームワークであるIRIS(Interpolative R\'enyi Iterative Self-play)を提案します。IRISは、注釈データと合成データに対する2つの独立した傾斜リスク項へ分解されます。これらは、順序パラメータによって制御される指数的な重要度重み付けにより結びついています。我々は、いくつかの自己対局目的が、の特定の値における極限または代表的な体制として解釈できることを示し、これらの手法に対する統一的な理論的観点を提供します。さらに、適応的なオーダースケジュールによりが分布間ギャップに合わせて調整され、学習初期のより鋭い重要度重み付けから、収束近傍でのより滑らかな洗練へと移行します。理論的には、IRISの固定点特性を確立し、が勾配の集中をどのように制御するかを分析します。10のベンチマークにおけるZephyr-7BおよびQwen2.5-3Bでの実験では、IRISがベースラインを改善し、反復を通じて獲得が積み上がりながら平均スコア44.57$に到達することを示します。我々の設定では、注釈サンプル26kのみを用いたIRISが、200k全データセットで学習した標準的な教師あり微調整を上回ります。
IRIS:大規模言語モデルの微調整のための補間的レニィ反復自己プレイ
arXiv cs.LG / 2026/4/24
📰 ニュースModels & Research
要点
- IRIS(Interpolative Rényi Iterative Self-play)は、大規模言語モデルの自己プレイによる微調整を、レニィ(Rényi)ベースの目的関数と連続的に調整可能な次数パラメータ(α)で行う新しいフレームワークである。
- この手法は、注釈付き(人手による)データと合成(自己生成)データに対する2つの「傾けたリスク項」に分解し、重要度を決める指数重みをαで制御する。
- 既存の自己プレイ目的を、特定のαにおける特殊ケースや極限的な位置づけとして解釈することで、これらの方法を統一的に理論整理し、αの適応スケジュール(学習初期は鋭く重み付け、収束付近はより滑らかに)を動機づけている。
- IRISの固定点特性や、αが勾配の集中度にどう影響するかを理論的に分析し、Zephyr-7BとQwen2.5-3Bで10のベンチマークにより有効性を検証している。
- 実験では平均スコア44.57%を報告し反復ごとの改善を示すとともに、26k件の注釈データのみで、200k件全量で学習した標準的な教師あり微調整を上回ることを示している。


