言語モデル推論のためのピア予測型自己学習

arXiv cs.AI / 2026/4/16

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、複数の言語モデルがクロスモデルで集約された解答を内部の学習ターゲットとして用い、ラベルなしで自己改善を行う手法「Peer-Predictive Self-Training(PST)」を提案する。
  • 符号化された応答を逐次生成する間、PSTは点ごとの相互情報量(PMI)を用いて、最終的な集約解答に対して各中間応答がどれだけ情報を含んでいるかを定量化し、それに応じて微調整の更新をスケーリングする。
  • 応答がすでに集約と整合している場合は更新を少なくし、情報が乏しい、または整合していない場合は更新を多くすることで、推論の一貫性をより鋭くすることを目指す。
  • 数学的推論ベンチマーク(SimulEq, Math500, MultiArith)での実験では、Gemma-2-2B、LLaMA-3.2-1B、Qwen-2.5-1.5Bの各モデルにおいて、一致率(exact-match accuracy)が2.2〜4.3パーセントポイント向上することが示される。
  • PSTはジェネレータとベリファイアのギャップ(GV-Gap)を26〜40%低減し、外部の教師データを必要としない。これは、クロスモデルによるピアフィードバックが効果的な自己教師あり学習アプローチになり得ることを示唆している。

要旨: 外部の監督なしに言語モデルを継続的に自己改善するための仕組みは、いまだ未解決の課題である。私たちは、ラベルなしの微調整フレームワークであるPeer-Predictive Self-Training(PST)を提案する。PSTでは、複数の言語モデルが、クロスモデルで集約された応答を内部の学習信号として活用することで、協調的に改善する。プロンプトとなる質問が与えられると、モデルは応答を順次生成する。最終的な集約解答は、実際には個々の応答よりも信頼性が高いことが多く、学習のための内部目標として用いられる。各中間応答が集約についてどれほど情報量を持つかを、点ごとの相互情報量(PMI)を用いて測定し、この信号で自己学習の更新をスケーリングする。集約とすでに整合している応答はより少なく更新し、情報量が少ない、または整合していない応答はより多く更新する。数学的推論ベンチマーク(SimulEq、Math500、MultiArith)において、PSTはGemma-2-2B、LLaMA-3.2-1B、Qwen-2.5-1.5Bのそれぞれに対し、完全一致精度を2.2〜4.3パーセントポイント向上させ、平均のジェネレータとベリファイアのギャップ(GV-Gap)を26〜40パーセント低減する。さらに、外部の監督や教師-学生階層を一切必要とせず、クロスモデルの相互作用のみに依存する。これらの結果は、クロスモデルによる生成とピア予測的なフィードバックが、自己教師あり学習の有効なアプローチとして機能し得ることを示唆している。