難問を「選択肢」に変える:RLVRの探索限界を突破するCog-DRIFT

Zenn / 2026/4/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • Cog-DRIFTは、RLVR(強化学習×仮想現実/ビジョン系)における探索限界を、問題を「選択肢(選好)」として扱う方針で突破しようとする手法です。
  • 難問を逐次的な探索の負担として捉えるのではなく、選択肢化によって探索効率を上げることで学習の進みにくさを緩和します。
  • RLVRカリキュラム(学習カリキュラム)を設計する際の考え方として、探索が詰まりやすい領域を“選択”に置き換える発想を提示しています。
  • RLにおけるサンプル効率や探索の安定性を改善することが主眼で、実運用の学習プロセスにも波及が期待されます。
はじめに LLMの推論能力を引き出す手法として、検証可能報酬に基づく強化学習(RLVR)が広く使われている。GRPOやその派生手法は、数学・コーディング・推論タスクで大きな成果を上げてきた。 しかし、ここには致命的な限界がある。 現在の方策では解けない問題からは、学習シグナルが得られない。 pass@64でさえ0%の難問に対して、GRPOはどうにもならない。探索空間が広すぎ、正解までたどり着けなければ報酬は0、学習は進まない。 UNC Chapel HillのMohit Bansalラボから出た論文**「Cog-DRIFT」**は、この限界に対して非常にシンプルで効果的なアプローチを...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →