TR-ICRL: 計算時(テスト時)における再考察のためのインコンテキスト強化学習
arXiv cs.CL / 2026/4/3
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、推論時における重要な課題である報酬推定を、正解ラベル(教師データ)なしで扱うための、インコンテキスト強化学習(ICRL)のテスト時フレームワークTR-ICRLを提案する。
- TR-ICRLは、クエリに対して関連するラベルなしのインスタンスを取得し、各インスタンスごとに候補回答を生成し、多数決(majority voting)によって疑似ラベルを導出することで、報酬シグナルと、反復的な改善のための形成的フィードバックを統合する。
- さらに、合成したコンテキスト情報を元のクエリに結合し、追加の多数決ステップによって最終回答を選択する。
- 推論や知識集約型ベンチマークでの実験では、顕著な改善が報告されており、Qwen2.5-7Bに対してMedQAで平均21.23%の向上、AIME2024で137.59%の向上を達成している。
- 著者らは広範なアブレーション研究および分析を提示し、再現や追加の実験のためのコードも公開している。




