広告

TR-ICRL: 計算時(テスト時)における再考察のためのインコンテキスト強化学習

arXiv cs.CL / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、推論時における重要な課題である報酬推定を、正解ラベル(教師データ)なしで扱うための、インコンテキスト強化学習(ICRL)のテスト時フレームワークTR-ICRLを提案する。
  • TR-ICRLは、クエリに対して関連するラベルなしのインスタンスを取得し、各インスタンスごとに候補回答を生成し、多数決(majority voting)によって疑似ラベルを導出することで、報酬シグナルと、反復的な改善のための形成的フィードバックを統合する。
  • さらに、合成したコンテキスト情報を元のクエリに結合し、追加の多数決ステップによって最終回答を選択する。
  • 推論や知識集約型ベンチマークでの実験では、顕著な改善が報告されており、Qwen2.5-7Bに対してMedQAで平均21.23%の向上、AIME2024で137.59%の向上を達成している。
  • 著者らは広範なアブレーション研究および分析を提示し、再現や追加の実験のためのコードも公開している。

広告