AI Navigate

インサイト最新記事一覧 AI大全

広告

TR-ICRL: 計算時（テスト時）における再考察のためのインコンテキスト強化学習

arXiv cs.CL / 2026/4/3

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、推論時における重要な課題である報酬推定を、正解ラベル（教師データ）なしで扱うための、インコンテキスト強化学習（ICRL）のテスト時フレームワークTR-ICRLを提案する。
TR-ICRLは、クエリに対して関連するラベルなしのインスタンスを取得し、各インスタンスごとに候補回答を生成し、多数決（majority voting）によって疑似ラベルを導出することで、報酬シグナルと、反復的な改善のための形成的フィードバックを統合する。
さらに、合成したコンテキスト情報を元のクエリに結合し、追加の多数決ステップによって最終回答を選択する。
推論や知識集約型ベンチマークでの実験では、顕著な改善が報告されており、Qwen2.5-7Bに対してMedQAで平均21.23%の向上、AIME2024で137.59%の向上を達成している。
著者らは広範なアブレーション研究および分析を提示し、再現や追加の実験のためのコードも公開している。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/3Dailyインサイトを見る →

関連記事

Black Hat Asia

Black Hat Asia

AI Business

Ray-Ban Meta、日本上陸へ｜3年越しの到着が意味するもの

Ray-Ban Meta、日本上陸へ｜3年越しの到着が意味するもの

Innovatopia

今年90000人のテック労働者が解雇され、誰もがAIのせいにしているが、それは物語の全てではない

今年90000人のテック労働者が解雇され、誰もがAIのせいにしているが、それは物語の全てではない

Dev.to

Microsoftの100億ドル規模の日本投資は、次のAIの戦場が国家インフラであることを示す

Microsoftの100億ドル規模の日本投資は、次のAIの戦場が国家インフラであることを示す

Dev.to

TII、「Falcon Perception」を発表：自然言語プロンプトからのオープン語彙グラウンディングおよびセグメンテーションのための、0.6Bパラメータのアーリーフュージョン・トランスフォーマー

TII、「Falcon Perception」を発表：自然言語プロンプトからのオープン語彙グラウンディングおよびセグメンテーションのための、0.6Bパラメータのアーリーフュージョン・トランスフォーマー

MarkTechPost

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告