テスト時のRL整合はLLMベンチマークにおけるタスク馴染み度のアーティファクトを露呈する

arXiv cs.LG / 2026/3/16

📰 ニュースModels & Research

共有:

要点

本論文は、LLMベンチマークにおけるタスク馴染み度のアーティファクトを除去するための二段階のテスト時RL整合を提案し、タスク固有の訓練データを必要としない。
ステージ1は単一サンプルによるRLを用いてモデルをタスク形式に整合させ、ステージ2は多数決報酬を用いたテスト時RLを用いてモデルをベンチマーク分布へ整合させる。
このアプローチは、訓練データを用いずに、ドメイン特化のベンチマークに対して、教師ありファインチューニングに基づく train-before-test と同等の性能を達成し、推論タスクにおけるベースモデルとファインチューニング済みモデル間のギャップを縮小する。
この結果は、RLやSFTから報告されている多くの成果が真の推論能力ではなくタスク馴染み度を反映している可能性を示唆しており、ベンチマーキングの実践の見直しを促している。

概要：
直接的なベンチマーク上でのLLMの評価は誤解を招くことがある。比較的高い性能は能力ではなくタスク慣れを反映している可能性があるからだ。train-before-testアプローチは、評価前に各モデルへタスク関連の訓練を与えることでタスク慣れを制御する。元々は教師ありファインチューニングを通じて行われていた。しかし、適切な訓練データを得ることはしばしば難しく、選択したデータによって評価結果は変動する。本論文では、train-before-testのための2段階のテスト時強化学習（RL）整合法を提案する。まず、1つのサンプルを用いたRLがタスク形式へのモデルの最初の整合を提供し、次に多数決報酬を伴うテスト時RLがモデルをベンチマーク分布へ整合させる。我々のテスト時RL整合法は、SFTベースのtrain-before-testと同様に高い整合性を示すが、タスク固有の訓練セットを必要としない。訓練データを持たないドメイン特有のベンチマークでは、直接評価は整合後に大幅に改善されるベースモデルを過小評価し、彼らの能力をより正確に評価できることを示す。さらに、推論タスクでは、微調整モデルと基盤モデルの性能差は整合後には大半が消失し、文献に報告されるRLVR/SFTの多くの利点は推論能力の違いによるものではなく、タスク慣れの副作用であることを示唆している。