エージェント型フロンティアにおける言語モデルのための、根拠に基づく評価フレームワーク:静的スナップショットを超えて
arXiv cs.AI / 2026/4/21
💬 オピニオンModels & Research
要点
- この論文は、エージェント型システムに対して現行のLLM評価フレームワークが、分布・時間・スコープ(単発出力ではなく長期軌跡)・プロセス(推論ではなく出力)といった点で構造的に不適切だと主張しています。
- 特にRLHFでは、報酬モデルの評価条件がRLトレーニング中の条件と一致しないため、報酬ハッキングが「学習の病理」ではなく「評価設計の帰結」として起こり得る点を指摘しています。
- 著者らはGrounded Continuous Evaluation(GCE)フレームワークを提案し、学習済み報酬モデルの代わりに決定論的な真値検証器を用いる、シミュレーションベースの微調整・評価システムISOProを提示しています。
- ISOProは、検証可能な報酬領域では報酬ハッキングを構成的に排除することを目指し、CPU上でLoRAアダプタを更新できる設計によりハードウェア要件を大幅に下げようとしています。
- 計算資源制約付きスケジューリング領域で複数の難易度ティアを用いた実験では、連続評価を通じてのみ見える能力の創発、研究者による手作業なしに形成される暗黙のカリキュラム、そしてコンシューマー機材でゼロショット基線比3倍の精度向上が示されています。


