バイナリ正しさを超えて:主観的なエンタープライズ課題における長期ホライズン・エージェントの評価をスケールする

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、従来のLLM評価(バイナリの正誤判定)が、主観的で文脈依存であり、長い多段のツール・ワークフローを通じて実行されるエンタープライズ課題には不十分だと主張する。
  • 専門家に基づく採点ルーブリックによるLLMジャッジ、段階的な報酬信号を生成するための厳選された正解アーティファクト、検証のための人手によるペア比較の嗜好、の3つを組み合わせた評価フレームワーク「LH-Bench」を提案する。
  • 研究では、領域の専門家が作成した(expert)ルーブリックは、LLMが作成したルーブリックよりも信頼性の高い評価信号を生むことが示される(kappa 0.60 対 0.46)。これは人間の基準との一致がより良いことを示す。
  • 人間の嗜好評価は、同じ順位付けの結果を統計的にも裏付ける(p < 0.05)。専門家に基づく評価が、信頼性を維持しつつスケール可能であるという主張を支持する。
  • 著者らは公開データセットを提供し、2つの長期ホライズン環境で結果を報告する:Figma-to-code(Figma APIをMCP経由で用いた33課題)とProgrammatic content(183評価可能チャプターを含む41コース)。