バイナリ正しさを超えて：主観的なエンタープライズ課題における長期ホライズン・エージェントの評価をスケールする

arXiv cs.AI / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、従来のLLM評価（バイナリの正誤判定）が、主観的で文脈依存であり、長い多段のツール・ワークフローを通じて実行されるエンタープライズ課題には不十分だと主張する。
専門家に基づく採点ルーブリックによるLLMジャッジ、段階的な報酬信号を生成するための厳選された正解アーティファクト、検証のための人手によるペア比較の嗜好、の3つを組み合わせた評価フレームワーク「LH-Bench」を提案する。
研究では、領域の専門家が作成した（expert）ルーブリックは、LLMが作成したルーブリックよりも信頼性の高い評価信号を生むことが示される（kappa 0.60 対 0.46）。これは人間の基準との一致がより良いことを示す。
人間の嗜好評価は、同じ順位付けの結果を統計的にも裏付ける（p < 0.05）。専門家に基づく評価が、信頼性を維持しつつスケール可能であるという主張を支持する。
著者らは公開データセットを提供し、2つの長期ホライズン環境で結果を報告する：Figma-to-code（Figma APIをMCP経由で用いた33課題）とProgrammatic content（183評価可能チャプターを含む41コース）。

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to