Qworld:LLMのための質問特化型評価基準

arXiv cs.CL / 2026/3/26

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、オープンエンド形式の質問に対するLLM回答を評価するには、文脈に依存した評価基準が必要だと主張する。単純な二値スコアリングや固定的なルーブリックでは、質問ごとの要件を十分に捉えられないためである。
  • One-Question-One-World(Qworld)を提案し、再帰的な展開ツリーによって質問特化型の評価基準を生成する。具体的には、質問をシナリオ、視点、そしてきめ細かな二値基準へと分解する。
  • HealthBenchにおいて、Qworldは専門家が作成した基準の89%をカバーしつつ、79%の新規基準を生成し、それを人間の専門家が検証することが報告されている。先行手法よりも高い洞察性と粒度を示す。
  • HealthBenchおよびHumanity’s Last Examの計11の最先端LLMにQworldを適用すると、粗いルーブリックでは、長期的な影響、公平性、エラーハンドリング、学際的な推論といった能力の差を見落とすことが明らかになる。
  • 中核となる貢献は、基準生成を「各質問が暗に示す評価軸を構造化されたカバレッジとして捉える」枠組みにより、固定されたタスクレベルのルーブリックではなく、適応的な評価を可能にする点にある。

Qworld:LLMのための質問特化型評価基準 | AI Navigate