Qworld:LLMのための質問特化型評価基準
arXiv cs.CL / 2026/3/26
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本論文は、オープンエンド形式の質問に対するLLM回答を評価するには、文脈に依存した評価基準が必要だと主張する。単純な二値スコアリングや固定的なルーブリックでは、質問ごとの要件を十分に捉えられないためである。
- One-Question-One-World(Qworld)を提案し、再帰的な展開ツリーによって質問特化型の評価基準を生成する。具体的には、質問をシナリオ、視点、そしてきめ細かな二値基準へと分解する。
- HealthBenchにおいて、Qworldは専門家が作成した基準の89%をカバーしつつ、79%の新規基準を生成し、それを人間の専門家が検証することが報告されている。先行手法よりも高い洞察性と粒度を示す。
- HealthBenchおよびHumanity’s Last Examの計11の最先端LLMにQworldを適用すると、粗いルーブリックでは、長期的な影響、公平性、エラーハンドリング、学際的な推論といった能力の差を見落とすことが明らかになる。
- 中核となる貢献は、基準生成を「各質問が暗に示す評価軸を構造化されたカバレッジとして捉える」枠組みにより、固定されたタスクレベルのルーブリックではなく、適応的な評価を可能にする点にある。