Xpertbench:ルーブリックに基づく評価によるエキスパートレベルのタスク

arXiv cs.AI / 2026/4/6

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、80のカテゴリにまたがる1,346件のエキスパートレベルのタスクを含む、ルーブリックに基づくベンチマーク「XpertBench」を紹介し、複雑なオープンエンドの専門職業務におけるLLMの性能をより適切に評価することを目的とする。
  • XpertBenchは、金融、医療、法律サービス、教育、デュアルトラックの研究などの領域にわたる1,000件超のエキスパートによる提出物からタスクを構築し、従来のベンチマークよりも生態学的妥当性(ecological validity)を高めることを狙っている。
  • 各タスクは詳細なルーブリックで採点され、評価の曖昧さを減らしつつ、専門職としての厳密性を測るために、主に15〜40の重み付きチェックポイントを用いる。
  • 著者らは、専門家によるfew-shot(少数例)のお手本を用いて校正(calibrated)されたLLMジャッジを使うことで、自己報酬的(self-rewarding)な評価バイアスを緩和する「ShotJudge」という評価パラダイムを提案する。
  • 実験の結果、現在の先行するLLMは「エキスパートギャップ(expert-gap)」に直面していることが示されており、報告されている最大成功率は約66%、平均スコアは約55%である。また、領域固有の強みと弱みがはっきりと観察される。

要旨: 大規模言語モデル(LLM)は、従来のベンチマークにおいて性能が頭打ちになる挙動を示す一方で、残された重要な課題として、真の専門家レベルの認知に特徴的な、複雑でオープンエンドなタスクに対する適性を評価することが挙げられます。既存の枠組みは、対象領域が狭いこと、ジェネラリスト向けのタスクへの依存があること、あるいは自己評価バイアスに左右されること、といった問題を抱えています。このギャップを埋めるために、本研究では、実在する専門領域にわたってLLMを評価することを目的とした高忠実度ベンチマーク「XpertBench」を提案します。XpertBenchは、金融、医療、法務サービス、教育、デュアルトラックの研究(STEMと人文科学)にまたがる80カテゴリのうち、厳密に厳選された1,346のタスクで構成されています。これらのタスクは、ドメイン専門家による1,000件超の投稿から導出されます--名門機関の研究者や、臨床または産業で豊富な経験を有する実務家を含み--そのため、生態学的妥当性が高いことが保証されています。各タスクは、専門的な厳密さを評価するための詳細なルーブリックを用い、主に15〜40の重み付きチェックポイントによって採点します。スケーラブルでありながら人間に整合した評価を可能にするために、自己報酬的バイアスを抑えるべく、専門家のfew-shot例示で校正されたLLMジャッジを用いる、新しい評価パラダイム「ShotJudge」を導入します。最先端のLLMに対する実証的評価の結果、明確な性能の上限が見られます。たとえ先行するモデルでも達成できる成功率はせいぜい約66%であり、平均スコアは約55%にとどまります。またモデルは、領域固有のばらつきを示し、定量的推論と語学的統合の間で、重ならない強みを観察できます。これらの知見は、現在のAIシステムにおける「エキスパート・ギャップ」の重要性を強く示し、XpertBenchを、汎用のアシスタントから専門的なプロの協働者へ移行する過程を切り拓くための重要な手段として位置づけるものです。