TopBench:表形式の質問応答における暗黙的予測と推論のためのベンチマーク

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文では、単なる参照や集計を超えて、表形式の質問応答でLLMが暗黙的な予測と推論をどれだけ行えるかを評価する新しいベンチマーク「TopBench」を提案する。
  • TopBenchには4つのサブタスクにまたがる779サンプルが含まれ、単点予測、意思決定、治療効果分析、複雑なフィルタリングまでを対象にし、推論テキストと構造化テーブルの両方の出力生成が求められる。
  • 研究では、現在のモデルが潜在意図の認識に苦戦し、必要な予測的推論ではなく単純な検索に偏ることが多いと報告されている。
  • 改善には、潜在意図の識別が予測的挙動を成立させるための前提条件であり、予測精度の上限を引き上げるにはより高度なモデリングや推論が必要だと結論づけている。
  • モデル評価はテキストベースとエージェント的ワークフローの両方で行い、異なる対話パターンでの性能比較を可能にしている。