InfiniteScienceGym:科学的分析のための、無限に広がる手続き的に生成されたベンチマーク

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • InfiniteScienceGym は、科学リポジトリを手続き的に生成し、検証可能なQAタスクと組み合わせることで、LLMの「実データに基づく推論」を定量評価するための新しいベンチマークを提案している。
  • シードから決定論的に自己完結型のリポジトリ(現実的なディレクトリ構造・ファイル・表形式データ)を生成し、特権QAジェネレータが解ける/解けない問題と厳密な正解を同時に用意する点が特徴である。
  • 既存ベンチマークの出版バイアス、既知知識バイアス、ラベルノイズ、巨大コーパス配布に伴う負担といった問題を、静的な大規模データ配布なしに補完しようとしている。

要旨: 大規模言語モデルは科学アシスタントとして台頭しているが、経験データから推論できる能力を評価することは依然として難しい。公開された研究や人手による注釈から導出されたベンチマークは、出版バイアス、既知知識バイアス、ラベルノイズ、そして大きな保存要件を継承する。私たちは、科学リポジトリの手続き的に生成されたベンチマークと、検証可能な質問応答タスクを組み合わせた InfiniteScienceGym を提示する。種(seed)からシミュレータは決定論的に、現実的なディレクトリ構造、ファイル、表形式データを備えた自己完結型のリポジトリを生成し、特権(privileged)付きの QA ジェネレータが、正答可能な質問と不可能な質問の両方を、厳密なグラウンドトゥルースとともに生成する。これにより、大規模な静的コーパスを配布せずに、制御された環境で、エビデンスに基づく推論、棄権(abstention)、およびツールを介した分析を評価できる。InfiniteScienceGym は、公開データセットだけでは評価が難しい死角や失敗モードを狙うことで、実際の科学ベンチマークを補完する。独自モデルとオープン重みモデルの両方を評価した結果、全体として 45% を超える精度を達成するモデルはなく、答えられない質問を見分けることが依然として大きな弱点であり、より強力なモデルほど、単にトークンを多く消費するのではなく、ツールをより効果的に用いる傾向があることが分かった。