InfiniteScienceGym：科学的分析のための、無限に広がる手続き的に生成されたベンチマーク

arXiv cs.AI / 2026/4/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

InfiniteScienceGym は、科学リポジトリを手続き的に生成し、検証可能なQAタスクと組み合わせることで、LLMの「実データに基づく推論」を定量評価するための新しいベンチマークを提案している。
シードから決定論的に自己完結型のリポジトリ（現実的なディレクトリ構造・ファイル・表形式データ）を生成し、特権QAジェネレータが解ける／解けない問題と厳密な正解を同時に用意する点が特徴である。
既存ベンチマークの出版バイアス、既知知識バイアス、ラベルノイズ、巨大コーパス配布に伴う負担といった問題を、静的な大規模データ配布なしに補完しようとしている。

要旨: 大規模言語モデルは科学アシスタントとして台頭しているが、経験データから推論できる能力を評価することは依然として難しい。公開された研究や人手による注釈から導出されたベンチマークは、出版バイアス、既知知識バイアス、ラベルノイズ、そして大きな保存要件を継承する。私たちは、科学リポジトリの手続き的に生成されたベンチマークと、検証可能な質問応答タスクを組み合わせた InfiniteScienceGym を提示する。種（seed）からシミュレータは決定論的に、現実的なディレクトリ構造、ファイル、表形式データを備えた自己完結型のリポジトリを生成し、特権（privileged）付きの QA ジェネレータが、正答可能な質問と不可能な質問の両方を、厳密なグラウンドトゥルースとともに生成する。これにより、大規模な静的コーパスを配布せずに、制御された環境で、エビデンスに基づく推論、棄権（abstention）、およびツールを介した分析を評価できる。InfiniteScienceGym は、公開データセットだけでは評価が難しい死角や失敗モードを狙うことで、実際の科学ベンチマークを補完する。独自モデルとオープン重みモデルの両方を評価した結果、全体として 45% を超える精度を達成するモデルはなく、答えられない質問を見分けることが依然として大きな弱点であり、より強力なモデルほど、単にトークンを多く消費するのではなく、ツールをより効果的に用いる傾向があることが分かった。

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

Dev.to

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

Dev.to

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

Dev.to

ローカルLLM入門ガイド（Mac - Appleシリコン）

Reddit r/artificial

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

Qiita

InfiniteScienceGym：科学的分析のための、無限に広がる手続き的に生成されたベンチマーク

要点

関連記事

理論から現実へ：なぜAIエージェントのプロジェクトの多くが失敗するのか（そして自分もそうだった）

GPT-5.4-Cyber：AIセキュリティとディフェンシブAIのためのOpenAIの画期的提案

デジタル・ソウルを作る：あなたを誰よりも理解するAIを作る残酷な現実

ローカルLLM入門ガイド（Mac - Appleシリコン）

推論では余裕の8GBが、ファインチューニングでは即死する — 学習が推論の8倍のVRAMを食う理由

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer