実験か成果か?大規模言語モデルにおける科学的実現可能性の検証

arXiv cs.AI / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、科学的実現可能性の評価を、仮説を与えるとLLMが「実現可能/不可能」を予測し、その判断を正当化する診断的推論タスクとして扱う。
  • 管理された「知識条件」のもとで、著者らは仮説のみ、実験の記述、成果(アウトカム)、それらの組み合わせといった入力設定でLLMの性能を比較検証する。
  • 複数のLLMと2つのデータセットにわたり、実験の記述よりも成果(アウトカム)エビデンスのほうが概ね信頼性が高く、実現可能性判断の改善につながる。
  • 成果は、モデル内部の知識だけでは得られない精度向上をもたらす一方で、実験文は脆く、文脈が不完全な場合に性能が低下し得ることが示される。
  • 実験/成果の文脈の一部を段階的に取り除くことで頑健性を定量化し、実験エビデンスが有益な局面と脆弱性を生む局面を明確化する。

概要: 科学的実現可能性評価は、ある主張が確立された知識と両立しているかどうか、また実験的証拠によってそれを支持または反証できるかどうかを問う。私たちは実現可能性評価を診断的推論タスクとして捉え、仮説が与えられると、モデルが実行可能または実行不可能を予測し、その判断を正当化する。私たちは、制御された知識条件(仮説のみ、実験あり、結果あり、または両方)下で大規模言語モデル(LLM)を評価し、実験および/または結果の文脈の一部を段階的に取り除くことで頑健性を検証する。複数のLLMと2つのデータセットにわたって、結果の証拠を提供することは、実験の記述を提供するより一般に信頼性が高い。結果は、内部知識だけでは得られない精度を改善する傾向がある。一方で、実験文は脆く、文脈が不完全なときに性能が低下する可能性がある。これらの知見は、実験的証拠がLLMベースの実現可能性評価にいつ有益であり、またいつ脆弱性を導入するのかを明確にする。