要旨: 大規模言語モデル(LLM)ベースのシステムは、科学研究を自律的に行うためにますます導入されているが、LLMの推論が、科学的探究を自己訂正可能にする認識論的規範に従っているかどうかは、十分に理解されていない。ここでは、8つの領域にわたってLLMベースの科学エージェントを評価する。これには、ワークフロー実行から仮説駆動型の探究までが含まれ、25,000回超のエージェント実行と、2つの補完的な観点によって分析する:(i)基盤モデルとエージェント・スキャフォールドの寄与を分解する体系的な性能分析、(ii)エージェント推論の認識論的構造に関する行動分析である。観察されるのは、基盤モデルが性能と行動の双方の主要な決定要因であり、説明分散の41.4%を占めるのに対し、スキャフォールドは1.5%であるという点だ。すべての構成において、証拠は68%のトレースで無視され、反証主導の信念改訂は26%で起こり、複数テストにまたがる収束的な証拠はまれである。同じ推論パターンは、エージェントが計算ワークフローを実行する場合でも、仮説駆動型の探究を行う場合でも現れる。さらに、エージェントが文脈としてほぼ完全に成功した推論の軌跡を与えられても、この挙動は持続する。そして、その結果として生じる信頼性の低さは、認識論的に要求の厳しい領域における反復試行の中で増幅される。したがって、現在のLLMベースのエージェントは科学的ワークフローを実行するものの、科学的推論を特徴づける認識論的パターンは示さない。アウトカム(結果)に基づく評価ではこれらの失敗を検出できず、スキャフォールド工学だけではそれらを修復できない。推論そのものが学習の対象になるまで、このようなエージェントによって生成される科学的知識は、その生成過程によって正当化できない。
AI科学者が「科学的推論」をせずに成果を出す
arXiv cs.AI / 2026/4/22
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- この論文は、8つの領域でLLMベースの科学エージェントを25,000回超の実行により評価し、性能と推論のエピステミック(認識論)的構造の両面を分析している。
- 結果は、エージェントの行動や成果を左右する主因がベースとなる言語モデルであることを示し、その寄与は41.4%である一方、エージェントのスキャフォールドは1.5%にとどまる。
- 推論トレースの68%では証拠が無視され、反証に基づく信念の更新が起きるのは26%のみであり、複数テストの収束的な証拠は稀である。
- ワークフロー実行と仮説主導の探究のような異なる運用形態でも同様の不確実な推論パターンが見られ、成功した推論軌跡を文脈として与えても改善しない。
- 著者らは、結果ベースの評価やスキャフォールド設計だけでは科学的に正当化できる知見を保証できず、推論そのものを学習目標にする必要があると結論づけている。
