概要: 大規模言語モデル(LLM)は科学的発見を進める上で大きな可能性を持っていますが、現実の研究における動的推論を体系的に評価することは、いまだ限定的です。現在の科学分野の評価ベンチマークは主に、静的で1ターン完結の質問応答(QA)形式に依存しており、多段階の反復や実験との相互作用を必要とする複雑な科学タスクにおけるモデル性能を測定するには不十分です。このギャップを埋めるために、私たちは真正な化学の実験データに基づいて構築された、新しいエージェントベースの評価フレームワークであるMolQuestを提案します。既存のデータセットとは異なり、MolQuestは分子構造の解明を、多ターンの対話型タスクとして形式化します。これにより、モデルには実験手順を事前に計画し、NMRやMSなどの異種スペクトル情報を統合し、構造仮説を反復的に洗練させることが求められます。このフレームワークは、広大で複雑な化学空間の中で、LLMのアブダクティブ推論と戦略的意思決定能力を体系的に評価します。実証結果は、現代の最先端モデルが真正な科学シナリオにおいて重大な制約を持つことを明らかにします。具体的には、最先端(SOTA)モデルでさえ精度は約50%にとどまり、その他のほとんどのモデルの性能は30%の閾値を下回っています。本研究は、科学志向のLLM評価のための再現可能で拡張可能なフレームワークを提供します。私たちの結果は、現在のLLMにおける戦略的な科学的推論の重要なギャップを示しており、科学プロセスに能動的に参加できるAIに向けた今後の研究の明確な方向性を示します。
MolQuest:化学構造推定における演繹的推論のエージェント型評価ベンチマーク
arXiv cs.CL / 2026/3/27
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- MolQuestは、静的で単発のQAベンチマークではなく、真正な化学の実験データを用いる分子構造推定のためのエージェントベース評価フレームワークを提案します。
- このベンチマークは、構造推定をマルチターンのインタラクティブ課題として捉え直し、モデルが実験手順を計画し、NMRやMSなどの異種スペクトル証拠を統合し、仮説を反復的に更新することを求めます。
- 本論文は、現実的な科学的制約のもとでの演繹的推論(abductive reasoning)と戦略的意思決定を測定することに焦点を当て、従来のLLM評価実践におけるギャップを狙い撃ちします。
- 実験結果は、このベンチマークにおいて最先端のLLMが大きな性能上の制約を示すことを示しており、SOTA精度は約50%で、他の多くのモデルは30%未満です。
- 著者らはMolQuestを再現可能で拡張可能なものとして位置づけ、科学プロセスに能動的に参加できるLLMへと今後の研究を導くことを目指しています。



