広告

SciNav: 科学コーディングタスク向けの一般エージェントフレームワーク

arXiv cs.CL / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、出力が実行可能であり、ベンチマークによって客観的に評価できることに特化した科学コーディングタスク向けの一般エージェントフレームワークである SciNav(Scientific Navigator)を提案する。
  • SciNav は探索予算が限られた状況で動作することを目的としており、ツリー探索により、解決策の分岐を効率的に選択・剪定するためにペア間の相対(比較)判断を用いる。
  • 固定された成功指標や長い探索サイクルに依存する代わりに、相対比較によって有望な分岐を選びながら、段階的に候補を絞り込む。
  • 2つのベンチマークでの実験により、SciNav が、複数の基盤モデル、タスクの種類、難易度の各条件において、直接プロンプトや OpenHands、Self-Debug などの先行エージェントを大きく上回ることが示された。
  • さらに、ランダム選択や LLM の絶対評価といったベースライン戦略も、同結果が上回っており、この設定では相対判断のほうがより識別力が高いという主張を支持する。

Abstract

大規模言語モデル(LLMs)に基づく自律型サイエンスエージェントは、仮説の生成、実験の設計、レポートの作成にますます利用されるようになっている。 しかし、従来の研究は主として、評価が難しい主観的な出力を伴うオープンエンドの科学問題を対象としてきた。 一方で、科学コーディングのベンチマークは、客観的な評価のために実行可能な出力を提供する。 既存のアプローチは依然として工学主導のパイプラインであり、科学コーディング課題に対する、構造化されたエンドツーエンドのサイエンスエージェントの枠組みが必要であることを示している。 我々はこのギャップを、評価を厳密に行える科学コーディング課題に焦点を当てることで埋めるとともに、より効果的な解探索を可能にするエージェント枠組みSciNav(Scientific Navigator)を導入する。 我々の枠組みは、あらかじめ定義された成功指標への依存や長期にわたる探索サイクルを超え、制約のある探索予算のもとで動作するよう設計されている。 比較判断はしばしば、絶対的なスコアリングよりもきめ細かな品質差を明らかにし、その結果、より高い識別力を提供するといった知見に触発されて、我々の枠組みは、ツリー探索プロセス内でのペアワイズの相対判断を活用することで、上位Kの有望な解候補の分岐を選択し、低い可能性のものを刈り込み、相対比較に導かれた形で選択された分岐上の解候補を段階的に絞り込む。 2つのベンチマークにおいて、異なる種類の課題にわたって、我々のエージェントの有効性を示す。 実験の結果、SciNavは、異なるベースモデル、課題タイプ、難易度にわたって、直接プロンプトやOpenHands、Self-Debugのような既存エージェントを大幅に上回り、ランダム選択やLLMによる絶対スコアリングのような異なるフロンティア比較手法よりも優れている。 これらの結果は、我々のエージェント設計の強みを裏付けるとともに、高品質な科学コーディングに対する相対判断ガイド付きtop-K探索の有効性を示し、より実用的なサイエンスエージェントへの一歩を刻む。

広告