SciNav: 科学コーディングタスク向けの一般エージェントフレームワーク
arXiv cs.CL / 2026/3/24
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、出力が実行可能であり、ベンチマークによって客観的に評価できることに特化した科学コーディングタスク向けの一般エージェントフレームワークである SciNav(Scientific Navigator)を提案する。
- SciNav は探索予算が限られた状況で動作することを目的としており、ツリー探索により、解決策の分岐を効率的に選択・剪定するためにペア間の相対(比較)判断を用いる。
- 固定された成功指標や長い探索サイクルに依存する代わりに、相対比較によって有望な分岐を選びながら、段階的に候補を絞り込む。
- 2つのベンチマークでの実験により、SciNav が、複数の基盤モデル、タスクの種類、難易度の各条件において、直接プロンプトや OpenHands、Self-Debug などの先行エージェントを大きく上回ることが示された。
- さらに、ランダム選択や LLM の絶対評価といったベースライン戦略も、同結果が上回っており、この設定では相対判断のほうがより識別力が高いという主張を支持する。




