Stargazer:天体物理学的制約下でのAIエージェント向けスケーラブルなモデルフィッティング・ベンチマーク環境

arXiv cs.LG / 2026/4/20

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsModels & Research

要点

  • Stargazerは、放射速度(RV)時系列データに基づく推論を用いた、動的かつ反復的な物理ベースのモデルフィッティング課題に対して自律AIエージェントを評価するための、新しいスケーラブルなベンチマーク環境である。
  • ベンチマークは難易度3段階で全120課題を含み、そのうち20件は実際のアーカイブ事例であり、高SNRの単一惑星系から低SNRの複雑な多惑星構成まで幅広いシナリオを扱う。
  • 8つの最先端エージェントの評価では、統計的な適合度は良好でも、物理的に正しいシステムパラメータを復元できない、そして物理制約に従えないというギャップが繰り返し見られた。
  • テスト時の計算量を増やしても改善はわずかであり、過剰なトークン使用は意味のある探索というより再帰的な失敗ループと関連することが示された。
  • Stargazerはエージェント戦略の訓練・評価・足場付け・スケールに活用でき、シミュレーション駆動の手法は他の科学領域のモデルフィッティング問題にも汎用できる可能性が示唆されている。