観測天文学の推論課題に対するビジョン・ランゲージ(VLM)モデルの体系的評価
arXiv cs.AI / 2026/4/28
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 本研究は、光学撮像、放射干渉、マルチ波長測光、時間変動の光度曲線、光学スペクトルの5モダリティを対象に、4,100件超の専門家検証済み観測データからなるベンチマーク「AstroVLBench」を提案している。
- 6つの最先端VLMを評価すると、性能はモダリティ依存が強く、タスク横断で最も一貫して高いのはGemini 3 Proである。
- 信頼できる科学的推論には、注目すべき視覚特徴へ注意を向けるだけでなく、それらを物理知識で裏付けてグラウンディングすることが必要だと示される。
- 機械的解析やプロンプト実験では、現象論的なプロンプトが焦点を合わせるのに役立つ一方で、「なぜそれが重要か」を説明する物理プロンプトの方が全体の精度を押し上げ、クラスごとの偏りが減ったバランスの良い分類をもたらす。
- グラフではなく基礎となる測定値を数値テーブルとして提示すると精度が最大13ポイント向上し、物理的グラウンディングがない場合は正しい予測でも不正確な根拠を伴い得ることが分析で示される。

