要旨: エージェンティックAIシステムは科学的ワークフローにますます統合されつつある一方で、現実的な条件下での振る舞いは十分に理解されていません。私たちは2つのワークフローパラダイムと18の天体物理タスクにわたってCMBAgentを評価します。One-Shot設定では、領域固有の文脈にアクセスできることで、約~6倍の性能向上が得られます(0.85 対 ~0、文脈なしの場合)。主要な失敗モードは、沈黙したまま誤った計算を行うことです――つまり、文法的に正しいコードが、もっともらしいが不正確な結果を生成するというものです。Deep Research設定では、システムはストレステストにおいてサイレントな失敗を頻繁に示し、自らの不具合を自己診断できないまま、物理的に整合しない事後分布(posteriors)を生成します。全体として、性能は適切に仕様化されたタスクでは良好ですが、推論の限界を探ることを目的に設計された問題では低下し、しかも多くの場合、目に見えるエラーの兆候はありません。これらの知見は、エージェンティックな科学ワークフローにおける最も懸念すべき失敗モードが、目立つ失敗そのものではなく、誤りの結果を自信をもって生成してしまうことにあることを示しています。私たちは、科学AIエージェントの信頼性を体系的に分析することを促進するために、評価フレームワークを公開します。
もっともらしいが誤り:天体物理ワークフローにおけるエージェント型失敗のケーススタディ
arXiv cs.AI / 2026/4/29
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本研究では、2つのエージェント型ワークフロー(One-ShotとDeep Research)において、18の天体物理タスクでCMBAgentを評価し、うまく定義された問題では高い性能を示すことを報告しています。
- One-Shot環境では、ドメイン固有の文脈を与えることで約6倍の改善が見られ(0.85 vs. 約0)、文脈の有無が性能に大きく影響することが分かります。
- 主要かつ最も懸念される失敗モードは「サイレントな誤った計算」であり、構文的に正しいコードや結果を生成しても、物理的には不正確であるのにもっともらしく見える点が問題になります。
- Deep Research環境では、ストレステスト下で自己診断なしに物理的に整合しない事後分布(posterior)を生成する“無自覚の失敗”が頻発し、推論限界を突く問題ではエラーが見えにくいまま性能が低下することが示されています。
- 著者らは、科学AIエージェントの信頼性を体系的に評価・分析するための評価フレームワークを公開しています。




