ClimAgent:自律的なオープンエンド気候科学分析のためのエージェントとしてのLLM

arXiv cs.AI / 2026/4/21

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文では、LLMをエージェントとして用い、限定的なQ&Aではなく気候科学の研究タスクをエンドツーエンドで実行する自律型フレームワーク「ClimAgent」を提案しています。
  • ClimAgentは、統一されたツール利用環境と厳密な推論プロトコルを組み合わせることで、実際の気候分析に必要な制約やデータ駆動の要件をより適切に扱うことを目指しています。
  • 系統的な評価のために、2000〜2025年の実在の気候発見シナリオに基づく5つのタスクカテゴリを含む最初の包括的ベンチマーク「ClimaBench」を提案しています。
  • ClimaBenchでの実験では、ClimAgentが顕著に改善し、元のLLM解法に比べて解の厳密さと実用性で40.21%の向上が報告されています。
  • 研究コードは論文中で示されたGitHubリポジトリで公開されています。

要旨: 気候研究は、地球規模の環境危機を緩和するうえで極めて重要である。しかし、多スケールのデータセットが加速度的に増大し、分析ツールが複雑化したことにより、重大なボトルネックが生まれ、科学的発見が断片的で労働集約的なワークフローに制約されている。大規模言語モデル(LLM)の登場は、科学的専門知識を拡張するための変革的なパラダイムをもたらす一方で、既存の取り組みは概ね単純な質問応答(Q&A)タスクにとどまっていることが多い。これらの手法は、しばしば現実世界の課題を過度に単純化し、専門的な気候科学に必要な、複雑な物理的制約やデータ駆動型の性質を見落としている。 このギャップを埋めるために、我々は、気候の多様なサブ分野にまたがる幅広い研究タスクを実行する汎用的な自律型フレームワーク「ClimAgent」を提案する。統一されたツール利用環境と厳格な推論プロトコルを統合することで、ClimAgentは単なる検索を超え、エンドツーエンドのモデリングと分析を実行できる。 系統的な評価を促進するために、我々は実世界の気候発見に対する最初の包括的ベンチマーク「ClimaBench」を提案する。これは、2000年から2025年の専門的なシナリオに基づいて導出された5つの異なるタスクカテゴリにまたがる、困難な問題を含む。ClimaBenchに関する実験では、ClimAgentが最先端のベースラインを大きく上回り、解の厳密さと実用性において、元のLLMソリューションに対して40.21%の改善を達成することが示されている。私たちのコードは https://github.com/usail-hkust/ClimAgent で公開している。