要旨:大規模言語モデルは科学的コード生成を大幅に加速させた一方で、生成されたコードを包括的に評価することは依然として大きな課題である。
従来のベンチマークは評価をテストケースの一致に限定しますが、ソルバーの選択、APIの規約、メモリ管理、パフォーマンスなど、機能的正確性と同様に重要となるHPCのライブラリコードにはこのアプローチは不十分です。
このギャップに対処するため、エージェント同士がエージェントを評価するパラダイムに基づくエージェント型フレームワークであるpetscagent-benchを導入します。
静的スクリプトに頼る代わりに、petscagent-benchはツール補助型の評価エージェントを展開し、別のテスト対象モデルエージェントによって生成されたコードをコンパイル、実行、測定し、正確性、性能、コード品質、アルゴリズムの適切性、ライブラリ固有の規約という5つの評価カテゴリにまたがる14の評価者パイプラインを調整します。
エージェントはいずれも標準化されたプロトコル(A2A および MCP)を介して通信するため、このフレームワークはソースコードにアクセスすることを必要とせず、任意のコーディングエージェントのブラックボックス評価を可能にします。
このフレームワークを、HPC用のPETScライブラリを用いた現実的な問題のベンチマーク群で実証します。
最先端モデルの経験的分析は、現在のモデルが読みやすく、よく構造化されたコードを生成する一方で、従来の合格/不合格指標が全く見逃すライブラリ固有の規約には一貫して苦労していることを示しています。
PETScにおけるAI生成科学コードのエージェント主導評価フレームワーク
arXiv cs.AI / 2026/3/18
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- PETSc HPCライブラリにおけるAI生成科学コードのエージェント主導評価フレームワークであるpetscagent-benchを発表します。
- フレームワークはエージェント同士のパラダイムを採用しており、ツール拡張型評価者が別個のテスト対象モデルが生成したコードをコンパイル・実行・測定します。5つの採点カテゴリ(正確性、性能、コード品質、アルゴリズムの適切性、ライブラリ固有の慣習)を横断する14の評価機構パイプラインを通じて評価します。
- 標準化プロトコル(A2AおよびMCP)を用いた評価により、ソースコードにアクセスすることなく、任意のコーディングエージェントをブラックボックスとして評価できます。
- PETSc問題群に対する実証結果は、最先端モデルが読みやすいコードを生成する一方で、従来の合格/不合格指標が見落とすライブラリ固有の慣習を一貫して欠落させることを示しています。
- 本研究は、AI生成の科学コードにおけるより豊かな評価指標の必要性を強調し、HPCライブラリコードのベンチマークのためのスケーラブルな方法論を提供します。
関連記事
「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に
Publickey
AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に
Publickey
半導体FABにLLMを持ち込んだら何が起きるか — ArXiv論文5本を現場目線でぶった斬る
Qiita
エッジコンピューティングとローカル処理への大規模な移行
Dev.to
仕様駆動開発における自己改良エージェント
Dev.to