概要:エージェント性のあるAIシステムがGPUカーネルを生成・最適化する能力が高まるにつれ、進歩はソフトウェアベースラインに対するスピードアップを評価するベンチマークによって制約されます。私たちはSOL-ExecBenchを提示します。これは、言語、拡散、視覚、オーディオ、ビデオ、およびハイブリッドアーキテクチャを横断する124の実生産および新興AIモデルから抽出された235のCUDAカーネル最適化問題のベンチマークで、NVIDIA Blackwell GPUを対象としています。ベンチマークはBF16、FP8、およびNVFP4にまたがるフォワードおよびバックワークロードを網羅し、Blackwell固有の機能に依存することが期待される最良の性能を示すカーネルを含みます。従来のベンチマークが主にソフトウェア実装と比較してカーネルを評価するのとは異なり、SOL-ExecBenchはSOLARによって計算された解析的に導出された光速(SOL)境界と比較して性能を測定します。SOLARは、ハードウェア根拠のSOL境界を導出するためのパイプラインであり、ハードウェア効率の最適化のための固定ターゲットを生み出します。我々は、リリース定義のスコアベースラインとハードウェアSOL境界とのギャップが、候補カーネルによってどれだけ縮まったかを定量化するSOLスコアを報告します。エージェント的最適化アルゴリズムの頑健な評価を支援するため、GPUクロックロック、L2キャッシュクリア、隔離されたサブプロセス実行、および一般的な報酬ハッキング戦略に対する静的解析ベースの検査を備えたサンドボックス化ハーネスを追加で提供します。SOL-ExecBenchは、GPUカーネルのベンチマークを可変のソフトウェアベースラインを打ち負かすことから、ハードウェア光速へ至る残りのギャップを埋めることへ再定義します。
返却形式: {"translated": "翻訳されたHTML"}



