AI Navigate

SOL-ExecBench: 実世界のGPUカーネルをハードウェア限界に対して光速クラスのベンチマーク

arXiv cs.LG / 2026/3/20

📰 ニュースDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • SOL-ExecBench は、124 の本番および新興の AI モデルから抽出された 235 の CUDA カーネル最適化問題を新たなベンチマークとして導入します。これらは言語、拡散、ビジョン、音声、映像、およびハイブリッドアーキテクチャにわたり、NVIDIA Blackwell GPU を対象としています。
  • BF16、FP8、NVFP4 にまたがる前方(順伝播)および後方(逆伝播)のワークロードを評価し、Blackwell 固有の機能に依存すると期待される最適な性能を示すカーネルを含みます。
  • ベンチマークは SOLAR によって計算された解析的に導出された Speed-of-Light(SOL)境界値とパフォーマンスを比較します。これにより、従来のソフトウェア・ベースラインではなく、ハードウェアに根ざしたターゲットを提供します。
  • 候補カーネルがハードウェア SOL 境界までのギャップをどれだけ埋めるかを定量化する SOL スコアを出力し、カーネル効率の客観的比較を可能にします。
  • GPU クロックの固定、L2 キャッシュのクリア、分離されたサブプロセス実行、静的解析チェックを備えたサンドボックス型ハーネスが提供され、エージェント型最適化による報酬ハッキングを防止します。

概要:エージェント性のあるAIシステムがGPUカーネルを生成・最適化する能力が高まるにつれ、進歩はソフトウェアベースラインに対するスピードアップを評価するベンチマークによって制約されます。私たちはSOL-ExecBenchを提示します。これは、言語、拡散、視覚、オーディオ、ビデオ、およびハイブリッドアーキテクチャを横断する124の実生産および新興AIモデルから抽出された235のCUDAカーネル最適化問題のベンチマークで、NVIDIA Blackwell GPUを対象としています。ベンチマークはBF16、FP8、およびNVFP4にまたがるフォワードおよびバックワークロードを網羅し、Blackwell固有の機能に依存することが期待される最良の性能を示すカーネルを含みます。従来のベンチマークが主にソフトウェア実装と比較してカーネルを評価するのとは異なり、SOL-ExecBenchはSOLARによって計算された解析的に導出された光速(SOL)境界と比較して性能を測定します。SOLARは、ハードウェア根拠のSOL境界を導出するためのパイプラインであり、ハードウェア効率の最適化のための固定ターゲットを生み出します。我々は、リリース定義のスコアベースラインとハードウェアSOL境界とのギャップが、候補カーネルによってどれだけ縮まったかを定量化するSOLスコアを報告します。エージェント的最適化アルゴリズムの頑健な評価を支援するため、GPUクロックロック、L2キャッシュクリア、隔離されたサブプロセス実行、および一般的な報酬ハッキング戦略に対する静的解析ベースの検査を備えたサンドボックス化ハーネスを追加で提供します。SOL-ExecBenchは、GPUカーネルのベンチマークを可変のソフトウェアベースラインを打ち負かすことから、ハードウェア光速へ至る残りのギャップを埋めることへ再定義します。

返却形式: {"translated": "翻訳されたHTML"}