ChipCraftBrain：マルチエージェントによる検証優先RTL生成

arXiv cs.AI / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

ChipCraftBrainは、従来の単発LLMによるRTL生成の機能的正しさの低さ（ベンチマークで約60〜65%）に対処する、自然言語仕様からRTLを生成する新しいフレームワークです。
6つの専門エージェントを用い、168次元の状態を入力とするPPOポリシーで制御することで適応的にオーケストレーションし、さらにMPC風プランナーの代替評価も行っています。
K-mapや真理値表の処理はアルゴリズム的に解き、波形タイミングや一般的なRTL生成はエージェントが担当するという、ハイブリッドな象徴・ニューラル構成が特徴です。
321パターンの知識ベースに加え、971件のオープンソースRTL実装から「関心（フォーカス）」に応じて検索する知識支援型生成を採用し、仕様を依存関係の順に並ぶサブモジュールへ階層的に分解してインターフェース同期します。
ベンチマーク結果は良好で、VerilogEval-Humanで平均pass@1 97.2%、CVDPの非エージェント系サブセットで平均pass@1 94.7%、さらにRISC-V SoCケーススタディでFPGA検証まで行い、8/8モジュールがlint通過し、単発のモノリシック生成は失敗したと報告されています。

要旨: 大規模言語モデル（LLM）は、自然言語の仕様からレジスタ・トランスファ・レベル（RTL）コードを生成する可能性を示しているものの、単発生成では標準ベンチマークにおける機能的正しさは60〜65%にとどまる。MAGEのようなマルチエージェント手法はVerilogEvalで95.9%を達成しているが、NVIDIAのCVDPのような、より難しい産業用ベンチマークでは未検証である。さらに、合成（synthesis）への意識がなく、高いAPIコストがかかる。
本稿では、自動化されたRTL生成のために、記号（シンボリック）-ニューラル推論と、適応的なマルチエージェント・オーケストレーションを組み合わせたフレームワークChipCraftBrainを提示する。システムを駆動する4つの革新は次のとおりである。（1）168次元の状態に対するPPOポリシーにより6つの専門エージェントをまたいで適応的にオーケストレーションする（代替として、別の世界モデルMPCプランナーも評価する）；（2）K-mapおよび真理値表の問題をアルゴリズム的に解くハイブリッドな記号-ニューラル・アーキテクチャであり、波形のタイミングと一般的なRTLは専門エージェントが扱う；（3）321パターンの基盤に加え、971件のオープンソース参照実装から、焦点を意識したリトリーブに基づいて知識を付加して生成する；（4）依存関係の順に並べたサブモジュールへ階層的に仕様を分解し、インタフェース同期を行う。
VerilogEval-Humanにおいて、ChipCraftBrainは平均pass@1 97.2%（7回の実行における範囲96.15〜98.72%、最良 154/156）を達成し、ChipAgents（97.4%、自己申告）と同等であり、MAGE（95.9%）に先行する。CVDPの5つのタスクカテゴリにまたがる302問からなる非エージェント型のサブセットでは、平均pass@1 94.7%（286/302、3回の実行で平均）に到達する。公開されている単発ベースラインに対してカテゴリごとに36〜60パーセンテージポイントの改善である。さらに、約30倍少ない1問題あたりの試行回数を用いながら、NVIDIAのACE-RTLと共有されている4カテゴリのうち3カテゴリでリードしている。RISC-V SoCのケーススタディでは、階層的分解によりlintを通過する8/8モジュール（689 LOC）を生成し、FPGA上で検証されることを示す。一方で、単一（モノリシック）な生成では完全に失敗する。