HWE-Bench:実世界のハードウェア不具合修正タスクでLLMエージェントをベンチマークする
arXiv cs.AI / 2026/4/17
📰 ニュースModels & Research
要点
- この論文では、従来のコンポーネント単位のハードウェアベンチマークでは対応されていなかった「リポジトリ規模」の実世界ハードウェア不具合修正を評価するための大規模ベンチマークHWE-Benchを提案しています。
- HWE-Benchには、6つの主要なオープンソースプロジェクト(Verilog/SystemVerilogおよびChisel)にまたがる、過去のバグ修正PRから抽出した417のタスク事例が含まれています(RISC-Vコア、SoC、セキュリティのルーツ・オブ・トラストなど)。
- 各タスクは完全にコンテナ化された環境で実行され、エージェントは実際のバグ報告を解決する必要があり、正しさはプロジェクト固有のシミュレーションおよびリグレッション手順で検証されます。
- 7つのLLMを4つのエージェントフレームワークで評価した結果、最良のエージェントは全体で70.7%のタスクを解決した一方、複雑なSoCレベルでは65%未満に低下し、小規模コアでは90%超えといった差が観察されました。
- 失敗分析から、エージェントの課題は主に「フォルトの局所化」「ハードウェア意味論に基づく推論」「RTL・設定・検証といった複数アーティファクト間の連携」という3つのデバッグ段階に起因するとされ、ハードウェアを理解したエージェントの改善に向けた具体的な方向性が示されています。


