HWE-Bench：実世界のハードウェア不具合修正タスクでLLMエージェントをベンチマークする

arXiv cs.AI / 2026/4/17

📰 ニュースModels & Research

原文を読む →

共有:

要点

この論文では、従来のコンポーネント単位のハードウェアベンチマークでは対応されていなかった「リポジトリ規模」の実世界ハードウェア不具合修正を評価するための大規模ベンチマークHWE-Benchを提案しています。
HWE-Benchには、6つの主要なオープンソースプロジェクト（Verilog/SystemVerilogおよびChisel）にまたがる、過去のバグ修正PRから抽出した417のタスク事例が含まれています（RISC-Vコア、SoC、セキュリティのルーツ・オブ・トラストなど）。
各タスクは完全にコンテナ化された環境で実行され、エージェントは実際のバグ報告を解決する必要があり、正しさはプロジェクト固有のシミュレーションおよびリグレッション手順で検証されます。
7つのLLMを4つのエージェントフレームワークで評価した結果、最良のエージェントは全体で70.7%のタスクを解決した一方、複雑なSoCレベルでは65%未満に低下し、小規模コアでは90%超えといった差が観察されました。
失敗分析から、エージェントの課題は主に「フォルトの局所化」「ハードウェア意味論に基づく推論」「RTL・設定・検証といった複数アーティファクト間の連携」という3つのデバッグ段階に起因するとされ、ハードウェアを理解したエージェントの改善に向けた具体的な方向性が示されています。