AI Navigate

QiMeng-CodeV-SVA: RTLに基づく双方向データ合成を用いたハードウェアアサーション生成のための特化型LLM群の訓練

arXiv cs.CL / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、高品質な実世界のSVAコーパスの不足を解消するため、巨大規模のオープンソースRTLを活用してLLMを実世界のSVA生成へ導くデータ合成フレームワークを提案する。
  • NL-SVAの意味的同値性を信頼性高く判定するデータ選択手法として双方向翻訳を導入する。
  • 合成データを用いてCodeV-SVAという一連のSVA生成モデルを訓練し、CodeV-SVA-14BはFunc.@1においてNL2SVA-Humanで75.8%、NL2SVA-Machineで84.0%を達成し、GPT-5やDeepSeek-R1と同等・上回る性能を示している。
  • 本研究は、RTLに基づく領域特化型LLMがハードウェア検証タスクに適用可能であることを示し、将来の検証ツールや手法に影響を与える可能性がある。

要約: SystemVerilog Assertions(SVAs)はハードウェア検証にとって極めて重要です。最近の研究では汎用のLLMsを活用して自然言語の特性をSVAsに翻訳する(NL2SVA)ことが行われていますが、データ不足のため性能は低いです。我々は高品質な実世界のSVAコーパスの不足とNL-SVAの意味的等価性を判断する信頼できる方法の欠如という二つの課題に取り組むデータ合成フレームワークを提案します。前者には、大規模なオープンソースのRTLを用いてLLMsが実世界のSVAを生成するガイドとし、後者には双方向翻訳をデータ選択の手法として用います。合成データを用いて、CodeV-SVAという一連のSVA生成モデルを訓練します。特に、CodeV-SVA-14BはFunc.@1においてNL2SVA-Humanで75.8%、NL2SVA-Machineで84.0%を達成し、GPT-5やDeepSeek-R1といった高度なLLMsと肩を並べるか、それを上回る水準に達しています。

返却形式: {"translated": "翻訳されたHTML"}