要旨: 半導体技術の急速な進歩により、Electronic Design Automation(EDA)は、ますます知識集約的でドキュメント駆動型の工学領域になってきています。大規模言語モデル(LLM)は強力な汎用能力を示しているものの、限られたドメイン知識、ツール横断の知識の混乱、そしてドメイン学習後における検索拡張生成(RAG)性能の低下といった理由により、EDAに直接適用することは依然として困難です。これらの課題に対処するため、本論文ではEDAシナリオに合わせたドメイン適応LLMのための体系的トレーニング・パイプラインであるChipLingoを提案します。
ChipLingoは3つの段階から構成されます。すなわち、多ソースデータのキュレーションとQA拡張によるドメイン・コーパス構築、異なるパラメータ学習戦略の比較を伴うドメイン適応事前学習、そして多様な検索条件のもとでRAGシナリオ学習を行う指示アラインメントです。さらに、代表的なEDAツール・シナリオをカバーする社内ベンチマークEDA-Benchも整備しており、公開予定があります。
実験の結果、ChipLingo-8BはEDA-Benchで59.7%の精度を達成し、同規模のベースモデルおよびいくつかのより大きな汎用モデルを上回りました。ChipLingo-32Bは70.02%に到達し、主要なクローズドソースの商用モデルに迫ります。さらなる分析により、QA拡張がドメイン性能を改善すること、Partial FTはLoRAよりも適応と汎用能力の保持のバランスが良いこと、そして明示的なRAGシナリオ学習が、ドメイン学習後に検索利用が低下する問題を緩和することが示されました。これらの結果は、知識集約的なEDAタスクに対する体系的なドメイントレーニングの実用的価値を示すとともに、今後のEDAエージェントおよび外部知識駆動型システムの基盤を提供します。
ChipLingo:EDA向けに大規模言語モデルを体系的に学習するためのトレーニングフレームワーク
arXiv cs.LG / 2026/5/1
📰 ニュースModels & Research
要点
- この論文は、電子設計自動化(EDA)向けに大規模言語モデルをドメイン適応するための体系的な学習パイプライン「ChipLingo」を提案しています。
- ChipLingoは3段階で構成されており、(1)複数ソースからなるデータのキュレーションとQAオーギュメンテーションによるEDAドメインコーパス構築、(2)パラメータ学習戦略の違いを比較するドメイン適応プリトレーニング、(3)多様な検索条件のもとでRAGシナリオ学習を行う指示アライメントが含まれます。
- 著者らは、代表的なEDAツールのシナリオをカバーする社内ベンチマーク「EDA-Bench」を作成しており、公開の計画も述べています。
- 実験では、ChipLingo-8BがEDA-Benchで59.7%の精度を達成し、ChipLingo-32Bは70.02%まで到達したと報告されます。また、QAオーギュメンテーションの有効性、LoRAよりもPartial FTの方が汎用能力の保持とのバランスが良いこと、さらにRAGシナリオ学習がドメイン学習後の検索利用低下を抑えることが示されています。
- 本研究は、知識集約型のEDAタスクにおいて体系的なドメイン学習が実用的な基盤となり、将来のEDAエージェントや外部知識駆動システムにつながると主張しています。




