AI Navigate

H2LooP Spark Preview: 低レベル組込みシステム用コードのための大規模言語モデルの継続的事前学習

arXiv cs.LG / 2026/3/13

📰 ニュースSignals & Early TrendsModels & Research

要点

  • H2LooP Spark Preview は、BF16 LoRA を用いて 8 台の NVIDIA H100 GPU 上で、組込みシステムのプログラミングへ OLMo-3-7B-a LLM を適応させる継続的事前学習パイプラインを提示します。
  • トレーニングデータは、117 製造元からのリポジトリ・データシート対ペアを 100B トークン分組み合わせ、SpecMap に触発されたマッピング手法によって 13 の組込みドメインをカバーする厳選データセットを 23.5B トークンとして構成しています。
  • ベンチマークにおいて 7B モデルは 13 の組込みドメインにわたってトークン精度が優れ、ドメイン内の困惑度を 70.4%、保持データセットのリポジトリ困惑度を 66.1% 減少させ、Claude Opus 4.6 および Qwen3-Coder-30B を 8 カテゴリで上回っています。
  • 著者らは Huggingface 上で production training checkpoint をオープンソースアーティファクトとして公開し、研究者や実務者によるより広い利用を可能にしています。
大規模言語モデル(LLMs)は一般目的のプログラミング言語における高いコード生成能力を示しますが、低レベル組込みシステムのような専門分野では依然として限界があります。この分野にはハードウェアレジスタの操作、ベンダー固有のSDK、リアルタイムオペレーティングシステムのAPI、および標準の事前学習コーパスには十分に表現されていないハードウェア抽象化層が含まれます。私たちは H2LooP Spark Preview を導入します。これは OLMo-3-7B-a を完全にオープンな言語モデルとして、BF16 LoRA とランク安定化スケーリングを用いて 8 台の NVIDIA H100 GPU 上で組込みシステム分野へ適応させる継続的事前学習(CPT)パイプラインです。私たちのトレーニングコーパスは、117 社のメーカーにまたがる生データの組込みシステムデータの 100B トークンをリポジトリ・データシート対ペアとして構築し、SpecMap(Nipane ら、2026)の提案する階層的なデータシートからコードへのマッピングアプローチを用いて処理されました。得られた厳選データセットの分割には、13 の組込みドメインにまたがる 23.5B トークンが含まれます。高ランク LoRA(r=512)を用いた継続的事前学習は顕著な利得を生み出し、ドメイン内困惑度を 70.4% 減少、保持データのリポジトリ困惑度を 66.1% 減らしました。13 の組込みドメインにわたる生成コード補完ベンチマークでは、7B モデルは Claude Opus 4.6 および Qwen3-Coder-30B を 8 カテゴリでトークン精度の点で上回り、狙いを定めた継続的事前学習が、より小さなオープンウェイトモデルを前線のシステムに対抗できることを示しています。我々は production training checkpoint を Huggingface 上でオープンソースアーティファクトとして公開しています。