AI Navigate

Adaコード生成でClaude Opus 4.6を上回る14Bモデルをファインチューニングしました

Reddit r/LocalLLaMA / 2026/3/14

📰 ニュースTools & Practical UsageModels & Research

要点

  • Steelman R5という14BモデルをQLoRAでファインチューニングし、コンパイラ検証済みAda/SPARKデータセット(3,430命令ペア)を用いて、オープンモデルのHumanEvalにおけるAdaのpass@1結果として初めて公表しました。
  • カスタムAda Compilation Benchmarkで、Steelman R5は68.6%のコンパイル率を達成し、Claude Opus 4.6の42.1%、Claude Sonnet 4.6の37.2%を上回りました。
  • MultiPL-E HumanEval-Ada(157問、pass@1)では、Steelman R5が47.1%のpass@1と74.5%のコンパイル率を達成し、ベースのQwen2.5-Coder-14B(34.4%のpass@1、51.0%のコンパイル率)を上回りました。
  • トレーニング詳細には、UnslothとTRL SFTTrainerを用いた4ビットQLoRA、LoRAランク32、α64、q/k/v/o/gate/up/down射影のターゲット、R2を含むアダプター継続によるカタストロフィック忘却の回避のためR2を破棄、1エポックあたり2e-5、約49分/ラウンド、5ラウンド(R1–R5)、累積データセット上での完全再訓練、レンタルH100での実行、データセットには標準生成、仕様→本文、エラー修正、マルチファイルタスク、1978年のDoD Steelman要件にちなんで命名

Adaは、飛行制御装置、ミサイル誘導、衛星システム、航空管制の背後にあるプログラミング言語です。安全性が極めて重要なソフトウェアの中でも最も重要な言語のひとつであり、私が評価した主要なLLMはこの点で劣っていました。

私はQwen2.5-Coder-14B-InstructをQLoRAでファインチューニングしました。データセットは3,430のAda/SPARK命令ペアから成る、コンパイラ検証済みデータセットです。すべての訓練サンプルはgnatmake -gnat2022 -gnatwaを通過します。モデルは壊れたコードで訓練されることは決してありません。

カスタム Ada Compilation Benchmark(1,000プロンプト、初回のクリーンコンパイル):

モデル サイズ コンパイル率
Steelman R5 14B 68.6%
Claude Opus 4.6 42.1%
Claude Sonnet 4.6 37.2%
Qwen2.5-Coder-14B (base, untuned) 14B ~35%
Claude Sonnet 4 27.5%

MultiPL-E HumanEval-Ada(157問、pass@1):

モデル Pass@1 コンパイル率
Steelman R5 47.1% 74.5%
Qwen2.5-Coder-14B (base) 34.4% 51.0%

これらは、HumanEval上で公開されているどのオープンモデルよりも先に公表されたAdaのpass@1結果です。

トレーニングの詳細:

  • Unsloth + TRL SFTTrainerを介した4ビットQLoRA
  • LoRAランク32、α 64、q/k/v/o/gate/up/down の射影を対象
  • 累積データセット上で各ラウンドをベースから完全再訓練(アダプター継続によりR2でカタストロフィック忘却が発生)
  • 1エポック、学習率2e-5、一定スケジュール、レンタルH100でラウンドあたり約49分
  • 5ラウンド(R1–R5)、R2はアダプター継続によるカタストロフィック忘却のため破棄。これまでのプロジェクトはおよそ2〜3日を要しました。
  • データセットには標準生成、仕様から本文、エラー修正、マルチファイルタスクが含まれます
  • Ada言語を定義した1978年のDoD Steelman要件にちなみ名付けられました

今すぐお試しください:

ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF 

Q4_K_Mで12GBのVRAMに収まります。

リンク: