Adaは、飛行制御装置、ミサイル誘導、衛星システム、航空管制の背後にあるプログラミング言語です。安全性が極めて重要なソフトウェアの中でも最も重要な言語のひとつであり、私が評価した主要なLLMはこの点で劣っていました。
私はQwen2.5-Coder-14B-InstructをQLoRAでファインチューニングしました。データセットは3,430のAda/SPARK命令ペアから成る、コンパイラ検証済みデータセットです。すべての訓練サンプルはgnatmake -gnat2022 -gnatwaを通過します。モデルは壊れたコードで訓練されることは決してありません。
カスタム Ada Compilation Benchmark(1,000プロンプト、初回のクリーンコンパイル):
| モデル | サイズ | コンパイル率 |
|---|---|---|
| Steelman R5 | 14B | 68.6% |
| Claude Opus 4.6 | — | 42.1% |
| Claude Sonnet 4.6 | — | 37.2% |
| Qwen2.5-Coder-14B (base, untuned) | 14B | ~35% |
| Claude Sonnet 4 | — | 27.5% |
MultiPL-E HumanEval-Ada(157問、pass@1):
| モデル | Pass@1 | コンパイル率 |
|---|---|---|
| Steelman R5 | 47.1% | 74.5% |
| Qwen2.5-Coder-14B (base) | 34.4% | 51.0% |
これらは、HumanEval上で公開されているどのオープンモデルよりも先に公表されたAdaのpass@1結果です。
トレーニングの詳細:
- Unsloth + TRL SFTTrainerを介した4ビットQLoRA
- LoRAランク32、α 64、q/k/v/o/gate/up/down の射影を対象
- 累積データセット上で各ラウンドをベースから完全再訓練(アダプター継続によりR2でカタストロフィック忘却が発生)
- 1エポック、学習率2e-5、一定スケジュール、レンタルH100でラウンドあたり約49分
- 5ラウンド(R1–R5)、R2はアダプター継続によるカタストロフィック忘却のため破棄。これまでのプロジェクトはおよそ2〜3日を要しました。
- データセットには標準生成、仕様から本文、エラー修正、マルチファイルタスクが含まれます
- Ada言語を定義した1978年のDoD Steelman要件にちなみ名付けられました
今すぐお試しください:
ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF Q4_K_Mで12GBのVRAMに収まります。
リンク: