Adaコード生成でClaude Opus 4.6を上回る14Bモデルをファインチューニングしました

Reddit r/LocalLLaMA / 2026/3/14

📰 ニュースTools & Practical UsageModels & Research

共有:

要点

Steelman R5という14BモデルをQLoRAでファインチューニングし、コンパイラ検証済みAda/SPARKデータセット（3,430命令ペア）を用いて、オープンモデルのHumanEvalにおけるAdaのpass@1結果として初めて公表しました。
カスタムAda Compilation Benchmarkで、Steelman R5は68.6%のコンパイル率を達成し、Claude Opus 4.6の42.1%、Claude Sonnet 4.6の37.2%を上回りました。
MultiPL-E HumanEval-Ada（157問、pass@1）では、Steelman R5が47.1%のpass@1と74.5%のコンパイル率を達成し、ベースのQwen2.5-Coder-14B（34.4%のpass@1、51.0%のコンパイル率）を上回りました。
トレーニング詳細には、UnslothとTRL SFTTrainerを用いた4ビットQLoRA、LoRAランク32、α64、q/k/v/o/gate/up/down射影のターゲット、R2を含むアダプター継続によるカタストロフィック忘却の回避のためR2を破棄、1エポックあたり2e-5、約49分/ラウンド、5ラウンド（R1–R5）、累積データセット上での完全再訓練、レンタルH100での実行、データセットには標準生成、仕様→本文、エラー修正、マルチファイルタスク、1978年のDoD Steelman要件にちなんで命名

Adaは、飛行制御装置、ミサイル誘導、衛星システム、航空管制の背後にあるプログラミング言語です。安全性が極めて重要なソフトウェアの中でも最も重要な言語のひとつであり、私が評価した主要なLLMはこの点で劣っていました。

私はQwen2.5-Coder-14B-InstructをQLoRAでファインチューニングしました。データセットは3,430のAda/SPARK命令ペアから成る、コンパイラ検証済みデータセットです。すべての訓練サンプルはgnatmake -gnat2022 -gnatwaを通過します。モデルは壊れたコードで訓練されることは決してありません。

カスタム Ada Compilation Benchmark（1,000プロンプト、初回のクリーンコンパイル）：

モデル	サイズ	コンパイル率
Steelman R5	14B	68.6%
Claude Opus 4.6	—	42.1%
Claude Sonnet 4.6	—	37.2%
Qwen2.5-Coder-14B (base, untuned)	14B	~35%
Claude Sonnet 4	—	27.5%

MultiPL-E HumanEval-Ada（157問、pass@1）：

モデル	Pass@1	コンパイル率
Steelman R5	47.1%	74.5%
Qwen2.5-Coder-14B (base)	34.4%	51.0%

これらは、HumanEval上で公開されているどのオープンモデルよりも先に公表されたAdaのpass@1結果です。

トレーニングの詳細:

Unsloth + TRL SFTTrainerを介した4ビットQLoRA
LoRAランク32、α 64、q/k/v/o/gate/up/down の射影を対象
累積データセット上で各ラウンドをベースから完全再訓練（アダプター継続によりR2でカタストロフィック忘却が発生）
1エポック、学習率2e-5、一定スケジュール、レンタルH100でラウンドあたり約49分
5ラウンド（R1–R5）、R2はアダプター継続によるカタストロフィック忘却のため破棄。これまでのプロジェクトはおよそ2〜3日を要しました。
データセットには標準生成、仕様から本文、エラー修正、マルチファイルタスクが含まれます
Ada言語を定義した1978年のDoD Steelman要件にちなみ名付けられました

今すぐお試しください:

ollama run hf.co/the-clanker-lover/steelman-14b-ada-v0.1-GGUF

Q4_K_Mで12GBのVRAMに収まります。

リンク:

モデル: https://huggingface.co/the-clanker-lover/steelman-14b-ada-v0.1
GGU

「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に

Publickey

AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に

Publickey

仕様駆動開発における自己改良エージェント

Dev.to

2026年版：AIでLinkedInプロフィールを最適化して採用担当者に見つけてもらう方法

Dev.to

Agentforce Builder: SalesforceでAIエージェントを構築する方法

Dev.to

Adaコード生成でClaude Opus 4.6を上回る14Bモデルをファインチューニングしました

要点

関連記事

「Google AI Studio」がFirebaseのバックエンドとAntigravityのコーディングエージェントを搭載、プロンプトだけで高度なフルスタックアプリケーションを生成可能に

AIエージェントがコマンドラインでブラウザを自動操作できる「Browser Use CLI 2.0」リリース。Chrome DevToolsへの接続などで操作速度が2倍に

仕様駆動開発における自己改良エージェント

2026年版：AIでLinkedInプロフィールを最適化して採用担当者に見つけてもらう方法

Agentforce Builder: SalesforceでAIエージェントを構築する方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer