Qwen3.5-9B ファインチューニング/エクスポート、Opus 4.6 推論蒸留+混合データ追加

Reddit r/LocalLLaMA / 2026/3/23

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • Qwen3.5-9B のファインチューニング/エクスポート向けの新しい GGUF リリースが公開されました。unsloth/Qwen3.5-9B に基づき、Opus-4.6-Reasoning-3000x-filtered を主に用いて訓練され、xlam-function-calling-60k および OASST2 からの追加混合データが含まれています。
  • 提供されている GGUF バリアントは Q4_K_M と Q8_0 で、命名規則は次のとおり説明されます: opus46 は Opus 4.6 の推論蒸留データを示し、mix は追加データセットを示し、i1 は量子化時の imatrix を示します。
  • RTX 4090 での初の速度重視ベンチマークでは、スループットは次のとおりです: Q4_K_M はプロンプト処理で約 9838 トークン/秒(512 トークン)および 9749 トークン/秒(1024 トークン)、出力 128 トークンでの生成は 137.6 トークン/秒;Q8_0 は約 9975 トークン/秒(512)、9955 トークン/秒(1024)、128 出力トークンで 92.4 トークン/秒。
  • gsm8k を用いた Q4_K_M の品質ベンチマークは、flexible-extract の exact_match が 0.8415、strict-match の exact_match が 0.84 を報告します。さらに、本作業はローカル利用のための実際の訓練/エクスポートパイプライン(LoRA トレーニング、マージ、および GGUF 生成)として提示されていますが、まだ完全なマルチタスク品質テーブルではないという注記があります。

新しい GGUF リリースをここにアップロードしました:

https://huggingface.co/slyfox1186/qwen35-9b-opus46-mix-i1-GGUF

これは私自身の Qwen 3.5 9B のファインチューニング/エクスポートプロジェクトです。ベースモデルは unsloth/Qwen3.5-9B で、この実行は主に nohurry/Opus-4.6-Reasoning-3000x-filtered に基づいて訓練され、追加の混合データとして Salesforce/xlam-function-calling-60kOpenAssistant/oasst2 を使用しました。

ここでのアイデアは非常にシンプルでした。小さなローカルモデルを維持し、それをより堅牢な推論経路とより構造化されたアシスタント挙動へと押し進め、ローカル使用のためにクリーンな GGUF の量子化データをエクスポートします。

このリポジトリには現在、以下の GGUF が含まれています:

  • Q4_K_M
  • Q8_0

名前の意味は次のとおり:

  • opus46 = 主な訓練ソースは Opus 4.6 reasoning-distilled データセット
  • mix = 主ソース以外の追加データセットも組み込みました
  • i1 = 量子化時に imatrix が使用されました

ローカルの RTX 4090 ボックスで、最初の速度重視の llama-bench パスも実行しました。これらは品質評価ではなく、公開済み GGUF からのスループット数値です:

  • Q4_K_M: 約 9838 tok/s のプロンプト処理を 512 トークンで、1024 トークンでは約 9749 tok/s、出力トークン 128 個で約 137.6 tok/s の生成
  • Q8_0: 約 9975 tok/s のプロンプト処理を 512 トークンで、1024 トークンでは約 9955 tok/s、出力トークン 128 個で約 92.4 tok/s の生成

これらの数値のハードウェア / 実行時間:

  • RTX 4090
  • Ryzen 9 7900X
  • llama.cpp のビルドコミット 6729d49
  • -ngl 99

公開済みの Q4_K_M GGUF に対して、最初の実品質ベンチマークを取得しました:

  • タスク: gsm8k
  • 評価スタック: lm-eval-harness -> local-completions -> llama-server
  • トークナイザの参照: Qwen/Qwen3-8B
  • サーバーコンテキスト: 8192
  • 同時実行: 4
  • 結果:
    • flexible-extract exact_match = 0.8415
    • strict-match exact_match = 0.8400

これは実際の訓練/エクスポート用パイプラインとして構築されたもので、単なる一回限りの変換ではありません。私は LoRA を訓練し、それをマージし、llama.cpp で GGUF を生成し、将来の実行を追跡しやすいように実際の訓練/エクスポート設定に名前を結び付けておきました。

まだ広範なマルチタスク品質表は持っていないため、過度な宣伝はしたくありません。これは主にリリース / ビルドログ投稿で、試してみたい人が Stock Qwen3.5-9B GGUF より良い点・悪い点を教えてくれると嬉しいです。

もし誰かがテストしてくれれば、特に以下の点についてのフィードバックを重視します:

  • 推論の品質
  • 構造化された出力 / 関数呼び出しスタイル
  • 指示の従い方
  • Q4_K_MQ8_0 との適切なトレードオフに感じられるか

必要であれば、次により広範なマルチタスク評価セクションを追加できます。現時点では、最初の GSM8K 品質パスと llama-bench のスピード数値のみがある状態です。

投稿者 /u/RiverRatt
[リンク] [コメント]