新しい GGUF リリースをここにアップロードしました:
https://huggingface.co/slyfox1186/qwen35-9b-opus46-mix-i1-GGUF
これは私自身の Qwen 3.5 9B のファインチューニング/エクスポートプロジェクトです。ベースモデルは unsloth/Qwen3.5-9B で、この実行は主に nohurry/Opus-4.6-Reasoning-3000x-filtered に基づいて訓練され、追加の混合データとして Salesforce/xlam-function-calling-60k や OpenAssistant/oasst2 を使用しました。
ここでのアイデアは非常にシンプルでした。小さなローカルモデルを維持し、それをより堅牢な推論経路とより構造化されたアシスタント挙動へと押し進め、ローカル使用のためにクリーンな GGUF の量子化データをエクスポートします。
このリポジトリには現在、以下の GGUF が含まれています:
Q4_K_MQ8_0
名前の意味は次のとおり:
opus46= 主な訓練ソースは Opus 4.6 reasoning-distilled データセットmix= 主ソース以外の追加データセットも組み込みましたi1= 量子化時に imatrix が使用されました
ローカルの RTX 4090 ボックスで、最初の速度重視の llama-bench パスも実行しました。これらは品質評価ではなく、公開済み GGUF からのスループット数値です:
Q4_K_M: 約9838 tok/sのプロンプト処理を512トークンで、1024トークンでは約9749 tok/s、出力トークン128個で約137.6 tok/sの生成Q8_0: 約9975 tok/sのプロンプト処理を512トークンで、1024トークンでは約9955 tok/s、出力トークン128個で約92.4 tok/sの生成
これらの数値のハードウェア / 実行時間:
RTX 4090Ryzen 9 7900Xllama.cppのビルドコミット6729d49-ngl 99
公開済みの Q4_K_M GGUF に対して、最初の実品質ベンチマークを取得しました:
- タスク:
gsm8k - 評価スタック:
lm-eval-harness->local-completions->llama-server - トークナイザの参照:
Qwen/Qwen3-8B - サーバーコンテキスト:
8192 - 同時実行:
4 - 結果:
flexible-extract exact_match = 0.8415strict-match exact_match = 0.8400
これは実際の訓練/エクスポート用パイプラインとして構築されたもので、単なる一回限りの変換ではありません。私は LoRA を訓練し、それをマージし、llama.cpp で GGUF を生成し、将来の実行を追跡しやすいように実際の訓練/エクスポート設定に名前を結び付けておきました。
まだ広範なマルチタスク品質表は持っていないため、過度な宣伝はしたくありません。これは主にリリース / ビルドログ投稿で、試してみたい人が Stock Qwen3.5-9B GGUF より良い点・悪い点を教えてくれると嬉しいです。
もし誰かがテストしてくれれば、特に以下の点についてのフィードバックを重視します:
- 推論の品質
- 構造化された出力 / 関数呼び出しスタイル
- 指示の従い方
-
Q4_K_MがQ8_0との適切なトレードオフに感じられるか
必要であれば、次により広範なマルチタスク評価セクションを追加できます。現時点では、最初の GSM8K 品質パスと llama-bench のスピード数値のみがある状態です。
[リンク] [コメント]