思考データと FunctionGemma 関連の関数呼び出しデータの混合でファインチューニングしたQwen3.5-9B GGUFをアップロードしたばかりで、それを llama.cpp/GGUF ランタイム用に変換しました。
まだQwenファミリーモデルですが、チューニングにより構造化された応答、ツール使用型の挙動、行動指向のプロンプトへとより傾斜しています。
llama.cpp、LM Studio、Ollamaなどのローカルモデルを実行している場合、そのパフォーマンスがどのようになるかを知りたいです:
- 一般的なチャット
- 推論タスク
- 構造化された出力
- 関数呼び出しスタイルのプロンプト
Repo link: Huggingface
[リンク] [コメント]