こんにちは r/LocalLLaMA,
エージェント用途を目的にした最新のQwen3.5-9BのファインチューニングであるHarmonic-9Bを、ついさきほどアップロードしました。
現在の状況:
• ステージ1(重い推論トレーニング)は完了
• ステージ2(軽量なツール呼び出し/エージェントのファインチューニング)は、いまもトレーニング中
方針は、強力な構造化された推論と、クリーンで信頼性の高いツール利用を組み合わせることです。あわせて、通常のチャットが硬く感じたり、過度に冗長になったりしないようにすることも狙っています。
ステージ2のためのフィルタ済みデータセット: 私が第2段階で使っているHermesエージェントのトレースの、フィルタ版をオープンソース化しました:
https://huggingface.co/datasets/DJLougen/hermes-agent-traces-filtered
フィルタ後の主な改善点:
• 自己修正: 6% → 63%
• 検証ステップ: 26% → 96%
• 思考の深さ: +40%
• 有効なJSON/ツール呼び出し: 100%
GGUFの量子化版はすでにこちらで利用可能です:
https://huggingface.co/DJLougen/Harmonic-9B-GGUF
ステージ2はまだトレーニング中なので、まだ適切なベンチマークは実行していません。ステージ1のチェックポイントに対する初期確認では、推論構造は良好でした。ステージ2が完了したら数値を共有し、実際のエージェント評価を行えるようにします。
もし試してみるなら、フィードバックをいただけると嬉しいです。特に、エージェントハーネス(OpenClaw、LangGraph、ReAct など)での振る舞いについて。
これは、私が高い信号を持つデータのキュレーションと、段階的なファインチューニングに取り組んでいる継続作業の一部です。今後もアップデート予定です。
[リンク] [コメント]




