Harmonic-9B - Qwen3.5-9Bの2段階ファインチューニング(第2段階は現在もトレーニング中)

Reddit r/LocalLLaMA / 2026/4/5

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 著者は「Harmonic-9B」を投稿しました。これはエージェント用途に特化したQwen3.5-9Bの2段階ファインチューニングで、第1段階は完了しており、第2段階は現在も積極的にトレーニング中です。
  • 第2段階では、構造化された推論と信頼性の高いエージェント動作を組み合わせることで、ツール呼び出しの挙動を改善することに重点を置きつつ、通常のチャットが硬くなったり、過度に冗長になったりしないようにすることを目指しています。
  • 第2段階のトレーニングデータセットは、Hermesエージェントのトレースをオープンソース化し、フィルタしたものです。報告されている改善には、自動修正(6%→63%)、検証(26%→96%)、および思考の深さの向上(+40%)が含まれます。
  • 著者によれば、フィルタ済みの第2段階データにより「有効なJSON/ツール呼び出し」が100%になり、GGUFの量子化(quant)ダウンロードも提供されていますが、第2段階が完了するまで正式なベンチマークは保留だとしています。
  • OpenClaw、LangGraph、ReAct といったエージェントハーネス上での Harmonic-9B の性能についてのフィードバックを求めています。実際のエージェント評価の結果は、その後に共有される見込みです。

こんにちは r/LocalLLaMA,

エージェント用途を目的にした最新のQwen3.5-9BのファインチューニングであるHarmonic-9Bを、ついさきほどアップロードしました。

現在の状況:

• ステージ1(重い推論トレーニング)は完了

• ステージ2(軽量なツール呼び出し/エージェントのファインチューニング)は、いまもトレーニング中

方針は、強力な構造化された推論と、クリーンで信頼性の高いツール利用を組み合わせることです。あわせて、通常のチャットが硬く感じたり、過度に冗長になったりしないようにすることも狙っています。

ステージ2のためのフィルタ済みデータセット: 私が第2段階で使っているHermesエージェントのトレースの、フィルタ版をオープンソース化しました:

https://huggingface.co/datasets/DJLougen/hermes-agent-traces-filtered

フィルタ後の主な改善点:

• 自己修正: 6% → 63%

• 検証ステップ: 26% → 96%

• 思考の深さ: +40%

• 有効なJSON/ツール呼び出し: 100%

GGUFの量子化版はすでにこちらで利用可能です:

https://huggingface.co/DJLougen/Harmonic-9B-GGUF

ステージ2はまだトレーニング中なので、まだ適切なベンチマークは実行していません。ステージ1のチェックポイントに対する初期確認では、推論構造は良好でした。ステージ2が完了したら数値を共有し、実際のエージェント評価を行えるようにします。

もし試してみるなら、フィードバックをいただけると嬉しいです。特に、エージェントハーネス(OpenClaw、LangGraph、ReAct など)での振る舞いについて。

これは、私が高い信号を持つデータのキュレーションと、段階的なファインチューニングに取り組んでいる継続作業の一部です。今後もアップデート予定です。

投稿者 /u/Crampappydime
[リンク] [コメント]