実データのディクテーション・クリーンアップ課題で同一量子化設定の4B・9B・27B・35Bを上回るようにファインチューニングした Qwen 3.5 2B、完全パイプライン、コード、評価付き（RTX 4080 Super、計算コスト£1以下）

Reddit r/LocalLLaMA / 2026/3/14

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

実データのディクテーション・クリーンアップ課題で、2Bパラメータのファインチューニング済みQwen 3.5モデルが同じファミリーのより大きな4B、9B、27B、35Bのバリアントを上回り、161個のホールドアウトサンプルで統計的に有意な結果を示した（p < .0001）。
目標タスクは VoiceInk（macOS ディクテーションアプリ）のリアルタイムディクテーション・クリーンアップで、フィラー語、フランス語文法パターン、そして発音の誤認識（例: 「Claude Code」ではなく「cloud code」、「chicane 17」ではなく「chicken 17」）などの問題に対処する。
完成系のみのトレーニングが品質向上の最大の要因と特定され、アシスタントの応答以外のすべての損失をマスクして訓練した結果、訓練損失が約0.85から約0.15へ低下した。
アプリとモデルサーバーの間のリバースプロキシにより、通常の使用をデータセット収集へ転換。1451件の実サンプル、アノテーション作業ゼロ。プロジェクト全体で最善の決定だった。
モデルは評価をクリアしたが生産運用で問題（反復増幅）に直面。GT Coachの長時間QAデブリーフが反復増幅を引き起こし、3266語入力、7215語出力。根本原因は、1451件のサンプル中に500語を超える出力を伴う訓練サンプルが10件しかなかったこと。これを受けて160件の合成サンプルで修正。
総計算コストは£1未満（主な費用は Claude Code のサブスクリプション😅）。ラベリング、合成データ、評価はすべて Claude を介して実行。
完全な解説は以下のGitHubに公開されています：https://github.com/hourliert/VoiceInk-Qwen3.5-2B-FT/blob/master/docs/BLOG_POST.md

同じモデルファミリー（Qwen 3.5）の4B、9B、27B、35Bバージョンを実データの製品タスクで上回るように、2Bパラメータのファインチューニングを行ったモデルを評価しました。評価は161個のホールドアウトサンプルで実施され、すべての差は統計的に有意でした（p < .0001）。

課題は、私がコードエージェントと対話するために使用している macOS のディクテーションアプリ VoiceInk のリアルタイムディクテーション・クリーンアップです。生の音声認識結果にはフィラー語、フランス語文法パターン、そして発音の誤認識が含まれており——「Claude Code」ではなく「cloud code」、また「chicane 17」ではなく「chicken 17」と聞こえることがあります。

これを作る中で学んだことをいくつか挙げます：

→ 完成部分のみのトレーニング (completions-only) は品質向上の最大の要因でした。アシスタントの応答以外のすべての損失をマスクすることで、訓練損失を約0.85から約0.15へ低下させました。

→ アプリとモデルサーバーの間にリバースプロキシを設置することで、通常の使用をデータセット収集へ転換しました。1451件の実サンプル、アノテーション作業ゼロ。プロジェクト全体で最善の決定でした。

→ モデルは評価を通過しましたが、生産環境での運用時には問題が発生しました。GT Coach（私が開発しているシミューレースコーチングアプリ）の長時間QAデブリーフが、反復増幅を引き起こしました：入力3266語、出力7215語。根本原因は、1451件のサンプルのうち500語を超える出力を伴う訓練サンプルが10件しかなかったことです。これを受けて160件の合成サンプルで修正しました。

総計算コストは£1未満です（主な費用は私の Claude Code のサブスクリプション😅）。ラベリング、合成データ、評価のすべてが Claude を通じて行われました。

方法論、コード、評価結果を含む完全な解説は以下のGitHubに公開されています：https://github.com/hourliert/VoiceInk-Qwen3.5-2B-FT/blob/master/docs/BLOG_POST.md

投稿者 /u/ComplexNode
[リンク] [コメント]

Translator

Azure OpenAI Service ドキュメント

200人のChatGPTユーザーに聞いた最大の不満。トップ5はすべてChatGPT Toolboxが解決する問題だった。

Reddit r/artificial

すべてのPRをセキュリティバグでレビューするAIを作った — その方法（2026）

Dev.to

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

Reddit r/MachineLearning

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

Dev.to

実データのディクテーション・クリーンアップ課題で同一量子化設定の4B・9B・27B・35Bを上回るようにファインチューニングした Qwen 3.5 2B、完全パイプライン、コード、評価付き（RTX 4080 Super、計算コスト£1以下）

要点

関連記事

Translator

200人のChatGPTユーザーに聞いた最大の不満。トップ5はすべてChatGPT Toolboxが解決する問題だった。

すべてのPRをセキュリティバグでレビューするAIを作った — その方法（2026）

[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし

私がリードを見つけ、個別化されたコールドメールを作成するAI SDRエージェントを構築した方法

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer