AI Navigate

9つのタスクにわたって15の小型言語モデルをベンチマークし、実際にファインチューニングすべきモデルを見つけました。結果は以下です。

Reddit r/LocalLLaMA / 2026/3/17

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • ベンチマークは、分類からツール呼び出しまでの9つのタスクで、同一のファインチューニング設定(4エポック、学習率5e-5、LoRAランク64)とタスクごとに10,000件の合成例を使用して、15の小型言語モデルを評価しました。
  • Qwen3-8B は平均ランク2.33でトップを獲得し、最も狭い95%信頼区間を示して、すべてのタスクタイプで一貫した性能を示しました。
  • Llama-3.2-3B はランクで Llama-3.1-8B に匹敵しましたが、信頼区間がより狭く、3B サイズの Llama バリアントは強力なメモリ効率の選択肢となります。
  • 最もチューニング性が高いカテゴリでは、Liquid AI の LFM2 ファミリーが優勢で、LFM2-350M、LFM2-1.2B、および LFM2.5-1.2B-Instruct がファインチューニングの向上をリードしました。
\"We

現在、SLMオプションは多数あり、ファインチューニングのための適切なベースモデルを選ぶことは実際の判断です。Qwen3、Llama 3.2、Gemma 3、SmolLM2、Liquid AIのLFM2—各ファミリーには複数のサイズ変種があり、どのモデルが学習データに最も反応するかを見極めるのは難しいです。私たちは定性的な直感よりもデータで答えるべく、体系的なベンチマークを実施しました。

設定: 15モデル、9つの多様なタスク(分類、情報抽出、文書理解、オープンブックQA、クローズドブックQA、ツール呼び出し)、すべて同一のハイパーパラメータでファインチューニング(4エポック、lr 5e-5、LoRAランク64)。訓練データ:各タスクあたり10kの合成例、120B超のティーチャーから生成。結果はすべてのベンチマークを順位ベースの平均で集計し、95%信頼区間を付して報告。

テストしたモデル: Qwen3-8B, Qwen3-4B-Instruct-2507, Qwen3-1.7B, Qwen3-0.6B, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Llama-3.2-1B-Instruct, LFM2-350M, LFM2-1.2B, LFM2-2.6B-Exp, LFM2.5-1.2B-Instruct, SmolLM2-1.7B-Instruct, SmolLM2-135M-Instruct, gemma-3-1b-it, gemma-3-270m-it.

Best fine-tuned performance

Qwen3-8Bが平均ランク2.33でトップを獲得し、どのモデルよりも厳密な信頼区間(±0.57)を持ちます。単に優れているだけでなく、すべてのタスクタイプで一貫して優れています。以下が上位6つです:

モデル 平均ランク 95%CI
Qwen3-8B 2.33 ±0.57
Qwen3-4B-Instruct-2507 3.33 ±1.90
Llama-3.1-8B-Instruct 4.11 ±2.08
Llama-3.2-3B-Instruct 4.11 ±1.28
Qwen3-1.7B 4.67 ±1.79
Qwen3-0.6B 5.44 ±2.60

注目点: Llama-3.2-3Bはランク4.11でLlama-3.1-8Bと同点だが、CIはより狭い。メモリ制約がある場合、3BのLlamaを8Bよりも堅実な選択です。

Most tunable (biggest gains from fine-tuning)

ここからが興味深い。Liquid AIのLFM2ファミリーが上位3つを独占します:

モデル 平均ランク 95%CI
LFM2-350M 2.11 ±0.89
LFM2-1.2B 3.44 ±2.24
LFM2.5-1.2B-Instruct 4.89 ±1.62

LFM2-350Mはわずか350Mのパラメータしかないにもかかわらず、サイズが4〜20倍のモデルより訓練信号をより効果的に吸収します。CIが±0.89なのは、これは一部のタスクのフリクではなく、すべての場面で一貫して改善することを意味します。エッジ機器や組み込みデバイスにデプロイする場合、これは大きな意味を持ちます。

より大きなモデル(Qwen3-8B、Qwen3-4B)は、チューニング性の点で下位寄りに位置します。これは合理的です:すでにベースラインで良く機能するため、改善の余地が少ないのです。

Can a fine-tuned 4B model match a 120B+ teacher?

はい。以下はQwen3-4B-Instruct-2507とGPT-OSS-120Bティーチャーの比較です:

ベンチマーク ティーチャー Qwen3-4B Finetuned 差分
TREC 0.90 0.93 +0.03
Banking77 0.92 0.89 -0.03
Docs 0.82 0.84 +0.02
Ecommerce 0.88 0.90 +0.03
PII Redaction 0.81 0.83 +0.02
Roman Empire QA 0.75 0.80 +0.05
Smart Home 0.92 0.96 +0.04
SQuAD 2.0 0.52 0.71 +0.19
Voice Assistant 0.92 0.95 +0.03

4Bのモデルは120Bのティーチャーを、9ベンチマーク中8つで上回ります。SQuAD 2.0の結果(+19ポイント)は特に際立っており、ファインチューニングは、30倍大きいモデルと同じようなプロンプトを使うよりもドメイン知識をより効果的に組み込めることを示しています。

Practical recommendations

  • Max accuracy: Qwen3-8B
  • Strong accuracy, smaller footprint: Qwen3-4B-Instruct-2507
  • Under 2B params: Qwen3-0.6B or Llama-3.2-1B-Instruct
  • Max fine-tuning ROI: LFM2-350M or LFM2-1.2B
  • Ultra-compact / IoT: LFM2-350M
  • No fine-tuning possible: Qwen3-8B (best zero-shot)

結論: ファインチューニングはベースモデルの選択よりも重要です。適切にチューニングされた1Bモデルは、プロンプトで使われた8Bモデルよりも高性能を発揮できます。

完全な投稿には、チャート、方法論の詳細、そして生データが含まれます: https://www.distillabs.ai/blog/what-small-language-model-is-best-for-fine-tuning

投稿者: /u/party-horse
[リンク] [コメント]