9つのタスクにわたって15の小型言語モデルをベンチマークし、実際にファインチューニングすべきモデルを見つけました。結果は以下です。

Reddit r/LocalLLaMA / 2026/3/17

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

ベンチマークは、分類からツール呼び出しまでの9つのタスクで、同一のファインチューニング設定（4エポック、学習率5e-5、LoRAランク64）とタスクごとに10,000件の合成例を使用して、15の小型言語モデルを評価しました。
Qwen3-8B は平均ランク2.33でトップを獲得し、最も狭い95%信頼区間を示して、すべてのタスクタイプで一貫した性能を示しました。
Llama-3.2-3B はランクで Llama-3.1-8B に匹敵しましたが、信頼区間がより狭く、3B サイズの Llama バリアントは強力なメモリ効率の選択肢となります。
最もチューニング性が高いカテゴリでは、Liquid AI の LFM2 ファミリーが優勢で、LFM2-350M、LFM2-1.2B、および LFM2.5-1.2B-Instruct がファインチューニングの向上をリードしました。

$\"We$

現在、SLMオプションは多数あり、ファインチューニングのための適切なベースモデルを選ぶことは実際の判断です。Qwen3、Llama 3.2、Gemma 3、SmolLM2、Liquid AIのLFM2—各ファミリーには複数のサイズ変種があり、どのモデルが学習データに最も反応するかを見極めるのは難しいです。私たちは定性的な直感よりもデータで答えるべく、体系的なベンチマークを実施しました。

設定： 15モデル、9つの多様なタスク（分類、情報抽出、文書理解、オープンブックQA、クローズドブックQA、ツール呼び出し）、すべて同一のハイパーパラメータでファインチューニング（4エポック、lr 5e-5、LoRAランク64）。訓練データ：各タスクあたり10kの合成例、120B超のティーチャーから生成。結果はすべてのベンチマークを順位ベースの平均で集計し、95%信頼区間を付して報告。

テストしたモデル： Qwen3-8B, Qwen3-4B-Instruct-2507, Qwen3-1.7B, Qwen3-0.6B, Llama-3.1-8B-Instruct, Llama-3.2-3B-Instruct, Llama-3.2-1B-Instruct, LFM2-350M, LFM2-1.2B, LFM2-2.6B-Exp, LFM2.5-1.2B-Instruct, SmolLM2-1.7B-Instruct, SmolLM2-135M-Instruct, gemma-3-1b-it, gemma-3-270m-it.

Best fine-tuned performance

Qwen3-8Bが平均ランク2.33でトップを獲得し、どのモデルよりも厳密な信頼区間（±0.57）を持ちます。単に優れているだけでなく、すべてのタスクタイプで一貫して優れています。以下が上位6つです：

モデル	平均ランク	95%CI
Qwen3-8B	2.33	±0.57
Qwen3-4B-Instruct-2507	3.33	±1.90
Llama-3.1-8B-Instruct	4.11	±2.08
Llama-3.2-3B-Instruct	4.11	±1.28
Qwen3-1.7B	4.67	±1.79
Qwen3-0.6B	5.44	±2.60

注目点: Llama-3.2-3Bはランク4.11でLlama-3.1-8Bと同点だが、CIはより狭い。メモリ制約がある場合、3BのLlamaを8Bよりも堅実な選択です。

Most tunable (biggest gains from fine-tuning)

ここからが興味深い。Liquid AIのLFM2ファミリーが上位3つを独占します:

モデル	平均ランク	95%CI
LFM2-350M	2.11	±0.89
LFM2-1.2B	3.44	±2.24
LFM2.5-1.2B-Instruct	4.89	±1.62

LFM2-350Mはわずか350Mのパラメータしかないにもかかわらず、サイズが4〜20倍のモデルより訓練信号をより効果的に吸収します。CIが±0.89なのは、これは一部のタスクのフリクではなく、すべての場面で一貫して改善することを意味します。エッジ機器や組み込みデバイスにデプロイする場合、これは大きな意味を持ちます。

より大きなモデル（Qwen3-8B、Qwen3-4B）は、チューニング性の点で下位寄りに位置します。これは合理的です：すでにベースラインで良く機能するため、改善の余地が少ないのです。

Can a fine-tuned 4B model match a 120B+ teacher?

はい。以下はQwen3-4B-Instruct-2507とGPT-OSS-120Bティーチャーの比較です：

ベンチマーク	ティーチャー	Qwen3-4B Finetuned	差分
TREC	0.90	0.93	+0.03
Banking77	0.92	0.89	-0.03
Docs	0.82	0.84	+0.02
Ecommerce	0.88	0.90	+0.03
PII Redaction	0.81	0.83	+0.02
Roman Empire QA	0.75	0.80	+0.05
Smart Home	0.92	0.96	+0.04
SQuAD 2.0	0.52	0.71	+0.19
Voice Assistant	0.92	0.95	+0.03

4Bのモデルは120Bのティーチャーを、9ベンチマーク中8つで上回ります。SQuAD 2.0の結果（+19ポイント）は特に際立っており、ファインチューニングは、30倍大きいモデルと同じようなプロンプトを使うよりもドメイン知識をより効果的に組み込めることを示しています。

Practical recommendations

Max accuracy: Qwen3-8B
Strong accuracy, smaller footprint: Qwen3-4B-Instruct-2507
Under 2B params: Qwen3-0.6B or Llama-3.2-1B-Instruct
Max fine-tuning ROI: LFM2-350M or LFM2-1.2B
Ultra-compact / IoT: LFM2-350M
No fine-tuning possible: Qwen3-8B (best zero-shot)

結論: ファインチューニングはベースモデルの選択よりも重要です。適切にチューニングされた1Bモデルは、プロンプトで使われた8Bモデルよりも高性能を発揮できます。

完全な投稿には、チャート、方法論の詳細、そして生データが含まれます: https://www.distillabs.ai/blog/what-small-language-model-is-best-for-fine-tuning

投稿者: /u/party-horse
[リンク] [コメント]

The Complete Guide to AI Prompts for Content Creators

Dev.to

Automating the Chase: AI for Festival Vendor Compliance

Dev.to

From Piles to Protocol: AI for Vendor Compliance at Scale

Dev.to

MCP Skills vs MCP Tools: The Right Way to Configure Your Server

Dev.to

Still paying 4 years for a tech career

Dev.to

9つのタスクにわたって15の小型言語モデルをベンチマークし、実際にファインチューニングすべきモデルを見つけました。結果は以下です。

要点

Best fine-tuned performance

Most tunable (biggest gains from fine-tuning)

Can a fine-tuned 4B model match a 120B+ teacher?

Practical recommendations

関連記事

The Complete Guide to AI Prompts for Content Creators

Automating the Chase: AI for Festival Vendor Compliance

From Piles to Protocol: AI for Vendor Compliance at Scale

MCP Skills vs MCP Tools: The Right Way to Configure Your Server

Still paying 4 years for a tech career

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer