Gemma 4、Phi-4、Qwen3:高密度およびMoE推論言語モデルにおける精度と効率のトレードオフ

arXiv cs.CL / 2026/4/9

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、推論に特化した最新の命令チューニングLLM7モデル(高密度およびMoE)を、ARC-Challenge、GSM8K、Math Level 1〜3、TruthfulQA MC1に対してベンチマークし、ゼロショット、チェーン・オブ・ソート(CoT)、およびfew-shot CoTによるプロンプトを用いて評価する。
  • 結果は、実際のエンドツーエンドの精度と効率の関係が、モデルのアーキテクチャとプロンプトの組み合わせによって決まることを示している。なかでもGemma-4-E4Bは、比較的低いVRAM(14.9 GB)を併せ持ちながら、最良の総合重み付き精度(0.675)を達成した。
  • MoEモデルは、パラメータ/計算量効率が高いことが期待されるが、本研究ではスパース活性化それ自体では最適な実運用ポイントが保証されないことが明らかになった。精度とリソース使用量は、モデルや設定ごとに大きく変動する。
  • タスク別の性能傾向はファミリーごとに異なる。GemmaモデルはARCおよびMathで優位であり、PhiモデルはTruthfulQAで最も強い。GSM8Kはプロンプトへの感度が非常に高く、few-shot CoTではPhi-4の推論性能が急落する。
  • 著者らは、再現可能なベンチマーク用パイプライン、集計結果、統計解析を公開し、レイテンシやGPUメモリ制限といった現実的な制約のもとでのデプロイメント志向の評価を支援することを意図している。

要旨: 混合専門家(MoE)言語モデルは、トークンごとにパラメータの一部のみが活性化されるため、密なモデルよりも品質と効率のトレードオフが良いことが多いと期待されますが、その利点の実際的価値は、現実的な推論の制約下でのエンドツーエンドの振る舞いに依存します。本研究では、密型およびMoE設計の両方を含む、推論志向の命令調整モデル7つを対象にした統制された実証ベンチマークを提示します。具体的には、Gemma-4-E2B、Gemma-4-E4B、Gemma-4-26B-A4B、Phi-4-mini-reasoning、Phi-4-reasoning、Qwen3-8B、Qwen3-30B-A3Bを取り上げ、4つのベンチマーク(ARC-Challenge、GSM8K、Math Level 1-3、TruthfulQA MC1)に対して、3つのプロンプト戦略(ゼロショット、連鎖的思考(chain-of-thought)、few-shot連鎖的思考)で評価しました。本研究は、合計8,400件の「モデル-データセット-プロンプト」評価をカバーし、精度、レイテンシ、ピークGPUメモリ使用量(VRAM)、および概算の浮動小点演算(FLOPs)/トークンの代理指標を記録します。加重マルチタスクの要約では、few-shot連鎖的思考を用いたGemma-4-E4Bが最良の総合結果を達成し、加重精度0.675、平均VRAM 14.9 GBを記録しました。一方でGemma-4-26B-A4Bは精度0.663と僅差だったものの、メモリ使用量は48.1 GBと大幅に多いことがわかりました。タスク別では、GemmaモデルがARCおよびMathで優勢であり、PhiモデルはTruthfulQAで最も強く、GSM8Kはプロンプトへの感度が最も大きく、特にPhi-4-reasoningが連鎖的思考では0.67だったのに対し、few-shot連鎖的思考では0.11まで急落しました。これらの結果は、疎な活性化だけでは最良の実用的な運用点が保証されないことを示しています。観測される精度と効率のトレードオフは、アーキテクチャ、プロンプトプロトコル、そしてタスク構成の双方に依存します。我々は、再現可能なベンチマークのパイプライン、集約結果、および対となる統計解析を公開し、現実の資源制約下での推論LLMの導入志向の評価を支援します。