A10B未満のMOEは「運任せ」に感じる理由

Reddit r/LocalLLaMA / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisTools & Practical Usage

要点

  • 著者は、Mixture-of-Experts(MOE)モデルは高速に動く一方で、トークンあたりのアクティブなパラメータが十分に大きくない限り(目安として10B+)一貫性が落ちやすいと述べています。
  • 著者の実体験では、qwen3-coder-nextやqwen3.x 35B系のMOEコーディングモデルは、qwen3.5-27Bで見た安定性に届かなかったとしています。
  • 彼らは、小さめのMOE(例:A3B)が、マルチターンでの誘導や「手取り足取り」が必要になることがあると報告しています。理由の一つとして、タスクに無関係なコーディングハーネスのツールを使おうとする点を挙げています。
  • 次に何をするかの選択のブレが、35B-A3BのMOEでは27Bのdenseモデルより大きく、エージェント型ワークフローへの組み込みを難しくしていると感じているようです。
  • 全体としてMOEには期待しているものの、A10B未満で使うと再現性が低く「賭け」めいた感覚になるため、信頼できる用途を見つけられていないとまとめています。

最近、たくさんのMOEが出てきているのを見てきました。これらは速度面では驚異的な仕事をしますが、コヒーレンス面で代償を払うことになります……少なくともMOEが1トークンあたりアクティブな重み(アクティブ-per-token)を10b以上持っていない限り。
私はこれらのモデルでよくコードを書いていて、いろいろな別のモデルも試してきましたが、直近で見つけたのは次のものです:
qwen3-coder-next, qwen3.5-35b, qwen3.6-35b
そして、qwen3.5-27bで私が目撃したレベルの安定性には、どれも全く及びません。qwen3.6-35b-A3bでさえも??

一方で、A3bのMOEはその問題を解決できますが、彼はしばしば手取り足取りが必要で、マルチターンの誘導(ステアリング)が必要です。A3bは、彼が直そうとしている問題には当てはまらないのに、Coding Harnessで利用可能なツールを使おうとすることが多いです。なので、27bなら直感的に無関係なツールなどをうまく無視するのに対して、私は彼の注意を保つために、いくつかのツールを手動で無効化しなければならないことがよくあります。これは単なる一例です。しかし、次にモデルが何を選ぶかのばらつきは、27bのdenseに比べて、アクティブ35b-A3bだと非常に大きく変動します。MOEは使いたいのですが、私のエージェント的なワークフローの中で、どこに配置すればよいか、うまく見つけられずにいます。

編集:英語は難しい。けど、言いたいことは伝わるよね?少なくとも、これはボット用のアカウントじゃないっていう証拠として、タイプミスはそのままにしておきます。笑

submitted by /u/Express_Quail_1493
[link] [comments]