MLX上のDTree ... Qwen3.5-4B(M2)でDFlashに対して小さな勝ち

Reddit r/LocalLLaMA / 2026/4/16

💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsTools & Practical Usage

要点

  • 開発者がDTreeをMLXに移植し、Qwen3.5-4B(q4_g64)を用いたM2 Max 32GB環境で、小さいが反復可能な速度向上を報告しています。DTreeは48.31 e2e tok/sを達成し、DFlashの45.07 e2e tok/s(約1.07x)を上回ります。
  • 著者は、MLX上で試した他の多くの実験構成では効果が横ばい、または悪化したことに触れており、今回の改善は狭い範囲のものだが、それでも現実に存在するため共有する価値があると述べています。
  • 結論として、MLXにおける検証(verifier)側のコストが、より大きなDTreeの伸びを制限する主要なボトルネックのままであるとしています。
  • この記事ではプロジェクトリポジトリ(dtree-mlx)へのリンクがあり、MLXでより大きなDTreeパフォーマンス改善を達成した人がいるかコミュニティに問いかけています。

私はDTreeをMLXに移植しました……そして最終的に、ローカルではDFlashに匹敵(または上回る)ように見える設定を1つ見つけました。

M2 Max 32GB、Qwen3.5-4B、q4_g64、spec=16、tree_budget=24 - DFlash: 45.07 e2e tok/s - DTree: 48.31 e2e tok/s 

つまり、概ねDFlashに対して~1.07倍です。大きな差ではありませんが、少なくとも「それっぽく」見えて、言及できる程度に実在性と再現性があるように思えます。

他に試した多くのことは平坦(改善なし)か、単に悪化したので、現時点での見立てでは、MLXの検証コストがここでの主なボトルネックのままです。

MLXで、もっと大きなDTreeの伸びを得られた人はいますか?

https://github.com/DrHB/dtree-mlx

投稿者 /u/naftalinus
[link] [comments]