私はDTreeをMLXに移植しました……そして最終的に、ローカルではDFlashに匹敵(または上回る)ように見える設定を1つ見つけました。
M2 Max 32GB、Qwen3.5-4B、q4_g64、spec=16、tree_budget=24 - DFlash: 45.07 e2e tok/s - DTree: 48.31 e2e tok/s つまり、概ねDFlashに対して~1.07倍です。大きな差ではありませんが、少なくとも「それっぽく」見えて、言及できる程度に実在性と再現性があるように思えます。
他に試した多くのことは平坦(改善なし)か、単に悪化したので、現時点での見立てでは、MLXの検証コストがここでの主なボトルネックのままです。
MLXで、もっと大きなDTreeの伸びを得られた人はいますか?
[link] [comments]




