FPGAについて詳しい人へ:
- 設計できる最大モデルサイズはどれくらいですか(私は最大で20〜30mパラメータまでなら読んだのですが、量子化すれば、もう少し大きいのは可能ですか—合理的な価格で)?
- Taalas では、ASICでやっていることをより現実的にできるのでしょうか(噂では? たとえば apperantly での <$800 ハードで、10k tok/sec の qwen 27b)
ここで推測デコーディングは機能しますか?より小さいモデルがトークン速度を100倍に出せる場合、他にここで適した戦略はありますか?
ありがとうございます!
[リンク] [コメント]




