みなさん、こんにちは。
皆さんと同様に、ローカルでモデルを効率的に動かすことに情熱を持っています。私は最近、独自のハードウェアアーキテクチャ――NPU Array(v1)――を設計し、その中でも特に行列積と、高いTOPS/Watt性能のためのローカルAI推論向けに最適化しました。
つい先ほど、このリポジトリ全体をオープンソース化しました: https://github.com/n57d30top/graph-assist-npu-array-v1-direct-add-commit-add-hi-tap/tree/main
免責事項: これは初期段階の、実験的なハードウェア設計です。明日PCIeスロットに挿して使える完成済みのチップではありません。現在、目標とするクロック周波数を達成するために、配線の輻輳(こんざつ)を解消する作業に取り組んでいます。
とはいえ、オープンソースのコミュニティには、最終的にハードウェア独占を打破し、70B+のパラメータをローカルで安価かつ省電力に動かせるようにするため、より多くのオープンなシリコン設計が必要だと考えています。
もし「ハードウェアアレイ設計」と「LLM推論」の交差領域に興味がある方がいれば、ぜひコミュニティに見ていただき、欠点の指摘や参画をしてもらえたら嬉しいです。フィードバックは歓迎します!
[link] [comments]




