ローカルAI加速用に設計した実験的な独自NPUアーキテクチャをオープンソース化します

Reddit r/LocalLLaMA / 2026/3/23

📰 ニュースSignals & Early TrendsIdeas & Deep Analysis

要点

  • 個人が、ローカルでのAI推論を加速することを目的とした実験的な独自カスタムNPUハードウェアアーキテクチャ(「NPU Array (v1)」)をオープンソースとして公開しました。特に行列乗算ワークロードの高速化を狙っています。
  • 設計は、ローカル推論における高いTOPS/W(ワットあたり性能)を目標としており、大規模(例:70B+)モデルをローカルで動かす際に、より電力効率が高くコスト効率のよい実行を可能にすることを意図しています。
  • 著者は、この取り組みは初期段階であり、プラグアンドプレイでPCIe対応のチップではないと注意しています。目標とするクロック周波数に到達するため、ルーティングの混雑(輻輳)を解消する作業が継続中です。
  • コミュニティに対し、リポジトリをレビューし、欠点を報告し、ハードウェアアレイ設計とLLM推論の交点でフィードバックを提供することが呼びかけられています。

みなさん、こんにちは。

皆さんと同様に、ローカルでモデルを効率的に動かすことに情熱を持っています。私は最近、独自のハードウェアアーキテクチャ――NPU Array(v1)――を設計し、その中でも特に行列積と、高いTOPS/Watt性能のためのローカルAI推論向けに最適化しました。

つい先ほど、このリポジトリ全体をオープンソース化しました: https://github.com/n57d30top/graph-assist-npu-array-v1-direct-add-commit-add-hi-tap/tree/main

免責事項: これは初期段階の、実験的なハードウェア設計です。明日PCIeスロットに挿して使える完成済みのチップではありません。現在、目標とするクロック周波数を達成するために、配線の輻輳(こんざつ)を解消する作業に取り組んでいます。

とはいえ、オープンソースのコミュニティには、最終的にハードウェア独占を打破し、70B+のパラメータをローカルで安価かつ省電力に動かせるようにするため、より多くのオープンなシリコン設計が必要だと考えています。

もし「ハードウェアアレイ設計」と「LLM推論」の交差領域に興味がある方がいれば、ぜひコミュニティに見ていただき、欠点の指摘や参画をしてもらえたら嬉しいです。フィードバックは歓迎します!

提出者 /u/king_ftotheu
[link] [comments]