AI Navigate

NVIDIAとCartesia HackathonでDGX Spark GB10を獲得した男が、PyTorchのHackathonでGPUカーネル最適化を行いNVIDIA 5080を獲得した!

Reddit r/LocalLLaMA / 2026/3/16

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • 著者は、B200 GPU向けのカーネルレベル最適化ハッカソンにおいて、因果的深さ方向1D畳み込みのリーダーボードをトップに立ち、1演算あたり約10マイクロ秒を達成しました。
  • PyTorch Helionの自動チューナーは探索空間を削減し、Tritonへコンパイルすることで、数十の組み合わせをテストでき、最適化のおおよそ90~95%を達成し、残りは手動チューニングで対応しました。
  • セットアップには、Dell Pro Max T2 TowerにNVIDIA Pro 6000を搭載したローカル推論用のプライベートエージェント・ハーネス環境が含まれており、Lemonadeがローカルモデルをホストすることで家庭内推論を高速化しています。
  • 本投稿は、Gated DeltaNetやMixture of Expertsといったパターン、チャンク間およびチャンク内の状態処理、KVキャッシュ、パディング、フュージョンといった要素を挙げ、異なるLLMアーキテクチャ間でハードウェアを最適化する難しさに言及し、学習内容に関するスライドの共有にも触れています。
\"The

皆さんにもう一つ更新をお届けしたいと思います。いずれはハッカソンへの出場をやめるつもりですが、今日はやめません!

もしご興味があれば、私の学びのスライドをいくつか作りました!私は神経技術と脳の健康分野で、神経疾患を検出する取り組みをしていますが、それは長い道のりです。だから、これでご勘弁ください。

https://medium.com/p/f995a53f14b4?postPublishedType=initial

ギリギリの瞬間、私は自分の快適ゾーンを大きく超え、B200 GPUのカーネルレベル最適化に焦点を当てたハッカソンに飛び込むことにしました。

ここで学んだことのいくつかを共有したいと思い、スライドを作りました!

これは推論プロバイダへの新たな尊敬の念を私にもたらしました。最適化の問題は過酷です:設定の組み合わせの数は急速に爆発し、わずかな変更が性能に大きな影響を与えることがあります。

この前は、異なるLLMアーキテクチャ全体でハードウェアを最適化するのがどれほど難しいかを十分に理解していませんでした。各モデルは異なる戦略を必要とする場合があり、ゲート付き DeltaNet パターン、Expertsの混成、チャンク間の状態処理、チャンク内のアテンション、KVキャッシュ、パディング、そしてフュージョンのようなことを検討する必要があります。

私の最高の結果:因果的な depthwise 1D 畳み込みでリーダーボードをトップにし、ベンチマークを約10マイクロ秒程度まで下げました。

そのレベルでは、マイクロ秒の一部を削るだけでも重要です。そこがパフォーマンスの勝利が生まれる場所です。

この取り組みの大きな部分は PyTorch Helion の活用でした。検索空間を縮小し、干し草の中の針を見つけるのをはるかに容易にしてくれました。その自動チューナーは Triton にコンパイルされ、何十もの組み合わせを自動でテストして、だいたい最適化の90〜95%を得ることができました。残りは手動による微調整と、パフォーマンスの最後の部分を磨くことから来ました。

最もクールな部分の一つは、NVIDIA Pro 6000 を搭載した Dell Pro Max T2 Tower を使って私のエージェント・ハーネスのローカル推論を実行したことです。正しい設定があれば、ローカルLLMのワークフローは非常に速いというのを何度も見てきました。自宅のマシンから Dell Pro Max GB10 へローカル推論を直接実行でき、Lemonade が私のローカルモデルをホストして、プライベートで高速かつ信頼性の高い推論を提供しました!

私が世界をよりよくするために勝利について書いた過去の記事は以下です:

コンピュータ適応学習を用いた人々のための個別化学習の創出

誰もがより良い生活を送れるようにするための健康の社会的決定要因を見つける

更新: GPU Kernel Optimization に興味がある方はこちらのリポジトリです

更新#2: NVIDIAからもう1台の DGX Spark GB10 を獲得し、GTC へのゴールデンチケットを得た。これで私の LocalLLaMA は究極の 3 GB10 の仲間入りだ!

投稿者: /u/brandon-i
[リンク] [コメント]