HGQ-LUT：高速なLUT対応学習と、DNN推論のための効率的アーキテクチャ

arXiv cs.LG / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

共有:

要点

本論文では、FPGA向けに超低遅延かつ高いハードウェア効率を実現することを目的としたLUT対応学習（LAT）の新手法「HGQ-LUT」を提案する。
HGQ-LUTは、従来の最先端LAT手法と比べて最新GPU上でトレーニングを100倍以上高速化し、実運用での大きな障壁であった学習の遅さを解消しようとしている。
LUT-DenseおよびLUT-Conv層により、学習時はアクセラレータ効率の高い通常のテンソル演算で実装し、実機では論理LUTへコンパイルする仕組みを採用している。
ゼロビット剪定を含む微粒度の不均一量子化と、LUTを考慮したリソース推定（サロゲート）を組み合わせることで、手作業のビット幅調整なしに精度–リソースのトレードオフを自動探索できる。
HGQ-LUTはオープンソースのツールチェーンへ統合されており、従来の算術ブロックとLUTベース層を混在させたハイブリッド構成に対する設計・コンパイル・ビット精度の検証を一貫して行える点が特徴で、CERNのLHC実験での利用も動機として挙げられている。

要旨: ルックアップテーブル（LUT）ベースのニューラルネットワークは、算術演算をロジックの基本プリミティブへ直接マッピングすることで、FPGA上で超低遅延かつ優れたハードウェア効率を実現できます。しかし、最先端のLUT対応学習（LAT）アプローチは実運用上で使いにくいままです。これらは、従来のネットワークに比べ学習がしばしば桁違いに遅く、ハードウェア効率のために非自明な手動チューニングを必要とし、さらにエンドツーエンドのワークフローが欠けています。本研究では、https://github.com/calad0i/HGQ2 に統合された新しいLATアプローチである HGQ-LUT を提示します。この手法は、最新のハードウェア効率を達成しつつ、最新のGPU上で学習を100倍以上高速化します。HGQ-LUT は、学習中に規則的でアクセラレータに効率的なテンソル演算として実装される LUT-Dense および LUT-Conv レイヤを導入し、その後それらをハードウェア用の論理LUTへコンパイルします。さらに、きめの細かい要素単位の異種量子化（ゼロビット・プルーニングを含む）と、LUT対応のリソース代理（サロゲート）をこれらのレイヤと組み合わせることで、手動でのビット幅チューニングなしに、精度—リソースのトレードオフを自動的に探索できるようにします。加えて、HGQ-LUT をオープンソースのツールチェーンへ統合し、LUTベースのブロックと従来の算術ブロックを混在させたハイブリッドアーキテクチャについて、統一的な設計・コンパイル・ビット一致の検証を可能にします。これらの機能により、LATベースのDNNは、CERN 大型ハドロン衝突型加速器（Large Hadron Collider）の実験のような現実のデプロイにおいて実用的になります。