非微分可能ネットワークを最適輸送（Optimal Transport）で訓練する

arXiv cs.RO / 2026/5/5

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、スパイキングニューラルネットや量子化層、離散ルーティング、ブラックボックス・シミュレータなどの非微分可能コンポーネントを含むニューラルネットを、サロゲート勾配のバイアスを避けながら勾配なしで学習するための最適化手法PolyStepを提案する。
PolyStepは、圧縮された部分空間で構造化ポリトープの頂点に対して損失を評価してコスト行列を作り、低コストの頂点へ粒子をバリセントリック投影で移動することで、順伝播のみでパラメータ更新を行う。
実験では、従来の勾配なし手法がほぼランダム精度に崩れるような「真に非微分可能」モデルでもPolyStepが学習でき、hard-LIFスパイキングネットで93.4%のテスト精度を達成するなど、他の勾配なしベースラインを大幅に上回ることを示している。
MAX-SATで変数数100から100万までスケールしても92%超の充足率を維持し、RLポリシー探索でも整数・2値量子化下で性能が崩れないなど、スケーラビリティと頑健性が確認される。
著者らは収束保証を提示しており、保存的定常点への収束率O(log T / sqrt(T))や、主要アーキテクチャではより強いClarke定常性を示す理論を与え、順伝播のみのゼロ次手法が持つ既知のクエリ複雑性下界とも整合する。

要旨: ニューラルネットワークは、微分不能な構成要素（スパイキングニューロン、量子化された層、離散的なルーティング、ブラックボックス・シミュレータなど）をますます埋め込むようになってきており、バックプロパゲーションが適用できない場面が増えています。そして、サロゲート勾配はバイアスを導入します。私たちは、順伝播のみを用いてパラメータを更新する勾配不要オプティマイザ PolyStep を提案します。各ステップでは、圧縮された部分空間における構造化されたポリトープの頂点で損失を評価し、得られたコスト行列に対して softmax による重み付き割当を計算し、重心（バリセントリック）射影によりパーティクルを低コストの頂点へと押しやります。この更新は、正則化された最適輸送問題に対する片側極限に対応しており、Sinkhorn 反復なしで、その幾何学的構造を受け継ぎます。
PolyStep は、既存の勾配不要手法がほぼランダム精度に崩壊するような、本当に微分不能なモデルを学習します。ハード LIF スパイキングネットワークではテスト精度 93.4% に到達し、勾配不要のあらゆるベースラインを 60~pp 以上上回り、サロゲート勾配の Adam の上限に対して 4.4~pp 以内にまで迫ります。さらに、4 つの追加の微分不能アーキテクチャ（int8 量子化、argmax アテンション、階段状活性（staircase activations）、ハード MoE ルーティング）においても、すべての勾配不要の競合を上回ります。MAX-SAT のスケーリング（100 から 1M 変数）では、節充足率 92% 超を維持しつつ、進化戦略は 8--12~pp 落ちます。RL の方策探索では、古典的制御において OpenAI-ES と同等の性能を達成し、勾配ベース法が崩壊するような整数および二値量子化下でも性能を維持します。区分的に滑らかな損失に対して、収束を $O(log T/ sqrt{T})$ の収束率で保存的停留点への収束として証明し、主要アーキテクチャでは Clarke 停留に強化し、さらに到達時間（ヒッティングタイム）による境界を通じて区分的に定数な領域（piecewise-constant regime）へ拡張します。これらの率は、すべての順伝播のみの手法が継承する既知のゼロ次（zeroth-order）問い合わせ複雑性の下限と一致します。コードは https://github.com/anindex/polystep で入手できます。