AI Navigate

機能的可塑性のための学習された構造的ドロップアウトと入力依存ゲーティングによる DynamicGate-MLP 条件付き計算

arXiv cs.LG / 2026/3/18

📰 ニュースModels & Research

要点

  • 本論文は DynamicGate-MLP を提案する。これは正則化のようなドロップアウトと、学習済みゲートを介した入力依存の条件付き計算を組み合わせ、各入力に適した計算を行うフレームワークである。
  • 連続的なゲート確率を定義し、推論時には離散的な実行マスクを導出してアクティブな経路を選択し、サンプルごとの計算を可能にする。
  • 訓練は、期待ゲート使用量に対するペナルティと、離散マスクを最適化するためのストレート・スルー推定器を用いて、精度と計算予算のバランスを取る。
  • 本手法は MNIST、CIFAR-10、Tiny-ImageNet、Speech Commands、PBMC3k において評価され、MLP のベースラインおよび MoE風のバリアントと比較される。計算効率は、ゲート活性化比と層加重 MAC 指標で測定され、wall-clock latency ではなく評価される。

要旨:ドロップアウトは、過学習を抑制するために、トレーニング中に隠れユニットを確率的に非活性化させる代表的な正則化手法です。それに対して、標準的な推論は密な計算でネットワーク全体を実行するため、その目的と機構は、入力に依存して実行される演算が決まる条件付き計算とは異なります。この論文では、DynamicGate-MLPを、正則化の観点と条件付き計算の観点の双方を同時に満たす1つのフレームワークへ統合します。ランダムなマスクの代わりに、提案モデルは各ユニット(またはブロック)を使用するかどうかを決定するゲートを学習し、不要な計算を抑制すると同時に、入力ごとに必要な部分に計算を集中させるサンプル依存の実行を実装します。この目的のために、連続的なゲート確率を定義し、推論時にそれらから離散的な実行マスクを生成して実行経路を選択します。学習は、期待ゲート使用量へのペナルティを介して計算予算を制御し、離散マスクを最適化するためにストレート・スルー推定器(STE)を用います。DynamicGate-MLPをMNIST、CIFAR-10、Tiny-ImageNet、Speech Commands、およびPBMC3kで評価し、さまざまなMLPベースラインおよびMoE風の変種と比較します。計算効率は、ハードウェアやバックエンドのカーネルに依存する実測遅延ではなく、ゲート活性化比と層加重相対MAC指標を用いた一貫した基準で比較します。