要旨:ドロップアウトは、過学習を抑制するために、トレーニング中に隠れユニットを確率的に非活性化させる代表的な正則化手法です。それに対して、標準的な推論は密な計算でネットワーク全体を実行するため、その目的と機構は、入力に依存して実行される演算が決まる条件付き計算とは異なります。この論文では、DynamicGate-MLPを、正則化の観点と条件付き計算の観点の双方を同時に満たす1つのフレームワークへ統合します。ランダムなマスクの代わりに、提案モデルは各ユニット(またはブロック)を使用するかどうかを決定するゲートを学習し、不要な計算を抑制すると同時に、入力ごとに必要な部分に計算を集中させるサンプル依存の実行を実装します。この目的のために、連続的なゲート確率を定義し、推論時にそれらから離散的な実行マスクを生成して実行経路を選択します。学習は、期待ゲート使用量へのペナルティを介して計算予算を制御し、離散マスクを最適化するためにストレート・スルー推定器(STE)を用います。DynamicGate-MLPをMNIST、CIFAR-10、Tiny-ImageNet、Speech Commands、およびPBMC3kで評価し、さまざまなMLPベースラインおよびMoE風の変種と比較します。計算効率は、ハードウェアやバックエンドのカーネルに依存する実測遅延ではなく、ゲート活性化比と層加重相対MAC指標を用いた一貫した基準で比較します。
機能的可塑性のための学習された構造的ドロップアウトと入力依存ゲーティングによる DynamicGate-MLP 条件付き計算
arXiv cs.LG / 2026/3/18
📰 ニュースModels & Research
要点
- 本論文は DynamicGate-MLP を提案する。これは正則化のようなドロップアウトと、学習済みゲートを介した入力依存の条件付き計算を組み合わせ、各入力に適した計算を行うフレームワークである。
- 連続的なゲート確率を定義し、推論時には離散的な実行マスクを導出してアクティブな経路を選択し、サンプルごとの計算を可能にする。
- 訓練は、期待ゲート使用量に対するペナルティと、離散マスクを最適化するためのストレート・スルー推定器を用いて、精度と計算予算のバランスを取る。
- 本手法は MNIST、CIFAR-10、Tiny-ImageNet、Speech Commands、PBMC3k において評価され、MLP のベースラインおよび MoE風のバリアントと比較される。計算効率は、ゲート活性化比と層加重 MAC 指標で測定され、wall-clock latency ではなく評価される。
関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す
THE DECODER
Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました
Reddit r/LocalLLaMA
今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか?
Reddit r/LocalLLaMA
会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ
Reddit r/LocalLLaMA
[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用
Reddit r/MachineLearning