機能的可塑性のための学習された構造的ドロップアウトと入力依存ゲーティングによる DynamicGate-MLP 条件付き計算

arXiv cs.LG / 2026/3/18

📰 ニュースModels & Research

共有:

要点

本論文は DynamicGate-MLP を提案する。これは正則化のようなドロップアウトと、学習済みゲートを介した入力依存の条件付き計算を組み合わせ、各入力に適した計算を行うフレームワークである。
連続的なゲート確率を定義し、推論時には離散的な実行マスクを導出してアクティブな経路を選択し、サンプルごとの計算を可能にする。
訓練は、期待ゲート使用量に対するペナルティと、離散マスクを最適化するためのストレート・スルー推定器を用いて、精度と計算予算のバランスを取る。
本手法は MNIST、CIFAR-10、Tiny-ImageNet、Speech Commands、PBMC3k において評価され、MLP のベースラインおよび MoE風のバリアントと比較される。計算効率は、ゲート活性化比と層加重 MAC 指標で測定され、wall-clock latency ではなく評価される。

要旨：ドロップアウトは、過学習を抑制するために、トレーニング中に隠れユニットを確率的に非活性化させる代表的な正則化手法です。それに対して、標準的な推論は密な計算でネットワーク全体を実行するため、その目的と機構は、入力に依存して実行される演算が決まる条件付き計算とは異なります。この論文では、DynamicGate-MLPを、正則化の観点と条件付き計算の観点の双方を同時に満たす1つのフレームワークへ統合します。ランダムなマスクの代わりに、提案モデルは各ユニット（またはブロック）を使用するかどうかを決定するゲートを学習し、不要な計算を抑制すると同時に、入力ごとに必要な部分に計算を集中させるサンプル依存の実行を実装します。この目的のために、連続的なゲート確率を定義し、推論時にそれらから離散的な実行マスクを生成して実行経路を選択します。学習は、期待ゲート使用量へのペナルティを介して計算予算を制御し、離散マスクを最適化するためにストレート・スルー推定器（STE）を用います。DynamicGate-MLPをMNIST、CIFAR-10、Tiny-ImageNet、Speech Commands、およびPBMC3kで評価し、さまざまなMLPベースラインおよびMoE風の変種と比較します。計算効率は、ハードウェアやバックエンドのカーネルに依存する実測遅延ではなく、ゲート活性化比と層加重相対MAC指標を用いた一貫した基準で比較します。

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

THE DECODER

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

Reddit r/LocalLLaMA

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

Reddit r/LocalLLaMA

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

Reddit r/LocalLLaMA

[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用

Reddit r/MachineLearning

機能的可塑性のための学習された構造的ドロップアウトと入力依存ゲーティングによる DynamicGate-MLP 条件付き計算

要点

関連記事

数学には思考の時間が、日常知識には記憶が必要であり、新しいTransformerアーキテクチャは両方を実現することを目指す

Kreuzberg v4.5.0: Doclingのモデルをとても気に入ったので、より高速なエンジンを搭載しました

今日は、qwen 120B のような比較的大きめのローカルモデルを動かすには、どんなハードウェアを用意すべきか？

会議ノート作成のためにMistralをローカルで実行することは、私の用途には正直十分だ

[D] 5つの年代にわたる単一アーティストの長期的ファインアートデータセットがHugging Faceに公開 — スタイルの進化、人物表現、倫理的トレーニングデータの潜在的応用

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer