Sparse-by-Design Cross-Modality Prediction: L0-Gated Representations for Reliable and Efficient Learning

arXiv cs.LG / 2026/3/31

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、グラフ、テキスト、表形式データといった異種のKDDモダリティ間で、精度–効率のトレードオフを比較可能にするための、統一的でモダリティ非依存のスパース化手法を提案する。
それは、L0GMとして、特徴量ごとのハード・コンクリート（hard-concrete）ゲーティングを用いて、学習した分類器に供される表現に対してL0型のスパース性を直接適用し、特徴の活性化割合を制御する明示的なノブを導入する。
学習を安定化し、解釈しやすい精度–スパース性のパレートフロンティアを得るために、L0アニーリング（L0-annealing）スケジュールを用いる。
ogbn-products、Adult、IMDBでの実験により、表現次元の活性化をより少なくしつつ競争力のある性能を示し、また、期待校正誤差（Expected Calibration Error: ECE）の低下によって確率校正が改善することを示す。

Abstract

予測システムは、グラフ、言語、表形式の記録のような異種モダリティにまたがることがますます増えていますが、疎性（sparsity）と効率性（efficiency）は依然としてモダリティごとに固有のものです（グラフの辺または近傍の疎化、Transformerのヘッドまたは層のプルーニング、そして別々の表形式特徴選択パイプライン）。この断片化により、結果の比較が難しくなり、デプロイを複雑にし、エンドツーエンドのKDDパイプライン全体での信頼性分析が弱まります。統一された疎化のプリミティブがあれば、モダリティ間で精度と効率のトレードオフを比較可能にし、表現の圧縮下で制御された信頼性分析を可能にします。単一の表現レベルの仕組みによって、確率キャリブレーションを維持または改善しつつ、モダリティ間で同等の精度と効率のトレードオフを得られるのか、私たちは問いかけます。私たちは、学習された表現に対して直接L0型の疎性を課す、モダリティ非依存の特徴（feature-wise）ハードコンクリート・ゲーティングの枠組みであるL0-Gated Cross-Modality Learning（L0GM）を提案します。L0GMは、各モダリティの分類器側インターフェースに、ハードコンクリートの確率的ゲートを取り付けます：ノード埋め込み（GNN）、CLS（Transformers）のようなプーリングされたシーケンス埋め込み、そして学習された表形式の埋め込みベクトル（表形式モデル）です。これにより、アクティブな特徴分率に対する明示的な制御ノブを備えた、エンドツーエンドで学習可能な疎化が実現されます。最適化を安定化し、トレードオフを解釈可能にするために、L0-アニーリングのスケジュールを導入し、明確な精度-疎性のパレート曲線を生み出します。3つの公開ベンチマーク（ogbn-products、Adult、IMDB）において、L0GMは、表現の次元をより少なくアクティブにしながらも競争力のある予測性能を達成し、評価ではExpected Calibration Error（ECE）を低減します。全体として、L0GMは、異種モダリティにわたる精度、効率、キャリブレーションのトレードオフ解析を比較可能に支える、モダリティ非依存で再現可能な疎化プリミティブを確立します。

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

日経XTECH

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

Reddit r/MachineLearning

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

Dev.to

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Dev.to

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

Dev.to

Sparse-by-Design Cross-Modality Prediction: L0-Gated Representations for Reliable and Efficient Learning

要点

Abstract

関連記事

5分の指示で「5時間働く」TANRENのAIエージェント、労働時間の常識激変

[D] 分散型プルーフ・オブ・ワーク計算は、ニューラルネットワーク学習のための協調（コーディネーション）要件をどのように扱うのか？

BYOKは単なる料金モデルではない：AIプロダクトの信頼を変える理由

AIによる引用レジストリと、記録間におけるアイデンティティの持続性

Google Gemini 3.1 Flash Live と VideoSDK でリアルタイムAIボイスエージェントを構築する

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer