IBCapsNet:ノイズに頑健な表現学習のための情報ボトルネック・カプセルネットワーク

arXiv cs.CV / 2026/3/24

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • IBCapsNetは、新しいカプセルネットワークのアーキテクチャであり、従来のカプセルネットワーク(CapsNet)に比べて頑健性と効率を向上させるために情報ボトルネック原理を適用します。
  • 繰り返しによるダイナミックルーティングの代わりに、1回パスの変分アグリゲーション・パイプラインを用います。まずプライマリカプセルをグローバルな文脈へ圧縮し、次にクラス特有のVAEsがノイズに頑健な潜在カプセルを推論します。これらの潜在カプセルはKLダイバージェンスによって正則化されます。
  • MNIST、Fashion-MNIST、SVHN、CIFAR-10での実験により、クリーンデータ上ではCapsNetと同等の性能を維持しつつ、複数の合成ノイズ種に対しては大幅に性能が向上することが示されています。
  • 本手法は効率面でも大きな改善を報告しており、トレーニング/推論の高速化(2.54倍のトレーニング、3.64倍のスループット)や、パラメータ数の削減(CapsNetに対して4.66%減)を実現しています。
  • この論文では、IBCapsNetを情報理論に基づく表現学習と解釈可能なカプセルモデルとの「橋渡し」と位置づけており、付随するコードはGitHubで公開されています。

要旨: カプセルネットワーク(CapsNet)は階層的な空間関係をモデル化する点で優れている一方で、2つの重要な限界があります。反復的な動的ルーティングに起因する高い計算コストと、入力の破損(汚染)に対する脆弱さです。これらの課題に対処するために、情報ボトルネック(IB)原理に基づく新しいカプセルアーキテクチャである IBCapsNet を提案します。反復ルーティングの代わりに、IBCapsNet は1回パスの変分アグリゲーション機構を用います。この機構では、一次カプセルをまずグローバルな文脈表現に圧縮し、その後クラスごとの変分オートエンコーダ(VAE)で処理して、KLダイバージェンスによって正則化された潜在カプセルを推論します。この設計により、効率的な推論が可能になり、さらにノイズを内在的に除去できます。MNIST、Fashion-MNIST、SVHN、CIFAR-10 に対する実験では、IBCapsNet はクリーンデータでの精度において CapsNet と同等であり(MNISTで99.41%、SVHNで92.01%を達成)、一方で合成ノイズの4種類においては大幅に上回ります。具体的には、クランプされた加法ノイズと乗法ノイズそれぞれについて、平均で +17.10% と +14.54% の改善を示しました。さらに IBCapsNet は、CapsNet と比べて学習が 2.54倍速く、推論スループットが 3.64倍高いことを達成しつつ、モデルパラメータ数を 4.66% 削減しています。本研究は、情報理論に基づく表現学習とカプセルネットワークをつなぎ、頑健で効率的、かつ解釈可能な深層モデルへ向けた筋の通った道筋を提供します。コードは https://github.com/cxiang26/IBCapsnet で公開されています