テンソル拡張畳み込みニューラルネットワーク:汎用テンソルカーネルによる表現力の強化

arXiv cs.CV / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、標準的なCNNの畳み込みカーネルを汎用テンソルで置き換えることで表現力を高める、物理に導かれた浅いモデル「テンソル拡張畳み込みニューラルネットワーク(TACNN)」を提案する。
  • テンソルカーネルを用いることで、各層の畳み込み出力は高次の特徴相関を捉えるための多線形形式(multilinear form)となり、非常に深いアーキテクチャを必要としない。
  • 著者らは、次数Nのテンソルがヒルベルト空間上で任意の量子重ね合わせ状態を符号化できることを動機として挙げており、従来のカーネルに比べて大幅に豊かな能力(キャパシティ)を示唆している。
  • Fashion-MNISTにおいて、TACNNは数層のみで強い性能を示し、畳み込み層を2層だけ用いた場合にテスト精度93.7%を達成する。VGG-16やGoogLeNetのようなより深いベースラインと競合、あるいはそれを上回る。
  • 本研究は、精度を向上させつつアーキテクチャの単純さを維持することで、表現力をより高め、かつより単純で潜在的に解釈しやすい深層学習モデルへの道筋をTACNNとして位置付ける。

Abstract

畳み込みニューラルネットワーク(CNN)は局所的な特徴を階層的に抽出することに優れていますが、複雑な相関を捉える能力は、通常計算コストが高く、解釈が難しい深いアーキテクチャに大きく依存しています。これらの課題に対処するために、我々は物理に導かれた浅いモデル、すなわちテンソル拡張CNN(TACNN)を提案します。TACNNは、従来の畳み込みカーネルを一般的なテンソルで置き換えることで、表現力を高めます。この選択は、次数Nのテンソルが、局所の物理次元をdとすると、次元d^Nのヒルベルト空間上で任意の量子重ね合わせ状態を自然に符号化できる、という事実に動機づけられています。したがって、実質的により豊かな表現力が得られます。さらに、我々の設計では各層の畳み込み出力が多線形形式となり、高次の特徴相関を捉えることが可能になります。これにより、浅い多層アーキテクチャに、深いCNNと競合する表現力を付与します。Fashion-MNISTのベンチマークにおいて、TACNNは従来のCNNに対して明確な優位性を示し、わずか数層で顕著な精度を達成します。とりわけ、畳み込み層が2層のみのTACNNは、93.7\%のテスト精度を達成し、VGG-16(93.5\%)やGoogLeNet(93.7\%)といったかなり深いモデルを上回る、または同等の性能を示します。これらの結果は、TACNNが、アーキテクチャの単純さを保ちながらモデルの表現力を強化する有望な枠組みであり、より解釈可能で効率的な深層学習モデルへとつながることを示唆しています。