KVNN：学習可能なマルチカーネル・ボルテラニューラルネットワーク

arXiv cs.CV / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この論文では、KVNN（KVNN）というカーネル化ボルテラニューラルネットワークを提案し、学習可能なマルチカーネル表現を通じて高次の合成的相互作用を捉えます。
KVNNは異なる相互作用次数ごとに独立した多項式カーネル成分を用い、コンパクトで学習可能な中心を持たせることで次数適応型のパラメータ化を実現します。
多項式次数の異なるブランチを各層で並列に持つ構成により、層の合成で特徴を学習し、KVNNフィルタを既存アーキテクチャの通常の畳み込みカーネルに直接置き換え可能にします。
動画のアクション認識と画像のデノイズという2つのタスクでの実験により、パラメータ数とGFLOPsが一貫して削減されつつ、競争力のある、あるいは改善した性能が得られることが示されます。
大規模事前学習なしでスクラッチ学習しても同様の効果が維持されるため、KVNNは現代の深層学習において表現力と計算コストのバランスを取る実用的な道筋になると示唆されます。

Abstract

高次学習は本質的に、合成（composition）に基づく特徴を活用することに根ざしています。それは、データのより精緻な相互作用によって表現を豊かにすることに明確に依存しており、その結果として、従来の大規模ディープラーニングモデルではモデルの複雑性が増大しがちです。本論文では、カーネル化ボルテラニューラルネットワーク（kVNN）を提案します。達成された効率の鍵は、学習可能な多重カーネル表現を用いることにあります。ここでは、異なる相互作用次数を、それぞれコンパクトで学習可能な中心をもつ異なる多項式カーネル成分によってモデル化し、次数に適応したパラメータ化を実現します。特徴は層の合成によって学習されます。各層は、異なる多項式次数の並列ブランチから構成されており、これによりkVNNのフィルタが、既存のアーキテクチャ内で標準的な畳み込みカーネルを直接置き換えられるようになります。理論的結果は、2つの代表的タスク、すなわち動画の行動認識と画像のデノイズに関する実験によって裏づけられます。結果は好ましい性能—効率のトレードオフを示しており、kVNNは一貫して、競争力があり、しばしば改善された性能を維持しながら、モデル（パラメータ）および計算量（GFLOPs）の複雑性を低減します。これらの結果は、大規模な事前学習なしにスクラッチから学習した場合でも維持されます。要約すると、構造化されたカーネル化高次層は、現代のディープネットワークにおいて表現力と計算コストのバランスを取るための実用的な道筋を提供することを裏づけます。