KAConvNet：コルモゴロフ＝アーノルド畳み込みネットワークによる視覚認識

arXiv cs.CV / 2026/4/28

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文は、コルモゴロフ＝アーノルド表現理論を畳み込みニューラルネットワークに統合することで、従来のCNNアプローチよりも性能と解釈性の向上を狙った視覚モデル「KAConvNet」を提案しています。
著者らは、基盤となるKANの原理に理論的に整合した「コルモゴロフ＝アーノルド畳み込み層」を提案し、MLPベースの代替より少ないパラメータと強い解釈可能性を目指しています。
先行研究では、学習可能な活性化関数を重みに置き換えるだけで理論的土台が崩れ、潜在的な利点が十分に生かされていないと主張しています。
さらに、KANで用いられるBスプライン曲線が計算効率の面で不利で、過学習傾向もある点に対して、より効率的な畳み込み統合によって改善を図っています。
KAConvNetは、既存のKAN＋畳み込みの組み合わせよりも性能が良く、ViTやCNNなど主流モデルと比べても競争力のある結果を示すとされており、コードはGitHubで公開されています。

要旨: 畳み込みニューラルネットワーク（CNN）は、一般的なコンピュータビジョン課題において支配的で効果的なアプローチである。近年、コルモゴロフ＝アルノルド表現定理に基づくコルモゴロフ＝アルノルド・ニューラルネットワーク（KAN）が、深層学習においてマルチレイヤーパーセプトロン（MLP）を置き換える可能性を示している。エッジ上で学習可能な非線形活性化を用い、ノード上では単純な和をとるKANは、MLPに比べてパラメータ数が少なく、説明可能性が高い。しかし、コルモゴロフ＝アルノルド表現定理をコンピュータビジョンのための畳み込み手法と統合することについては、十分に検討されてこなかった。既存の試みは、学習可能な活性化関数を重みで置き換えることにとどまっており、KANの理論的基盤を損ない、その有効性の可能性を制限している。さらに、KANで用いられるBスプライン曲線は計算効率が低く、過学習しやすいという傾向がある。本論文では、コルモゴロフ＝アルノルド表現定理を畳み込みと深く統合した新規のコルモゴロフ＝アルノルド畳み込み層を提案する。この層は、確立された数学的定理に基づいており、設計が理論的に整合しているため、より強い手法の解釈可能性を提供する。コルモゴロフ＝アルノルド畳み込み層を土台として、KAConvNetと呼ばれる効率的なネットワークアーキテクチャを設計し、KANと畳み込みを組み合わせた既存手法を上回り、主流のViTおよびCNNと比較して競争力のある性能を達成する。私たちは、本研究が人工知能分野に有益な洞察をもたらし、2020年代におけるより革新的なCNNの発展を促すと考えている。コードは公開されており、https://github.com/UnicomAI/KAConvNet で入手可能である。