Vision Hopfield Memory Networks

arXiv cs.LG / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、脳に着想を得た視覚向け基盤バックボーンであるVision Hopfield Memory Network（V-HMN）を提案する。これは、標準的なバックボーンを置き換える、または補完するもので、階層的なHopfield型メモリモジュールと、反復的な更新による改良を用いる。
V-HMNは、パッチレベルの連想的メモリには局所Hopfieldモジュール、エピソードや文脈による調節にはグローバルHopfieldモジュールを用い、さらに予測符号化に着想を得た洗練（refinement）の規則によって誤りを反復的に修正する。
著者らは、メモリの検索（retrieval）によって入力が保存されたパターンとどのように関係しているかを解釈しやすくなり、典型的な自己注意（self-attention）や状態空間（state-space）バックボーンと比べて透明性が高まると主張している。
公開されているコンピュータビジョンのベンチマークに対する実験により、V-HMNは広く用いられているアーキテクチャと競争力のある性能を示しつつ、データ効率、解釈可能性、そして「生物学的妥当性（biological plausibility）」を向上させることが示される。
本研究は、将来のマルチモーダル基盤バックボーンに向けた一般的な設計図として位置づけられており、同様の発想をテキストや音声へ拡張すること（例）も視野に入れて、脳に着想を得た計算と大規模MLを橋渡しすることを目指している。

要旨: Transformerファミリーや、Mambaのような状態空間モデル（state-space models）などの、近年の視覚およびマルチモーダルの基盤バックボーンは、目覚ましい進歩を遂げており、画像・テキストなどをまたぐ統一的なモデリングを可能にしています。これらのアーキテクチャは経験的な成功を収めている一方で、計算原理の観点では人間の脳からは程遠く、多くの場合、膨大な量の学習データを必要としながら、解釈可能性は限定的です。本研究では、階層的なメモリ機構と反復的な洗練（refinement）更新を統合する、脳に着想を得た基盤バックボーンであるVision Hopfield Memory Network（V-HMN）を提案します。具体的には、V-HMNは、画像パッチのレベルで連想記憶のダイナミクスを提供する局所（local）のHopfieldモジュール、文脈の調節のためのエピソード記憶として機能する大域（global）のHopfieldモジュール、そして反復的な誤り訂正のための、予測符号化（predictive-coding）に着想を得た洗練規則を組み込みます。これらのメモリベースのモジュールを階層的に配置することで、V-HMNは、局所および大域のダイナミクスを統一的な枠組みの中で捉えます。メモリ検索は、入力と保存されたパターンの関係を明らかにし、意思決定をより解釈可能にするとともに、保存されたパターンの再利用によってデータ効率が向上します。したがって、この脳に着想を得た設計は、既存の自己注意（self-attention）や状態空間ベースのアプローチを超えて、解釈可能性とデータ効率の両方を高めます。公開されている計算機視覚のベンチマークに対して広範な実験を行ったところ、V-HMNは、広く採用されているバックボーン・アーキテクチャに対して競争力のある結果を達成し、さらに解釈可能性の向上、高いデータ効率、強い生物学的妥当性を提供しました。これらの結果は、V-HMNが次世代の視覚基盤モデルとして機能する可能性を示すとともに、テキストや音声といった領域におけるマルチモーダル・バックボーンの一般化可能な設計図を提供し、それによって、脳に着想を得た計算と大規模機械学習を橋渡しすることを示しています。