画像—テキスト検索のための脳に着想を得たマルチモーダル・スパイキングニューラルネットワーク
arXiv cs.CV / 2026/3/31
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、マルチモーダルな画像—テキスト検索のために設計された、脳に着想を得たクロスモーダル・スパイク・フュージョン(CMSF)スパイキングニューラルネットワークを提案し、エネルギー効率とクロスモーダル間相互作用の両方を共同で扱うことを目的とする。
- CMSFは、単一モーダル特徴のスパイクレベル融合を行い、融合表現を用いてソフトな教師信号を提供する。これにより、単一モーダルのスパイク埋め込みを洗練し、セマンティック損失を低減する。
- この手法は、通常のANNベース手法と比較して高速かつ低エネルギーであることを示しつつ、2つの時間ステップのみでトップクラスの画像—テキスト検索精度を達成する。
- 画像—テキスト検索に対する、直接学習された低エネルギーなマルチモーダルSNNフレームワークの最初の適用として提示されており、コードはGitHubで公開されている。
- 本研究は、将来のスパイキングベースのマルチモーダル研究およびシステムに向けた、「時間ダイナミクス+クロスモーダル整合(アラインメント)」の設計指針を示唆する。



