広告

画像—テキスト検索のための脳に着想を得たマルチモーダル・スパイキングニューラルネットワーク

arXiv cs.CV / 2026/3/31

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダルな画像—テキスト検索のために設計された、脳に着想を得たクロスモーダル・スパイク・フュージョン(CMSF)スパイキングニューラルネットワークを提案し、エネルギー効率とクロスモーダル間相互作用の両方を共同で扱うことを目的とする。
  • CMSFは、単一モーダル特徴のスパイクレベル融合を行い、融合表現を用いてソフトな教師信号を提供する。これにより、単一モーダルのスパイク埋め込みを洗練し、セマンティック損失を低減する。
  • この手法は、通常のANNベース手法と比較して高速かつ低エネルギーであることを示しつつ、2つの時間ステップのみでトップクラスの画像—テキスト検索精度を達成する。
  • 画像—テキスト検索に対する、直接学習された低エネルギーなマルチモーダルSNNフレームワークの最初の適用として提示されており、コードはGitHubで公開されている。
  • 本研究は、将来のスパイキングベースのマルチモーダル研究およびシステムに向けた、「時間ダイナミクス+クロスモーダル整合(アラインメント)」の設計指針を示唆する。

Abstract

スパイキングニューラルネットワーク(SNN)は、単一モーダルの視覚・テキスト課題において近年強い可能性を示していますが、画像—テキスト検索(ITR)のようなマルチモーダル応用向けに、直接学習された低エネルギーかつ高性能なSNNを構築することは依然として非常に困難です。既存の人工ニューラルネットワーク(ANN)ベースの手法は、より深く複雑なアーキテクチャによって単一モーダルの意味表現を豊かにすることをしばしば追求する一方で、モーダル間相互作用、検索のレイテンシ、そしてエネルギー効率を見落としています。これらの限界に対処するために、本研究では脳に着想を得たクロスモーダル・スパイク融合ネットワーク(CMSF)を提案し、ITRに初めて適用します。提案するスパイク融合機構は、スパイクレベルで単一モーダル特徴を統合し、強化されたマルチモーダル表現を生成します。これにより、ソフトな教師信号として単一モーダルのスパイク埋め込みを洗練し、CMSF内での意味的な損失を効果的に緩和します。2つの時間ステップのみを必要とするにもかかわらず、CMSFは最高水準の検索精度を達成し、最先端のANNに匹敵またはそれを上回る一方で、非常に低いエネルギー消費と高い検索速度を維持します。本研究はマルチモーダルSNNに向けた重要な一歩であり、時間ダイナミクスとモーダル間アラインメントを統合する脳に着想を得た枠組みを提供するとともに、今後のスパイキングベースのマルチモーダル研究に対して新たな知見をもたらします。コードは https://github.com/zxt6174/CMSF で公開されています。

広告