SIMON:注目度(サリエンシー)を考慮した統合マルチビュー・オブジェクト中心ニューラルデコーディング

arXiv cs.CV / 2026/5/4

📰 ニュースSignals & Early TrendsTools & Practical UsageModels & Research

要点

  • 本論文は、従来手法が前提としがちな「中心視」バイアスに起因するズレを解消する、サリエンシー(注目度)を考慮したマルチビューのEEG-to画像検索フレームワーク「SIMON」を提案します。
  • SIMONは前景セグメンテーションとサリエンシー予測を用いてSaliency-Aware Sampling(SAS)により注視中心を選び、その後、注目すべき対象(オブジェクト)領域を強調し背景の雑音を抑えるファベーション(中心窩)ビューを生成します。
  • THINGS-EEGデータセットで、SIMONは個人内・個人間の両設定で最先端性能を達成し、平均Top-1精度はそれぞれ69.7%と19.6%です。
  • サンプリングの粒度、EEGチャンネルトポロジ、視覚/脳のエンコーダ・バックボーンの違いにわたる分析により、手法の頑健性が示されています。
  • 研究のコードとモデルは、提示されたGitHubリポジトリで公開されています。

Abstract

近年のEEGから画像への検索手法は、事前学習済みの視覚エンコーダと、注視(foveation)に着想を得た事前知識を活用していますが、通常は固定された中心視の見え方を前提としています。こうした中心バイアスは、内容に導かれる人間の注意と衝突し、視覚特徴とEEG応答の間に幾何学的・意味論的な不一致を生じさせます。そこで本研究では、ゼロショットのEEGから画像への検索のための、顕著性(saliency)を考慮したマルチビュー枠組みSIMONを提案します。SIMONは、前景のセグメンテーションと顕著性予測を組み合わせ、Saliency-Aware Sampling(SAS)により注視中心を選択します。続いて、背景の雑多さを抑えつつ、情報量の多い対象領域を強調する、中心窩(foveated)ビューを生成します。THINGS-EEGにおいてSIMONは、被験者内および被験者間の両設定で最先端の性能を達成し、それぞれ平均Top-1精度69.7%および19.6%を記録しました。さらに、直近の競合ベースラインを一貫して上回ります。サンプリングの粒度、EEGチャネルのトポロジ、視覚/脳エンコーダのバックボーンにまたがる分析により、顕著性を考慮したマルチビュー統合の頑健性がさらに裏付けられます。コードとモデルは https://github.com/simonlink666/SIMON で公開されています。