HyFI:脳—視覚アライメントのための双曲線特徴補間(Hyperbolic Feature Interpolation)

arXiv cs.AI / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、モダリティギャップと、セマンティック表現と知覚表現のもつれの両方に対処することで、脳信号を視覚特徴と整合させるための枠組みHyFI(Hyperbolic Feature Interpolation)を提案する。
  • HyFIは双曲空間を用いて、双曲測地線(ハイパボリック・ジオデシック)上でセマンティックな視覚特徴と知覚的な視覚特徴の間を補間する。これにより幾何学的に情報を圧縮/融合し、脳信号が持つ限られた表現力によりよく適合させる。
  • 本手法は、ゼロショットの脳—画像リトリーバル課題で評価され、THINGS-EEGでTop-1精度が最大+17.3%、THINGS-MEGで+9.1%向上するなど、最先端の結果を示す。
  • このアプローチは、事前学習済みの視覚モデルから抽出した特徴へニューラル活動を個別に写像する従来手法と比較して、脳—視覚アライメントを改善するものとして位置づけられる。

Abstract

近年の人工知能分野の進歩は、脳信号から人間の視覚システムを理解し解読しようとする数多くの試みを促してきました。これまでの研究は一般に、事前学習済みの視覚モデルを用いて画像から抽出した意味的特徴および知覚的特徴と、神経活動とを独立に整合させる傾向があります。しかし、それらは2つの主要な課題を考慮できていません。(1) 脳信号と画像における表現の情報量が本質的に異なることに起因するモダリティギャップ、ならびに (2) 意味的特徴と知覚的特徴が神経活動の中で高度に絡み合っているという事実です。これらの問題に対処するために、情報量の差を考慮するのに適した双曲空間を用います。双曲空間には幾何学的性質として、2つの点の間の測地線が、表現能力が低い原点へ向かって自然に折れ曲がるという性質があります。これらの性質を活用して、双曲測地線に沿って意味的視覚特徴と知覚的視覚特徴の間を補間する新しい枠組み、Hyperbolic Feature Interpolation(HyFI)を提案します。これにより、知覚的情報と意味的情報の双方を融合すると同時に圧縮することができ、脳信号の限られた表現力と、これらの特徴が絡み合っている性質の双方を効果的に反映します。その結果として、脳と視覚の特徴のより良い整合を促進します。HyFIは、ゼロショットの脳対画像検索において最先端の性能を達成することを示し、従来手法を上回ります。具体的には、THINGS-EEGでTop-1精度が最大+17.3%、THINGS-MEGで最大+9.1%の改善を示します。