再構成と物体検出を統合するFocal U-Net:スナップショット分光イメージングのための提案

arXiv cs.CV / 2026/5/1

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • スナップショット分光イメージングはリアルタイムのハイパースペクトル物体検出を可能にする一方で、従来は撮影後の再構成が時間を要し、性能が損なわれがちです。
  • 本論文では、HSI再構成と物体検出をエンドツーエンドで同時に行う新しいマルチタスク学習フレームワーク「FUN(Focal U-shaped Network)」を提案しています。
  • FUNは共有するU字型バックボーンを用い、再構成がスペクトル情報を学び、検出が意味に基づく事前知識(semantic-aware priors)の学習を導くことで、両タスクを相互に高めます。
  • 高コストな自己注意(self-attention)を避けるため、空間・スペクトル特徴を効率的に変調しつつ、二次計算量を抑える「focal modulation」を導入しています。
  • 新たなHSI物体検出データセット(363枚のHSIに対して8712個の注釈対象)も公開し、両タスクで最先端性能を報告しつつ、最近の手法よりパラメータ数を40%減らし計算量を30%削減したとしています。将来のリアルタイムなエッジ展開に有望です。

要旨: 従来のプッシュブルーム型ハイパースペクトル画像化は、取得速度が遅いためにリアルタイムの物体検出が困難です。これに対し、スナップショット分光イメージングは、ハイパースペクトル画像(HSI)を瞬時に取得できるため、リアルタイム物体検出が可能になります。しかし、その可能性は、多くの場合、撮影後の再構成に時間がかかることによって損なわれがちです。この問題に対処するため、我々は多タスク学習によってHSI再構成と物体検出を同時に行う、新しいエンドツーエンドフレームワークであるFocal U-shaped Network(FUN)を提案します。FUNは共有U字型バックボーンを用います。再構成が基盤となるスペクトル情報を提供し、一方で検出が意味を考慮した事前知識の学習を導くことで、両タスクの相互に有益な相互作用を促進します。重要な点として、我々は自己注意に代わる効率的な手法として、focal modulation(焦点モジュレーション)を導入します。これは、空間的・スペクトル的特徴を変調しつつ、二次的計算複雑性を抑えることで、再構成と検出のための自己注意不要なアーキテクチャを可能にします。さらに、提案手法の評価を促進するために、363枚のHSIにまたがって注釈付きの物体が8712個含まれる、新しいHSI物体検出データセットを新たに提供します。実験の結果、FUNは両タスクにおいて最先端の性能を達成し、近年の手法と比べてパラメータを40%削減し、計算量を30%削減しました。これにより、将来のリアルタイムなエッジ展開に向けて有望です。コードとデータセットは以下で公開されています: https://github.com/ShawnDong98/FUN。