BIAS:動画サリエンシ検出のための生物学的に着想を得たアルゴリズム

arXiv cs.CV / 2026/4/13

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • BIASは、Itti-Koch枠組みに基づき、網膜に着想した動き検出器で時間的特徴を抽出しつつ、静的情報とモーション情報を統合した動画サリエンシ検出を行う生物模倣モデルです。
  • FOA(foci of attention)の推定には、情報最大化とwinner-take-all競合のバランスを取る貪欲なマルチガウスのピークフィッティング手法が用いられます。
  • ミリ秒スケールの低遅延でサリエンシマップを生成し、DHF1Kでヒューリスティック手法や複数のディープラーニングモデルに対して優位性を示し、特にボトムアップ注意が支配的な動画で性能が高いと報告されています。
  • 交通事故分析への適用では、手動アノテーションに対して最大0.72秒前に事故を予測し、原因-結果認識のSOTA性能と実運用での有用性が示されています。

概要: 私たちは、連続動画ストリームにおける動的視覚的顕著性検出のための、高速で生物学的に着想を得たモデルであるBIASを提示します。Itti--Kochの枠組みに基づき、BIASは網膜に着想を得たモーション検出器を組み込み、時間的特徴を抽出します。その結果、静的情報と運動情報の両方を統合した顕著性マップを生成できるようになります。注意の焦点(FOA)は、勝者総取り(winner-take-all)の競争と情報最大化のバランスをとる貪欲なマルチガウスピークフィッティングアルゴリズムによって特定されます。BIASはミリ秒規模の低遅延で顕著領域を検出し、DHF1Kデータセットにおいて、ヒューリスティックベースの手法や複数の深層学習モデルに対して優れた性能を示します。特に、下位(bottom-up)注意によって支配される動画で顕著です。交通事故の分析に適用すると、BIASは強い実世界での有用性を示し、原因—結果認識において最先端の性能を達成します。また、手動アノテーションの0.72秒前までに事故を予測し、信頼できる精度を維持します。総じて、BIASは生物学的妥当性と計算効率を橋渡しすることで、解釈可能で高速な動的顕著性検出を実現します。