広告

注視から知覚へ表現学習:内視鏡動画解析のための認知に触発された階層的フレームワーク

arXiv cs.CV / 2026/3/30

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、注釈が限られている状況でも静的で構造化されたセマンティクスを必要とする臨床的ニーズに着目し、内視鏡動画解析を改善するための注視から知覚へ表現学習(FPRL)を提案する。
  • FPRLは、まず教師による事前知識に適応するマスキング(TPAM)とマルチビューの疎サンプリングを用いて、病変中心のフレーム内静的セマンティクスを学習する認知に触発された階層的フレームワークである。
  • 続いて、クロスビューのマスク付き特徴補完(CVMFC)と注意ガイド付き時間的予測(AGTP)により、フレーム間で文脈セマンティクスを学習し、動きによるバイアスを抑えつつ時間的連続性を維持することを目指す。
  • 11の内視鏡動画データセットでの実験により、FPRLが幅広い下流タスクでより強い性能を示すことが報告されており、著者らはGitHub上でコードを公開している。

Abstract

内視鏡動画解析は消化管の早期スクリーニングに不可欠ですが、質の高い注釈が限られていることにより、いまだに妨げられています。自己教師ありの動画事前学習は有望であるものの、既存の手法は自然動画向けに開発されたため、密な時空間モデリングを優先し、臨床的意思決定に重要な静的で構造化された意味を見落としたまま、運動バイアスを示すことがあります。そこで本研究では、臨床的な診察を模倣する認知に着想を得た階層型フレームワークであるFocus-to-Perceive Representation Learning(FPRL)を提案します。FPRLはまず、フレーム内の病変中心の領域に焦点を当てて静的意味を学習し、次に、それらがフレーム間でどのように変化するかを知覚することで文脈的意味をモデル化します。これを実現するために、FPRLは階層的な意味モデリング機構を用い、両タイプの意味を明示的に区別し、それらを協調的に学習することで対応します。具体的には、まずマルチビューの疎サンプリングと組み合わせた教師優先の適応マスキング(TPAM)により静的意味を捉えます。この手法により冗長な時間的依存が軽減され、モデルが病変に関連する局所的意味に集中できるようになります。次に、文脈的意味は、ビュー間マスク付き特徴補完(CVMFC)と注意誘導型の時間予測(AGTP)によって導出されます。これらの処理によりビュー間の対応関係が確立され、構造化されたフレーム間の進展が効果的にモデル化されます。これにより、グローバルな文脈整合性を保持しながら、時間的な意味の連続性が強化されます。11の内視鏡動画データセットに対する大規模な実験の結果、FPRLは多様な下流タスクにおいて優れた性能を達成し、内視鏡動画の表現学習における有効性が示されました。コードは https://github.com/MLMIP/FPRL で利用可能です。

広告