注視から知覚へ表現学習:内視鏡動画解析のための認知に触発された階層的フレームワーク
arXiv cs.CV / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、注釈が限られている状況でも静的で構造化されたセマンティクスを必要とする臨床的ニーズに着目し、内視鏡動画解析を改善するための注視から知覚へ表現学習(FPRL)を提案する。
- FPRLは、まず教師による事前知識に適応するマスキング(TPAM)とマルチビューの疎サンプリングを用いて、病変中心のフレーム内静的セマンティクスを学習する認知に触発された階層的フレームワークである。
- 続いて、クロスビューのマスク付き特徴補完(CVMFC)と注意ガイド付き時間的予測(AGTP)により、フレーム間で文脈セマンティクスを学習し、動きによるバイアスを抑えつつ時間的連続性を維持することを目指す。
- 11の内視鏡動画データセットでの実験により、FPRLが幅広い下流タスクでより強い性能を示すことが報告されており、著者らはGitHub上でコードを公開している。



