Divide-then-Diagnose：臨床医に着想を得た文脈を織り込み、超長尺カプセル内視鏡動画を要約する

arXiv cs.CV / 2026/4/24

📰 ニュースSignals & Early TrendsModels & Research

共有:

要点

本論文は、カプセル内視鏡（CE）においてフレーム単位の分類・検出を超え、重要なエビデンスフレームを抽出して診断まで行う「診断駆動型CE動画要約」という新しいタスクを提案・定義している。
診断に関係する出来事が非常に疎で、数万枚規模の冗長な正常フレームに埋もれやすい一方で、動きによるブレ、汚れ、鏡面反射、急な視点変化といった要因で観察が曖昧になりうる点が主要な難しさとして示されている。
研究を進めるために、実臨床レポートから得た診断駆動型のアノテーションに基づく初のCEデータセットVideoCAPを導入し、全240本のフルレングス動画で「重要フレーム抽出」と「診断」双方の現実的な教師データを提供している。
DiCEは、候補の効率的スクリーニング、複数候補を識別可能な病変イベントを保ちながら診断文脈として整理するContext Weaver、各文脈内で複数フレームのエビデンスを統合してクリップ単位の判断を行うEvidence Convergerからなる、臨床読影ワークフローに着想を得た枠組みである。
実験ではDiCEが既存の最先端手法を一貫して上回り、臨床的に信頼できる簡潔な診断サマリーを生成できることが示され、診断駆動の文脈推論が超長尺CE動画要約の有望なパラダイムであると示唆されている。

要旨: カプセル内視鏡（CE）は非侵襲的な消化管スクリーニングを可能にしますが、現在のCE研究は主にフレーム単位の分類および検出にとどまっており、ビデオ単位の解析は十分に調べられていません。そこで本稿では、このギャップを埋めるために、新たなタスクである「診断駆動型CEビデオ要約」を導入し、これを形式的に定義します。このタスクは、臨床的に意味のある所見をカバーする重要なエビデンスフレームを抽出し、それらのエビデンスフレームから正確な診断を行うことを要求します。この設定が難しいのは、診断に関連する出来事が極めてまばらであり、何万もの冗長な通常フレームによって圧倒され得る一方で、個々の観察は、モーションブラー、デブリ（残渣）、スペキュラハイライト（強い反射光）、急速な視点変化によってしばしば曖昧になるためです。この方向の研究を促進するために、実在の臨床レポートから得た診断駆動型のアノテーションに基づく、最初のCEデータセットであるVideoCAPを導入します。VideoCAPは240本のフルレングス動画で構成され、重要なエビデンスフレーム抽出と診断の両方に対して現実的な教師データを提供します。このタスクに対してさらに、標準的なCE読影ワークフローを模倣する、臨床医に着想を得たフレームワークであるDiCEを提案します。DiCEはまず、生の動画上で効率的な候補スクリーニングを行い、次にContext Weaverが候補を、異なる病変イベントを保持したまま診断の文脈として首尾一貫する形に整理し、最後にEvidence Convergerが各文脈内で複数フレームのエビデンスを集約して、頑健なクリップ単位の判断を行います。実験の結果、DiCEは一貫して最先端手法を上回り、簡潔で臨床的に信頼できる診断要約を生成することが示されました。これらの結果は、超長尺CE動画要約における有望なパラダイムとして、診断駆動型の文脈推論を示唆しています。