手術用インスツルメントの逐次学習におけるポジティブ転移の解き明かし：自己省察型階層プロンプトフレームワーク

arXiv cs.CV / 2026/4/6

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、手術動画のシーンパースを対象としたインクリメンタルラーニング（逐次学習）を扱う。モデルは時間の経過とともに増えていくインスツルメントのクラスをセグメンテーションしながら、壊滅的忘却（catastrophic forgetting）を起こさずに学習する必要がある。
過去の知識を再利用して新しいインスツルメントクラスを学びやすくする「正の順方向転移（positive forward transfer）」と、新しいクラスを学んだ後に以前に学習したクラスを改善する「正の逆方向転移（positive backward transfer）」の両方を可能にする、自己省察型の階層プロンプトフレームワークを提案する。
本手法は、学習済みの事前モデルを固定（frozen）し、インスツルメントに応じたプロンプトを動的に追加入力する。これらは階層的なプロンプトパースツリーとして整理され、共通の知識を共有することで新しいクラスの学習を容易にする。
既存の能力を保持しつつ逆方向転移を強化するために、ツリー内の知識関連に基づく指向性付き重み付きグラフ伝播により、自己省察の洗練（self-reflection refinement）を適用する。
実験により、このフレームワークはCNNベースおよびトランスフォーマー型（基盤モデル）モデルのいずれにも有効であり、2つの公開ベンチマークにおいて競合手法よりそれぞれ5%以上および11%以上改善することが示される。

概要: 手術動画のシーン解析におけるモデルの適応性を継続的に高めるため、近年の研究では、手術器具の数を時間とともに増やしていくように、段階的に学習・更新していくことで、増加する器具のセグメンテーションを漸進的に習得することが提案されてきました。しかし、先行研究は一貫して、正のフォワード知識転移、すなわち過去の知識が新しいクラスの学習をどのように助け得るか、ならびに正のバックワード知識転移、すなわち新しいクラスを学ぶことが過去の知識をどのように洗練し得るか、という可能性を見落としてきました。本論文では、クラス増分セグメンテーションにおいて正のフォワードおよびバックワード知識転移の力を解放する自己省察型階層プロンプトフレームワークを提案します。これにより、新しい器具を有能に学習し、既存の通常器具のスキルを向上させ、古い器具に対する壊滅的忘却を回避することを目指します。提案フレームワークは、凍結された事前学習済みモデルに基づき、学習エピソードの間を通じて新しいクラス向けに器具に配慮したプロンプトを適応的に追加入力します。正のフォワード知識転移を可能にするために、器具プロンプトを階層的なプロンプト解析ツリーとして整理します。このとき、器具共有プロンプト分割を根ノードとし、n-part-sharedプロンプト分割を中間ノードとし、器具固有プロンプト分割を葉ノードとします。これにより、新しいクラスの学習を容易にするために再利用可能な過去の知識を露出させます。逆に、正のバックワード知識転移を促すために、指向付き重み付きグラフ伝播による自己省察による洗練を行います。ツリーに記録された知識の関連性を調べることで、壊滅的忘却を引き起こすことなく、その代表性を改善します。本フレームワークは、CNNベースのモデルおよび高度なトランスフォーマーベースの基盤モデルの両方に適用可能であり、2つの公開ベンチマークにおいて、それぞれ競合手法よりも5%以上および11%以上の改善をもたらします。