広告

専門家トリプレット合意によるマルチモーダル慢性創傷埋め込みの評価

arXiv cs.CV / 2026/4/1

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、既製の基盤モデル(オフザシェルフ)が、異質で長い裾(ロングテール)を持つ劣性栄養障害型表皮水疱症(RDEB)における臨床的に意味のある特徴を信頼性高く捉えられず、その結果として専門家に整合した評価が困難になると主張する。
  • そこで、暗黙の臨床的類似性の知識を活用しつつ、迅速な専門家によるトリプレット(順序付き)合意判断を用いて、マルチモーダル埋め込み空間を評価する手法を提案する。
  • 著者らは、創傷画像、境界マスク、専門家レポートを組み合わせることで、小規模コホートから解釈可能な創傷表現を学習するマルチモーダル枠組み TriDerm を導入する。
  • TriDerm は、創傷レベルの注意(アテンション)プーリングと非コントラスト的表現学習によって視覚の基盤モデルを適応し、テキスト表現は LLM による比較クエリと soft ordinal embeddings(SOE)から得る。
  • モダリティ間での統合(視覚+テキスト)のアプローチは専門家合意 73.5% を達成し、最良の既製・単一モダリティ基盤モデルより 5.6 パーセントポイント以上向上する。さらに、ツール/コード/データセットのサンプルを公開する。

Abstract

劣性栄養障害型表皮水疱症(RDEB)は稀な遺伝性皮膚疾患であり、臨床医は画像や臨床テキストを用いて類似した症例を見つけることに大きな利点があります。しかし、市販の基盤モデルでは、この不均一で長いテールを持つ疾患に対して臨床的に意味のある特徴を確実に捉えられず、専門家との一致に関する構造化された測定もまた困難です。これらのギャップに対処するために、専門家による序数比較(トリプレット判断)を用いて埋め込み空間を評価することを提案します。これにより、暗黙の臨床的類似性に関する知識を素早く収集して符号化できます。さらに、創傷画像、境界マスク、専門家レポートを統合することで、小規模コホートから解釈可能な創傷表現を学習するマルチモーダル枠組みTriDermを導入します。視覚側では、TriDermは創傷レベルのアテンションプーリングと非対照表現学習を用いて、RDEB向けに視覚的な基盤モデルを適応させます。テキスト側では、大規模言語モデルに比較クエリをプロンプトし、ソフト序数埋め込み(SOE)によって医学的に意味のある表現を復元します。視覚とテキストの2つのモダリティは創傷表現型の補完的な側面を捉えることができ、両モダリティを融合することで専門家との一致率が73.5%となり、最良の市販の単一モダリティ基盤モデルを5.6パーセンテージポイント以上上回ることを示します。専門家によるアノテーションツール、モデルコード、代表的なデータセットのサンプルを公開します。

広告