皮膚がん症例検索のためのグローバルおよびローカル表現の共同整合による複合型視覚言語検索

arXiv cs.CV / 2026/3/11

Tools & Practical UsageModels & Research

要点

  • 本論文は皮膚がん症例の検索のため、視覚と言語のクエリのグローバルおよびローカル表現を共同で整合させるトランスフォーマーベースのフレームワークを提案する。
  • 症変画像とテキスト記述を組み合わせた複合クエリに対応し、生検で確定診断された多クラス疾病症例のデータベースと照合する。
  • 複層的なクエリ表現と空間的注意マスクによる鑑別的な局所領域整合、さらに包括的なグローバル意味的監督を利用する。
  • Derm7ptデータセット上の実験により、本手法が既存の最先端検索手法を上回り、臨床的関連性と意思決定支援を向上させることを示した。
  • 本フレームワークは関連医療記録への効率的アクセスを可能にし、診断、教育、品質管理を支援する実用的な臨床展開を促進する。

情報科学 > コンピュータビジョンとパターン認識

arXiv:2603.09108 (cs)
[2026年3月10日 提出]

題目:グローバル表現とローカル表現の共同アラインメントによる皮膚がん症例検索のための構成型ビジョン言語リトリーバル

Yuheng Wang およびほか8名の著者による「グローバル表現とローカル表現の共同アラインメントによる皮膚がん症例検索のための構成型ビジョン言語リトリーバル」という題目の論文のPDFを表示
PDFを見る HTML(実験的)
要旨:医用画像リトリーバルは、診断の意思決定、教育、品質管理を支援するために臨床的に関連のある病変症例を同定することを目的とする。実際のリトリーバルでは、検索クエリは参照となる病変画像と、デルモスコピーの特徴などのテキスト記述子とを組み合わせることが多い。本研究では、皮膚がんに対する構成型ビジョン言語リトリーバルを扱い、各クエリは画像とテキストのペアから成り、データベースには生検で確認された多クラスの疾患症例が含まれる。階層的な構成型クエリ表現を学習するトランスフォーマーベースの枠組みを提案し、クエリと候補画像間でグローバル―ローカルの共同アラインメントを実行する。ローカルアラインメントは複数の空間注意マスクにより識別的な領域を集約し、グローバルアラインメントは全体的な意味的教師信号を提供する。最終的な類似度は、臨床的に重要なローカルの証拠を強調しつつグローバルな整合性を維持する、凸性を持つドメインに基づいた重み付けによって計算される。公開データセット Derm7pt に対する実験では、最先端手法に対して一貫した改善が示される。提案する枠組みは、関連する医療記録への効率的なアクセスを可能にし、実運用に即した臨床展開を支援する。
主な分野: コンピュータビジョンとパターン認識 (cs.CV); 人工知能 (cs.AI)
引用: arXiv:2603.09108 [cs.CV]
  (あるいは、このバージョンでは arXiv:2603.09108v1 [cs.CV])
  https://doi.org/10.48550/arXiv.2603.09108
さらに詳しく学ぶにはここにフォーカス
DataCite による arXiv 発行 DOI

投稿履歴

作成者: Yuheng Wang [メールを見る]
[v1] 2026年3月10日(火) 02:42:30 UTC (3,375 KB)
全文リンク:

論文へのアクセス:

    Yuheng Wang およびほか8名の著者による「グローバル表現とローカル表現の共同アラインメントによる皮膚がん症例検索のための構成型ビジョン言語リトリーバル」という題目の論文のPDFを表示
  • PDFを見る
  • HTML(実験的)
  • TeX ソース
現在の閲覧コンテキスト:
cs.CV
返却形式: {"translated": "翻訳されたHTML"}
< prev   |   next >
ブラウズ方法を変更するには:
BibTeX の引用をエクスポート 読み込み中...

BibTeX 形式の引用

×
提供データ:

ブックマーク

BibSonomy ロゴ Reddit ロゴ
書誌ツール

書誌および引用ツール

書誌エクスプローラーの切り替え
書誌エクスプローラー エクスプローラーとは?
Connected Papers の切り替え
Connected Papers Connected Papers とは?
Litmaps の切り替え
Litmaps Litmaps とは?
scite.ai の切り替え
scite Smart Citations スマート引用とは?
コード、データ、メディア

本記事に関連付けられたコード、データ、メディア

alphaXiv の切り替え
alphaXiv alphaXiv とは?
コードへのリンクの切り替え
論文向けCatalyzeXコードファインダー (CatalyzeXとは?)
DagsHubの切り替え
DagsHub (DagsHubとは?)
GotitPubの切り替え
Gotit.pub (GotitPubとは?)
Huggingfaceの切り替え
Hugging Face (Huggingfaceとは?)
コードへのリンクの切り替え
Papers with Code (Papers with Codeとは?)
ScienceCastの切り替え
ScienceCast (ScienceCastとは?)
デモ

デモ

Replicateの切り替え
Replicate (Replicateとは?)
Spacesの切り替え
Hugging Face Spaces (Spacesとは?)
Spacesの切り替え
TXYZ.AI (TXYZ.AIとは?)
関連論文

レコメンダーおよび検索ツール

インフルエンス・フラワーへのリンク
Core recommender のトグル
CORE Recommender (CORE とは?)
arXivLabs について

arXivLabs:コミュニティの協力者とともに行う実験的なプロジェクト

arXivLabs は、協力者が当社のウェブサイト上で直接新しい arXiv の機能を開発し、共有できるようにするフレームワークです。

arXivLabs と連携して作業する個人と組織の双方が、オープンさ、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、それに同意してきました。arXiv はこれらの価値観にコミットしており、それらを遵守するパートナーとだけ協力します。

arXiv のコミュニティにとって価値を加えるプロジェクトのアイデアはありますか? arXivLabs について詳しく知る