皮膚がん症例検索のためのグローバルおよびローカル表現の共同整合による複合型視覚言語検索

arXiv cs.CV / 2026/3/11

Tools & Practical UsageModels & Research

原文を読む →

共有:

要点

本論文は皮膚がん症例の検索のため、視覚と言語のクエリのグローバルおよびローカル表現を共同で整合させるトランスフォーマーベースのフレームワークを提案する。
症変画像とテキスト記述を組み合わせた複合クエリに対応し、生検で確定診断された多クラス疾病症例のデータベースと照合する。
複層的なクエリ表現と空間的注意マスクによる鑑別的な局所領域整合、さらに包括的なグローバル意味的監督を利用する。
Derm7ptデータセット上の実験により、本手法が既存の最先端検索手法を上回り、臨床的関連性と意思決定支援を向上させることを示した。
本フレームワークは関連医療記録への効率的アクセスを可能にし、診断、教育、品質管理を支援する実用的な臨床展開を促進する。

情報科学 > コンピュータビジョンとパターン認識

arXiv:2603.09108 (cs)

[2026年3月10日提出]

題目:グローバル表現とローカル表現の共同アラインメントによる皮膚がん症例検索のための構成型ビジョン言語リトリーバル

著者:Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee

Yuheng Wang およびほか8名の著者による「グローバル表現とローカル表現の共同アラインメントによる皮膚がん症例検索のための構成型ビジョン言語リトリーバル」という題目の論文のPDFを表示

PDFを見る HTML（実験的）

要旨:医用画像リトリーバルは、診断の意思決定、教育、品質管理を支援するために臨床的に関連のある病変症例を同定することを目的とする。実際のリトリーバルでは、検索クエリは参照となる病変画像と、デルモスコピーの特徴などのテキスト記述子とを組み合わせることが多い。本研究では、皮膚がんに対する構成型ビジョン言語リトリーバルを扱い、各クエリは画像とテキストのペアから成り、データベースには生検で確認された多クラスの疾患症例が含まれる。階層的な構成型クエリ表現を学習するトランスフォーマーベースの枠組みを提案し、クエリと候補画像間でグローバル―ローカルの共同アラインメントを実行する。ローカルアラインメントは複数の空間注意マスクにより識別的な領域を集約し、グローバルアラインメントは全体的な意味的教師信号を提供する。最終的な類似度は、臨床的に重要なローカルの証拠を強調しつつグローバルな整合性を維持する、凸性を持つドメインに基づいた重み付けによって計算される。公開データセット Derm7pt に対する実験では、最先端手法に対して一貫した改善が示される。提案する枠組みは、関連する医療記録への効率的なアクセスを可能にし、実運用に即した臨床展開を支援する。

主な分野:	コンピュータビジョンとパターン認識 (cs.CV); 人工知能 (cs.AI)
引用:	arXiv:2603.09108 [cs.CV]
	(あるいは、このバージョンでは arXiv:2603.09108v1 [cs.CV])
	https://doi.org/10.48550/arXiv.2603.09108 さらに詳しく学ぶにはここにフォーカス DataCite による arXiv 発行 DOI

投稿履歴

作成者: Yuheng Wang [メールを見る]
[v1] 2026年3月10日(火) 02:42:30 UTC (3,375 KB)

全文リンク:

論文へのアクセス:

PDFを見る
HTML（実験的）
TeX ソース

ライセンスを表示

現在の閲覧コンテキスト:

cs.CV

返却形式: {"translated": "翻訳されたHTML"}

< prev | next >

新規 | 最近 | 2026-03

ブラウズ方法を変更するには：

cs
cs.AI

参考文献 & 引用

BibTeX の引用をエクスポート読み込み中...

BibTeX 形式の引用

提供データ：

ブックマーク

書誌ツール

書誌および引用ツール

書誌エクスプローラーの切り替え

書誌エクスプローラー （エクスプローラーとは？）

Connected Papers の切り替え

Connected Papers （Connected Papers とは？）

Litmaps の切り替え

Litmaps （Litmaps とは？）

scite.ai の切り替え

scite Smart Citations （スマート引用とは？）

コード、データ、メディア

本記事に関連付けられたコード、データ、メディア

alphaXiv の切り替え

alphaXiv （alphaXiv とは？）

コードへのリンクの切り替え

論文向けCatalyzeXコードファインダー (CatalyzeXとは？)

DagsHubの切り替え

DagsHub (DagsHubとは？)

GotitPubの切り替え

Gotit.pub (GotitPubとは？)

Huggingfaceの切り替え

Hugging Face (Huggingfaceとは？)

コードへのリンクの切り替え

Papers with Code (Papers with Codeとは？)

ScienceCastの切り替え

ScienceCast (ScienceCastとは？)

デモ

Replicateの切り替え

Replicate (Replicateとは？)

Spacesの切り替え

Hugging Face Spaces (Spacesとは？)

Spacesの切り替え

TXYZ.AI (TXYZ.AIとは？)

レコメンダーおよび検索ツール

インフルエンス・フラワーへのリンク

Influence Flower (インフルエンス・フラワーとは？)

Core recommender のトグル

CORE Recommender (CORE とは？)

著者
掲載先
所属
トピック

arXivLabs について

arXivLabs：コミュニティの協力者とともに行う実験的なプロジェクト

arXivLabs は、協力者が当社のウェブサイト上で直接新しい arXiv の機能を開発し、共有できるようにするフレームワークです。

arXivLabs と連携して作業する個人と組織の双方が、オープンさ、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、それに同意してきました。arXiv はこれらの価値観にコミットしており、それらを遵守するパートナーとだけ協力します。

arXiv のコミュニティにとって価値を加えるプロジェクトのアイデアはありますか？ arXivLabs について詳しく知る。

この論文のどの著者が推奨者（エンダーサー）ですか？ | MathJax を無効にする (MathJax とは？)

Lemonade 10.0.1がLinuxでAMD Ryzen AI NPUを使うためのセットアップ手順を改善

Reddit r/artificial

2026年ディベロッパー決戦：Claude Code vs. Google Antigravity

Dev.to

ブラウザだけで完結する運転免許証OCRデモを作ってみた

Qiita

成長を生み出すCRM開発

Dev.to

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

Dev.to

皮膚がん症例検索のためのグローバルおよびローカル表現の共同整合による複合型視覚言語検索

要点

情報科学 > コンピュータビジョンとパターン認識

題目:グローバル表現とローカル表現の共同アラインメントによる皮膚がん症例検索のための構成型ビジョン言語リトリーバル

投稿履歴

論文へのアクセス:

参考文献 & 引用

BibTeX 形式の引用

ブックマーク

書誌および引用ツール

本記事に関連付けられたコード、データ、メディア

デモ

レコメンダーおよび検索ツール

arXivLabs：コミュニティの協力者とともに行う実験的なプロジェクト

関連記事

Lemonade 10.0.1がLinuxでAMD Ryzen AI NPUを使うためのセットアップ手順を改善

2026年ディベロッパー決戦：Claude Code vs. Google Antigravity

ブラウザだけで完結する運転免許証OCRデモを作ってみた

成長を生み出すCRM開発

カーパシーのオートリサーチ：エージェント型コーディングスキルの向上

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer