MApLe:診断レポートと大規模医用画像のマルチインスタンス・アラインメント
arXiv cs.CV / 2026/4/16
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文は、解剖学と微細な画像所見の両方に言及する診断レポート向けの、ビジョン・ランゲージ・アラインメント手法であるMApLeを提案する。
- 小さな画像領域を自由形式のレポート中の関連する文に結び付けるために、多タスクかつマルチインスタンスのパッチ単位アラインメントを用いることで、標準的なビジョン・ランゲージ・モデルの重要な限界に取り組む。
- MApLeは、解剖学的領域の概念と診断所見の概念を分離し、テキスト埋め込みと、解剖構造に条件付けされた画像エンコーダを用いる。
- 複数の下流タスクに関する実験により、最先端のベースラインモデルに比べてアラインメント性能が向上することが示される。
- 著者らは、リンクされたGitHubリポジトリを通じて実装コードを提供している。

