要旨: Vision Transformers (\texttt{ViT}) は多くのコンピュータビジョンタスクにおける第一選択のアーキテクチャとなっていますが、コンピュータ支援診断における性能はいまだ限定的です。乳房撮影画像(マンモグラム)からの乳がん検出に焦点を当て、我々はこの不足の主な原因を2つ特定します。第一に、医用画像は高解像度で小さな異常を含むため、トークン数が過剰になり、ソフトマックスに基づくアテンションが関連する領域を局在化して注目することが難しくなります。第二に、医用画像の分類は本質的に微細(ファイングレインド)であり、クラス間のばらつきが小さく、クラス内のばらつきが大きい一方で、標準的なクロスエントロピーによる学習では不十分です。これらの課題を克服するために、我々は3つの主要コンポーネントからなる枠組みを提案します: (1) オブジェクト検出モデルを用いてアテンションを導く、関心領域 (\texttt{RoI}) に基づくトークン削減。 (2) 選択した \texttt{RoI} 間でのコントラスト学習により、ハードネガティブに基づく学習を通じて微細な識別性を高めること。 (3) グローバルな \texttt{CLIP} 表現ではなく、局在認識(localization-aware)、微細な特徴を捉えるための、事前学習済みの \texttt{DINOv2} を用いた \texttt{ViT}。 公開されているマンモグラフィデータセットでの実験により、本手法は既存のベースラインよりも優れた性能を達成することが示され、その有効性と、大規模な乳がんスクリーニングにおける臨床的有用性の可能性が裏づけられます。再現性のためのコードはここで利用可能です: https://aih-iitd.github.io/publications/attend-what-matters
重要な部位に注目する:マンモグラフィーによる乳がん分類に視覚基盤モデルを活用する
arXiv cs.CV / 2026/4/22
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- この論文は、Vision Transformer(ViT)がコンピュータ支援診断で十分な性能を出しにくい理由として、マンモグラフィーでは高解像度ゆえに小さな異常を局所的に捉える必要があること、また課題が細粒度でクラス間差が小さいことを挙げています。
- 著者らは主な失敗要因として、トークン数の過多がソフトマックス注意機構の位置特定を難しくする点と、標準的なクロスエントロピー学習では細粒度性(クラス間の違いが小さくクラス内のばらつきが大きいこと)に対応しにくい点を整理しています。
- これらに対処するため、提案手法は3つの要素から構成されます:物体検出モデルに基づくRoI(関心領域)によるトークン削減、選択したRoI同士のハードネガティブに基づくコントラスト学習、そしてグローバルなCLIP表現ではなく局在を意識したDINOv2事前学習ViTの利用です。
- 公開マンモグラフィーデータセットで既存ベースラインより高い性能が示され、提案手法が大規模な乳がん検診に有用である可能性が示唆されています。
- 再現性のためのコードも公開されており、他者が評価・拡張しやすい形になっています。



