概要: 専門家の眼球運動は、放射線診断において豊富で受動的な領域知識の源泉となり、診断推論をコンピュータ支援解析へ統合するための強力な手がかりを提供します。しかし、これまで医用画像解析領域を支配してきたCNNベースのシステムへの直接的な統合は困難です。視線の記録は逐次的であり、時間的には密ですが空間的には疎で、さらにノイズが多く、専門家間でもばらつきます。その結果、多くの既存の画像ベースモデルはヒートマップのような簡略化された表現を用いるにとどまっています。これに対し、視線は自然にトランスフォーマのアーキテクチャに適合します。トランスフォーマと視線はいずれも本質的に逐次的なものであり、注意(attention)により関連する入力領域を強調する点で共通しているためです。本研究では、専門家の注視(fixation)軌跡をトークン列として表現するトランスフォーマベースのアーキテクチャ FixationFormer を提案します。これにより、注視軌跡の時間構造と空間構造を保持します。視線の系列と画像特徴を同時にモデル化することで、視線データにおける疎性とばらつきに対処しつつ、画像と視線トークン列の間の明示的なクロスアテンションにより、専門家の診断手がかりをより直接的に、かつきめ細かく統合できるようにします。本手法を、公開されている3つのベンチマーク胸部X線データセットで評価し、最先端の分類性能を達成することを示し、視線を系列として表現することがトランスフォーマベースの医用画像解析において有用であることを明らかにします。
FixationFormer:胸部X線分類における専門家の注視軌跡の直接利用
arXiv cs.CV / 2026/3/25
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- FixationFormerは、放射線科医の注視(eye gaze)軌跡を時系列のトークン列として表現し、CNNよりもTransformerに適した形で医用画像分類へ直接統合する枠組みを提案しています。
- 注視データは時系列的に高密度である一方、空間的に疎でノイジー、専門家間でばらつくため、画像特徴と注視トークン列を共同で学習し、cross-attentionによりこの課題に対処します。
- 3つの公開ベンチマークの胸部X線データセットで評価し、胸部X線分類において最先端(SOTA)の性能を示したと報告しています。
- 注視をヒートマップのような縮約表現ではなく「シーケンス」として保持することで、より直接的できめ細かな診断的手がかりの取り込みが可能になる点が強調されています。



