Abstract
本研究では、構造化頭部CT(HCT)と通常の臨床メタデータを組み合わせることで、脳浮腫のマルチモーダル検出のための統一的な深層学習フレームワークであるAttentionMixerを提案する。HCTは豊富な空間情報を提供する一方で、年齢、検査値、撮像タイミングのような臨床変数は、見落とされる可能性があったり、あるいは素朴に連結するだけでは取り込めなかったりする補完的な文脈を捉える。本手法は、これらの異種ソースを、原理的かつ効率的に融合するよう設計されている。まずHCTボリュームを、自主教師ありのVision Transformer Autoencoder(ViT-AE++)を用いて符号化する。大規模なラベル付きデータセットは不要である。臨床メタデータは同一の特徴空間へマッピングされ、クロスアテンションモジュールにおけるキーとバリューとして用いられる。ここで、HCTに由来する特徴ベクトルがクエリとして機能する。このクロスアテンションによる融合により、患者固有の文脈に基づいてネットワークが画像特徴を動的に調節でき、さらにマルチモーダル統合のための解釈可能な機構を提供する。続いて、軽量なMLP-Mixerが、最終分類の前に融合表現を洗練させる。これにより、パラメータオーバーヘッドを大幅に抑えつつ、グローバルな依存関係のモデリングが可能となる。欠損または不完全なメタデータは、学習可能な埋め込みによって扱われ、実環境の臨床データ品質に対する頑健性が高まる。5-foldクロスバリデーションを用いて、専門家による浮腫注釈付きの厳選された脳HCTコホートでAttentionMixerを評価する。HCTのみ、メタデータのみ、ならびに既存のマルチモーダル基線の強力な手法と比較して、AttentionMixerはより優れた性能を達成する(精度87.32%、適合率92.10%、F1-score 85.37%、AUC 94.14%)。アブレーション研究により、クロスアテンションとMLP-Mixerによる洗練の双方の有益性が確認される。また、置換に基づくメタデータ重要度解析により、予測を駆動する臨床的に意味のある変数が明らかになる。これらの結果は、構造化され解釈可能なマルチモーダル融合が、臨床実務において浮腫検出を大きく改善し得ることを示している。