独立フレームの先へ：多視点心エコー向けの潜在注意付きマスクオートエンコーダ

arXiv cs.CV / 2026/4/17

📰 ニュースModels & Research

共有:

要点

本論文は、心エコー検査の疎で不均一な時空間・多視点構造に対応する基盤モデル構造として、LAMAE（Latent Attention Masked Autoencoder）を提案しています。
既存のMAEがフレームや短いクリップを個別に扱うのに対し、LAMAEは潜在空間上で時間フレームと異なる視点の情報を交換できる潜在注意（latent attention）モジュールを追加します。
LAMAEはMIMIC-IV-ECHOで事前学習され、実臨床のばらつきを反映した大規模で非キュレーションのデータセットを活用します。
ICD-10コードの心エコービデオからの予測についての初期結果を報告し、さらに成人データで学んだ表現が解剖学的な差が大きい小児コホートにも有効に転移することを示しています。
多視点注意のような構造的な事前知識を組み込むことで、学習表現の頑健性と転移性が高まることを本研究は示唆しています。

要旨: 心エコー検査は、非侵襲的で費用対効果が高いため、心臓評価に広く用いられている手法ですが、心臓の疎で不均一な時空間ビューは独特の課題をもたらします。既存のマスク自己回帰型エンコーダ（MAE）アプローチは一般に、画像または短いクリップを個別に処理するため、心臓の首尾一貫した表現に必要な内在的なマルチビュー構造を捉えられていません。そこで本研究では、医用画像のマルチビュー性に合わせて設計した基盤モデルのアーキテクチャであるLatent Attention Masked Autoencoder（LAMAE）を提案します。LAMAEは標準のMAEに潜在注意モジュールを拡張し、潜在空間内でフレーム間およびビュー間の情報交換を直接可能にします。これによりモデルは、長さの異なる系列や異なるビューを集約し、部分的な観察から心機能の全体的な表現を再構成できます。私たちは、大規模で未キュレーションの実データ臨床変動を反映するデータセットであるMIMIC-IV-ECHOでLAMAEを事前学習します。私たちの知る限り、MIMIC-IV-ECHOの動画からICD-10コードを予測するための最初の結果を提示します。さらに、成人データから学習した表現が、解剖学的な大きな違いにもかかわらず、小児コホートへ効果的に転移できることを、経験的に示します。これらの結果は、マルチビュー注意のような構造的事前知識を取り入れることで、著しくより頑健で転移可能な表現が得られることを裏づけています。