概要: 対応する医療画像とレポートを用いたコントラスト学習で訓練された視覚-言語モデルは、ゼロショット診断において強力な能力を示す一方で、3D医療画像における学習表現への学習バッチ構成の影響は未だ検討されていません。私たちは、対称的なInfoNCEロスを用いて、3D腹部CTボリュームと放射線レポートを整合させるデュアルエンコーダモデルであるMerlinを再現し、30件の所見にわたってゼロショットのマクロF1を74.45%(元データ: 73.00%)まで達成しました。次に、2つの変動軸を調査します。まず、訓練バッチ内での正常-to-異常比を、全データセットに対するセクション単位のバランスドサンプリングにより25:75、50:50、75:25に制御します。その結果、3つの構成はいずれも、アンバランスなベースラインに対して2.4〜2.8ポイント下回り、バランスド変種の中では75:25が最良の結果(72.02%)を示しました。次に、4,362症例のサブセットに対してデータスケーリングのアブレーションを行い、データの20%、40%、100%を用いて訓練します。性能は65.26%から71.88%へとサブリニアにスケールし、個々の所見ではデータ感度が大きく変動します。同じサブセットに対してさらに50:50のバランスドサンプリングを強制すると、性能は68.01%まで低下し、データセットまたはバランスの粒度にかかわらず、明示的なクラスバランシングが有害であることが確認されました。これらの結果は、無作為サンプリングによる確率的な多様性と、Merlinが解剖学的サブセクション間で交互にバッチを切り替えることによって、小さいバッチサイズが必要となる3D医療ボリュームにおいて、設計されたクラス比よりも効果的な正則化が得られることを示唆しています。
腹部CT画像とテキストのアラインメントおよびゼロショット学習のためのCLIPアーキテクチャ:バッチ構成とデータスケーリングの調査
arXiv cs.CV / 2026/4/16
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、3D腹部CTと放射線レポートのアラインメントに対する視覚言語コントラスト学習を研究し、対称的なInfoNCE損失を用いたMerlinのデュアルエンコーダ手法を再現することでゼロショット性能を改善(マクロF1:74.45% vs 73.00%)している。
- 学習バッチ内での明示的な正常/異常クラス比のバランシング(25:75、50:50、75:25)は、バランスさせないベースラインと比べて概ね性能を低下させることを見出し、バランス設定の中では75:25が最良(72.02%)であった。
- 4,362件のサブセットに対するデータスケーリングのアブレーションでは、学習データが増えるにつれて性能は非線形(準線形より遅い)に向上し、データ20%で65.26%、100%で71.88%となる。ただし、どの所見が恩恵を受けるかには大きなばらつきがある。
- 小規模サブセットに対して強制的に50:50となるバランス付きサンプリングを適用すると、さらに結果が悪化(68.01%)し、データサイズが固定されていてもクラスバランシングは有害になり得ることが示唆される。
- 著者らは、ランダムサンプリングによる確率的多様性と、解剖学的サブセクション間で交互にバッチ処理するMerlinの手法が、小さなバッチ制約に直面しやすい3D医用画像の状況では、設計されたクラス比による正則化よりも優れていると結論づけている。




