LoFi: 胸部X線画像のための位置情報対応型細粒度表現学習

arXiv cs.AI / 2026/3/23

💬 オピニオンModels & Research

要点

  • LoFiは、胸部X線画像向けに位置情報を考慮した細粒度表現学習フレームワークを提案し、領域レベルの監視を位置情報対応キャプショニング損失を介して導入することで、グラウンディングと密なキャプショニングを改善します。
  • このアプローチは、軽量な大規模言語モデルを用いて、シグモイド損失、キャプショニング損失、および位置情報対応キャプショニング損失を共同で最適化し、細粒度・領域特異的な表現を学習します。
  • 細粒度エンコーダを検索ベースのインコンテクスト学習に組み込み、さまざまな臨床環境における胸部X線のグラウンディングを強化します。
  • MIMIC-CXRおよびPadChest-GRでの実験は、優れた検索および語句グラウンディング性能を示し、細粒度の医用画像理解における実践的な改善を浮き彫りにします。

要約:細粒度表現学習は、胸部X線における検索と語句グラウンディングにとって重要です。臨床的に関連する所見はしばしば空間的に限定されるからです。しかし、対照学習モデルにおける領域レベルの監督の欠如と、外部検証における大規模ビジョン言語モデルが細粒度表現を捉える能力の制限は、これらのタスクにおける性能を最適から遠ざけます。これらの制限に対処するために、軽量な大規模言語モデルを用いて、シグモイド損失、キャプショニング損失、および位置認識キャプショニング損失を共同で最適化する LoFi(Location-aware Fine-grained representation learning)を提案します。位置認識キャプショニング損失は、グラウンディングおよび密集キャプショニングの目的を通じて領域レベルの監督を可能にし、細粒度表現学習を促進します。これらの表現を基に、リトリーバルベースのインコンテキスト学習へ細粒度エンコーダを組み込み、さまざまな設定で胸部X線のグラウンディングを強化します。広範な実験により、提案手法はMIMIC-CXRおよびPadChest-GRで、検索および語句グラウンディングの性能が優れていることを示しています。