LoFi: 胸部X線画像のための位置情報対応型細粒度表現学習

arXiv cs.AI / 2026/3/23

💬 オピニオンModels & Research

共有:

要点

LoFiは、胸部X線画像向けに位置情報を考慮した細粒度表現学習フレームワークを提案し、領域レベルの監視を位置情報対応キャプショニング損失を介して導入することで、グラウンディングと密なキャプショニングを改善します。
このアプローチは、軽量な大規模言語モデルを用いて、シグモイド損失、キャプショニング損失、および位置情報対応キャプショニング損失を共同で最適化し、細粒度・領域特異的な表現を学習します。
細粒度エンコーダを検索ベースのインコンテクスト学習に組み込み、さまざまな臨床環境における胸部X線のグラウンディングを強化します。
MIMIC-CXRおよびPadChest-GRでの実験は、優れた検索および語句グラウンディング性能を示し、細粒度の医用画像理解における実践的な改善を浮き彫りにします。

要約：細粒度表現学習は、胸部X線における検索と語句グラウンディングにとって重要です。臨床的に関連する所見はしばしば空間的に限定されるからです。しかし、対照学習モデルにおける領域レベルの監督の欠如と、外部検証における大規模ビジョン言語モデルが細粒度表現を捉える能力の制限は、これらのタスクにおける性能を最適から遠ざけます。これらの制限に対処するために、軽量な大規模言語モデルを用いて、シグモイド損失、キャプショニング損失、および位置認識キャプショニング損失を共同で最適化する LoFi（Location-aware Fine-grained representation learning）を提案します。位置認識キャプショニング損失は、グラウンディングおよび密集キャプショニングの目的を通じて領域レベルの監督を可能にし、細粒度表現学習を促進します。これらの表現を基に、リトリーバルベースのインコンテキスト学習へ細粒度エンコーダを組み込み、さまざまな設定で胸部X線のグラウンディングを強化します。広範な実験により、提案手法はMIMIC-CXRおよびPadChest-GRで、検索および語句グラウンディングの性能が優れていることを示しています。

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

note

【AIニュース】生成AIの「性格」比較【日経新聞】

note

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

note

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

日経XTECH

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

日経XTECH

LoFi: 胸部X線画像のための位置情報対応型細粒度表現学習

要点

関連記事

【第1章】相反するコード。生暖かいノイズ〜AIに「性格」を覚えさせた、深夜の実験〜

【AIニュース】生成AIの「性格」比較【日経新聞】

全AIモデルが学術不正に応じた〜AFIM測定の結果〜

人型ロボットを被災建築物の調査に活用、建築研究所などが公開実験

ホンダEV3車種の開発中止、損失はなぜこれほど膨らんだのか

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer