専門家の視点で見通す：放射線科医の視線と推論を学習した基盤ビジョン言語モデル

arXiv cs.AI / 2026/4/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

この研究では、胸部X線向けのビジョン言語モデルが臨床的に十分に活用されにくい主因として、画像を視覚的に検査し推論する放射線科医の手順を模倣せず、意味情報の最適化に偏っている点を指摘している。
放射線科医の眼球運動データを行動上の事前知識（behavioral prior）として用いるGazeXを提案し、視線軌跡や注視（fixation）パターンを事前学習に組み込むことで、注意の空間・時間構造に沿った観察順序を学習させている。
5人の放射線科医から得た3万件超の視線キーフレームで学習し、放射線画像データ、質問応答、バウンディングボックス付きの画像文ペアなど大規模データで評価している。
レポート生成、疾患グラウンディング、視覚質問応答の各タスクで、GazeXが精度・解釈可能性・専門家の診断ワークフローとの整合性を高めると報告している。
自律的な報告にとどまらず、視線による検査軌跡や所見と局在領域の紐づけといった検証可能な証拠アーティファクトを出力し、人とAIのより安全な協働を支援することを目指している。

要旨: 大規模な視覚言語モデルは胸部X線画像の読影を自動化する可能性を示しているものの、その臨床的有用性は、モデルの出力と放射線科医の推論との間に存在するギャップによって依然として制限されています。多くのシステムは、専門家が医用画像をどのように視覚的に検査するかを模倣することなく、意味情報の最適化にとどまっており、重要所見を見落としたり、確立された診断ワークフローから逸脱したりすることがあります。放射線科医は、臨床的に関連する領域をすべて体系的に検査することを保証する構造化されたプロトコル（例：ABCDEFアプローチ）に従い、見落としの低減と信頼できる診断推論の支援を実現しています。本研究では、放射線科医の眼球運動のデータを、モデルの専門家による診断推論に対する行動上の事前知識として活用する視覚言語モデルであるGazeXを提案します。注視の軌跡や固視パターンを事前学習に組み込むことで、GazeXは放射線科医の注意の空間的・時間的な構造に従うことを学び、観察を臨床的に意味のある順序で統合します。5名の放射線科医から収集した30,000件超の眼球運動キー画像（gaze key frames）を厳選したデータセットを用いて、放射線レポート生成、疾患のグラウンディング、視覚質問応答において、GazeXがより正確で、解釈可能で、専門家と整合的な出力を生成することを、231,835件の放射線画像研究、780,014組の質問-回答ペア、さらにバウンディングボックス付きの1,162組の画像文ペアを用いて示します。自律的な報告システムとは異なり、GazeXは、検査の軌跡や、所見に紐づけられた局在領域といった検証可能なエビデンス・アーティファクトを生成します。これにより、人の検証を効率化し、安全なヒトAI協調を可能にします。専門家の眼を通して学習することは、放射線診断およびそれ以外の領域において、より信頼でき、説明可能で、診断的に堅牢なAIシステムへ向けた実践的な道筋を提供します。