マルチモーダルLLMによる消化管診断のための臨床認知アラインメント
arXiv cs.CV / 2026/3/24
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、消化管内視鏡にマルチモーダルLLMを適用する際の主要な障害を扱う:推論の不一致が標準化された臨床的思考と噛み合わないこと、および視覚的手がかりと診断の間に因果関係のない結び付きが存在すること。
- 局在化から微小血管評価までの専門家の診断ロジックを符号化するために、階層的な臨床認知データセットと教師ありファインチューニングを用いる Clinical-Cognitive-Aligned(CogAlign)フレームワークを提案する。
- 表面的な視覚的背景の相関に依存する度合いを下げるため、著者らは、病変マスキングに基づく反実仮想の正常サンプルと、臨床認知に焦点を当てた報酬を用いる反実仮想駆動の強化学習手法を導入する。
- 実験では複数のベンチマークで最先端の性能を達成したと報告されており、加えてコードとデータセットが公開される見込みが示されている。
- 全体として、本研究は、マルチモーダル医用画像診断モデルのための、より臨床に根ざした因果性を意識した訓練戦略を前進させる。

