AI Navigate

CoDA: 医療用ビジョン-言語モデルに対する連鎖分布攻撃と事後トークンスペース修復の探索

arXiv cs.CV / 2026/3/20

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は CoDA を紹介する。連鎖分布フレームワークで、取得のような陰影付け、再構成と表示のリマッピング、納品の劣化を組み合わせて、放射線診断ワークフローにおける MVLMs に負荷をかける臨床的に妥当なパイプラインシフトを構築する。
  • 脳MRI、胸部X線、腹部CTを横断して、連鎖した段階的劣化が、ゼロショットの CLIP型 MVLM の性能を大きく低下させ、一つの段階的変化よりも大きいことを示す。
  • 著者らはマルチモーダル LLMs を画像のリアリズムの技術的真正性を評価する監査者として評価し、CoDAシフトされたサンプル上で監査の信頼性が低下し、高信頼度の誤りが持続することを発見した。
  • さらに、教師主導のトークンスペース適応とパッチレベルのアラインメントに基づく事後修復戦略を提案し、アーカイブされた CoDA 出力の精度を改善すること、デプロイ時の堅牢性を高める軽量なアラインメントの価値を強調する。

要旨:医療ビジョン—言語モデル(MVLMs)は放射線診断パイプラインの知覚バックボーンとして、また多モーダルアシスタントの視覚的フロントエンドとして、ますます使用されているが、現実の臨床ワークフロー下での信頼性は未だ十分には検証されていない。従来のロバスト性評価は、清浄で整理された入力を前提とするか、孤立した破損を研究することが多く、臨床読解性を保ちながら画像統計を移動させる日常的な取得、再構成、表示、配信操作を見落としている。これらのギャップを埋めるべく、我々は CoDA を提案する。CoDA は取得に類似したシェーディング、再構成と表示のリマッピング、および配信・エクスポートの劣化を組み合わせて、臨床的にもっともらしいパイプラインのシフトを構築する分布連鎖フレームワークである。マスクされた構造的類似性制約の下で、CoDA は視覚的妥当性を保ちつつ故障を誘発するよう、段階的な組成とパラメータを共同最適化する。脳MRI、胸部X線、腹部CT 全体で、CoDA は CLIP風 MVLM のゼロショット性能を大幅に低下させ、連結された組成は単一の段階よりも常に害を大きくする。私たちはまた、技術的真実性と品質を病理ではなく画像の現実性の監査として取り扱う、マルチモーダル大規模言語モデル(MLLMs)を評価する。専有のマルチモーダルモデルは、CoDAシフトされたサンプルでの監査信頼性の低下と、高信頼度の誤りが持続することを示す一方で、私たちが試す医療特化型MLLMは医療画像品質監査において明確な欠陥を示す。最後に、教師主導のトークン空間適応とパッチレベルの整合性に基づく事後修復戦略を導入し、アーカイブ済み CoDA 出力の精度を向上させる。全体として、私たちの知見は MVLM のデプロイメントに対する臨床的に根ざした脅威表面を特徴づけ、軽量なアライメントがデプロイメントのロバスト性を改善することを示している。