CheXmix:胸部X線におけるビジョン言語モデルのための統合的ジェネレーティブ事前学習
arXiv cs.CV / 2026/4/28
📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research
要点
- CheXmixは、CLIP+LLMで用いられるプロジェクション層による視覚特徴の歪みが課題となることを踏まえ、医用画像向けの統合的なアーリーフュージョン型ジェネレーティブ事前学習を提案しています。
- 胸部X線と放射線レポートの大規模データを用いて学習し、Chameleonの自己回帰フレームワークを拡張して、masked autoencoderの表現力とMLLM学習を組み合わせた2段階のマルチモーダル・ジェネレーティブ事前学習を行います。
- CheXmixは粗いレベルから細かいレベルまで、判別タスクと生成タスクの両方を扱えるように設計されており、胸部X線の多様な課題で柔軟に活用できます。
- 評価では、CheXmixが他のジェネレーティブ基盤モデルに対してマスキング比率全体で6.0%上回り、CheXpertの高マスキング条件でAUROCが8.6%改善し、画像インペインティングもテキストのみの生成モデルより51.0%良化し、レポート生成もGREEN指標でCheXagentに対して45%高いスコアを示したと報告されています。
- 論文では再現や発展研究を可能にするオープンソースのコードが、提示されたGitHubリンクから提供されています。



