要約: 高解像度CT(HRCT)から正確な診断レポートを生成することは臨床ワークフローにとって極めて重要ですが、3Dボリューム内の病理学的多様性の高さと空間的希薄性のため、依然として非常に困難です。Video Language Models(VideoLMs)は一般領域において顕著な時空間推論を示していますが、領域特化で高ボリュームの医療解釈への適用性は依然として十分に探究されていません。 本研究では、VideoLMsをHRCTレポートの正確な生成へ導く異常性中心のフレームワークAbSteeringを提案します。 特に、AbSteering は以下を導入します: (i) 異常性を軸とした Chain-of-Thought 手法(思考過程)で異常性推論を強制し、 (ii) 臨床的に紛らわしい異常をハードネガティブとして利用し、細かな識別性を高める直接的な選好最適化目的関数。 本研究の結果、汎用 VideoLM がこのパラダイムに導かれることで高ボリュームの医用画像診断への強い移行性を有することが示されました。特に、AbSteering は大規模なCTで事前学習された最先端のドメイン特化CTファウンデーションモデルを上回り、検出感度を高めつつ幻覚を抑制します。 本データとモデルの重みは https://anonymous.4open.science/r/hrct-report-generation-video-vlm-728C/ に公開しています。
高精細HRCTレポート生成のための動画言語モデルの活用
arXiv cs.CV / 2026/3/16
📰 ニュースModels & Research
要点
- AbSteering は、異常性中心のフレームワークで、動画言語モデルを高精度な HRCT レポート生成へ導くことにより、大量の3D 画像データと多様な病変という課題に対処します。
- 異常性中心の Chain-of-Thought(連鎖思考)スキームと、臨床的に紛らわしい異常をハードネガティブとして用いる Direct Preference Optimization(直接的嗜好最適化)目的を組み合わせ、細粒度の識別性を向上させます。
- 本アプローチは、このパラダイムに導かれることで一般用途の動画言語モデルが医用画像へ効果的に転用できることを示し、HRCT レポート生成で高い性能を達成します。
- 検出感度において最先端のドメイン特化型 CT ファンデーションモデルを上回りつつ、ハルシネーションを抑制し、臨床報告の信頼性を高めます。
- 著者らはデータとモデルの重みを提供リンクを通じて公開しており、より広範な検証と再現を可能にします。
関連記事
[R] アイデンティティ・アンカーと権限階層の組み合わせが abliterated LLMs で 100% の拒否を実現 — システムプロンプトのみ、ファインチューニングなし
Reddit r/MachineLearning
[P] 自宅PC上の Vibecoded: Karpathyに触発されたAI支援の研究ループを用いて、約2700 Elo のブラウザでプレイ可能なニューラルチェスエンジンを構築
Reddit r/MachineLearning
DuckLLM 1.0 — 私の初めてのモデルを紹介します!
Reddit r/LocalLLaMA
FastFlowLMがLinux対応を追加したため、同社がサポートする全モデルをベンチマークしました。以下が結果です。
Reddit r/LocalLLaMA
高次元生存分析におけるネストしたモデルと非ネストモデルを比較する際に用いる評価指標は何ですか [D]
Reddit r/MachineLearning