胸部X線VLLMにおけるテスト時スケーリングのためのThought Graph Traversal

arXiv cs.CV / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 本論文では、追加の学習なしで視覚言語大規模モデル(VLLM)の推論性能を高めるためのテスト時スケーリング手法を提案している。
  • 軽量なThought Graph Traversal(TGT)フレームワークにより、臓器ごとの所見を医療的に整合する順序でたどるようモデルの推論を誘導し、構造化された医療上の事前知識をプロンプトに埋め込むことで実現している。
  • さらに、推論の深さを高めるために「reasoning budget forcing」戦略を用い、推論時に生成プロセスを動的に延長して推論深度を調整する。
  • 実験では標準ベンチマークでベースラインのプロンプト手法を上回り、追跡可能な推論経路を通じてデータセットのバイアスも明らかにできることを示し、コードとプロンプトを再現性のためにオープンソース化している。

概要: テスト時スケーリングは、追加学習なしで視覚言語大規模モデル(VLLM)の推論性能を改善する有望な方法を提供します。本論文では、胸部X線レポート生成に対してテスト時スケーリングを適用するための、シンプルで効果的なアプローチを検討します。具体的には、軽量なThought Graph Traversal(TGT)フレームワークを導入し、医療的に整合した順序で臓器固有の所見を考察するようモデルを導きます。このフレームワークは、構造化された医学的事前知識をプロンプトに統合することで、基盤となるモデルを変更することなく、より深く論理的な分析を可能にします。さらに推論の深さを高めるために、推論予算強制戦略を適用します。この戦略は、生成過程を動的に延長することで、テスト時にモデルの推論深度を調整します。シンプルでありながら強力なこの組み合わせにより、凍結した放射線科VLLMが自己修正し、より正確で一貫した胸部X線レポートを生成できるようになります。提案手法は、標準的なベンチマークにおいてベースラインのプロンプト方式よりも優れた性能を示し、さらに追跡可能な推論パスを通じてデータセットのバイアスも明らかにします。再現性のためのコードおよびプロンプトは https://github.com/glerium/Thought-Graph-Traversal で公開されています