Infection-Reasoner:エビデンスに基づく臨床推論を備えた、創傷感染分類のためのコンパクトな視覚言語モデル

arXiv cs.CV / 2026/4/23

📰 ニュース

要点

  • Infection-Reasonerは、創傷写真から慢性創の感染を分類しつつ、エビデンスに基づいた臨床的な根拠(推論)を生成することを目的としたコンパクト(4Bパラメータ)の視覚言語モデルである。
  • 学習は2段階で行われ、まず推論蒸留によりGPT-5.1がラベルなし画像に対する推論(チェーン・オブ・ソート)を生成して小型の学生モデル(Qwen3-VL-4B-Thinking)に創傷特化の推論を初期化し、その後、感染データの小規模なラベル付きデータに対してGroup Relative Policy Optimizationによる強化学習の事後学習で、分類と推論の整合を改善する。
  • 異種性のある創傷データセットでの評価では、精度86.8%、感度86.4%、特異度87.1%を達成し、GPT-5.1を含む複数の強力なベースラインを上回った。
  • 根拠の質は、4名のMLLMジャッジによる視覚支持の一致度(0.722〜0.903)と、創傷専門家によるレビュー(正しいと判断された根拠が61.8%、部分的に正しいが32.4%)の両面で評価され、ポイント・オブ・ケアの意思決定に必要な解釈可能性を裏付けている。

要旨: 写真からの慢性創傷感染の評価は、視覚的な見え方が創傷の病因、解剖学的位置、撮像条件によって変化するため、困難です。以前の画像ベースの深層学習手法は、解釈可能性が限られており、主に分類に焦点を当ててきましたが、ポイント・オブ・ケアでの意思決定を支えるには、根拠に基づく説明が必要です。我々は、慢性創傷感染の分類と根拠生成のための、コンパクトな4Bパラメータ推論ビジョン-言語モデルであるInfection-Reasonerを提案します。推論アノテーション付きの専門家ラベル付き創傷画像の不足に対処するため、Infection-Reasonerは二段階パイプラインで学習されます: (1) 推論の蒸留。GPT-5.1がラベルなしの創傷画像に対して連鎖的思考(chain-of-thought)の根拠を生成し、小型の学生モデル(Qwen3-VL-4B-Thinking)に創傷特化の推論を初期化すること、そして (2) 少量のラベル付き感染データセットに対して、Group Relative Policy Optimizationによる強化学習の事後学習を行い、分類の推論を洗練することです。異種混合の創傷データセットで保持評価したところ、Infection-Reasonerは86.8\%の精度、86.4\%の感度、87.1\%の特異度を達成し、GPT-5.1を含む複数の強力なベースラインを上回りました。根拠(ラショネール)の品質は、マルチモーダル大規模言語モデル(MLLM)判定者と創傷の専門家レビューの両方を用いてさらに評価しました。4人のMLLM判定者における視覚的裏付けとの一致度スコアは0.722から0.903の範囲でした。一方、専門家レビューでは、根拠の61.8\%がCorrect、32.4\%がPartially Correctと評価されました。