MedSynapse-V:潜在メモリの進化で視覚認識と臨床的直観をつなぐ

arXiv cs.AI / 2026/4/30

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、医療ビジョン言語モデル(VLM)が離散トークン化によって認知的なズレを起こし、量子化損失や長距離情報の散逸、ケース適応的な臨床的知見の欠落が生じると主張している。
  • 提案手法MedSynapse-Vは、モデル内部の隠れ表現の中で「診断の潜在メモリ」を進化させ、画像解釈時に臨床家が暗黙に専門知識を呼び起こすプロセスをより模倣することを目指している。
  • Meta Query for Prior Memorizationにより解剖学的な事前知識から構造化された事前を取得して凝縮した暗黙メモリを生成し、その後、CCR(Causal Counterfactual Refinement)で強化学習と反実仮想報酬(領域レベルの特徴マスキング)を用いて冗長なメモリを削減し、診断ロジックに整合させる。
  • 最終的にIMT(Intrinsic Memory Transition)では、デュアルブランチの仕組みにより、全ボキャブラリのダイバージェンス整合を通じて教師側の診断パターンを学生側の内部へ内在化する。
  • 複数データセットでの実験では、外部の専門知識を内部パラメータへ移すことで、既存の最先端手法(連鎖思考ベースを含む)よりも診断精度が大きく向上すると報告されている。

Abstract

高精度な医療診断は、静的な画像特徴だけに依存するのではなく、画像解釈の際に専門家が即座に呼び起こす暗黙的な診断メモリにも支えられている。われわれは、離散的なトークン化によって生じる医療VLMにおける根本的な認知的ミスマッチを特定し、その結果として量子化損失、長距離情報の散逸、そして症例に適応した専門性の欠落が起こることを明らかにする。このギャップを埋めるために、われわれは提案手法として、潜在診断メモリの進化を扱う枠組みを提示し、モデルの隠れストリーム内で暗黙的な診断メモリを動的に合成することで、臨床医による経験的な呼び起こしをシミュレートする。具体的には、先行の記憶化のためのメタクエリ(Meta Query for Prior Memorization)機構から始まり、学習可能なプローブが解剖学的事前エンコーダから構造化された事前知識を取得し、凝縮された暗黙的メモリを生成する。臨床的な忠実性を担保するために、因果反実的洗練(Causal Counterfactual Refinement: CCR)を導入する。CCRは強化学習と、領域レベルの特徴マスキングに基づく反実的報酬を用いて、各メモリの因果的寄与を定量化し、それにより冗長性を刈り込み、潜在表現を診断ロジックに整合させる。この進化的プロセスは、特権的で自律的なデュアルブランチの枠組みである内在メモリ遷移(Intrinsic Memory Transition: IMT)へと到達する。IMTは、全ボキャブラリのダイバージェンス整合を通じて、教師ブランチの診断パターンを学生ブランチに内在化する。複数データセットにわたる包括的な実験評価により、われわれは外部の専門知識を内生的なパラメータへ転移することで、既存の最先端手法、特に chain-of-thought(思考の鎖)パラダイムにおいて診断精度で大きく上回ることを示す。