PathMem: 病理MLLM向け認知整合型メモリ変換への取り組み

arXiv cs.AI / 2026/3/11

Ideas & Deep AnalysisModels & Research

要点

  • PathMemは、構造化されたドメイン知識と視覚的パターン認識の統合を向上させることを目的とした、病理マルチモーダル大規模言語モデル(MLLM)専用の新規メモリ中心型マルチモーダルフレームワークです。
  • 病理知識を長期記憶としてモデル化し、メモリトランスフォーマーを用いて文脈認識型グラウンディングにより作業記憶を動的に活性化し、人間の病理医の階層的記憶プロセスを模倣しています。
  • このアプローチにより、病理特有の診断およびグレーディング基準をより良く取り入れることができ、計算病理学タスクにおける推論と解釈可能性が向上します。
  • PathMemはベンチマークで最先端の性能を達成し、特にWSI-Benchのレポート生成指標を10%以上向上させ、従来のWSIベースモデルと比較して自由回答診断の精度を約9%向上させました。
  • 本フレームワークは、既存のマルチモーダルモデルが欠く病理応用における明示的な構造化知識統合と解釈可能なメモリ制御機構という主要な課題に対応しています。

計算機科学 > 人工知能

arXiv:2603.09943 (cs)
[2026年3月10日 提出]

題名:PathMem: 病理MLLMのための認知整合メモリ変換に向けて

Jinyue Li ほか9名の著者による「PathMem: 病理MLLMのための認知整合メモリ変換に向けて」という題名の論文のPDFを表示
PDFを表示 HTML(実験的)
要旨:計算病理学は、視覚的パターン認識と、分類(タクソノミー)、グレーディング基準、臨床的エビデンスを含む構造化された領域知識の動的統合の両方を必要とする。実際の診断推論では形態学的エビデンスを形式的な診断およびグレーディング基準に結び付けることが不可欠である。マルチモーダル大規模言語モデル(MLLM)は強力な視覚-言語推論能力を示すものの、構造化された知識統合のための明示的な仕組みや、解釈可能なメモリ制御を欠いている。その結果、既存モデルは推論中に病理特有の診断標準を一貫して取り込むことが難しい。人間の病理医による階層的なメモリ処理に着想を得て、本研究では病理MLLMのためのメモリ中心のマルチモーダル枠組みであるPathMemを提案する。PathMemは構造化された病理知識を長期記憶(LTM)として整理し、LTMから作業記憶(WM)への動的遷移を、マルチモーダルなメモリ活性化と文脈に応じた知識のグラウンディングによってモデル化するMemory Transformerを導入する。これにより、下流の推論のための文脈に応じたメモリ洗練が可能になる。PathMemはベンチマーク全体でSOTA性能を達成し、WSI-Benchのレポート生成(12.8% WSI-Precision、10.1% WSI-Relevance)を改善するだけでなく、先行するWSIベースモデルに対して、オープンエンド診断を9.7%および8.9%それぞれ向上させる。
主な対象: 人工知能 (cs.AI)
引用(Cite as): arXiv:2603.09943 [cs.AI]
  (このバージョンの場合は arXiv:2603.09943v1 [cs.AI]
  https://doi.org/10.48550/arXiv.2603.09943
さらに詳しく学ぶにはフォーカス
DataCite 経由で発行された arXiv DOI

提出履歴

送信者: Qiankun Li [メールを見る]
[v1] 2026年3月10日(火)17:35:49 UTC(3,762 KB)
全文リンク:

論文へのアクセス:

現在の閲覧コンテキスト:
cs.AI
返却形式: {"translated": "翻訳されたHTML"}
次のいずれかで閲覧するには:
cs
BibTeX形式の引用をエクスポート 読み込み中...

BibTeX形式の引用

×
提供データ:

ブックマーク

BibSonomyロゴ Redditロゴ
書誌ツール

書誌および引用ツール

書誌エクスプローラー切り替え
書誌エクスプローラー (エクスプローラーとは?)
Connected Papers切り替え
Connected Papers (Connected Papersとは?)
Litmaps切り替え
Litmaps (Litmapsとは?)
scite.ai切り替え
scite Smart Citations (Smart Citationsとは?)
コード、データ、メディア

この記事に関連付けられたコード、データ、メディア

alphaXiv切り替え
alphaXiv (alphaXivとは?)
返却形式: {"translated": "翻訳されたHTML"}
コードへのリンクの切り替え
論文向けCatalyzeXコードファインダー (CatalyzeXとは?)
DagsHubの切り替え
DagsHub (DagsHubとは?)
GotitPubの切り替え
Gotit.pub (GotitPubとは?)
Huggingfaceの切り替え
Hugging Face (Huggingfaceとは?)
コードへのリンクの切り替え
Papers with Code (Papers with Codeとは?)
ScienceCastの切り替え
ScienceCast (ScienceCastとは?)
デモ

デモ

Replicateの切り替え
Replicate (Replicateとは?)
Spacesの切り替え
Hugging Face Spaces (Spacesとは?)
Spacesの切り替え
TXYZ.AI (TXYZ.AIとは?)
関連論文

レコメンダーと検索ツール

インフルエンス・フラワーへのリンク
Influence Flower (Influence Flowersとは?)
Core recommender トグル
CORE Recommender (CORE とは?)
About arXivLabs

arXivLabs:コミュニティの協力者と取り組む実験的プロジェクト

arXivLabs は、協力者が当社のウェブサイト上で新しい arXiv の機能を直接開発し、共有できるようにするフレームワークです。

arXivLabs とともに取り組む個人および組織は、オープン性、コミュニティ、卓越性、ユーザーデータのプライバシーという当社の価値観を受け入れ、またそれを尊重しています。arXiv はこれらの価値観にコミットしており、それらを遵守するパートナーとだけ連携します。

arXiv のコミュニティに価値をもたらすプロジェクトのアイデアはありますか? arXivLabs について詳しく知る