Photon：効率的なマルチモーダル大規模言語モデルによるスピードアップとボリューム理解

arXiv cs.CV / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

Photonは、2Dスライスや固定長のトークン圧縮に頼らずに、臨床の視覚質問応答における3D医療ボリュームをより適切に扱うためのマルチモーダル大規模言語モデルのためのフレームワークとして提示されます。
3Dボリュームを可変長のトークン列として表現し、指示条件付きのトークンスケジューリングとサロゲート勾配伝播を用いることで、学習時と推論時の両方でトークン数を適応的に削減します。
Photonには、離散的なトークン削除を用いる場合でも微分可能な最適化を可能にするために、勾配復元を伴う独自の逆伝播ルールが含まれます。
視覚的根拠の信頼性を高めるために、言語のみのバイアスを低減し、冗長なトークンによる注意の希薄化（dilution）を抑えることを意図した正則化目的を追加します。
複数の医療VQAタスクにわたる実験では、報告によれば最先端の精度を達成しつつ、計算量を削減して学習と推論を高速化します。

日経XTECH

日経XTECH

Dev.to

Dev.to

Dev.to