Photon:効率的なマルチモーダル大規模言語モデルによるスピードアップとボリューム理解
arXiv cs.CV / 2026/3/27
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- Photonは、2Dスライスや固定長のトークン圧縮に頼らずに、臨床の視覚質問応答における3D医療ボリュームをより適切に扱うためのマルチモーダル大規模言語モデルのためのフレームワークとして提示されます。
- 3Dボリュームを可変長のトークン列として表現し、指示条件付きのトークンスケジューリングとサロゲート勾配伝播を用いることで、学習時と推論時の両方でトークン数を適応的に削減します。
- Photonには、離散的なトークン削除を用いる場合でも微分可能な最適化を可能にするために、勾配復元を伴う独自の逆伝播ルールが含まれます。
- 視覚的根拠の信頼性を高めるために、言語のみのバイアスを低減し、冗長なトークンによる注意の希薄化(dilution)を抑えることを意図した正則化目的を追加します。
- 複数の医療VQAタスクにわたる実験では、報告によれば最先端の精度を達成しつつ、計算量を削減して学習と推論を高速化します。