マルチモーダル・モデルにおける疎な視覚的思考回路

arXiv cs.AI / 2026/3/27

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、マルチモーダル(視覚と言語)モデルにおける解釈可能性と制御(steering)のための重要な仮定を検証する。それは、疎オートエンコーダ(SAE)の特徴が、推論のためのモジュール化され、合成可能な「ユニット」を形成するというものである。