CodePercept: MLLMsのためのコードに基づく視覚的STEM知覚

arXiv cs.CV / 2026/3/12

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、MLLMsにおけるSTEMの視覚推論で、推論のスケーリングより知覚のスケーリングがより大きな利益をもたらすことを示し、知覚を真のボトルネックとして特定している。
1百万枚の画像-キャプション-コードデータセット ICC-1M を紹介する。実行可能なコードを知覚媒体として用い、STEMビジュアルを地付けする。
Code-Grounded Caption Generation を提案。実行可能コードを画像キャプションのグラウンド・トゥルースとして用い、従来の知識蒸留での幻覚を低減する。
STEM2Code-Eval という新しいベンチマークを導入。問題解決の正答性に頼るのではなく、画像再構成のための再構成コードを生成することで視覚知覚を直接評価する。
著者らは https://github.com/TongkunGuan/Qwen-CodePercept でコードを公開しており、MLLMs に対するコードベースの知覚のさらなる探究を可能にしている。

MLLMs（多モーダル大規模言語モデル）がSTEMの科学・技術・工学・数学の視覚推論で失敗する際、根本的な疑問が生じる。知覚の欠陥によるものか、それとも推論の限界によるものか？知覚と推論の成長を独立にスケールさせる体系的なスケーリング分析を通じて、重要な洞察を得た。知覚をスケールさせる方が推論をスケールさせるより一貫して高い性能向上をもたらす。これにより、知覚が現在のSTEM視覚推論を制約する真のボトルネックであることが示される。この知見に動機づけられ、コードを強力な知覚媒体として確立することでMLLMsの知覚能力を体系的に強化することに焦点を当てる。実行可能なコードはSTEMビジュアルの構造化された性質と自然に整合する精密な意味論を提供する。具体的には、ICC-1Mという1百万のImage-Caption-Code三つ組から成る大規模データセットを構築し、この「コードを知覚として用いる」パラダイムを二つの補完的アプローチで具体化する。 (1) Code-Grounded Caption Generation は実行可能なコードを画像キャプションのグラウンドトゥルースとして扱い、既存の知識蒸留法に内在する幻覚を排除する。 (2) STEM Image-to-Code Translation はモデルに再構成コードを生成させ、知覚強化のための自然言語の曖昧さを緩和する。このパラダイムを検証するため、STEM領域における視覚知覚を直接評価する新しいベンチマーク STEM2Code-Eval を提案する。問題解決の正答性を代理指標として、問題解決に関連する理解のみを測定する既存の研究とは異なり、このベンチマークは、画像再構成のための実行可能コード生成を通じた包括的な視覚理解を要求し、決定論的で検証可能な評価を提供する。コードは https://github.com/TongkunGuan/Qwen-CodePercept で公開されている。