S1-VL：Thinking-with-Imagesを備えた科学向けマルチモーダル推論モデル

arXiv cs.CV / 2026/4/24

📰 ニュースDeveloper Stack & InfrastructureModels & Research

共有:

要点

本論文では、科学ドメイン向けのマルチモーダル推論モデル「S1-VL」を提案し、構造化されたチェーン・オブ・ソートによるScientific Reasoningと、Pythonコード実行による画像操作を行うThinking-with-Imagesの2つの推論パラダイムをネイティブにサポートするとしています。
Thinking-with-Imagesモードでは、モデルが画像処理コードを生成してサンドボックス内で実行し、中間の視覚結果を取得したうえで、多ターンの反復的な推論を継続します。
学習データは6つの分野（数学、物理、化学、天文学、地理、生物）にまたがって収集され、推論軌跡の品質フィルタリングや、冗長・無効・誤った視覚操作を減らす多段階のフィルタリング手法と適応的なデータルーティングが導入されています。
S1-VL-32Bは、科学マルチモーダルSFT、Thinking-with-ImagesのコールドスタートSFT、SAPOに基づく強化学習2段階を含む4段階の段階的学習パイプラインで学習され、13のベンチマークで評価されています。
実験結果では、S1-VL-32BがThinking-with-Imagesの5つのベンチマークすべてでSOTAを達成し（HRBench-4K/8KやMME-RealWorldなど）、PhysicsやVRSBenchのような科学推論ベンチマークでも上回る性能を示しています。

Dev.to

Dev.to

Reddit r/LocalLLaMA

Dev.to

Reddit r/LocalLLaMA