| DeepSeekは、北京大学および清華大学との共同により、「Thinking with Visual Primitives」という論文と、そのオープンソースのリポジトリを公開し、新しいマルチモーダル推論フレームワークを紹介しました。このフレームワークの中核となる考え方は、空間トークン――具体的には座標点とバウンディングボックス――を、モデルのチェーン・オブ・ソートの中における「思考の最小単位」へと引き上げることです。これらは推論プロセスの中で直接インターリーブされるため、モデルは「考えながら」、画像内の特定の場所を「指し示す」ことができます。 https://github.com/deepseek-ai/Thinking-with-Visual-Primitives [link] [コメント] |
DeepSeekが「Thinking-with-Visual-Primitives」フレームワークを公開
Reddit r/LocalLLaMA / 2026/4/30
📰 ニュースDeveloper Stack & InfrastructureModels & Research
要点
- DeepSeekは、北京大学および清華大学と共同で「Thinking with Visual Primitives」という論文とオープンソースのリポジトリを公開しました。
- 提案されたマルチモーダル推論フレームワークでは、座標点やバウンディングボックスといった空間トークンを、モデルのチェーン・オブ・ソートにおける「思考の最小単位」として扱います。
- これらの視覚/空間トークンを推論の途中で直接インタリーブ(挿入)することで、モデルは考えながら画像内の特定の位置を「指し示す」ことができるようになります。
- 今回のリリースは、明示的な空間表現を用いて画像内容への理解と推論を結び付ける新しい仕組みを提示しています。




