DeepSeekが「Thinking-with-Visual-Primitives」フレームワークを公開

Reddit r/LocalLLaMA / 2026/4/30

📰 ニュースDeveloper Stack & InfrastructureModels & Research

要点

  • DeepSeekは、北京大学および清華大学と共同で「Thinking with Visual Primitives」という論文とオープンソースのリポジトリを公開しました。
  • 提案されたマルチモーダル推論フレームワークでは、座標点やバウンディングボックスといった空間トークンを、モデルのチェーン・オブ・ソートにおける「思考の最小単位」として扱います。
  • これらの視覚/空間トークンを推論の途中で直接インタリーブ(挿入)することで、モデルは考えながら画像内の特定の位置を「指し示す」ことができるようになります。
  • 今回のリリースは、明示的な空間表現を用いて画像内容への理解と推論を結び付ける新しい仕組みを提示しています。
DeepSeek released 'Thinking-with-Visual-Primitives' framework

https://preview.redd.it/47r9qee44cyg1.png?width=1450&format=png&auto=webp&s=0d6f9687115be6ff96d0a194d95232ac0413a7e9

DeepSeekは、北京大学および清華大学との共同により、「Thinking with Visual Primitives」という論文と、そのオープンソースのリポジトリを公開し、新しいマルチモーダル推論フレームワークを紹介しました。このフレームワークの中核となる考え方は、空間トークン――具体的には座標点とバウンディングボックス――を、モデルのチェーン・オブ・ソートの中における「思考の最小単位」へと引き上げることです。これらは推論プロセスの中で直接インターリーブされるため、モデルは「考えながら」、画像内の特定の場所を「指し示す」ことができます。

https://github.com/deepseek-ai/Thinking-with-Visual-Primitives

https://preview.redd.it/lt5qu53g0cyg1.png?width=1844&format=png&auto=webp&s=5d6f0a8de6481035faa22c9d57873c51ca97b1fb

投稿者 /u/External_Mood4719
[link] [コメント]