Chinese artificial intelligence start-up DeepSeek has added multimodal capabilities to its flagship chatbot for the first time – meaning that it can process images and video in addition to text – bringing it in line with rivals that already offer the function.
The limited release to select users comes just days after the Hangzhou-based company released its new flagship model V4, which was followed by extensive price cuts.
According to DeepSeek multimodal team leader Chen Xiaokang, who made the...
DeepSeek、AIビジョンを追加する大きな動き:「クジラが今や見える」
SCMP Tech / 2026/4/29
📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research
要点
- DeepSeekは、フラッグシップのチャットボットにマルチモーダルAI機能を追加し、新たな「画像認識モード」によってテキストに加えて画像や動画を処理できるようにしました。
- この機能はまず一部のユーザーに限定して提供され、「expert」や「flash」といった既存モードに加えて体験を広げる狙いがあります。
- 今回のアップデートは、新しいフラッグシップモデルV4の発表と、その後の大幅な価格改定から数日後に行われ、開発・改善のスピード感を示しています。
- マルチモーダルチームのリーダーである陳小康氏は、今回の強化を「見える」能力の大きな前進として位置づけるコメントをしています。
この記事の続きは原文サイトでお読みいただけます。
原文を読む →


