DeepSeek-AIは、DeepSeek-V4シリーズのプレビューバージョンをリリースしました。これは、推論時に100万トークンのコンテキストウィンドウを実用的かつ手頃なコストで可能にするための、1つの中核的課題を軸に構築された2つのMixture-of-Experts(MoE)言語モデルです。このシリーズは、総パラメータ1.6Tでトークンあたり49Bが活性化されるDeepSeek-V4-Pro、ならびに総パラメータ284Bでトークンあたり13Bが活性化されるDeepSeek-V4-Flashで構成されています。[…]
この記事 DeepSeek AI Releases DeepSeek-V4: Compressed Sparse Attention and Heavily Compressed Attention Enable One-Million-Token Contexts は、MarkTechPost に最初に掲載されました。




