これは、私自身の調査に基づいて、中国のLLM界隈で現在何が起きているのかをまとめたものです。もし誤りを見つけたら、教えてください。
ビッグボーイズ:
- ByteDance:dola-seed(別名 doubao)は、現在の専有(プロプライエタリ)LLMの市場リーダーです。役割としてはOpenAIのような存在です。Seed OSS 36Bというモデルがあり、堅実な高密度モデルのようですが、誰もそれについて話していないように見えます。
- Alibaba - 自社の専有モデル Qwen Max を使っている人は多くありません。特に小型モデルの領域では、公開ウェイト(open weight)提供の中で最も強力です。また T2I や T2V の領域でも最強ですが、これは本題から外れます。
- Tencent - Hunyuan は彼らの専有モデルですが、使っている人は多くありません。彼らの T2I、T2V への取り組みは Alibaba に次いでいます。Hunyuan 3D による 3D メッシュ生成ではリーダーですが、このモデルは 2.1 までしか公開ウェイトではありません。
- Baidu - Ernie は専有ですが、使っている人は多くありません。Baidu は自動運転の領域でより強いですが、それはここでは話題から外れます。
- Xiaomi - Mimo V2 Pro は彼らの専有モデルで、Mimo V2 Flash 309B-A15B は公開ウェイトモデルです。
- Ant Group - Ling 2.5 1T は彼らのフラッグシップの公開ウェイトモデルです。Kimi K2.5 によって上回られているようなので、あまり話題になっていません。Lightning LinearAttention と呼ばれる何かを導入しています。これを説明している論文を知っている人はいますか?
- Meituan - LongCat-Flash-Chat は、動的MoEを備えた公開ウェイト 562B モデルで、18.6B〜31.3B を有効化します。65B-A3B のライト版もあります。注意(Attention)機構はMLAです。彼らは今、公開ウェイト勢としては最も攻めているように見えますが、「ビッグ」ボーイというより「ミドル」ボーイに近いです。
サイドプロジェクト:
- Deepseek - アルゴリズム取引(トレーディング)会社のサイドプロジェクトです。中国での現在の利用は ByteDance の doubao に次ぐ第2位で、ユーザー数は半分です。興味深いことに、これはすべての中国のLLM企業の中で最も革新的で、MLA、DSA、GRPO などを発明しました。他にも、他の中国企業が開発し、実際のプロダクトで使われている、あまり自明ではない技術があるか教えてください。ビジネスモデルは「六つの小虎」(Six Small Tigers) に似ているかもしれませんが、私の見立てでは、このプロジェクトは投資部門への投資を引きつけ、習近平国家主席へのアクセスを得るためのものだと思えます。
六つのAIスモールタイガー:(ビジネスモデルは非常に似ています。認知を得るために大きな公開ウェイトモデルをリリースし、安価な推論サービスを提供する。長期的に見て、どれかが持続可能なのかは不確かです。)
- Zhipu - HKでIPOしました。現在のGLM-5はDeepSeekの派生(デリバティブ)です。
- Minimax - HKでIPOしました。専有モデルとして MiniMax 2.7 を持っています。MiniMax 2.5 は彼らの公開ウェイトモデルで、素のMoE(vanilla MoE)229B-A10B です。したがって、その推論コストは他社より大幅に低いです。
- Moonshot - Kimi の公開ウェイトモデルで、DeepSeekの派生です
- Stepfun - Step 3.5 flash は彼らの公開ウェイトモデルで、全注意(full attn)層とスライディングウィンドウ注意(SWA)層を 1:3 の割合で混ぜています。196B-A11B です。Minimax と同様のビジネスモデルですが、彼らのモデルはそれほど良くありません。
- Baichuan - Baichuan-M3 235B は、Qwen3Moe をベースにした医療強化(medical enhanced)型の公開ウェイトモデルです。
- 01 AI - Yi-34B は、2024年11月に公開された最新の公開ウェイトモデルです。彼らは現在、エンタープライズ向けAIエージェントのシステムに注力しているようなので、ここにいる人々にとっては関係が薄れてきています。
[link] [comments]