BaiduのERNIE 5.1は同等モデルの計算量の6%で学習

Dev.to / 2026/5/14

📰 ニュースDeveloper Stack & InfrastructureIndustry & Market MovesModels & Research

要点

  • Baiduは2026年5月9日にBaidu CreateでERNIE 5.1を発表し、同社によれば学習にかかった計算量は同等のモデルに必要な6%にとどまったと強調した。
  • モデルの性能はOnce-for-Allアーキテクチャにより、学習時にスーパー・ネットワークを構成してから学習後に最適なサブモデルを抽出する点にあるとされる。
  • ERNIE 5.1は学習中に複数の次元を弾力的に調整し、深さ、MoEのエキスパート幅、ルーティングのスパース性などを最適化する。
  • Baiduは、Kunlun P800(345 TFLOPS FP16)チップを1万台規模で用い、NVIDIA GPUは使わずに学習・展開したと主張しており、これがコスト削減につながるとしている。
  • LMArena Searchで上位に入ることや、ツール付きAIME26での好成績などを報告している一方、査読付き論文や外部の再現検証はまだなく、数値はベンダー主張の域を出ていない。

Baiduは2026年5月9日、Baidu Createの場でERNIE 5.1を発表しました。重要なのはバージョンではなく、コストです。同社によれば、このモデルは比較可能なモデルが必要とする計算量のわずか6%だけを使って学習されており、業界平均に対して94%の削減に相当します。

それでもなお、LMArena Searchにおいて世界4位に位置し、複数のエージェント系ベンチマークでDeepSeek V4-Proを上回っています。興味深いのは、彼らがそれをどう実現したのかという点です。

TL;DR

  • Baiduは2026年5月9日にERNIE 5.1をリリースしました。同社によれば、学習にかかった費用は比較可能なモデルのコストの6%です。
  • 鍵はOnce-for-Allです。複数のサブモデルが共存する「スーパー・ネットワーク」で、ポスト学習後に最適解が抽出されます。
  • 3つの次元を弾力的に学習します:深さ、MoEの専門家(エキスパート)幅、ルーティングのsparsity(疎性)です。
  • BauduのKunlun P800チップ(345 TFLOPS FP16)を1万ユニット規模で展開し、NVIDIA GPUは使っていません。
  • LMArena Search:1.223ポイント。世界4位、かつ最初の中国モデル。ツール付きAIME26で99.6。
  • MMLU-Pro、HumanEval、SWE-benchでは後れを取ります。Baiduの数値はself-reportedであり、技術論文はまだありません。
  • 無料アクセスはyiyan.baidu.comおよびaistudio.baidu.com。APIはQianfanで提供され、公式のPython SDK経由です。

ERNIE 5.1とは何か、そして「6%」が話題になる理由

ERNIE 5.1は、Baiduが2026年1月にリリースしたERNIE 5.0の直系の後継モデルです。Mixture-of-Experts(MoE)アーキテクチャを採用した大規模言語モデルで、推論、ツール利用、自律エージェントといったタスクにおいて、GPT-5.5、Claude Opus 4.7、Gemini 3.1 Proと競うことを狙っています。とはいえ、差別化要因はパラメータではありません。学習の仕方にあります。

Baiduの中核となる主張は、ERNIE 5.1が、比較可能なモデルの事前学習コストのわずか6%でフロンティア水準の性能に到達する、つまり94%の削減だというものです。同社はこの落ち込みを、数億から数千万人民元のレベルへ移ること、すなわち計算予算が1桁少なくなることだと説明しています。

ERNIE 5.0と比べると、新バージョンはモデルを圧縮する点でも同様です。総パラメータは3分の1で、推論時に有効になるパラメータはおおむね半分です。つまり、学習だけでなく提供(サービング)もより安く済むということです。

注:6%および94%の割合は、Baiduが公式ブログで報告した数値です。2026年5月14日時点では、査読済みの技術論文も、外部による再現も存在しません。新たな情報が出るまで、これらをベンダーの主張(claim)として扱ってください。

Once-for-Allのアーキテクチャは、最適なサブモデルを抽出できるスーパー・ネットワークを学習します。

Once-for-Allの仕組み:中核となる考え方

従来は、新しいモデルを訓練するたびに、ゼロから、または既存のチェックポイントから、固定されたアーキテクチャで学習します。より小さなモデルが欲しいなら蒸留するか、別途学習します。Once-for-Allはその論理を変えます。学習の最中に、1つのネットワーク内で何千もの異なるサブモデルが共存し、プロセスはそれらを同時に最適化します。最後に、コスト/性能の比率が最も良いサブモデルが抽出されます。

Baiduのブログの引用文では、この仕組みを次のように説明しています:単一の事前学習の実行の中で、動的サンプリング機構を通じて、深さ、専門家の能力、ルーティング変数のsparsityといった条件を持つ多数のサブモデルを同時に最適化する

弾力的な3つの次元

  • 弾力的な深さ。 フォワードパスの間、学習ではTransformerの層をランダムに省略します。これにより、各層は隣接する層がある/ないにかかわらず有用であることが求められ、固定されたシーケンスに依存しなくなります。その結果、モデルはより頑健な表現を学習し、推論時にはどれだけの層を使うかを判断できます。
  • 弾力的な幅(MoEの専門家)。 Mixture-of-Expertsの層では、動的なマスクによって各ステップで有効になる専門家の数が変わります。2人が有効なときもあれば、4人、8人のときもあります。モデルは、異なる計算予算で動作できるよう学習します。
  • 弾力的なsparsity。 ルーティングのTop-kは、各トークンにどの専門家を割り当てるかを決めます。学習ではkが変動し、時にはTop-2、時にはTop-4です。これによりルーターは、1つの水準だけでなく、さまざまな有効化レベルに対して学習されます。

たとえ話をすると、固定されたフォーメーションでサッカーチームを学習するのではなく、各試合でポジションや先発、ローテーションが変わるような「フルの選手層」を学習するイメージです。すると最後には、どんな組み合わせでも機能する集団ができあがります。Once-for-Allは、層、専門家、ルーティングに対してそれを行います。

graph TB
  A["ERNIE 5.0 super-network"] --> B["Once-for-All training"]
  B --> C["Profundidad elastica"]
  B --> D["Ancho elastico (MoE)"]
  B --> E["Sparsity elastica"]
  C --> F["ERNIE 5.1 sub-network optimo"]
  D --> F
  E --> F

低コストは魔法で現れるわけではありません。ERNIE 5.1の改良(リファインメント)段階における費用として測定されており、ゼロからの学習ではありません。ベースとなるスーパー・ネットワークを作るには、前モデルのフル学習に支払いが必要でした。Once-for-Allが最適化しているのは次の反復であり、最初の反復ではありません。

ハードウェア:NVIDIAなしのKunlun P800

もう1つの政治・技術的な要因として、ERNIE 5.1はBaiduが2024年に投入した独自アクセラレータであるKunlun P800チップで学習されました。各チップはFP16で345 TFLOPSの性能を発揮し、Baiduによれば、比較可能なGPUに対してメモリ帯域幅が20%〜50%多いとされています。展開は1万チップ規模で行われました。

リリースではH100やH200のNVIDIA製品と直接比較していませんが、暗に伝えたいメッセージは明確です。中国の学習スタックは、輸出規制がますます厳しくなる文脈において、米国のハードウェアに依存しなくても動かせるということです。

ベンチマーク:ERNIE 5.1はどこまで届くか

リリース時点で公表されている数字は選択的ではありますが、具体的です。LMArena Search(検索と合成のタスクでモデルを評価するコミュニティランキング、lmarena.ai参照)において、ERNIE 5.1は1.223ポイントを獲得し、世界4位、かつ中国モデルとして1位に位置しました。

ツール付きAIME26(電卓、検索、コード実行が有効になった競技数学)では99.6を達成し、首位はGemini 3.1 Proのみでした。これはベンチマークの実質的な天井に近い水準です。

エージェント能力の面では、τ³-bench(複数ステップのツール利用に焦点)およびSpreadsheetBenchの基本版(スプレッドシート操作)において、DeepSeek V4-Proを上回ります。GPQAおよびMMLU-Proでは、クローズドソースのリーダー陣にかなり迫りますが、上回ることはできていません。創造的な文章作成では、BaiduはGemini 3.1 Proに近い社内評価を報告しています。

ERNIE 5.1はLMArena Searchとツール付きAIME26で目立ち、MMLU-Proでは後れを取ります。

正直な制限:発表文が強調しないこと

真面目な分析では、Baiduのブログが強調しないことも考慮すべきです:

  • MMLU-Proと一般知識: Claude OpusとGemini 3.1 Proが依然として上です。ERNIE 5.1は、ドメイン外の幅広い質問に対して最良のモデルではありません。
  • 実践的なコーディング: 公表されているベンチマークはAIMEとτ³-benchであり、HumanEvalやSWE-benchではありません。実運用のプログラミングにおいて、リーダーシップを裏付ける公的データはまだありません。
  • SpreadsheetBench Complex: 有利なランキングは基本版です。より高度なシナリオでは後れを取ります。
  • 返却形式: {"translated": "翻訳されたHTML"}
  • 自己申告: 6%という数値はベンダーの主張です。査読済みの論文もなく、外部での再現もなく、詳細な手法も提示されていません。
  • LMArena Searchのバイアス: ベンチマークは「合成よりも検索からの回復」を測っています。Baiduは中国最大の検索エンジンを運営しています。LMArena Searchでの検索統合がより良いことは期待できますが、驚くことではありません。
  • 6%はリファインメント(洗練)で測定される: ERNIE 5.1に到達するには、ERNIE 5.0の完全な学習が必要でした。削減効果は反復に適用され、全サイクルには適用されません。

⚠️ 注意: Qianfanに送ったあらゆるデータは、中国の管轄下に入ります。LATAMで、センシティブな情報、規制対象の情報、または顧客データを扱っている場合は、統合前にコンプライアンスを評価してください。

LATAMからERNIE 5.1を使う方法

Baiduは、摩擦の度合いが異なる3つのアクセス手段を提供しています:

1. 無料のWebチャット(yiyan.baidu.com)

ERNIE Botはコンシューマ向けのバージョンで、chat.openai.comに相当します。中国語と英語で動作します。スペイン語は機能しますが公式ではありません。登録には携帯番号が必要で、もともとは中国の番号です。ただし、国際SMSでの回避策はあります。コードなしでモデルをすぐ試すのに最も速い道です。

2. AI Studio(aistudio.baidu.com)

コードを書かずにモデルを試すためのプレイグラウンドです。標準のERNIE 5.1と、thinking(推論を拡張するモード)のバリアントをサポートしています。登録で大きめの無料クォータが提供されます。

3. API Qianfan(cloud.baidu.com)

プロダクション向けのプラットフォームです。OpenAIネイティブ互換ではありませんが、Baiduは公式のPython SDKを公開しており、コミュニティによるラッパーも存在します。ダッシュボードのAPI KeyとSecret Keyで認証します。

インストールと最初の呼び出し:

# macOSとLinux
pip install qianfan

# Windows(PowerShell)
py -m pip install qianfan
import os
from qianfan import ChatCompletion

os.environ['QIANFAN_AK'] = 'tu_access_key'
os.environ['QIANFAN_SK'] = 'tu_secret_key'

resp = ChatCompletion().do(
    model='ERNIE-5.1',
    messages=[{'role': 'user', 'content': '¿Qué es la arquitectura Once-for-All?'}]
)
print(resp['body']['result'])

RESTエンドポイントに対して直接cURLを使う場合:

curl -X POST 'https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/ernie-5.1?access_token=TU_TOKEN' \
  -H 'Content-Type: application/json' \
  -d '{"messages":[{"role":"user","content":"Hola"}]}'

Tip: LATAMからQianfanを統合するなら、OpenAIやAnthropicに比べてレイテンシが追加で200〜400msになることを見込んでください。インタラクティブなアプリケーションでは、レスポンスをキャッシュするか、ストリーミングの利用を検討してください。

5月9日時点で、BaiduはリリースノートにおいてERNIE 5.1の公式価格を公開していません。参考までに、ERNIE 4.5 turboは、入力1,000トークンあたり約0.0008元で、GPT-4o-miniより1桁低い料金でした。

なぜエコシステムにとって重要なのか

外部での再現の結果が成り立つなら、ERNIE 5.1には大きな含意が2つあります:

第一: フロンティア性能は、もはやフロンティア級の計算を必要としません。Once-for-Allが一般化されるなら、中国の研究所と西側の研究所のギャップは、より多くのGPUによって埋まるのではなく、より良いアルゴリズムによって埋まります。これは輸出管理に関する会話の順序を変えることになります。もしチップのオーダー1桁少ないリソースでフロンティアに到達できるなら、NVIDIAの制約はその切れ味の一部を失います。

第二: 反復あたりのコストが下がります。学習済みのスーパー・ネットワークを一度持てれば、より小さく、より速く、あるいはより特化したバリアントを作るコストは一部にとどまります。これにより、すでに大規模モデルを持っていて低コストで反復できる企業が有利になります。ゼロから始めるスタートアップに対して、ということです。

LATAMの開発者にとって読み替えると実利的です。モデル数が1つ増え、さらにBaiduの価格は歴史的に攻めた水準で、ツールや検索が絡むタスクでは競争力のある性能を示します。デメリットはレイテンシ、オンボーディングの摩擦、データの管轄です。重要な本番ではOpenAIやAnthropicの代替にはなりませんが、選択肢の幅は広がります。

Telegramでの要約:要約を見る

よくある質問

ERNIE 5.1はオープンソースですか?

いいえ。重みは公開されていません。モデルはAPIおよびWebインターフェース(yiyan.baidu.com、AI Studio)経由で提供されます。これは、重みをオープンに公開しているDeepSeek V4とは対照的です。

本当に産業界の6%のコストで学習したのですか?

これはBaiduの公式な主張です。2026年5月14日時点で、技術論文は公開されておらず、独立した再現もありません。この主張はOnce-for-Allの前提では十分にあり得ますが、ゼロからの学習ではなく、ERNIE 5.0からのリファインメントに基づいて測定されています。

無料で使えますか?

はい。yiyan.baidu.comおよびAI Studio(aistudio.baidu.com)経由で、無料のアクセスがクォータ付きで利用できます。API Qianfanは無料枠が限定されており、その後はトークン単位での価格設定になります。

DeepSeek V4-Proとはどのように比較されますか?

Baiduは、ERNIE 5.1がτ³-benchと基本的なSpreadsheetBenchの両方でDeepSeek V4-Proを上回ると報告しています。いずれもエージェントやツールの利用を想定したベンチマークです。一般的なコーディングやMMLU-Proでは、その優位性は確認されていません。

ラテンアメリカの企業で本番利用できますか?

返却形式: {"translated": "翻訳されたHTML"}

ケースによります。プロトタイプ、探索、規制されていないデータを用いたクリティカルではないアプリケーションであれば「はい」です。機密データを扱う本番環境では、まず自分の地域からのレイテンシと、中国の管轄下にあるインフラへデータを送信することの影響を検討してください。

Kunlun P800とは何ですか?

これはBaiduが2024年にリリースした自社のAIチップです。FP16で345 TFLOPSを発揮し、NVIDIAのGPUの代替として使用されています。ERNIE 5.1は、H100やH200なしでKunlun P800のクラスターで完全に学習されました。

参考文献

このコンテンツは気に入りましたか? 当社のTelegramチャンネル @programacion に参加してください。テクノロジー、AI、開発の中で最も重要な情報を毎日公開しています。短い要約、毎日新しいコンテンツ。