Baidu anunció ERNIE 5.1 el 9 de mayo de 2026 durante el Baidu Create. La noticia importante no es la versión: es el costo. Según la propia empresa, el modelo se entrenó usando solo el 6% del cómputo que necesitan modelos comparables, una reducción del 94% respecto al promedio de la industria.
Y a pesar de eso, ocupa el cuarto puesto global en LMArena Search y supera a DeepSeek V4-Pro en varios benchmarks de agentes. La pregunta interesante es cómo lo lograron.
TL;DR
- Baidu lanzó ERNIE 5.1 el 9 de mayo de 2026; según la empresa, entrenarlo costó 6% de lo que cuestan modelos comparables.
- La clave es Once-for-All: un super-network donde múltiples sub-modelos coexisten y se extrae el óptimo post-entrenamiento.
- Tres dimensiones se entrenan elásticamente: profundidad, ancho de expertos MoE y sparsity del routing.
- Usa chips Kunlun P800 de Baidu (345 TFLOPS FP16) desplegados a escala de 10.000 unidades, sin GPUs NVIDIA.
- LMArena Search: 1.223 puntos, puesto 4 global y primer modelo chino. AIME26 con herramientas: 99.6.
- Queda atrás en MMLU-Pro, HumanEval y SWE-bench: los números de Baidu son self-reported y aún no hay paper técnico.
- Acceso gratuito en yiyan.baidu.com y aistudio.baidu.com; API vía Qianfan con SDK Python oficial.
Qué es ERNIE 5.1 y por qué se habla del 6%
ERNIE 5.1 es la sucesora directa de ERNIE 5.0, que Baidu había lanzado en enero de 2026. Es un modelo grande de lenguaje con arquitectura Mixture-of-Experts (MoE), pensado para competir con GPT-5.5, Claude Opus 4.7 y Gemini 3.1 Pro en tareas de razonamiento, uso de herramientas y agentes autónomos. Pero su diferenciador no está en los parámetros: está en cómo se entrenó.
El claim central de Baidu es que ERNIE 5.1 alcanza rendimiento de frontera con apenas el 6% del costo de pre-entrenamiento de modelos comparables, una reducción del 94%. La empresa describe la caída como pasar del nivel de cientos de millones al de decenas de millones de yuanes, es decir, un orden de magnitud menos en presupuesto computacional.
Frente a ERNIE 5.0, la nueva versión también comprime el modelo: un tercio de los parámetros totales y aproximadamente la mitad de los parámetros activos por inferencia. Esto significa que es más barato no solo entrenarlo, sino también servirlo.
📌 Nota: Los porcentajes de 6% y 94% son números reportados por Baidu en su blog oficial. Al 14 de mayo de 2026 no existe un paper técnico revisado por pares ni replicación externa. Tratalos como claim del vendor hasta nuevo aviso.
La arquitectura Once-for-All entrena un super-network del que se extrae el sub-modelo óptimo.
Cómo funciona Once-for-All: la idea central
Tradicionalmente, cada nuevo modelo se entrena desde cero o desde un checkpoint previo, con una arquitectura fija. Si querés un modelo más pequeño, lo destilás o lo entrenás aparte. Once-for-All cambia esa lógica: durante el entrenamiento, miles de sub-modelos distintos coexisten dentro de una sola red, y el proceso optimiza a todos al mismo tiempo. Al final, se extrae el sub-modelo con la mejor relación costo/rendimiento.
La cita textual del blog de Baidu lo describe así: el sistema optimiza conjuntamente un gran número de sub-modelos con profundidades, capacidades de expertos y niveles de sparsity de routing variables a través de un mecanismo de muestreo dinámico, dentro de una sola corrida de pre-entrenamiento.
Las tres dimensiones elásticas
- Profundidad elástica. Durante el forward pass, el entrenamiento omite aleatoriamente capas del Transformer. Esto fuerza a cada capa a ser útil con o sin las capas adyacentes, en lugar de depender de una secuencia fija. Resultado: el modelo aprende representaciones más robustas y, en inferencia, podés decidir cuántas capas usar.
- Ancho elástico (expertos MoE). En las capas Mixture-of-Experts, se aplica una máscara dinámica que cambia cuántos expertos están activos en cada paso. A veces se activan 2, a veces 4, a veces 8. El modelo aprende a funcionar con distintos presupuestos de cómputo.
- Sparsity elástica. El routing Top-k decide qué expertos atienden cada token. Durante el entrenamiento, k varía: a veces Top-2, a veces Top-4. Esto entrena al router para distintos niveles de activación, no para uno solo.
Una analogía: imaginá que en lugar de entrenar a un equipo de fútbol con una alineación fija, entrenás a un plantel completo donde cada partido cambian las posiciones, los titulares y las rotaciones. Al final tenés un grupo donde cualquier combinación funciona. Once-for-All hace eso con capas, expertos y routing.
graph TB
A["ERNIE 5.0 super-network"] --> B["Once-for-All training"]
B --> C["Profundidad elastica"]
B --> D["Ancho elastico (MoE)"]
B --> E["Sparsity elastica"]
C --> F["ERNIE 5.1 sub-network optimo"]
D --> F
E --> F
El costo bajo no aparece por magia: se mide sobre la fase de refinamiento de ERNIE 5.1 a partir de ERNIE 5.0, no de cero. Para llegar al super-network base hubo que pagar el entrenamiento completo del modelo anterior. Lo que Once-for-All optimiza es la siguiente iteración, no la primera.
El hardware: Kunlun P800 sin NVIDIA
Otro factor político-técnico: ERNIE 5.1 se entrenó en chips Kunlun P800, el acelerador propio de Baidu lanzado en 2024. Cada chip rinde 345 TFLOPS en FP16 y, según Baidu, ofrece entre 20% y 50% más ancho de banda de memoria que las GPUs comparables. El despliegue se hizo a escala de 10.000 chips.
El comunicado no compara directo contra H100 o H200 de NVIDIA, pero el mensaje implícito es claro: el stack de entrenamiento chino puede operar sin depender del hardware estadounidense, en un contexto de restricciones de exportación crecientes.
Benchmarks: hasta dónde llega ERNIE 5.1
Los números públicos al lanzamiento son selectivos pero específicos. En LMArena Search, el ranking comunitario que evalúa modelos en tareas de búsqueda y síntesis (ver lmarena.ai), ERNIE 5.1 obtuvo 1.223 puntos, ubicándose cuarto a nivel global y primero entre los modelos chinos.
En AIME26 con herramientas (matemática competitiva con calculadora, búsqueda y ejecución de código habilitadas), alcanzó 99.6, segundo lugar solo después de Gemini 3.1 Pro. Eso es prácticamente el techo del benchmark.
En capacidades de agentes, supera a DeepSeek V4-Pro en τ³-bench (orientado a uso de herramientas multipaso) y en la versión básica de SpreadsheetBench (manipulación de hojas de cálculo). En GPQA y MMLU-Pro queda cerca de los líderes closed-source sin superarlos. En escritura creativa, Baidu reporta evaluaciones internas que se acercan a Gemini 3.1 Pro.
ERNIE 5.1 destaca en LMArena Search y AIME26 con herramientas, queda detrás en MMLU-Pro.
Limitaciones honestas: lo que no destaca el comunicado
Cualquier análisis serio tiene que considerar lo que el blog de Baidu no destaca:
- MMLU-Pro y conocimiento general: Claude Opus y Gemini 3.1 Pro siguen por encima. ERNIE 5.1 no es el mejor modelo para preguntas amplias fuera de dominio.
- Coding real: los benchmarks publicados son AIME y τ³-bench, no HumanEval ni SWE-bench. En programación práctica todavía no hay datos públicos que confirmen liderazgo.
- SpreadsheetBench Complex: el ranking favorable es en la versión básica. En escenarios avanzados queda detrás.
- Self-reporting: el número de 6% es claim del vendor. Sin paper revisado, sin replicación externa, sin metodología detallada.
- Sesgo de LMArena Search: el benchmark mide recuperación más síntesis. Baidu opera el mayor motor de búsqueda chino. Tener mejor integración de búsqueda en LMArena Search es esperable, no sorprendente.
- El 6% se mide sobre el refinamiento. Para llegar a ERNIE 5.1 fue necesario el entrenamiento completo de ERNIE 5.0. El ahorro aplica a iteraciones, no al ciclo total.
⚠️ Ojo: Cualquier dato que envíes a Qianfan queda bajo jurisdicción china. Si trabajás con información sensible, regulada o de clientes en LATAM, evaluá compliance antes de integrar.
Cómo usar ERNIE 5.1 desde LATAM
Baidu ofrece tres vías de acceso, con distinto nivel de fricción:
1. Chat web gratuito (yiyan.baidu.com)
ERNIE Bot es la versión consumidor, equivalente a chat.openai.com. Funciona en chino e inglés; el español es funcional pero no oficial. El registro requiere número celular, originalmente chino, aunque hay workarounds con SMS internacional. Es el camino más rápido para probar el modelo sin código.
2. AI Studio (aistudio.baidu.com)
Un playground para probar modelos sin escribir código. Soporta ERNIE 5.1 estándar y las variantes thinking (modo de razonamiento extendido). Ofrece cuota gratuita generosa con registro.
3. API Qianfan (cloud.baidu.com)
La plataforma para producción. No es OpenAI-compatible nativa, pero Baidu publica un SDK Python oficial y existen wrappers de la comunidad. Autenticación con API Key y Secret Key del dashboard.
Instalación y primer llamado:
# macOS y Linux
pip install qianfan
# Windows (PowerShell)
py -m pip install qianfan
import os
from qianfan import ChatCompletion
os.environ['QIANFAN_AK'] = 'tu_access_key'
os.environ['QIANFAN_SK'] = 'tu_secret_key'
resp = ChatCompletion().do(
model='ERNIE-5.1',
messages=[{'role': 'user', 'content': '¿Qué es la arquitectura Once-for-All?'}]
)
print(resp['body']['result'])
Si preferís cURL directo contra el endpoint REST:
curl -X POST 'https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/ernie-5.1?access_token=TU_TOKEN' \
-H 'Content-Type: application/json' \
-d '{"messages":[{"role":"user","content":"Hola"}]}'
💡 Tip: Si vas a integrar Qianfan desde LATAM, contá con 200 a 400 ms extra de latencia frente a OpenAI o Anthropic. Para aplicaciones interactivas, considerá cachear respuestas o usar streaming.
Al 9 de mayo Baidu no publicó pricing oficial para ERNIE 5.1 en la nota de lanzamiento. Como referencia, ERNIE 4.5 turbo cobraba aproximadamente 0,0008 yuan por cada 1.000 tokens de entrada, un orden de magnitud menos que GPT-4o-mini.
Por qué importa para el ecosistema
Si los números se sostienen tras replicación externa, ERNIE 5.1 tiene dos implicaciones grandes:
Primera: el rendimiento de frontera ya no requiere cómputo de frontera. Si Once-for-All se generaliza, la brecha entre laboratorios chinos y occidentales se cierra no por más GPUs, sino por mejor algoritmo. Esto reordena la conversación sobre control de exportaciones: si podés llegar a frontier con un orden de magnitud menos de chips, las restricciones de NVIDIA pierden parte de su filo.
Segunda: el costo por iteración baja. Una vez que tenés un super-network entrenado, sacar variantes más chicas, más rápidas o más especializadas cuesta una fracción. Esto favorece a las empresas que ya tienen modelos grandes y pueden iterar barato, contra startups que arrancan de cero.
Para desarrolladores en LATAM la lectura es práctica: hay un modelo más al menú, con pricing históricamente agresivo de Baidu y rendimiento competitivo en tareas con herramientas y búsqueda. Las contras son latencia, fricción de onboarding y jurisdicción de datos. No reemplaza a OpenAI o Anthropic en producción crítica, pero sí amplía el espacio de elección.
📖 Resumen en Telegram: Ver resumen
Preguntas frecuentes
¿ERNIE 5.1 es open source?
No. Los pesos no están disponibles públicamente. El modelo se ofrece vía API y vía interfaces web (yiyan.baidu.com, AI Studio). Esto contrasta con DeepSeek V4, que sí publica pesos abiertos.
¿Realmente entrenaron con el 6% del costo de la industria?
Es el claim oficial de Baidu. Al 14 de mayo de 2026 no hay paper técnico publicado ni replicación independiente. La afirmación es plausible bajo Once-for-All, pero se mide sobre el refinamiento a partir de ERNIE 5.0, no sobre un entrenamiento desde cero.
¿Puedo usarlo gratis?
Sí, vía yiyan.baidu.com y AI Studio (aistudio.baidu.com) hay acceso gratuito con cuotas. La API Qianfan tiene tier gratuito limitado y luego pricing por tokens.
¿Cómo se compara con DeepSeek V4-Pro?
Baidu reporta que ERNIE 5.1 supera a DeepSeek V4-Pro en τ³-bench y SpreadsheetBench básico, ambos benchmarks orientados a agentes y uso de herramientas. En coding general y MMLU-Pro la ventaja no está confirmada.
¿Sirve para producir en empresas latinoamericanas?
Depende del caso. Para prototipos, exploración y aplicaciones no críticas con datos no regulados, sí. Para producción con datos sensibles, evaluá primero la latencia desde tu región y las implicaciones de enviar datos a infraestructura bajo jurisdicción china.
¿Qué es Kunlun P800?
Es el chip de IA propio de Baidu, lanzado en 2024. Rinde 345 TFLOPS en FP16 y se usa como alternativa a las GPUs de NVIDIA. ERNIE 5.1 se entrenó completamente en clusters de Kunlun P800, sin H100 ni H200.
Referencias
- Blog oficial de Baidu — ERNIE 5.1 release — Anuncio técnico de la versión, con los claims de costo y los benchmarks.
- The Decoder — Baidu's ERNIE 5.1 cuts 94% of pre-training costs — Cobertura técnica con contexto del ecosistema chino.
- Fellow AI — Baidu ERNIE 5.1 deep dive — Análisis técnico con benchmarks vs DeepSeek V4 y modelos occidentales.
- WeDoAny — Baidu Releases ERNIE 5.1, Pre-training Cost Only 6% — Resumen con cifras de arquitectura y comparativas.
📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.




