| Testei o Grok 4.20 especialista, o Gemini 3.1 PRO e o Claude Sonnet 4.6 e o GPT 5.3 numa resolução de um questionário com 15 questões obietivas de humanas a nível de ensino médio. O GPT teve 6 erros, o Sonnet teve 5 erros. o Grok teve 4 erros e o Gemini apenas 3. Foi uma comparação iusta? Poderiam acrescentar mais um competidor? [link] [comments] |
Batalha de IA's
Reddit r/artificial / 4/14/2026
💬 OpinionSignals & Early TrendsTools & Practical UsageModels & Research
Key Points
- O autor relata um teste comparativo de quatro modelos — Grok 4.20 especialista, Gemini 3.1 PRO, Claude Sonnet 4.6 e GPT 5.3 — respondendo a um questionário de 15 questões objetivas de Humanas no nível de ensino médio.
- Segundo os resultados informados, o GPT 5.3 teve 6 erros, o Claude Sonnet 4.6 teve 5 erros, o Grok 4.20 teve 4 erros e o Gemini 3.1 teve apenas 3 erros.
- O autor questiona se a comparação foi “justa”, indicando preocupação com critérios, formato das perguntas e comparabilidade do desempenho.
- A postagem sugere o interesse em ampliar o comparativo com mais um competidor, sinalizando demanda por benchmarks mais abrangentes.
- O conteúdo funciona como um “mini-benchmark” comunitário, útil para orientar discussões sobre desempenho relativo em tarefas de Humanas.
Related Articles

Black Hat USA
AI Business

Black Hat Asia
AI Business

Big Tech firms are accelerating AI investments and integration, while regulators and companies focus on safety and responsible adoption.
Dev.to

Don't forget, there is more than forgetting: new metrics for Continual Learning
Dev.to

Microsoft MAI-Image-2-Efficient Review 2026: The AI Image Model Built for Production Scale
Dev.to