Batalha de IA's

Reddit r/artificial / 4/14/2026

💬 OpinionSignals & Early TrendsTools & Practical UsageModels & Research

共有:

Key Points

O autor relata um teste comparativo de quatro modelos — Grok 4.20 especialista, Gemini 3.1 PRO, Claude Sonnet 4.6 e GPT 5.3 — respondendo a um questionário de 15 questões objetivas de Humanas no nível de ensino médio.
Segundo os resultados informados, o GPT 5.3 teve 6 erros, o Claude Sonnet 4.6 teve 5 erros, o Grok 4.20 teve 4 erros e o Gemini 3.1 teve apenas 3 erros.
O autor questiona se a comparação foi “justa”, indicando preocupação com critérios, formato das perguntas e comparabilidade do desempenho.
A postagem sugere o interesse em ampliar o comparativo com mais um competidor, sinalizando demanda por benchmarks mais abrangentes.
O conteúdo funciona como um “mini-benchmark” comunitário, útil para orientar discussões sobre desempenho relativo em tarefas de Humanas.

Testei o Grok 4.20 especialista, o Gemini 3.1 PRO e o Claude Sonnet 4.6 e o GPT 5.3 numa resolução de um questionário com 15 questões obietivas de humanas a nível de ensino médio. O GPT teve 6 erros, o Sonnet teve 5 erros. o Grok teve 4 erros e o Gemini apenas 3. Foi uma comparação iusta? Poderiam acrescentar mais um competidor?

submitted by /u/Top_Chain1980
[link] [comments]